Hai thuật toán sẽ được sử dụng trong luận văn là: K láng giềng gần nhất (K- nearest neighbor) và hồi quy tuyến tính đa biến (multiple linear regression).
1.3.3.1.Thuật toán K láng giềng gần nhất(KNN)
K-Nearest Neighbors algorithm (K-NN) là phương pháp để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần xếp lớp với tất cả các đối tượng trong Training Data.[9]
Thuật toán KNN được mô tả như sau:
- Bước 1: Xác định số láng giềng gần nhất K.
- Bước 2: Tính khoảng cách giữa đối tượng cần phân lớp với tất cả các đối tượng trong training data.
- Bước 3: Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềng gần nhất với đối tượng cần phân lớp.
- Bước 4: Lấy tất cả các lớp của K láng giềng gần nhất đã xác định
- Bước 5: Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho đối tượng cần phân lớp.
Có thể bạn quan tâm!
- Ứng dụng bi Business intelligence trong bài toán thẩm định tài sản bảo đảm của ngân hàng - 1
- Ứng dụng bi Business intelligence trong bài toán thẩm định tài sản bảo đảm của ngân hàng - 2
- Kiến Trúc Và Các Tính Năng Của Một Kho Dữ Liệu [13]
- Phương Pháp So Sánh Trực Tiếp Trong Bước Định Giá Giá Trị Của Tài Sản
- Sử Dụng Thuật Toán K-Nearest Neighbors (Knn) Để Dự Đoán Giá Trị Tài Sản Thẩm Định
- Use Casecập Nhật Tài Sản Định Giá - Bđs Là Đất
Xem toàn bộ 103 trang tài liệu này.
Một số phương pháp phổ biến để tính khoảng cách giữa đối tượng cần phân lớp với tất cả các đối tượng trong training data:
- Khoảng cách Euclidean: Khoảng cách giữa 2 điểm là chiều dài của đường thẳng nối chúng.
- Khoảng cách Manhattan: Khoảng cách giữa 2 điểm là chiều dài của tất cả các đoạn nối hai điểm dọc theo mặt cắt trục đứng và trục ngang, theo một chiều tới.
- Khoảng cách Minkowski: Là sự tổng quát của cả khoảng cách Euclidean và Manhattan.
- Khoảng cách Hamming: Tính khoảng cách giữa các vector nhị phân. Đo sự khác biệt giữa hai trạng thái/hai đối tượng.
Khoảng cách Euclidean sẽ được sử dụng trong thuật toán KNN của luận văn. Trong mặt phẳng, khoảng cách giữ 2 điểm (x1,y1) và (x2,y2) được tính bởi công thức Pytharorean:
(x x )2 ( y y )2
2 1
2 1
d
Trong không gian ba chiều khoảng cách giữa hai điểm (x1,y1,z1) và (x2,y2,z2):
(x x )2 ( y y )2 (z z)2
2 1
2 1
2 1
d
Một cách tổng quát, khoảng cách giữa 2 điểm x, y trong không gian Euclidean R với n chiều được tính như sau:
i i
n
x y 2
i 1
d x y
Trước khi tiến hành thuật toán cần xử lý dữ liệu. Nên chuẩn hóa dữ liệu về dạng số, lý tưởng là phạm vi [0,1] và giảm số chiều dữ liệu của không gian đầu vào để thuật toán KNN thực hiện tốt hơn. Lựa chọn các thuộc tính có ảnh hưởng lớn đến bài toán.
1.3.3.2.Phương pháp hồi quy tuyến tính đa biến
Phân tích hồi quy tuyến tính đa biến là một kỹ thuật mô hình hóa mối quan hệ giữa hai hay nhiều biến. Nó là một trong những phương pháp thống kê được sử dụng rộng rãi nhất. Trong tài chính ngân hàng, phân tích hồi quy được sử dụng để tìm ra các yếu tố quyết định hiệu quả của ngân hàng.[10,13]
Mô hình hồi quy tuyến tính đa biến có dạng:
Yi 0 1 X1i 2X 2i ... k X ki i
Trong đó:
- Y: Biến phụ thuộc.
- X1, X2,…,Xk: Là các biến độc lập.
- X2i, X3i,…,Xki.: Là giá trị của các biến độc lập ứng với quan sát i.
- 0 ,…, k
: Là các tham số của hồi quy. k
đo lường tác động riêng phần của biến
Xk lên Y với điều kiện các biến số khác trong mô hình không đổi. Kỳ vọng của Y
sẽ tăng k đơn vị nếu Xk tăng 1 đơn vị.
- i
: Sai số ngẫu nhiên của hồi quy có kỳ vọng 0 và phương sai 2 .
Các giá trị
0 ,…, k
được ước tính dựa vào phương pháp bình phương tối thiểu.
Gọi
Y i 0 1 X1i 2 X 2i ... k Xkilà ước tính của Yi
ei Yi Yi Yi 0 1 X1i 2 X 2i ... k Xki
n
Phương pháp bình phương nhỏ nhất tìm giá trị nhất. Giải hệ phương trình:
0 ,…, k
sao cho
(Yi Yi)
i1
nhỏ
e
n 2
i n
i 1 2(Yi 0 1X1i 2X 2i ... kX ki) 0
0
n
i1
e2
i n
i1 2(Yi 0 1X1i 2X 2i ... kX ki) X1i 0
1
n
i 1
...
e2
i n
i1 2(Yi 0 1X1i 2X 2i ... kX ki) X ki 0
k
i1
Khi đó:
( X T X )1 X TY
1 1 ... 1
1
X 21
...
Xk1 n
X 2i
...
X ki
X X
...
X 1 X
... X
X
X 2
...
X X
X T X
21 22 2n 22
k 2 2i 2i
2i ki
... ... ... ...
... ... ... ...
... ... ... ...
X X
...
X 1 X
...
X X
X X
...
X 2
k1 k 2
kn
2n kn ki
2i ki ki
1 1 ... 1
Y1
Yi
X X
...
X Y
X Y
X TY
21 22 2n
2
2i i
... ... ... ...
...
...
X X
...
X Y
X Y
k1 k 2
kn
n
ki i
Muốn biết được mức độ ảnh hưởng của các yếu tố lên biến kết cục Y cần lưu ý đến các trị số sau:
- Hệ số hồi quy : Yếu tố nào có cao thì ảnh hưởng nhiều hơn, tuy nhiên các yếu tố thường có đơn vị khác nhau nên không thể so sánh mức ảnh hưởng giữa các yếu tố. Nếu muốn so sánh phải đổi các yếu tố có cùng đơn vị là độ lệch chuẩn, lúc
đó ta có hệ số hồi quy chuẩn hóa: S
. Sx . Với Sx là độ lệch chuẩn tương ứng
S
y
của x và Sy là độ lệch chuẩn của y.
- Bình phương hệ số tương quan: Trong đó:
R2 1 RSS ESS .
TSS TSS
TSS: Tổng bình phương chung đo biến đổi của giá trị Y i
bình Y. TSS YTY n(Y )2
quanh giá trị trung
ESS:Tổng bình phương cho sai số giải thích sự biến đổi của các nhân tố
T
khác ngoài mối liên hệ giữa X và Y. ESS X TY n(Y )2
RSS: Tổng bình phương được giải thích bằng hồi quy, giải thích sự biến đổi do mối liên hệ giữa X và Y. RSS TSS ESS .
Như vậy yếu tố nào có R2 càng lớn thì mối quan hệ giữa yếu tố đó với biến Y càng chặt chẽ.
Trước khi áp dụng phương pháp vào bài toán, chúng ta cần phải thực hiện việc tiền xử lý dữ liệu trong tập training. Loại bỏ các dữ liệu nhiễu và trích chọn các thuộc tính yếu tố có mức ảnh hưởng lớn đến kết quả của dự đoán. Các thuộc tính không cần thiết đó làm giảm độ chính xác của mô hình và gây khó khăn trong việc phát hiện tri thức. Có rất nhiều phương pháp để lựa chọn thuộc tính tùy thuộc vào cấu trúc của dữ liệu dùng cho mô hình và thuật toán được dùng để xây dựng mô hình:
Interestingness score: Được sử dụng đối với thuộc tính có kiểu dữ liệu liên tục. Dùng entropy để đo lường mức độ interestingness. Một thuộc tính với phân bố ngẫu nhiên có entropy cao hơn và có information gain (độ lợi thông tin) thấp hơn thì các thuộc tính đó gọi là less interesting. Entropy của một thuộc tính nào đó sẽ được so sánh với entropy của tất cả các thuộc tính còn lại theo công thức sau:
Interestingness(Attribute) = - (m - Entropy(Attribute)) * (m - Entropy(Attribute))
Trong đó m gọi là entropy trung tâm (Central entropy- có nghĩa là entropy của toàn bộ tập thuộc tính).
Trong phạm vi của luận văn, sẽ sử dụng mã nguồn mở weka và lựa chọn thuật toán Interestingness score để lựa chọn ra các thuộc tính quan trọng của mỗi loại tài sản ảnh hưởng đến giá trị của tài sản.
CHƯƠNG 2: BÀI TOÁN ỨNG DỤNG BI TRONG HỖ TRỢ THẨM ĐỊNH TÀI SẢN BẢO ĐẢM CỦA NGÂN HÀNG
Chương này sẽ trình bày một số ứng dụng của BI trong lĩnh vực ngân hàng. Các khái niệm về thẩm định tài sản bảo đảm, quy trình thẩm định và các phương pháp thẩm định tài sản bảo đảm mà các ngân hàng thường hay sử dụng.
2.1. Ứng dụng của BI trong lĩnh vực ngân hàng
2.1.1. Công nghệ BI trong các hoạt động ngân hàng
Lĩnh vực tài chính luôn phải thích ứng với những áp lực từ toàn cầu hóa, hội nhập, cạnh tranh mạnh mẽ, đổi mới thị trường và sản phẩm, hoàn thiện các quy trình nghiệp vụ và các xu hướng phát triển. Để đạt được thành công, các tổ chức tài chính cần phải:
- Xem xét mọi khía cạnh liên quan đến khách hàng.
- Xác định và duy trì khách hàng tiềm năng.
- Thu hút khách hàng mới từ đối thủ cạnh tranh.
- Đánh giá các sản phẩm và các tổ chức sản xuất một cách đúng đắn.
- Xác định những nhu cầu và thị trường cho các sản phẩm mới.
Để đạt được những mục tiêu trên, ngân hàng cần khai thác dữ liệu giao dịch hàng ngày với những phân tích phức tạp bao gồm: thông tin khách hàng và quản lý rủi ro dữ liệu quan hệ khách hàng, thông tin khách hàng tiềm năng, khách hàng trung thành, sản phẩm và kênh phân phối đem lại lợi nhuận cao cho ngân hàng, phân loại các nhóm khách hàng, đánh giá các chiến dịch quảng cáo và hiệu quả điều hành, xác định xu hướng thị trường, nâng cao dịch vụ khách hàng và doanh số bán hàng. Vì vậy, ngân hàng đang ngày càng tích lũy một khối dữ liệu rất lớn từ các nguồn nội bộ và bên ngoài các hệ thống khác nhau như core - banking (ngân hàng lõi), hệ thống thẻ, hệ thống thông tin tín dụng… từ các website, sách báo, kết quả nghiên cứu… Khó khăn gặp phải trong quá trình thu thập dữ liệu cấu trúc và phi cấu trúc từ những nguồn khác nhau là việc chuẩn hóa dữ liệu, trích lọc, phân cụm, làm sạch và nâng cao chất lượng dữ liệu. Tiếp đến là làm thế nào để trích lọc ra được những tri thức nhất quán, đúng đắn, và kịp thời từ những dữ liệu đó. Câu trả lời là sử dụng giải pháp BI để khai phá tri thức là hướng tiếp cận phổ biến hiện nay.
Các ngân hàng cần phải kiểm soát các rủi ro có thể gặp phải. Trước đây, ngân hàng có những nhân viên được đào tạo kỹ càng nghiệp vụ quản lý rủi ro, những cán bộ mới có thể học hỏi từ những người đi trước có nhiều kinh nghiệm. Trong khi đó, những ngân hàng mới thì lại chủ yếu là nhân viên trẻ chưa có nhiều kinh nghiệm, việc tuyển dụng nhân viên có nhiều kinh nghiệm và có đầy đủ các kỹ năng cần thiết thì không có nhiều hoặc chi phí phải trả cao. Thông tin và tri thức cùng với nền tảng công nghệ thông tin sẽ trở thành nguồn lực then chốt. Một nhân viên ngân hàng hiện đại cần biết khai thác thông tin phù hợp một cách thông minh và kịp thời để giải quyết việc quản lý rủi ro trong nghiệp vụ đảm nhiệm.
Giải pháp BI trong lĩnh vực tài chính trở thành một công nghệ cốt yếu trong việc hỗ trợ mục tiêu chiến lược là đạt được một lợi thế cạnh tranh và đảm bảo một tầm nhìn triển vọng trong tương lai.
2.1.2. Một số ứng dụng BI trong lĩnh vực ngân hàng
Quản trị rủi ro: Đối với ngân hàng, quản lý rủi ro rất quan trọng để tránh phát sinh nợ xấu, nợ khó đòi và tính toán ra lợi nhuận trước khi cấp tín dụng cho khách hàng. Tín dụng và tính điểm tín dụng trở thành những công cụ hữu ích để mô hình hóa các bài toán tài chính. Những mô hình dự đoán hoạt động của chủ thẻ có thể đưa ra các cảnh báo sớm về gian lận, từ đó giúp giảm thiểu rủi ro cho ngân hàng. Phân tích thẻ tín dụng bị đánh cắp cho thấy số giao dịch phát sinh nhiều và nhanh chóng sau khi bị đánh cắp. Bằng việc so sánh với số giao dịch trung bình hoặc số giao dịch trong ngày thì hệ thống xác thực có thể đưa ra cảnh báo sớm.
Bán sản phẩm, dịch vụ tới khách hàng đang có: Yếu tố then chốt trong việc quảng cáo sản phẩm và dịch vụ là cung cấp sản phẩm phù hợp với từng đối tượng khách hàng và đúng thời điểm.Giải pháp BI hỗ trợ cho việc xác định xem sản phẩm nào phù hợp với khách hàng, dịch vụ nào là tốt nhất cho khách hàng và tính toán sao cho ngân hàng thu được nhiều lợi nhuận nhất. Làm được điều này sẽ giúp cho ngân hàng giảm được chi phí cho các chiến dịch quảng cáo, củng cố chất lượng mối quan hệ với khách hàng và tăng lượng khách hàng trung thành, lợi nhuận cho ngân hàng.
Duy trì lượng khách hàng hiện tại: Mất khách hàng vào tay đối thủ cạnh tranh là vấn đề rất lớn đối với tất cả các lĩnh vực kinh doanh. Khách hàng có thể chuyển tới sử dụng dịch vụ của đối thủ cạnh tranh bởi những lợi ích được chào mời. Giải pháp BI có thể đánh giá khả năng khách hàng sẽ tiếp tục giao dịch hay không sau khi kết thúc thời gian ưu đãi lãi suất. Khai phá dữ liệu là một thành phần cơ bản của việc quản lý quan hệ khách hàng và có thể được xem như là một công cụ để dự báo. Việc quan trọng là phải xác định được tại sao khách hàng ngưng sử dụng sản phẩm, dịch vụ để tử đó có hướng xử lý hợp lý.
Phân khúc khách hàng: Ngân hàng sử dụng các phân khúc khách hàng trong hoạt động kinh doanh bán lẻ và thương mại. Các sản phẩm dịch vụ ngân hàng được tạo ra để phục vụ nhiều phân khúc khách hàng khác nhau. Bằng việc sử dụng các thông tin hữu ích từ lịch sử sử dụng sản phẩm dịch vụ của khác hàng để phân tích, nhận định hành vi hoặc thói quen, nhu cầu của khách hàng trong tương lai. Giải pháp BI có thể nhận diện khách hàng mới, khách hàng tiềm năng, phân khúc khách hàng để ngân hàng có thể cung cấp các sản phẩm dịch vụ phù hợp và từ đó nâng cao kết quả kinh doanh của ngân hàng.
Đánh giá việc kích hoạt sử dụng sản phẩm dịch vụ: Ước lượng khả năng một khách hàng mới thực sự sử dụng một sản phẩm, dịch vụ mới như đã ký kết, thỏa thuận trở thành một khách hàng tốt của ngân hàng. Việc đánh giá kích hoạt sử dụng sản phẩm sẽ giúp ngân hàng nắm bắt được tình trạng và có phương hướng thúc đẩy khách hàng chính thức sử dụng sản phẩm dịch vụ đã ký kết.
2.2. Bài toán thẩm định tài sản bảo đảm trong hệ thống ngân hàng
2.2.1. Giới thiệu về thẩm định tài sản bảo đảm
Theo khoản 7, điều 3, NĐ 163/2006/CP, tài sản bảo đảm (TSBĐ) là tài sản thuộc quyền sở hữu của bên bảo đảm dùng để bảo đảm thực hiện nghĩa vụ dân sự đối với bên nhận bảo đảm. Theo khoản 2, điều 4, NĐ 163/2006/CP: Tài sản bảo đảm do các bên thỏa thuận và thuộc sở hữu của bên có nghĩa vụ hoặc thuộc sở hữu của người thứ ba mà người này cam kết dùng tài sản đó để bảo đảm thực hiện nghĩa vụ của bên có nghĩa vụ đối với bên có quyền. Tài sản bảo đảm có thể là tài sản hiện có (tiền, bất động sản, động sản, hoa lợi, lợi tức), tài sản hình thành trong tương lai và được phép giao dịch. [2]
Thẩm định tài sản bảo đảm là việc mà ngân hàng sử dụng các công cụ và phương tiện kĩ thuật nhằm đánh giá được giá trị của tài sản bảo đảm mà khách hàng dùng để bảo đảm cho khoản vay của mình. [2]
Công tác thẩm định tài sản bảo đảm có một số vai trò như sau:
- Kiểm soát rủi ro tín dụng:
o Tính pháp lý: Quyền sở hữu, lợi ích hợp pháp của ngân hàng đối với TSBĐ.
o Tính thanh khoản:
Khả năng thanh khoản: Khả năng có thể chuyển hóa thành tiền để bảo đảm cho nghĩa vụ trả nợ của khách hàng vay.
Giá trị thanh khoản: Đảm bảo tính thanh khoản về mặt số lượng đối với nghĩa vụ trả nợ gốc và lãi cho ngân hàng.
- Nâng cao chất lượng tín dụng, thúc đẩy hoạt động kinh doanh của ngân hàng:
o Kết quả thẩm định giá chính xác, khách quan và tin cậy, phù hợp với giá trị TSBĐ.
o Rút ngắn được thời gian phê duyệt khoản vay.
o Giảm chi phí xử lý nợ.
Khi thẩm định TSBĐ nhân viên thẩm định thường thẩm định một số đặc điểm của tài sản như sau:
- Thẩm định điều kiện của tài sản.
- Thẩm định đặc điểm kĩ thuật.
- Thẩm định giá trị tài sản, giá trị còn lại.
- Khả năng thanh toán.
Tùy theo từng loại TSBĐ mà chuyên viên sẽ sử dụng các phương pháp định giá giá trị tài sản:
- Đối với TSBĐ là BĐS: Áp dụng phương pháp so sánh hoặc phương pháp chi phí.
- Đối với TSBĐ là động sản: Áp dụng phương pháp so sánh hoặc phương pháp tính giá trị còn lại.
2.2.2. Quy trình thẩm định giá tài sản bảo đảm
Quy trình thẩm định giá tài sản bảo đảm được mô tả theo sơ đồ sau [6]:
Hình 2- 1: Quy trình thẩm định tài sản bào đảm trong ngân hàng [6]
Diễn giải quy trình thẩm định giá tài sản bảo đảm như sau:
- Bước 1: Nộp hồ sơ Tài sản bảo đảm: Khách hàng nộp hồ sơ Tài sản bảo đảm tại Đơn vị kinh doanh.
- Bước 2:Kiểm tra hồ sơ khách hàng: CVQHKH thuộc các đơn vị kinh doanh tiếp nhận HS TSBĐ từ khách hàng và có trách nhiệm kiểm tra hồ sơ của TSBĐ, đảm bảo: