3.2. Phân tích và dự báo rủi ro tín dụng tại ngân hàng TMCP Sài Gòn – Hà Nội
3.2.1. Dữ liệu cần thu thập
3.2.1.1. Dữ liệu hồ sơ tín dụng
Các thông tin về hồ sơ tín dụng được ghi trong hồ sơ tín dụng là những thông tin cơ bản và có ảnh hưởng trực tiếp tới việc hoàn trả theo đúng thời hạn ký kết trong hồ sơ tín dụng. Đối với các khách hàng cá nhân :
1. Tuổi;
2. Giới tính;
3. Tình trạng hôn nhân;
4. Lĩnh vực công tác;
5. Đơn vị công tác;
6. Cấp bậc;
7. Thu nhập sau thuế;
8. Xếp hạng tín dụng;
9. Tài sản thế chấp cho vay vốn.
Đối với khách hàng là các tổ chức, đơn vị kinh doanh:
1. Tên đơn vị;
2. Năm thành lập;
3. Số lượng nhân viện ở thời điểm hiện tại;
4. Lĩnh vực kinh doanh, đầu tư;
5. Doanh thu của năm tài chính gần nhất;
6. Tỷ số tăng trường của 3 năm gần đây nhất;
7. Chỉ số quản lý;
8. Xếp hạng tín dụng;
9. Tài sản thế chấp.
Lịch sử giao dịch tín dụng
Lịch sử giao dịch tín dụng là tập hợp các thông tin về các giao dịch từ sau khi hoàn thành thu thập thông tin hồ sơ tín dụng. Các giao dịch bao gồm:
1. Xây dựng kế hoạch hoàn trả;
2. Xếp hạng tín dụng và cấp hạn mức ở cấp phòng giao dịch;
3. Phê duyệt hồ sơ tín dụng ở cấp phòng giao dịch;
4. Phê duyệt hồ sơ tín dụng ở cấp chi nhánh;
5. Phê duyệt hồ sơ tín dụng ở cấp hội sở;
6. Các giao dịch hoàn trả theo kế hoạch hoàn trả;
7. Lịch sử vay trả của các hồ sơ trong quá khứ có liên quan tới người vay;
8. Lịch sử thay đổi tài sản thế chấp.
3.2.1.3. Các thông tin khác liên quan đến chủ thể vay vốn trên hệ thống
Thông tin giao dịch các tài khoản trên hệ thống bao gồm: các tài khoản tiền gửi thanh toán, các tài khoản tiết kiệm. Các tài khoản này có thể biểu hiện một phần luồng tiền của chủ thể vay vốn. Các giao dịch này chính là các giao dịch liên quan đến tài chính của chủ thể vay vốn. Đó có thể là các giao dịch thanh toán dịch vụ, hàng hóa đầu tư cho kinh doanh, sản xuất. Và các giao dịch này có thể biểu hiện phần nào đó luồng tiền cũng như là khả năng thanh toán của chủ thể vay vốn.
1. Các yếu tố của nền kinh tế
Nợ xấu của hồ sơ tín dụng nào đó chịu sự ảnh hưởng gián tiếp bởi các yêu tố thị trường. Các yếu tố này chính là các yếu tổ thể hiện sức khỏe, khả năng sinh lãi trong sản xuất, kinh doanh. Các chỉ số đo lường sức sản xuất, Các chỉ số tiêu dùng, Các chỉ số đo lường mức độ lạm phát. Các chỉ số này được thu thập từ các báo tài chính hàng quý của các tổ kiểm toán nhà nước.
2. Công cụ xây dựng cây quyết định - Phần mềm weka
- Giới thiệu về phần mềm Weka.
WEKA là một công cụ phần mềm viết bằng Java phục vụ lĩnh vực học máy bằng Java, phục vụ lĩnh vực học máy và khai phá dữ liệu
- Các chức năng chính:
Chức năng explorer
- Tiền xử lý dữ liệu.
- Phân lớp.
- Phân cụm.
- Khai phá luật kết hợp.
- Lựa chọn thuộc tính.
- Trực quan hóa.
Hình 3. 1. Giao diện phần mềm Weka
Chức năng Experimenter:
- Thiết kế các thí nghiệm.
- Lựa chọn thuật toán và tập dữ liệu.
- Chạy thí nghiệm.
- Phân tích kết quả (so sánh các kết quả,…).
Hình 3. 2. Giao diện chức năng Experimenter
Chức năng Knowledge Flow:
- Thiết kế quá trình khai phá dữ liệu 1 cách trực quan.
- Từ xử lý dữ liệu -> chạy mô hình -> trình bày kết quả.
Hình 3. 3. Giao diện Chức năng Knowledge Flow
Chức năng Workbench:
- Tổng hợp các chức năng ở trên vào trong mộtứng dụng.
- Cung cấp cho người sử dụng công cụ mạnh để khai phá dữ liệu.
Hình 3. 4. Giao diện chức năng Workbench
Chức năng Simple CLI:
- Cho phép người dung tương tác với WEKA bằng cách gò lệnh.
Hình 3. 5. Giao diện chức năng Simple CLI
3. Cách dùng:
Tập tin xử lý chính của weka dạng ARFF:
- Mô tả đối tượng trong không gian n- chiều.
- Tập tin ARFF có phần header.
- Tập tin ARFF có phần data.
- Các kiểu dữ liệu.
- Là một văn bản theo bảng mã ASCII.
- Mô tả các đối tượng có cùng chung tập thuộc tính.
- Được sử dụng làm định dang chuẩn cho dữ liệu được dùng bới các mô hình của weka.
- Người dùng có thể đọc các loại tập tin đầu vào khác như: csv, xls… thu thấp và tiền xử lý dữ liệu.
3.2.2.1. Trích xuất dữ liệu từ kho dữ liệu thực tế của ngân hàng TMCP Sài Gòn – Hà Nội, chi nhánh Thái Nguyên
Dữ liệu của hệ thống online trong ngân hàng thường được lưu trữ tại cơ sở dữ liệu của hệ thống lòi (corebanking). Các dữ liệu này chưa được xử lý, loại bỏ dư thừa để xây dựng các báo cáo gửi ngân hàng nhà nước. Chính vì thế, các dữ liệu này chính là các dữ liệu nguyên bản và có giá trị cao cho việc phân tích theo nhiều chiều khác nhau.
1. Tiền xử lý dữ liệu và xây dựng cơ sở dữ liệu
Dữ liệu dự báo gồm hồ sơ vay vốn của 30 khách hàng vay theo hình thức tín chấp tại ngân hàng TMCP Sài Gòn – Hà Nội, chi nhánh Thái Nguyên được thể hiện như bảng sau:
Bảng 3.2. Bảng danh sách khách hàng
XEPLOAIHS | TUOI | SOTIENVAY | LOAIKH | |
D1 | LOAIA | 35 | 55 | CN |
D2 | LOAIA | 30 | 60 | DN |
D3 | LOAIA | 43 | 20 | CN |
D4 | LOAIC | 30 | 50 | CN |
D5 | LOAIC | 28 | 50 | CN |
D6 | LOAIC | 65 | 40 | DN |
D7 | LOAIB | 64 | 35 | CN |
D8 | LOAIA | 52 | 65 | DN |
D9 | LOAIA | 39 | 20 | CN |
D10 | LOAIC | 25 | 20 | CN |
Có thể bạn quan tâm!
- Một Số Cài Tiến Của Thuật Toán C4.5 So Với Thuật Toán Id3
- Phương Pháp Chuyên Gia Trong Xếp Hạng Tín Dụng
- Đặc Điểm Sản Phẩm Gửi Tiết Kiệm Ngân Hàng Shb
- Kỹ thuật cây quyết định hồi quy trong phân tích và dự báo rủi ro tín dụng tại ngân hàng TMCP Sài Gòn – Hà Nội (HSB), chi nhánh Thái Nguyên - 9
- Kỹ thuật cây quyết định hồi quy trong phân tích và dự báo rủi ro tín dụng tại ngân hàng TMCP Sài Gòn – Hà Nội (HSB), chi nhánh Thái Nguyên - 10
Xem toàn bộ 80 trang tài liệu này.
LOAIA | 45 | 45 | CN | |
D12 | LOAIB | 22 | 60 | DN |
D13 | LOAIB | 41 | 45 | CN |
D14 | LOAIC | 31 | 30 | CN |
D15 | LOAIB | 45 | 53 | DN |
D16 | LOAIB | 34 | 55 | DN |
D17 | LOAIC | 56 | 50 | CN |
D18 | LOAIB | 66 | 58 | DN |
D19 | LOAIB | 45 | 59 | CN |
D20 | LOAIB | 34 | 61 | CN |
D21 | LOAIA | 45 | 60 | DN |
D22 | LOAIA | 34 | 45 | DN |
D23 | LOAIB | 56 | 30 | CN |
D24 | LOAIC | 66 | 53 | CN |
D25 | LOAIC | 45 | 55 | CN |
D26 | LOAIC | 34 | 90 | DN |
D27 | LOAIB | 45 | 25 | CN |
D28 | LOAIA | 34 | 60 | DN |
D29 | LOAIB | 56 | 45 | CN |
D30 | LOAIA | 66 | 50 | DN |
Trong đó:
Hồ sơ được phân vào Loại A:
Là những hồ sơ của khách hàng vay tín chấp mà chưa vay tại ngân hàng SHB.
Điều kiện vay:
- Với khách hàng cá nhân: Với những khách hàng cá nhân vay dưới 30 triệu sẽ không có nguy cơ rủi ro cao, và sẽ được vay.
- Với khách hàng doanh nghiệp: Sẽ được chấp nhận cho vay ngay và không bị cảnh báo rủi ro.
Hồ sơ được phân vào loại B:
Là những hồ sơ của khách hàng vay tín chấp đã vay tại ngân hàng SHB.
Điều kiện vay:
- Với khách hàng cá nhân: Với những khách hàng cá nhân vay dưới 40 triệu thì sẽ không bị cảnh báo rủi ro và cho vay. Với khách hàng vay trên 40 triệu thì sẽ bị cảnh báo rủi ro và cần phải xét duyệt thêm.
- Với khách hàng doanh nghiệp: Sẽ được chấp nhận cho vay ngay và không bị cảnh báo rủi ro.
Hồ sơ được phân vào loại C:
Là những hồ sơ có nợ xấu tại ngân hàng SHB, những hồ sơ này sẽ bị cảnh báo rủi ro và không được chấp thuận vay.
Quá trình dự báo rủi ro thông qua cây quyết định được thực hiện trên phần mềm weka.
Trong quy trình khai phá dữ liệu, công việc xử lý dữ liệu trước khi đưa vào các mô hình là rất cần thiết, bước này làm cho dữ liệu có được ban đầu qua thu thập dữ liệu ( gọi là dữ liệu gốc original data) có thể áp dụng được (thích hợp) với các mô hình khai phá dữ liệu (data mining model) cụ thể. Các công việc cụ thể của tiền xử lý dữ liệu bao gồm những công việc như:
- Filtering Attributes: Chọn các thuộc tính phù hợp với mô hình.
- Filtering samples: Lọc các mẫu (instances, patterns) dữ liệu cho mô hình.
- Clean data: Làm sạch dữ liệu như xóa bỏ các dữ liệu bất thường (Outlier).
- Transformation: Chuyển đổi dữ liệu cho phù hợp với các mô hình như chuyển đổi dữ liệu từ numeric qua nomial hay ordinal.
- Discretization (rời rạc hóa dữ liệu): Nếu bạn có dữ liệu liên tục nhưng một vài mô hình chỉ áp dụng cho các dữ liệu rời rạc (như luật kết hợp chẳng hạn) thì bạn phải thực hiện việc rời rạc hóa dữ liệu.
Dữ liệu đầu vào là dữ liệu về hoạt động vay tín dụng của ngân hàng SHB. Gồm 5 thuộc tính đó là: MAHS, XEPLOAIHS, TUOI, SOTIENVAY, LOAIKH và 30
khách hàng vay tín dụng.
Đặt tên file là: HOSO.csv và cấu trúc file như sau:
Bảng 3.3. Dữ liệu vay tín dụng
Tên trường | Kiểu dữ liệu | Diễn giải | |
1 | MAHS | CHAR | Mã hồ sơ tín dụng |
2 | XEPLOAIHS | CHAR | Xếp loại hồ sơ tín dụng A, B, C |
3 | TUOI | NUMBERIC | Tuổi khách hàng vay vốn |
4 | SOTIENVAY | NUMBERIC | Số tiền khách hàng vay vốn |
5 | LOAIKH | NOMINAL | Loại khách hàng vay vốn là cá nhân hay doanh nghiệp |
Sau đó chúng ta sẽ nhập bảng dữ liệu ở phần trên vào excel và lưu dưới định dạng đuôi CSV như dưới hình sau:
2. Xây dựng cây quyết định dựa vào phần mềm Weka
Để xây dựng cây quyết định chúng ta sẽ sử dụng phần mềm weka và bảng số liệu như ở mục 3.2.
Đầu tiên chúng ta sẽ vào Preprocess => Open file để mở dữ liệu:
Hình 3. 6. Xây dựng cây quyết định dựa vào phần mềm WeKa Sau khi đã mở được file dữ liệu chúng ta sẽ tiến hàng thao tác với dữ liệu
- Dữ liệu mã hồ sơ.