Chương 4 - THỰC NGHIỆM VÀ ĐÁNH GIÁ
Chương này thảo luận về các kết quả của các mô phỏng thực nghiệm. Mục 4.1 giới thiệu về dữ liệu được sử dụng trong thực nghiệm. Tiếp theo chúng tôi giới thiệu về quá trình thực nghiệm. Sau đó kết quả được trình bày và phân tích ở phần cuối cùng của chương.
4.1 Dữ liệu dùng trong thực nghiệm
Nghiên cứu sử dụng dữ liệu tài chính trong quá khứ của các công ty được niêm yết trên sàn chứng khoán và được công khai trên mạng Internet. Để đảm bảo sự chính xác của mô hình, chúng tôi đã lấy dữ liệu của cả các công ty trong nước và ngoài nước. Dữ liệu tài chính trong nước được thu thập ở các trang chứng khoán như: trung tâm giao dịch chứng khoán Hà Nội (www.hastc.org.vn), Sở giao dịch chứng khoán HCM (www.hsx.com), và một số trang khác như: www.vietstock.com, www.cafef.vn. Còn dữ liệu của các công ty nước ngoài được thu thập ở sàn chứng khoán NewYork (NYSE), sàn NASDAQ, và được tải ở máy chủ dữ liệu tài chính của Yahoo (http://finance.yahoo.com)
Dữ liệu tài chính được sử dụng bao gồm các báo cáo tài chính như: bảng cân đối kế toán, báo cáo kết quả kinh doanh, báo cáo lưu chuyển tiền tệ, ngoài ra còn có giá chứng khoán hàng ngày, giá mở cửa (OPEN), giá thấp( LOW), giá cao nhất (HIGH), giá đóng cửa (CLOSE). Với dữ liệu tài chính trong nước, chúng tôi đã thu thập được của hơn 30 công ty trong khoảng thời gian từ năm 2001 tới hiện tại. Dữ liệu trước quí 4 năm 2008 được dùng cho tập huấn luyện và kiểm tra. Dữ liệu trong quí 4 được dùng làm dữ liệu phân tích và dự báo. Ngoài ra chúng tôi còn thu nhập được dữ liệu tài chính của 30 công ty nước ngoài như Microsoft, IBM, Intel….
Chương trình mô phỏng mô hình cho phép chia tập dữ liệu huấn luyện theo các lựa chọn sau:
Về dữ liệu, có thể chọn:
- Dữ liệu theo quí
- Dữ liệu theo năm
Hoặc chọn cả hai dữ liệu.
Để đảm bảo tính chính xác cao, chúng ta chỉ chọn sử dụng các dữ liệu theo quí.
Về cách chia tập huấn luyện, có thể chọn:
- Không chia tập test: Có nghĩa là kết quả huấn luyện chỉ dựa vào tập huấn luyện mà không phụ thuộc vào tập test
- Chia 80% cho tập huấn luyện và 20% cho tập kiểm tra
- Chia theo ngày: các dữ liệu trước ngày nào đó sẽ làm tập huấn luyện còn lại là tập kiểm tra
- Chia theo ngành: các công ty theo ngành nào đó mới được chọn làm tập huấn
luyện
luyện.
- Chia theo công ty: dữ liệu của một công ty nào đó được dùng làm tập huấn
4.2 Thiết lập tham số cho thực nghiệm
Việc chọn được bộ tham số tối ưu cho mô hình là rất quan trọng. Nó ảnh hưởng rất lớn tới việc đánh giá và dự báo rủi ro. Trong phần này chúng tôi trình bày cách thiết lập và sử dụng các tham số cho mô hình đánh giá rủi ro tài chính.
4.2.1 Các tham số của mạng nơron
Như đã giới thiệu ở chương 3, các tham số của mạng nơron như sau: Kiến trúc mạng:
Chúng tôi sử dụng một mạng nơron đơn giản. Đó là mạng perceptron hai lớp. Lớp đầu tiên gồm một số lượng nút có thể sửa đổi. Lớp thứ hai chỉ gồm duy nhất một nút. Các nút ở lớp đầu tiên chính là các số liệu đặc trưng trong các báo cáo tài chính. Đầu ra là hạng của công ty.
Hàm kích hoạt được sử dụng là hàm sigmoid trong khoảng [-1,1]
Thuật toán dùng để huấn luyện là thuật toán lan truyền ngược (backpropagation).
Các tham số :
Việc khởi tạo trọng số mạng có thể là :
- Khởi tạo ngẫu nhiên
- Khởi tạo tại giá trị bằng 0
Số lượng nút ẩn: chúng ta sử dùng số lượng nút ẩn là tuỳ ý, tuy nhiên số lượng nút ẩn càng lớn thì tốc độ huấn luyện càng lâu. Ở đây chúng ta sử dụng số lượng nút ẩn >10.
Tốc độ học (learning rate): có miền giá trị lớn hơn 0 và nhỏ hơn 1, dùng xác định tốc độ học.
Số vòng lặp tối đa: dùng để kết thúc quá trình học.
Sau đây là một số thực nghiệm trong việc chọn tham số và kết quả huấn luyện:
Với việc huấn luyện với dữ liệu theo quí và dùng tất cả dữ liệu cho tập huấn luyện ta có kết quả huấn luyện:
Bảng 4-1 Thiết lập tham số mạng
Số mẫu | Số nhóm | Thiết lập | Kết quả huấn luyện | |||||||||
Khởi tạo | Số nút ẩn | Tốc độ | Số vòng lặp | Micro | Micro Recall | Micro F1 | Macro | Macro Recall | Macro F1 | |||
1 | 116 | 2 | 0 | 10 | 0.01 | 1000 | 0.647 | 0.647 | 0.418 | 0.670 | 0.784 | 0.525 |
2 | 116 | 2 | 0 | 10 | 0.01 | 1000 | 0.664 | 0.664 | 0.441 | 0.644 | 0.725 | 0.467 |
3 | 116 | 2 | 0 | 10 | 0.01 | 1000 | 0.664 | 0.664 | 0.441 | 0.676 | 0.696 | 0.471 |
4 | 116 | 2 | 0 | 10 | 0.01 | 1000 | 0.698 | 0.698 | 0.488 | 0.711 | 0.735 | 0.522 |
5 | 116 | 2 | 0 | 20 | 0.01 | 1000 | 0.784 | 0.784 | 0.615 | 0.788 | 0.788 | 0.620 |
6 | 116 | 2 | 0 | 100 | 0.01 | 1000 | 0.647 | 0.647 | 0.418 | 0.623 | 0.744 | 0.463 |
7 | 116 | 2 | 0 | 100 | 0.05 | 1000 | 0.672 | 0.672 | 0.452 | 0.691 | 0.760 | 0.525 |
8 | 116 | 2 | 0 | 10 | 0.001 | 1000 | 0.670 | 0.690 | 0.476 | 0.705 | 0.746 | 0.525 |
9 | 116 | 2 | 0 | 10 | 0.01 | 2000 | 0.768 | 0.768 | 0.590 | 0.770 | 0.770 | 0.591 |
10 | 116 | 2 | 0 | 100 | 0.01 | 2000 | 0.595 | 0.595 | 0.354 | 0.568 | 0.671 | 0.381 |
Có thể bạn quan tâm!
- Mô Hình Mạng Perceptron 3 Lớp (Mlp)
- Xác Định Giá Trị Của Luật Hợp Thành
- Phân Kỳ Và Hội Tụ Của Đường Trung Bình Di Động
- Kết Quả So Sánh Giữa Quyết Định Từ Macd, Mô Hình Và Thực Tế
- Nghiên cứu và ứng dụng một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính - 10
- Nghiên cứu và ứng dụng một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính - 11
Xem toàn bộ 91 trang tài liệu này.
Chúng ta thấy rằng với các thiết lập như trên thì độ chính xác dự báo là tương đối cao
4.2.2 Các tham số của hệ hỗ trợ quyết định
Các tham số đầu vào gồm có:
Hạng (Rank) của công ty: đây chính là giá trị thu được trong quá trình huấn luyện mạng nơron. Giá trị này là một số thực trong khoảng [-1,1]
Chỉ số MACD: được tính bởi công thức MACD=SUB( EMA(close;12) ; EMA(close;26) )
Trong đó:
EMA(close;12) là đường trung bình trượt mũ theo giá đóng cửa trong khoảng thời gian 12 ngày.
EMA(close;26) là đường trung bình trượt mũ theo giá đóng cửa trong khoảng thời gian 26 ngày.
Chỉ số RSI: được tính theo RSI(close; 20) với tham số ngày là 20
Chỉ số CCI: được tính theo CCI(close; high; low; 20) với tham số ngày là 20 Với các tham số được xác định như trên, thực nghiệm việc dự báo việc mua bán
chỉ sử dụng phân tích kỹ thuật và logic mờ như sau:
Bảng 4-2 Các chỉ số kỹ thuật và luật mờ tương ứng
Chỉ số MACD | Chỉ số RSI | Chỉ số CCI | Luật Fuzzy | |
1 | -0.9 | 39 | -103 | R7 |
2 | -1 | 35 | -34 | R2 |
3 | 0.2 | 66 | 182 | R6 |
4 | -1 | 38 | -112 | R7 |
5 | 1.3 | 53 | 25 | R3 |
6 | -0.7 | 43 | -124 | R7 |
7 | -0.8 | 44 | -109 | R8 |
8 | 1.5 | 59 | 101 | R4 |
9 | -0.2 | 55 | 120 | R1 |
10 | -0.3 | 50 | 113 | R5 |
Ở lần thử thứ nhất:
- Chỉ số MACD = -0.2 là thấp bởi nhỏ hơn mức 0, có nghĩa là thị trường đang bán quá mức (Over sell)
- Chỉ số RSI=39 lớn hơn 30 và nhỏ 50, có nghĩa thị trường không ổn định
- Chỉ số CCI=-103 nhỏ hơn -100, có nghĩa thị trường đang xấu
Với các chỉ số như trên, mô hình đề xuất ở chương 3 cho luật mờ R7 Tương tự, với các thực nghiệm 2, 3… ta có các luật mờ như ở bảng 4-2
Dự báo việc mua bán sử dụng phân tích kỹ thuật, logic mờ kết hợp với hạng của công ty sau khi đã dự báo dài hạn.
Bảng 4-3 Kết hợp Hạng, các chỉ số và luật mờ tương ứng
Hạng công ty | Chỉ số MACD | Chỉ số RSI | Chỉ số CCI | Luật Fuzzy | |
1 | -0.002 | 0.69 | 66 | 182 | R11 |
2 | -0.382 | 2.35 | 70 | 165 | R11 |
3 | -0.0015 | -0.51 | 40 | -117 | R10 |
4 | -0.002 | -0.08 | 47 | -58 | R9 |
5 | -0.0093 | 0.48 | 60 | 114 | R11 |
6 | 0.0029 | -.051 | 40 | -117 | R11 |
7 | 0.00021 | -0.08 | 47 | 187 | R9 |
8 | 0.00175 | 2.26 | 64 | 168 | R12 |
9 | 0.0025 | 2.12 | 56 | 174 | R12 |
10 | 0.0029 | 0.35 | 69 | 110 | R11 |
Ở lần thử thứ nhất:
Hạng của công ty = -0.002 là thấp, có nghĩa quí tới công ty có thể phát triển không tốt
Chỉ số MACD = 0.69 là cao, các chỉ số RSI = 66 và CCI=182 là tương đối cao, có nghĩa là trong thời điểm hiện tại công ty đang khá tốt.
Với các chỉ số như trên, mô hình cho ta luật R11 Tương tự cho lần thử thứ hai.
Ở lần thử thứ 3:
Hạng của công ty=0.0015 cũng có nghĩa là quí tới công ty có thể phát triển không tốt. Các chỉ số MACD=-0.51, RSI=40, CCI=-117 là tương đối thấp. Áp dụng mô hình ta có luật R10.
Từ các tham số và thực nghiệm trên các tập luật, chúng ta chọn miền giới hạn đầu ra cho quyết định MUA/BÁN như sau:
- Nếu giá trị đầu ra trong khoảng [0, 0.25] thì quyết định sẽ là: BÁN NHIỀU
- Nếu giá trị đầu ra trong khoảng [0.25 , 0.5] thì quyết định sẽ là BÁN
- Nếu giá trị đầu ra trong khoảng [0.5, 0.75] thì quyết định sẽ là MUA
- Nếu giá trị đầu ra trong khoảng [0.75, 1] thì quyết định sẽ là MUA NHIỀU Các trường hợp còn lại sẽ là: GIỮ LẠI
4.3 Kết quả mẫu
4.3.1 Kết quả việc đánh giá và dự báo trong tương lai
Áp dụng mô hình với 76 mẫu dữ liệu của 20 công ty:
Mã Công Ty | Thời gian | Ngày | Nhãn | |
1 | ABT | Q | 31/03/2008 | Xấu |
2 | ACL | Q | 01/10/2007 | Xấu |
3 | ACL | Q | 31/03/2008 | Xấu |
4 | AGF | Q | 13/7/2007 | Xấu |
5 | AGF | Q | 1/10/2007 | Xấu |
6 | AGF | Q | 2/01/2008 | Xấu |
7 | AGF | Q | 31/03/2008 | Xấu |
8 | AGF | Q | 07/07/2008 | Xấu |
9 | ALP | Q | 2/01/2008 | Xấu |
10 | ALT | Q | 31/03/2008 | Tốt |
11 | ASP | Q | 31/03/2008 | Xấu |
12 | ASP | Q | 7/7/2008 | Xấu |
13 | BBC | Q | 2/10/2006 | Tốt |
14 | BBC | Q | 31/03/2008 | Xấu |
15 | BBT | Q | 3/1/2006 | Tốt |
… | …. | …. | …. | …. |
73 | VNM | Q | 31/3/2008 | Tốt |
74 | VNM | Q | 7/7/2008 | Xấu |
75 | VPL | Q | 31/3/2008 | Xấu |
76 | VPL | Q | 7/7/2008 | Tốt |
Bảng 4-4 Mẫu dữ liệu huấn luyện
Ở mẫu số 1 của công ty ABT dựa vào báo cáo tài chính quí một năm 2008 và giao dịch trên thị trường chứng khoán vào thời điểm ngày 31/03/2008 chúng tôi xác định được nhãn của công ty là: Xấu.
Ở mẫu số 2 của công ty ACL trong quí 3 năm 2007 thì tình hình kinh doanh của công ty cũng là xấu.
Với mẫu số 14 của công ty ALT trong quí 3 năm 2008 thì công ty kinh doanh tương đối tốt và có nhãn là Tốt.
Với các số liệu trong năm 2008 chúng tôi thấy phần lớn các công ty đều hoạt động không tốt do ảnh hưởng của suy thoái kinh tế. Chứng tỏ công thức xác định tình hình hoạt động kinh doanh tương đối chính xác.
Kết quả huấn luyện được thể hiện ở hình 4-1:
Hình 4-1 Kết quả huấn luyện và kiểm tra
Mặc dù số lượng mẫu không nhiều và chưa phản ánh chính xác tình hình hoạt động của các công ty nhưng kết quả học tương đối cao. Số dự đoán đúng trên tổng các trường hợp tương ứng với độ chính xác Micro: 0.63
Tương tự, độ chính xác macro bằng 0.649
Sau khi học với kết quả thể hiện qua các độ đo như trên, chúng tôi chọn 20 mẫu thử chưa được gán nhãn để phân tích. Số liệu của 20 công ty này là số liệu trong quí 4 năm 2008
Bảng 4-5 Dữ liệu phân tích
Mã Công Ty | Thời gian | Ngày tháng | Nhãn | |
1 | ABT | Q | 30/9/2008 | NONE |
2 | AGF | Q | 30/9/2008 | NONE |
3 | ALP | Q | 30/9/2008 | NONE |
4 | ALT | Q | 30/9/2008 | NONE |
5 | ASP | Q | 30/9/2008 | NONE |
6 | BBC | Q | 30/9/2008 | NONE |
7 | BBT | Q | 30/9/2008 | NONE |
8 | BMC | Q | 30/9/2008 | NONE |
9 | DHG | Q | 30/9/2008 | NONE |
10 | DMC | Q | 30/9/2008 | NONE |
11 | FPC | Q | 30/9/2008 | NONE |
12 | IFS | Q | 30/9/2008 | NONE |
13 | PVD | Q | 30/9/2008 | NONE |
14 | SFC | Q | 30/9/2008 | NONE |
15 | SGH | Q | 30/9/2008 | NONE |
16 | SJS | Q | 30/9/2008 | NONE |
17 | TCT | Q | 30/9/2008 | NONE |
18 | VIC | Q | 30/9/2008 | NONE |
19 | VNM | Q | 30/9/2008 | NONE |
20 | VPL | Q | 30/9/2008 | NONE |