4.4.2 Kết quả tám tập dữ liệu sau khi kiểm tra tập DTest 10 lần.
Bảng 4-3: Kết quả thực nghiệm trên tập 𝐃𝐓𝐞𝐬𝐭 qua 10 lần kiểm tra.
TPR | FPR | AUC | |
1. Wine Quality – Red | |||
SC4.5 | 0.000 | 0.000 | 0.500 |
CSC4.5 | 0.000 | 0.000 | 0.500 |
AUC4.5 | TPRmean=0.667 | FPRmean = 0.685 | AUCmean = 0.491 |
2. Nursery | |||
SC4.5 | 0.523 | 0.005 | 0.759 |
CSC4.5 | 0.963 | 0.037 | 0.963 |
AUC4.5 | TPRmean=0.947 | FPRmean = 0.005 | AUCmean = 0.971 |
3. Car Evaluation | |||
SC4.5 | 0.591 | 0.016 | 0.787 |
CSC4.5 | 1.000 | 0.094 | 0.953 |
AUC4.5 | TPRmean=1.000 | FPRmean = 0.000 | AUCmean = 1.000 |
4. Ecoli | |||
SC4.5 | 0.714 | 0.029 | 0.843 |
CSC4.5 | 0.857 | 0.076 | 0.890 |
AUC4.5 | TPRmean=0.971 | FPRmean = 0.165 | AUCmean = 0.905 |
5. Mushroom | |||
SC4.5 | 1.000 | 0.000 | 1.000 |
CSC4.5 | 1.000 | 0.000 | 1.000 |
AUC4.5 | TPRmean=1.000 | FPRmean = 0.000 | AUCmean = 1.000 |
6. Wine Quality – White | |||
SC4.5 | 0.478 | 0.107 | 0.686 |
CSC4.5 | 0.577 | 0.158 | 0.709 |
AUC4.5 | TPRmean=0.610 | FPRmean = 0.335 | AUCmean = 0.637 |
7. Contraceptive Method Choice | |||
SC4.5 | 0.225 | 0.076 | 0.574 |
CSC4.5 | 0.333 | 0.092 | 0.621 |
AUC4.5 | TPRmean=0.661 | FPRmean = 0.430 | AUCmean = 0.616 |
8. Tic-Tac-Toe Endgame | |||
SC4.5 | 0.631 | 0.062 | 0.784 |
CSC4.5 | 0.640 | 0.062 | 0.789 |
AUC4.5 | TPRmean=0.766 | FPRmean = 0.107 | AUCmean = 0.829 |
Có thể bạn quan tâm!
- Đánh Giá Độ Chính Xác Của Mô Hình Phân Lớp
- Phân Lớp Dữ Liệu Mất Cân Đối Bằng Cây Quyết Định
- Cây Quyết Định Với Thuật Toán C4.5 Bằng Cách Giảm Nhiều Impurity
- Sử dụng cây quyết định phân lớp dữ liệu mất cân đối - 9
Xem toàn bộ 81 trang tài liệu này.
AUC values
THỰC NGHIỆM VÀ ĐÁNH GIÁ
1.100 | |
1.000 | |
0.900 | |
0.800 | |
0.700 | |
0.600 | |
0.500 | |
0.400 | |
0.300 | |
0.200 | |
0.100 | |
0.000 |
– Red | Evaluation | – White | Method Choice | Endgame | ||||
SC4.5 | 0.500 | 0.759 | 0.787 | 0.843 | 1.000 | 0.686 | 0.574 | 0.784 |
CSC4.5 | 0.500 | 0.963 | 0.953 | 0.890 | 1.000 | 0.709 | 0.621 | 0.789 |
KẾT QUẢ GIÁ TRỊ AUCmean CỦA CÁC BỘ PHÂN LỚP
1. Wine Quality
2. Nursey
3. Car
4. Ecoli
5. Mushroom
6. Wine Quality 7. Contraceptive 8. Tic-Tac-Toe
AUC4.5(mean)
0.491
0.971
1.000
0.905
1.000
0.637
0.616
0.829
Hình 4-1: Đồ thị so sánh kết quả AUCmean của tập DTest
47
4.4.3 Phân tích trên từng tập dữ liệu.
Wine Quality – Red: Thuộc tính liên tục = 12, tỉ lệ lớp thiểu số = 1.13%, đây là tỉ lệ lớp thiểu số nhỏ nhất (mất cân đối lớn nhất) trong các tập dữ liệu nghiên cứu.
Bảng 4-4: Bảng kết quả 10 lần test trên tập dữ liệu Wine Quality – Red
TPR | FPR | AUC | Phương sai | Độ lệch chuẩn | |
1 | 1.000 | 0.852 | 0.574 | ||
2 | 1.000 | 0.843 | 0.579 | ||
3 | 0.000 | 0.301 | 0.350 | ||
4 | 0.833 | 0.839 | 0.497 | ||
5 | 0.833 | 0.728 | 0.553 | ||
6 | 0.000 | 0.347 | 0.327 | ||
7 | 1.000 | 0.983 | 0.509 | ||
8 | 0.833 | 0.835 | 0.499 | ||
9 | 0.167 | 0.314 | 0.426 | ||
10 | 1.000 | 0.803 | 0.599 | ||
TPRmean=0.667 | FPRmean=0.685 | AUCmean=0.491 | 0.00906 | 0.09520 |
Nguồn từ: nghiên cứu của tác giả
Bảng 4-5: Kết quả tập dữ liệu Wine Quality – Red
TPR | FPR | AUC | |
SC4.5 | 0.000 | 0.000 | 0.500 |
CSC4.5 | 0.000 | 0.000 | 0.500 |
AUC4.5 | TPRmean = 0.667 | FPRmean = 0.685 | AUCmean = 0.491 |
Thuật toán SC4.5 và CSC4.5, có TPR = 0 và FPR = 0, có nghĩa hai thuật toán SC4.5 và CSC4.5 không phân lớp chính xác được bất kỳ giá trị nào của lớp thiểu số.
Trong khi đó, thuật toán AUC4.5, mặc dù AUCmean = 0.491 thấp hơn chút đỉnh so với thuật
toán SC4.5 và CSC4.5 (AUC = 0.500). Nhưng với giá trị TPRmean = 0.667, nói lên thuật toán AUC4.5 đã phân lớp chính xác được một số giá trị của lớp thiểu số, mặc dù kết quả không cao.
Ngoài ra, tập Wine Quality – Red giá trị của thuộc tính thuộc loại liên tục, biến động dữ liệu rất lớn trên từng thuộc tính. Ảnh hưởng lớn đến quá trình phân lớp. Trong các tập dữ liệu đem kiểm tra, thì tập Wine Quality – Red, kết quả kiểm tra có độ lệch chuẩn = 0.095199 cao nhất.
Nursery: Thuộc tính rời rạc = 9, tỉ lệ lớp thiểu số = 2.53%.
Bảng 4-6: Bảng kết quả 10 lần test trên tập dữ liệu Nursery
TPR | FPR | AUC | Phương sai | Độ lệch chuẩn | |
1 | 0.933 | 0.007 | 0.963 | ||
2 | 0.950 | 0.005 | 0.973 | ||
3 | 0.929 | 0.004 | 0.963 | ||
4 | 0.962 | 0.004 | 0.979 | ||
5 | 0.932 | 0.005 | 0.963 | ||
6 | 0.932 | 0.005 | 0.963 | ||
7 | 0.954 | 0.008 | 0.973 | ||
8 | 0.927 | 0.005 | 0.961 | ||
9 | 0.977 | 0.005 | 0.986 | ||
10 | 0.977 | 0.006 | 0.986 | ||
TPRmean=0.947 | FPRmean=0.005 | AUCmean=0.971 | 0.0001 | 0.00988 |
Nguồn từ: nghiên cứu của tác giả
Bảng 4-7: Kết quả tập dữ liệu Nursery
TPR | FPR | AUC | |
SC4.5 | 0.523 | 0.005 | 0.759 |
CSC4.5 | 0.963 | 0.037 | 0.963 |
AUC4.5 | TPRmean = 0.947 | FPRmean = 0.005 | AUCmean = 0.971 |
Thuật toán AUC4.5 cho kết quả tốt, với AUCmean = 0.971 lớn hơn rất nhiều so với thuật toán
chuẩn SC4.5 với AUC = 0.759. Còn với thuật toán CSC4.5 với AUC = 0.963 thì có nhỉnh hơn đôi chút. Mặt khác, tập Nursery có giá trị thuộc tính thuộc loại rời rạc, ổn định, nên phân bố AUC trong 10 lần kiểm tra khá gần nhau dẫn đến độ lệch chuẩn = 0.009877 khá bé.
Car Evaluation: Thuộc tính rời rạc = 6, tỉ lệ lớp thiểu số = 3.76%.
Bảng 4-8: Bảng kết quả 10 lần test trên tập dữ liệu Car Evaluation
TPR | FPR | AUC | Phương sai | Độ lệch chuẩn | |
1 | 1.000 | 0.000 | 1.000 | ||
2 | 1.000 | 0.000 | 1.000 | ||
3 | 1.000 | 0.000 | 1.000 | ||
4 | 1.000 | 0.000 | 1.000 | ||
5 | 1.000 | 0.000 | 1.000 | ||
6 | 1.000 | 0.000 | 1.000 | ||
7 | 1.000 | 0.000 | 1.000 | ||
8 | 1.000 | 0.000 | 1.000 | ||
9 | 1.000 | 0.000 | 1.000 | ||
10 | 1.000 | 0.000 | 1.000 | ||
TPRmean=1.000 | FPRmean=0.000 | AUCmean=1.000 | 0.0000 | 0.0000 |
Nguồn từ: nghiên cứu của tác giả
Bảng 4-9: Kết quả tập dữ liệu Car Evaluation
TPR | FPR | AUC | |
SC4.5 | 0.591 | 0.016 | 0.787 |
CSC4.5 | 1.000 | 0.094 | 0.953 |
AUC4.5 | TPRmean = 1.000 | FPRmean = 0.000 | AUCmean = 1.000 |
Thuật toán AUC4.5 cho kết quả vượt trội, với AUCmean = 1.000, phân lớp chính xác 100% lớp
thiểu số và lớp đa số qua các lần kiểm tra. Trong khi thuật toán chuẩn SC4.5 với AUC = 0.787 và thuật toán CSC4.5 với AUC = 0.953 vẫn còn sai sót trong phân lớp nhầm lớp đa số và lớp thiểu số. Tập dữ liệu Car Evaluation có giá trị thuộc tính thuộc loại rời rạc, ổn định, nên phân bố AUC trong 10 lần kiểm tra không thay đổi, đến độ lệch chuẩn = 0.0000.
Ecoli: Thuộc tính liên tục = 8, thuộc tính rời rạc = 1, tỉ lệ lớp thiểu số = 5.95%.
Bảng 4-10: Bảng kết quả 10 lần test trên tập dữ liệu Ecoli
TPR | FPR | AUC | Phương sai | Độ lệch chuẩn | |
1 | 1.000 | 0.058 | 0.971 |
1.000 | 0.125 | 0.938 | |||
3 | 1.000 | 0.163 | 0.918 | ||
4 | 0.857 | 0.058 | 0.900 | ||
5 | 1.000 | 0.202 | 0.899 | ||
6 | 1.000 | 0.212 | 0.894 | ||
7 | 0.857 | 0.077 | 0.890 | ||
8 | 1.000 | 0.231 | 0.885 | ||
9 | 1.000 | 0.250 | 0.875 | ||
10 | 1.000 | 0.250 | 0.875 | ||
TPRmean=0.971 | FPRmean=0.165 | AUCmean=0.905 | 0.00091 | 0.03022 |
Nguồn từ: nghiên cứu của tác giả
Bảng 4-11: Kết quả tập dữ liệu Ecoli
TPR | FPR | AUC | |
SC4.5 | 0.714 | 0.029 | 0.843 |
CSC4.5 | 0.857 | 0.076 | 0.890 |
AUC4.5 | TPRmean = 0.971 | FPRmean = 0.165 | AUCmean = 0.905 |
Mặc dù thuật toán AUC4.5 cho kết quả tốt, với AUCmean = 0.905 cho kết quả phân loại cao hơn
so với thuật toán chuẩn SC4.5 với AUC = 0.843 và thuật toán CSC4.5 với AUC = 0.875. Trong 10 lần kiểm tra, có đến 8 lần cho kết quả 100% phân loại lớp thiểu số trong tập dữ liệu mất cân đối.
Tuy nhiên, tập Ecoli có độ lệch chuẩn = 0.03022 chỉ thấp hơn tập Wine Quality – Red, cao hơn các tập dữ liệu mà tác giả nghiên cứu. Chứng tỏ tập dữ liệu có thuộc tính kiểu liên tục ảnh hưởng rất lớn đến thuật toán AUC4.5.
Mushroom: Thuộc tính rời rạc = 22, tỉ lệ lớp thiểu số = 7.60%.
Bảng 4-12: Bảng kết quả 10 lần test trên tập dữ liệu Mushroom
TPR | FPR | AUC | Phương sai | Độ lệch chuẩn | |
1 | 1.000 | 0.000 | 1.000 | ||
2 | 1.000 | 0.000 | 1.000 | ||
3 | 1.000 | 0.000 | 1.000 |
1.000 | 0.000 | 1.000 | |||
5 | 1.000 | 0.000 | 1.000 | ||
6 | 1.000 | 0.000 | 1.000 | ||
7 | 1.000 | 0.000 | 1.000 | ||
8 | 1.000 | 0.000 | 1.000 | ||
9 | 1.000 | 0.000 | 1.000 | ||
10 | 1.000 | 0.000 | 1.000 | ||
TPRmean=1.000 | FPRmean=0.000 | AUCmean=1.000 | 0.00000 | 0.00000 |
Nguồn từ: nghiên cứu của tác giả
Bảng 4-13: Kết quả tập dữ liệu Mushroom
TPR | FPR | AUC | |
SC4.5 | 1.000 | 0.000 | 1.000 |
CSC4.5 | 1.000 | 0.000 | 1.000 |
AUC4.5 | TPRmean = 1.000 | FPRmean = 0.000 | AUCmean = 1.000 |
Cả 3 Thuật toán AUC4.5, thuật toán chuẩn SC4.5 và thuật toán CSC4.5 đều cho kết quả phân lớp chính xác 100% ở lớp đa số và lớp thiểu số. Lại một nữa khẳng định, tập dữ liệu với thuộc tính có giá trị kiểu rời rạc, cho kết quả phân lớp tốt hơn thuộc tính có giá trị kiểu liên tục.
Wine Quality – White: Thuộc tính liên tục = 12, tỉ lệ lớp thiểu số = 17.97%.
Bảng 4-14: Bảng kết quả 10 lần test trên tập dữ liệu Wine Quality – White
TPR | FPR | AUC | Phương sai | Độ lệch chuẩn | |
1 | 0.546 | 0.265 | 0.640 | ||
2 | 0.409 | 0.180 | 0.614 | ||
3 | 0.639 | 0.313 | 0.663 | ||
4 | 0.742 | 0.373 | 0.685 | ||
5 | 0.698 | 0.468 | 0.615 | ||
6 | 0.595 | 0.263 | 0.666 | ||
7 | 0.467 | 0.199 | 0.634 | ||
8 | 0.818 | 0.576 | 0.621 | ||
9 | 0.632 | 0.379 | 0.627 | ||
10 | 0.557 | 0.348 | 0.605 |
TPRmean=0.610 | FPRmean=0.335 | AUCmean=0.637 | 0.00069 | 0.02631 |
Nguồn từ: nghiên cứu của tác giả
Bảng 4-15: Kết quả tập dữ liệu Wine Quality – White
TPR | FPR | AUC | |
SC4.5 | 0.478 | 0.107 | 0.686 |
CSC4.5 | 0.577 | 0.158 | 0.709 |
AUC4.5 | TPRmean = 0.610 | FPRmean = 0.335 | AUCmean = 0.637 |
Thuật toán AUC4.5 cho kết quả AUCmean = 0.637 thấp hơn chút đỉnh so với thuật toán SC4.5
và CSC4.5. Nhưng với giá trị TPRmean = 0.610 cao hơn nói lên thuật toán AUC4.5 đã phân lớp chính xác hơn trên lớp thiểu số so với thuật toán SC4.5 và CSC4.5, mặc dù kết quả không cao.
Ngoài ra, tập Wine Quality – White giá trị của thuộc tính thuộc loại liên tục. Ảnh hưởng lớn đến quá trình phân lớp. Kết quả kiểm tra có độ lệch chuẩn = 0.02631.
Contraceptive Method Choice: Thuộc tính liên tục=9, tỉ lệ lớp thiểu số=22.61%.
Bảng 4-16: Bảng kết quả 10 lần test trên tập dữ liệu Contraceptive Method Choice
TPR | FPR | AUC | Phương sai | Độ lệch chuẩn | |
1 | 0.714 | 0.432 | 0.641 | ||
2 | 0.738 | 0.472 | 0.633 | ||
3 | 0.529 | 0.370 | 0.579 | ||
4 | 0.667 | 0.413 | 0.627 | ||
5 | 0.734 | 0.530 | 0.602 | ||
6 | 0.604 | 0.386 | 0.609 | ||
7 | 0.642 | 0.414 | 0.614 | ||
8 | 0.600 | 0.351 | 0.624 | ||
9 | 0.718 | 0.448 | 0.635 | ||
10 | 0.664 | 0.482 | 0.591 | ||
TPRmean=0.661 | FPRmean=0.430 | AUCmean=0.616 | 0.00041 | 0.02028 |
Nguồn từ: nghiên cứu của tác giả