TRƯỜNG ĐẠI HỌC NGOẠI NGỮ TIN HỌC THÀNH PHỐ HỒ CHÍ MINH
LÊ THANH PHONG
SỬ DỤNG CÂY QUYẾT ĐỊNH PHÂN LỚP DỮ LIỆU MẤT CÂN ĐỐI
LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN
Mã số: 60 48 02 01
TRƯỜNG ĐẠI HỌC NGOẠI NGỮ TIN HỌC THÀNH PHỐ HỒ CHÍ MINH
LÊ THANH PHONG
SỬ DỤNG CÂY QUYẾT ĐỊNH PHÂN LỚP DỮ LIỆU MẤT CÂN ĐỐI
LUẬN VĂN THẠC SỸ
Ngành: CÔNG NGHỆ THÔNG TIN Mã số: 60 48 02 01
NGƯỜI HƯỚNG DẪN KHOA HỌC PGS. TS. LÊ HOÀI BẮC
CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC NGOẠI NGỮ - TIN HỌC THÀNH PHỐ HỒ CHÍ MINH
Người hướng dẫn khoa học: PGS. TS. Lê Hoài Bắc
- Học viên đã bảo vệ thành công luận văn ngày 04 tháng 06 năm 2019, tại Hội đồng đánh giá luận văn thạc sĩ thành lập theo Quyết định số …. ngày …. /…./2019 của Hiệu trưởng Trường ĐH Ngoại ngữ -Tin học TP.HCM, với sự tham gia của:
Chủ tịch Hội đồng: PGS.TS. Phạm Thế Bảo Phản biện 1: TS. Trần Minh Thái
Phản biện 2: TS. Đặng Trường Sơn Ủy viên: PGS.TS Nguyễn Thanh Bình Thư ký: TS. Nguyễn Đức Cường
- Có thể tìm hiểu Luận văn tại Thư viện của Trường ĐH Ngoại ngữ - Tin học TPHCM, hoặc trên cổng thông tin điện tử, website của đơn vị quản lý sau đại học của Trường.
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc.
TPHCM, ngày 25 tháng 10 năm 2018 Tác giả luận văn
Lê Thanh Phong
LỜI CẢM ƠN
Lời đầu tôi xin chân thành cảm ơn PGS. TS. Lê Hoài Bắc đã tận tình hướng dẫn cũng như cung cấp tài liệu thông tin khoa học cần thiết cho luận văn này.
Xin chân thành cảm ơn Lãnh đạo trường Đại học Ngoại ngữ Tin học Thành Phố Hồ Chí Minh, Ban Sau Đại Học, Khoa Công Nghệ Thông Tin đã tạo điều kiện cho tôi hoàn thành tốt công việc nghiên cứu khoa học của mình.
Cuối cùng, tôi xin chân thành cảm ơn đến gia đình, các anh chị và các bạn đồng nghiệp, đơn vị công tác đã hỗ trợ cho tôi rất nhiều trong suốt quá trình học tập, nghiên cứu và thực hiện đề tài luận văn thạc sĩ một cách hoàn chỉnh.
Tôi xin chân thành cảm ơn!
Tác giả
Lê Thanh Phong
DANH MỤC VIẾT TẮT
Từ viết tắt | Ý nghĩa | |
1 | AUC | Area Under the ROC Curve |
2 | CLS | Concept Learning System |
3 | CSC4.5 | Cost-Sensitive C4.5 |
4 | CSDL | Cơ Sở Dữ Liệu |
5 | FN | False Negative |
6 | FP | False Positive |
7 | FPR | False Positive Rate |
8 | ID3 | Interactive Dichotomizer 3 |
9 | ILA | Inductive Learning Algorithm |
10 | KTDL | Khai Thác Dữ Liệu |
11 | MDL | Minimum Description Length |
12 | NB | Naïve Bayes |
13 | ROC | Receiver Operating Characteristic |
14 | SC4.5 | Standard C4.5 |
15 | SQL | Structured Query Language |
16 | TN | True Negative |
17 | TP | True Positive |
18 | TPR | True Positive Rate |
19 | UCI | University of California Irvine (Machine Learning Repository) |
Có thể bạn quan tâm!
- Sử dụng cây quyết định phân lớp dữ liệu mất cân đối - 2
- Thuật Toán Phân Lớp Dữ Liệu Mất Cân Đối Bằng Cây Quyết Định
- Các Vấn Đề Trong Khai Thác Dữ Liệu Sử Dụng Cây Quyết Định
Xem toàn bộ 81 trang tài liệu này.
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 2-1: Quá trình khai thác dữ liệu 7
Hình 2-3: Quá trình phân lớp dữ liệu - Bước xây dựng mô hình phân lớp 9
Hình 2-4: Quá trình phân lớp dữ liệu – Ước lượng độ chính xác mô hình 10
Hình 2-5: Quá trình phân lớp dữ liệu – Phân lớp dữ liệu mới 11
Hình 2-6: Mô hình ứng dụng luật 15
Hình 2-7: Phương pháp Holdout 28
Hình 2-8: K-Fold Coss–Validation 29
Hình 3-1: Đồ thị ROC biểu diển một bộ phân lớp rời rạc của xác suất B 30
Hình 3-2: AUC – diện tích dưới đường cong ROC của một bộ phân lớp A 31
Hình 3-3: Cây quyết định với thuật toán C4.5 bằng cách giảm nhiều impurity 40
Hình 3-4: Cây quyết định với thuật toán AUC4.5 bằng cách gia tăng giá trị AUC 43
Hình 4-1: Đồ thị so sánh kết quả AUCmean của tập DTest 47
DANH MỤC CÁC BẢNG BIỂU
Bảng 3-1: Ma trận nhầm lẫn 32
Bảng 3-2: Mô tả tập dữ liệu mất cân đối. 39
Bảng 4-1: Tập dữ liệu với số phần tử lớp thiểu số 44
Bảng 4-2: Phương sai, độ lệch chuẩn trên toàn bộ các tập dữ liệu 45
Bảng 4-3: Kết quả thực nghiệm trên tập DTest qua 10 lần kiểm tra. 46
Bảng 4-4: Bảng kết quả 10 lần test trên tập dữ liệu Wine Quality – Red 48
Bảng 4-5: Kết quả tập dữ liệu Wine Quality – Red 48
Bảng 4-6: Bảng kết quả 10 lần test trên tập dữ liệu Nursery 49
Bảng 4-7: Kết quả tập dữ liệu Nursery 49
Bảng 4-8: Bảng kết quả 10 lần test trên tập dữ liệu Car Evaluation 50
Bảng 4-9: Kết quả tập dữ liệu Car Evaluation 50
Bảng 4-10: Bảng kết quả 10 lần test trên tập dữ liệu Ecoli 50
Bảng 4-11: Kết quả tập dữ liệu Ecoli 51
Bảng 4-12: Bảng kết quả 10 lần test trên tập dữ liệu Mushroom 51
Bảng 4-13: Kết quả tập dữ liệu Mushroom 52
Bảng 4-14: Bảng kết quả 10 lần test trên tập dữ liệu Wine Quality – White 52
Bảng 4-15: Kết quả tập dữ liệu Wine Quality – White 53
Bảng 4-16: Bảng kết quả 10 lần test trên tập dữ liệu Contraceptive Method Choice 53
Bảng 4-17: Kết quả tập dữ liệu Contraceptive Method Choice 54
Bảng 4-18: Bảng kết quả 10 lần test trên tập dữ liệu Tic-Tac-Toe Endgame 54
Bảng 4-19: Kết quả tập dữ liệu Tic-Tac-Toe Endgame 54