Sử dụng cây quyết định phân lớp dữ liệu mất cân đối - 1




TRƯỜNG ĐẠI HỌC NGOẠI NGỮ TIN HỌC THÀNH PHỐ HỒ CHÍ MINH


LÊ THANH PHONG


SỬ DỤNG CÂY QUYẾT ĐỊNH PHÂN LỚP DỮ LIỆU MẤT CÂN ĐỐI


LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN

Mã số: 60 48 02 01


TRƯỜNG ĐẠI HỌC NGOẠI NGỮ TIN HỌC THÀNH PHỐ HỒ CHÍ MINH

LÊ THANH PHONG SỬ DỤNG CÂY QUYẾT ĐỊNH PHÂN LỚP DỮ LIỆU MẤT CÂN ĐỐI LUẬN 1


LÊ THANH PHONG


SỬ DỤNG CÂY QUYẾT ĐỊNH PHÂN LỚP DỮ LIỆU MẤT CÂN ĐỐI


LUẬN VĂN THẠC SỸ

Ngành: CÔNG NGHỆ THÔNG TIN Mã số: 60 48 02 01


NGƯỜI HƯỚNG DẪN KHOA HỌC PGS. TS. LÊ HOÀI BẮC


CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI


TRƯỜNG ĐẠI HỌC NGOẠI NGỮ - TIN HỌC THÀNH PHỐ HỒ CHÍ MINH


Người hướng dẫn khoa học: PGS. TS. Lê Hoài Bắc


- Học viên đã bảo vệ thành công luận văn ngày 04 tháng 06 năm 2019, tại Hội đồng đánh giá luận văn thạc sĩ thành lập theo Quyết định số …. ngày …. /…./2019 của Hiệu trưởng Trường ĐH Ngoại ngữ -Tin học TP.HCM, với sự tham gia của:


Chủ tịch Hội đồng: PGS.TS. Phạm Thế Bảo Phản biện 1: TS. Trần Minh Thái

Phản biện 2: TS. Đặng Trường Sơn Ủy viên: PGS.TS Nguyễn Thanh Bình Thư ký: TS. Nguyễn Đức Cường


- Có thể tìm hiểu Luận văn tại Thư viện của Trường ĐH Ngoại ngữ - Tin học TPHCM, hoặc trên cổng thông tin điện tử, website của đơn vị quản lý sau đại học của Trường.


LỜI CAM ĐOAN


Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác.

Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc.

TPHCM, ngày 25 tháng 10 năm 2018 Tác giả luận văn


Lê Thanh Phong


LỜI CẢM ƠN


Lời đầu tôi xin chân thành cảm ơn PGS. TS. Lê Hoài Bắc đã tận tình hướng dẫn cũng như cung cấp tài liệu thông tin khoa học cần thiết cho luận văn này.

Xin chân thành cảm ơn Lãnh đạo trường Đại học Ngoại ngữ Tin học Thành Phố Hồ Chí Minh, Ban Sau Đại Học, Khoa Công Nghệ Thông Tin đã tạo điều kiện cho tôi hoàn thành tốt công việc nghiên cứu khoa học của mình.

Cuối cùng, tôi xin chân thành cảm ơn đến gia đình, các anh chị và các bạn đồng nghiệp, đơn vị công tác đã hỗ trợ cho tôi rất nhiều trong suốt quá trình học tập, nghiên cứu và thực hiện đề tài luận văn thạc sĩ một cách hoàn chỉnh.

Tôi xin chân thành cảm ơn!


Tác giả


Lê Thanh Phong


DANH MỤC VIẾT TẮT


STT

Từ viết tắt

Ý nghĩa

1

AUC

Area Under the ROC Curve

2

CLS

Concept Learning System

3

CSC4.5

Cost-Sensitive C4.5

4

CSDL

Cơ Sở Dữ Liệu

5

FN

False Negative

6

FP

False Positive

7

FPR

False Positive Rate

8

ID3

Interactive Dichotomizer 3

9

ILA

Inductive Learning Algorithm

10

KTDL

Khai Thác Dữ Liệu

11

MDL

Minimum Description Length

12

NB

Naïve Bayes

13

ROC

Receiver Operating Characteristic

14

SC4.5

Standard C4.5

15

SQL

Structured Query Language

16

TN

True Negative

17

TP

True Positive

18

TPR

True Positive Rate

19

UCI

University of California Irvine (Machine Learning Repository)

Có thể bạn quan tâm!

Xem toàn bộ 81 trang tài liệu này.

Sử dụng cây quyết định phân lớp dữ liệu mất cân đối - 1


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 2-1: Quá trình khai thác dữ liệu 7

Hình 2-3: Quá trình phân lớp dữ liệu - Bước xây dựng mô hình phân lớp 9

Hình 2-4: Quá trình phân lớp dữ liệu – Ước lượng độ chính xác mô hình 10

Hình 2-5: Quá trình phân lớp dữ liệu – Phân lớp dữ liệu mới 11

Hình 2-6: Mô hình ứng dụng luật 15

Hình 2-7: Phương pháp Holdout 28

Hình 2-8: K-Fold Coss–Validation 29

Hình 3-1: Đồ thị ROC biểu diển một bộ phân lớp rời rạc của xác suất B 30

Hình 3-2: AUC – diện tích dưới đường cong ROC của một bộ phân lớp A 31

Hình 3-3: Cây quyết định với thuật toán C4.5 bằng cách giảm nhiều impurity 40

Hình 3-4: Cây quyết định với thuật toán AUC4.5 bằng cách gia tăng giá trị AUC 43

Hình 4-1: Đồ thị so sánh kết quả AUCmean của tập DTest 47

DANH MỤC CÁC BẢNG BIỂU


Bảng 3-1: Ma trận nhầm lẫn 32


Bảng 3-2: Mô tả tập dữ liệu mất cân đối. 39


Bảng 4-1: Tập dữ liệu với số phần tử lớp thiểu số 44


Bảng 4-2: Phương sai, độ lệch chuẩn trên toàn bộ các tập dữ liệu 45


Bảng 4-3: Kết quả thực nghiệm trên tập DTest qua 10 lần kiểm tra. 46


Bảng 4-4: Bảng kết quả 10 lần test trên tập dữ liệu Wine Quality – Red 48


Bảng 4-5: Kết quả tập dữ liệu Wine Quality – Red 48


Bảng 4-6: Bảng kết quả 10 lần test trên tập dữ liệu Nursery 49


Bảng 4-7: Kết quả tập dữ liệu Nursery 49


Bảng 4-8: Bảng kết quả 10 lần test trên tập dữ liệu Car Evaluation 50


Bảng 4-9: Kết quả tập dữ liệu Car Evaluation 50


Bảng 4-10: Bảng kết quả 10 lần test trên tập dữ liệu Ecoli 50


Bảng 4-11: Kết quả tập dữ liệu Ecoli 51


Bảng 4-12: Bảng kết quả 10 lần test trên tập dữ liệu Mushroom 51


Bảng 4-13: Kết quả tập dữ liệu Mushroom 52


Bảng 4-14: Bảng kết quả 10 lần test trên tập dữ liệu Wine Quality – White 52


Bảng 4-15: Kết quả tập dữ liệu Wine Quality – White 53


Bảng 4-16: Bảng kết quả 10 lần test trên tập dữ liệu Contraceptive Method Choice 53


Bảng 4-17: Kết quả tập dữ liệu Contraceptive Method Choice 54


Bảng 4-18: Bảng kết quả 10 lần test trên tập dữ liệu Tic-Tac-Toe Endgame 54


Bảng 4-19: Kết quả tập dữ liệu Tic-Tac-Toe Endgame 54

Ngày đăng: 18/02/2023