Phân Lớp Dữ Liệu Mất Cân Đối Bằng Cây Quyết Định

CHƯƠNG 3. PHÂN LỚP DỮ LIỆU MẤT CÂN ĐỐI BẰNG CÂY QUYẾT ĐỊNH

Một phương pháp được đề xuất để cải tiến thay đổi và phát triển dựa trên thuật toán C4.5 bằng cách sử dụng giá trị AUC [22] thay cho Gain-entropy [21], được đặt tên AUC4.5 để phân lớp dữ liệu mất cân đối cho cả hai mục đích đó là: Mục tiêu học và độ đo đánh giá.

3.1 Đường cong Receiver Operating Characteristic (ROC)

ĐỒ THỊ ĐƯỜNG CONG ROC

1.0

0.8 B

0.6

0.4

0.2

0.0

0.0 0.2 0.4 0.6

0.8

1.0

False Positive Rate

True Positive Rate

ROC [22] là một đồ thị được sử dụng khá phổ biến trong kiểm chứng các mô hình phân loại nhị phân. Đường cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo True Positive Rate (TPR) dựa trên tỷ lệ dự báo False Positive Rate (FPR). Trong machine learning chúng ta gọi TPR là xác xuất dự báo đúng một sự kiện là Positive. FPR (là Probability of false alarm - tỷ lệ cảnh báo sai), một sự kiện là Negative nhưng coi nó là Positive và tỷ lệ này tương ứng với xác suất mắc sai lầm. Như vậy đường cong ROC sẽ thể hiện mối quan hệ, sự đánh đổi và ý nghĩa lựa chọn một mô hình phù hợp của độ nhạy và tỷ lệ cảnh báo sai. Hình 3-1: biểu diễn tỷ lệ dự báo TPR dựa trên tỷ lệ dự báo FPR.

Hình 3-1: Đồ thị ROC biểu diển một bộ phân lớp rời rạc của xác suất B

3.2 Diện tích dưới đường cong ROC

Dựa trên đường cong ROC, ta có thể chỉ ra rằng một mô hình có hiệu quả hay không. Một mô hình hiệu quả khi có FPR thấp và TPR cao, tức tồn tại một điểm trên đường cong ROC gần với điểm có toạ độ (0, 1) trên đồ thị (góc trên bên trái). Đường cong càng gần thì mô hình càng hiệu quả. Có một thông số nữa dùng để đánh giá được gọi là Area Under the Curve (AUC). Đại lượng này chính là diện tích nằm dưới đường cong ROC – phần hình được tô đường nét ô vuông. Giá trị này là một số dương nhỏ hơn hoặc bằng 1. Giá trị này càng lớn thì mô hình càng tốt.

Hình 3-2: AUC – diện tích dưới đường cong ROC của một bộ phân lớp A và một bộ phân lớp xác suất B

3.3 Độ đo đánh giá hiệu suất phân lớp

Để đánh giá một thuật toán phân lớp có hiệu quả hay không đều cần có những độ đo đánh giá. Trong phân lớp nhị phân, hiệu suất dự đoán của một bộ phân lớp thường được sử dụng ma trận nhầm lẫn (confusion matrix) [22] ở Bảng I.

Bảng 3-1: Ma trận nhầm lẫn

thể hiện hiệu suất dự đoán trong bộ phân lớp nhị phân