Sử dụng cây quyết định phân lớp dữ liệu mất cân đối - 8


4.4.2 Kết quả tám tập dữ liệu sau khi kiểm tra tập DTest 10 lần.


Bảng 4-3: Kết quả thực nghiệm trên tập 𝐃𝐓𝐞𝐬𝐭 qua 10 lần kiểm tra.


Classifier

TPR

FPR

AUC

1. Wine Quality – Red

SC4.5

0.000

0.000

0.500

CSC4.5

0.000

0.000

0.500

AUC4.5

TPRmean=0.667

FPRmean = 0.685

AUCmean = 0.491

2. Nursery

SC4.5

0.523

0.005

0.759

CSC4.5

0.963

0.037

0.963

AUC4.5

TPRmean=0.947

FPRmean = 0.005

AUCmean = 0.971

3. Car Evaluation

SC4.5

0.591

0.016

0.787

CSC4.5

1.000

0.094

0.953

AUC4.5

TPRmean=1.000

FPRmean = 0.000

AUCmean = 1.000

4. Ecoli

SC4.5

0.714

0.029

0.843

CSC4.5

0.857

0.076

0.890

AUC4.5

TPRmean=0.971

FPRmean = 0.165

AUCmean = 0.905

5. Mushroom

SC4.5

1.000

0.000

1.000

CSC4.5

1.000

0.000

1.000

AUC4.5

TPRmean=1.000

FPRmean = 0.000

AUCmean = 1.000

6. Wine Quality – White

SC4.5

0.478

0.107

0.686

CSC4.5

0.577

0.158

0.709

AUC4.5

TPRmean=0.610

FPRmean = 0.335

AUCmean = 0.637

7. Contraceptive Method Choice

SC4.5

0.225

0.076

0.574

CSC4.5

0.333

0.092

0.621

AUC4.5

TPRmean=0.661

FPRmean = 0.430

AUCmean = 0.616

8. Tic-Tac-Toe Endgame

SC4.5

0.631

0.062

0.784

CSC4.5

0.640

0.062

0.789

AUC4.5

TPRmean=0.766

FPRmean = 0.107

AUCmean = 0.829

Có thể bạn quan tâm!

Xem toàn bộ 81 trang tài liệu này.

Sử dụng cây quyết định phân lớp dữ liệu mất cân đối - 8


AUC values

THỰC NGHIỆM VÀ ĐÁNH GIÁ



1.100

1.000

0.900

0.800

0.700

0.600

0.500

0.400

0.300

0.200

0.100


0.000



– Red


Evaluation



– White

Method Choice

Endgame

SC4.5

0.500

0.759

0.787

0.843

1.000

0.686

0.574

0.784

CSC4.5

0.500

0.963

0.953

0.890

1.000

0.709

0.621

0.789





























KẾT QUẢ GIÁ TRỊ AUCmean CỦA CÁC BỘ PHÂN LỚP

1. Wine Quality

2. Nursey

3. Car

4. Ecoli

5. Mushroom

6. Wine Quality 7. Contraceptive 8. Tic-Tac-Toe

AUC4.5(mean)

0.491

0.971

1.000

0.905

1.000

0.637

0.616

0.829

Hình 4-1: Đồ thị so sánh kết quả AUCmean của tập DTest


47


4.4.3 Phân tích trên từng tập dữ liệu.


Wine Quality – Red: Thuộc tính liên tục = 12, tỉ lệ lớp thiểu số = 1.13%, đây là tỉ lệ lớp thiểu số nhỏ nhất (mất cân đối lớn nhất) trong các tập dữ liệu nghiên cứu.

Bảng 4-4: Bảng kết quả 10 lần test trên tập dữ liệu Wine Quality – Red


Lần test

TPR

FPR

AUC

Phương sai

Độ lệch chuẩn

1

1.000

0.852

0.574



2

1.000

0.843

0.579

3

0.000

0.301

0.350

4

0.833

0.839

0.497

5

0.833

0.728

0.553

6

0.000

0.347

0.327

7

1.000

0.983

0.509

8

0.833

0.835

0.499

9

0.167

0.314

0.426

10

1.000

0.803

0.599


TPRmean=0.667

FPRmean=0.685

AUCmean=0.491

0.00906

0.09520

Nguồn từ: nghiên cứu của tác giả


Bảng 4-5: Kết quả tập dữ liệu Wine Quality – Red


Classifier

TPR

FPR

AUC

SC4.5

0.000

0.000

0.500

CSC4.5

0.000

0.000

0.500

AUC4.5

TPRmean = 0.667

FPRmean = 0.685

AUCmean = 0.491

Thuật toán SC4.5 và CSC4.5, có TPR = 0 và FPR = 0, có nghĩa hai thuật toán SC4.5 và CSC4.5 không phân lớp chính xác được bất kỳ giá trị nào của lớp thiểu số.

Trong khi đó, thuật toán AUC4.5, mặc dù AUCmean = 0.491 thấp hơn chút đỉnh so với thuật

toán SC4.5 và CSC4.5 (AUC = 0.500). Nhưng với giá trị TPRmean = 0.667, nói lên thuật toán AUC4.5 đã phân lớp chính xác được một số giá trị của lớp thiểu số, mặc dù kết quả không cao.


Ngoài ra, tập Wine Quality – Red giá trị của thuộc tính thuộc loại liên tục, biến động dữ liệu rất lớn trên từng thuộc tính. Ảnh hưởng lớn đến quá trình phân lớp. Trong các tập dữ liệu đem kiểm tra, thì tập Wine Quality – Red, kết quả kiểm tra có độ lệch chuẩn = 0.095199 cao nhất.

Nursery: Thuộc tính rời rạc = 9, tỉ lệ lớp thiểu số = 2.53%.


Bảng 4-6: Bảng kết quả 10 lần test trên tập dữ liệu Nursery


Lần test

TPR

FPR

AUC

Phương sai

Độ lệch chuẩn

1

0.933

0.007

0.963



2

0.950

0.005

0.973

3

0.929

0.004

0.963

4

0.962

0.004

0.979

5

0.932

0.005

0.963

6

0.932

0.005

0.963

7

0.954

0.008

0.973

8

0.927

0.005

0.961

9

0.977

0.005

0.986

10

0.977

0.006

0.986


TPRmean=0.947

FPRmean=0.005

AUCmean=0.971

0.0001

0.00988

Nguồn từ: nghiên cứu của tác giả


Bảng 4-7: Kết quả tập dữ liệu Nursery


Classifier

TPR

FPR

AUC

SC4.5

0.523

0.005

0.759

CSC4.5

0.963

0.037

0.963

AUC4.5

TPRmean = 0.947

FPRmean = 0.005

AUCmean = 0.971

Thuật toán AUC4.5 cho kết quả tốt, với AUCmean = 0.971 lớn hơn rất nhiều so với thuật toán

chuẩn SC4.5 với AUC = 0.759. Còn với thuật toán CSC4.5 với AUC = 0.963 thì có nhỉnh hơn đôi chút. Mặt khác, tập Nursery có giá trị thuộc tính thuộc loại rời rạc, ổn định, nên phân bố AUC trong 10 lần kiểm tra khá gần nhau dẫn đến độ lệch chuẩn = 0.009877 khá bé.

Car Evaluation: Thuộc tính rời rạc = 6, tỉ lệ lớp thiểu số = 3.76%.


Bảng 4-8: Bảng kết quả 10 lần test trên tập dữ liệu Car Evaluation


Lần test

TPR

FPR

AUC

Phương sai

Độ lệch chuẩn

1

1.000

0.000

1.000



2

1.000

0.000

1.000

3

1.000

0.000

1.000

4

1.000

0.000

1.000

5

1.000

0.000

1.000

6

1.000

0.000

1.000

7

1.000

0.000

1.000

8

1.000

0.000

1.000

9

1.000

0.000

1.000

10

1.000

0.000

1.000


TPRmean=1.000

FPRmean=0.000

AUCmean=1.000

0.0000

0.0000

Nguồn từ: nghiên cứu của tác giả


Bảng 4-9: Kết quả tập dữ liệu Car Evaluation


Classifier

TPR

FPR

AUC

SC4.5

0.591

0.016

0.787

CSC4.5

1.000

0.094

0.953

AUC4.5

TPRmean = 1.000

FPRmean = 0.000

AUCmean = 1.000

Thuật toán AUC4.5 cho kết quả vượt trội, với AUCmean = 1.000, phân lớp chính xác 100% lớp

thiểu số và lớp đa số qua các lần kiểm tra. Trong khi thuật toán chuẩn SC4.5 với AUC = 0.787 và thuật toán CSC4.5 với AUC = 0.953 vẫn còn sai sót trong phân lớp nhầm lớp đa số và lớp thiểu số. Tập dữ liệu Car Evaluation có giá trị thuộc tính thuộc loại rời rạc, ổn định, nên phân bố AUC trong 10 lần kiểm tra không thay đổi, đến độ lệch chuẩn = 0.0000.

Ecoli: Thuộc tính liên tục = 8, thuộc tính rời rạc = 1, tỉ lệ lớp thiểu số = 5.95%.


Bảng 4-10: Bảng kết quả 10 lần test trên tập dữ liệu Ecoli


Lần test

TPR

FPR

AUC

Phương sai

Độ lệch chuẩn

1

1.000

0.058

0.971




2

1.000

0.125

0.938



3

1.000

0.163

0.918

4

0.857

0.058

0.900

5

1.000

0.202

0.899

6

1.000

0.212

0.894

7

0.857

0.077

0.890

8

1.000

0.231

0.885

9

1.000

0.250

0.875

10

1.000

0.250

0.875


TPRmean=0.971

FPRmean=0.165

AUCmean=0.905

0.00091

0.03022

Nguồn từ: nghiên cứu của tác giả


Bảng 4-11: Kết quả tập dữ liệu Ecoli


Classifier

TPR

FPR

AUC

SC4.5

0.714

0.029

0.843

CSC4.5

0.857

0.076

0.890

AUC4.5

TPRmean = 0.971

FPRmean = 0.165

AUCmean = 0.905

Mặc dù thuật toán AUC4.5 cho kết quả tốt, với AUCmean = 0.905 cho kết quả phân loại cao hơn

so với thuật toán chuẩn SC4.5 với AUC = 0.843 và thuật toán CSC4.5 với AUC = 0.875. Trong 10 lần kiểm tra, có đến 8 lần cho kết quả 100% phân loại lớp thiểu số trong tập dữ liệu mất cân đối.

Tuy nhiên, tập Ecoli có độ lệch chuẩn = 0.03022 chỉ thấp hơn tập Wine Quality – Red, cao hơn các tập dữ liệu mà tác giả nghiên cứu. Chứng tỏ tập dữ liệu có thuộc tính kiểu liên tục ảnh hưởng rất lớn đến thuật toán AUC4.5.

Mushroom: Thuộc tính rời rạc = 22, tỉ lệ lớp thiểu số = 7.60%.


Bảng 4-12: Bảng kết quả 10 lần test trên tập dữ liệu Mushroom


Lần test

TPR

FPR

AUC

Phương sai

Độ lệch chuẩn

1

1.000

0.000

1.000



2

1.000

0.000

1.000

3

1.000

0.000

1.000


4

1.000

0.000

1.000



5

1.000

0.000

1.000

6

1.000

0.000

1.000

7

1.000

0.000

1.000

8

1.000

0.000

1.000

9

1.000

0.000

1.000

10

1.000

0.000

1.000


TPRmean=1.000

FPRmean=0.000

AUCmean=1.000

0.00000

0.00000

Nguồn từ: nghiên cứu của tác giả


Bảng 4-13: Kết quả tập dữ liệu Mushroom


Classifier

TPR

FPR

AUC

SC4.5

1.000

0.000

1.000

CSC4.5

1.000

0.000

1.000

AUC4.5

TPRmean = 1.000

FPRmean = 0.000

AUCmean = 1.000

Cả 3 Thuật toán AUC4.5, thuật toán chuẩn SC4.5 và thuật toán CSC4.5 đều cho kết quả phân lớp chính xác 100% ở lớp đa số và lớp thiểu số. Lại một nữa khẳng định, tập dữ liệu với thuộc tính có giá trị kiểu rời rạc, cho kết quả phân lớp tốt hơn thuộc tính có giá trị kiểu liên tục.

Wine Quality – White: Thuộc tính liên tục = 12, tỉ lệ lớp thiểu số = 17.97%.


Bảng 4-14: Bảng kết quả 10 lần test trên tập dữ liệu Wine Quality – White


Lần test

TPR

FPR

AUC

Phương sai

Độ lệch chuẩn

1

0.546

0.265

0.640



2

0.409

0.180

0.614

3

0.639

0.313

0.663

4

0.742

0.373

0.685

5

0.698

0.468

0.615

6

0.595

0.263

0.666

7

0.467

0.199

0.634

8

0.818

0.576

0.621

9

0.632

0.379

0.627

10

0.557

0.348

0.605



TPRmean=0.610

FPRmean=0.335

AUCmean=0.637

0.00069

0.02631

Nguồn từ: nghiên cứu của tác giả


Bảng 4-15: Kết quả tập dữ liệu Wine Quality – White


Classifier

TPR

FPR

AUC

SC4.5

0.478

0.107

0.686

CSC4.5

0.577

0.158

0.709

AUC4.5

TPRmean = 0.610

FPRmean = 0.335

AUCmean = 0.637

Thuật toán AUC4.5 cho kết quả AUCmean = 0.637 thấp hơn chút đỉnh so với thuật toán SC4.5

và CSC4.5. Nhưng với giá trị TPRmean = 0.610 cao hơn nói lên thuật toán AUC4.5 đã phân lớp chính xác hơn trên lớp thiểu số so với thuật toán SC4.5 và CSC4.5, mặc dù kết quả không cao.

Ngoài ra, tập Wine Quality – White giá trị của thuộc tính thuộc loại liên tục. Ảnh hưởng lớn đến quá trình phân lớp. Kết quả kiểm tra có độ lệch chuẩn = 0.02631.

Contraceptive Method Choice: Thuộc tính liên tục=9, tỉ lệ lớp thiểu số=22.61%.


Bảng 4-16: Bảng kết quả 10 lần test trên tập dữ liệu Contraceptive Method Choice


Lần test

TPR

FPR

AUC

Phương sai

Độ lệch chuẩn

1

0.714

0.432

0.641



2

0.738

0.472

0.633

3

0.529

0.370

0.579

4

0.667

0.413

0.627

5

0.734

0.530

0.602

6

0.604

0.386

0.609

7

0.642

0.414

0.614

8

0.600

0.351

0.624

9

0.718

0.448

0.635

10

0.664

0.482

0.591


TPRmean=0.661

FPRmean=0.430

AUCmean=0.616

0.00041

0.02028

Nguồn từ: nghiên cứu của tác giả

..... Xem trang tiếp theo?
⇦ Trang trước - Trang tiếp theo ⇨

Ngày đăng: 18/02/2023