Phương pháp khai thác theo chiều ngang để trích xuất các tập phổ biến - 1


BỘ GIÁO DỤC VÀ ĐÀO TẠO


TRƯỜNG ĐẠI HỌC NGOẠI NGỮ - TIN HỌC THÀNH PHỐ HỒ CHÍ MINH


NGUYỄN QUÝ TÍN


PHƯƠNG PHÁP KHAI THÁC THEO CHIỀU NGANG ĐỂ TRÍCH XUẤT CÁC TẬP PHỔ BIẾN


LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN

Mã số: 60480201


TP. HỒ CHÍ MINH – tháng 06 năm 2019


BỘ GIÁO DỤC VÀ ĐÀO TẠO


TRƯỜNG ĐẠI HỌC NGOẠI NGỮ - TIN HỌC THÀNH PHỐ HỒ CHÍ MINH


NGUYỄN QUÝ TÍN


PHƯƠNG PHÁP KHAI THÁC THEO CHIỀU NGANG ĐỂ TRÍCH XUẤT CÁC TẬP PHỔ BIẾN


LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN

Mã số: 60480201


NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. CAO TÙNG ANH


TP. HỒ CHÍ MINH – tháng 06 năm 2019


CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI

TRƯỜNG ĐẠI HỌC NGOẠI NGỮ - TIN HỌC THÀNH PHỐ HỒ CHÍ MINH


Người hướng dẫn khoa học: TS. Cao Tùng Anh


- Học viên đã bảo vệ thành công luận văn ngày 04 tháng 06 năm 2019, tại Hội đồng đánh giáluận văn thạc sĩ thành lập theo Quyết định số …. ngày …. /…./2019 của Hiệu trưởng Trường ĐH Ngoại ngữ -Tin học TP.HCM, với sự tham gia của:


Chủ tịch Hội đồng: PGS.TS. Phạm Thế Bảo Phản biện 1: TS. Trần Minh Thái

Phản biện 2: PGS.TS. Lê Hoàng Thái


Ủy viên: PGS.TS Nguyễn Thanh Bình


Thư ký: TS. Nguyễn Đức Cường


- Có thể tìm hiểu Luận văn tại Thư viện Trường ĐH Ngoại ngữ-Tin học TP HCM, hoặc trên cổng thông tin điện tử, website của đơn vị quản lý sau đại học của Trường.


LỜI CAM ĐOAN


Tôi xin cam đoan nội dung của luận văn này là công trình nghiên cứu của chính bản thân tôi. Tất cả các tài liệu tham khảo từ các nghiên cứu có liên quan đều đã được nêu rõ nguồn gốc trong phần tài liệu tham khảo. Các số liệu, kết quả nêu trong luận văn do tôi tự thực nghiệm.

Tác giả luận văn


Nguyễn Quý Tín

LỜI CẢM ƠN


Tôi xin bày tỏ lòng biết ơn sâu sắc đến Thầy, TS. Cao Tùng Anh, người đã hết lòng hướng dẫn, động viên và giúp đỡ cho tôi hoàn thành luận văn này.

Tôi cũng xin chân thành gửi lời cám ơn đến quý Thầy Cô trường Đại Học Ngoại ngữ - Tin học TP.HCM đã tận tình dạy dỗ, chỉ bảo kiến thức quý báu giúp tôi hoàn thành khóa học đúng tiến độ và là nền tảng cho nghiên cứu của mình. Xin cảm ơn Ban Hợp tác và Đào tạo Sau đại học đã nhiệt tình hỗ trợ trong suốt quá trình học tập tại trường.

Cuối cùng, xin chân thành cảm ơn cha mẹ, vợ, bạn bè và đồng nghiệp đã khích lệ, động viên, tạo điều kiện thuận lợi cho tôi trong suốt thời gian thực hiện luận văn.

TP. HCM, tháng 06 năm 2019 Tác giả luận văn


Nguyễn Quý Tín

TÓM TẮT

Khai thác tập phổ biến là một trong những phương pháp khai thác dữ liệu quan trọng nhất được sử dụng rộng rãi để trích xuất các quy tắc kết hợp hiệu quả từ khối lượng lớn dữ liệu. Một số thuật toán đã được đề xuất để khai thác các tập phổ biến như: Apriori, FP-Growth,… được áp dụng trong nhiều lĩnh vực. Vì thuật toán khai thác tập phổ biến truyền thống tạo ra một số lượng lớn các tập phổ biến. Hơn nữa, sự bùng nổ tổ hợp của các tập hợp trong bộ dữ liệu rất lớn làm khó khăn thêm trong khai thác. Trong luận văn này sẽ nghiên cứu cài đặt một thuật toán hiệu quả hơn, để tiến hành khai thác các tập phổ biến trong các tập dữ liệu rất lớn. Thuật toán Mining Row Item Horizontal (MRIH), sử dụng phương pháp khai thác từ dưới lên theo chiều ngang để thiết lập một sự cân bằng giữa kích thước ngang và dọc của cơ sở dữ liệu đầu vào của mỗi cấp khai thác. Với mục đích này, mỗi cơ sở dữ liệu sẽ được sắp xếp theo thứ tự tăng dần độ phổ biến của các hạng mục. Trong thuật toán, cơ sở dữ liệu giao tác chính được chia thành một số cơ sở dữ liệu nhỏ hơn và do đó giảm kích thước của vấn đề khai thác ở mỗi cấp. Kết quả thử nghiệm cho thấy rằng thuật toán đạt được hiệu quả khai thác tốt trên một số các tập dữ liệu đầu vào khác nhau. Hơn nữa, nghiên cứu về hiệu suất cho thấy rằng thuật toán này tốt hơn đáng kể.

DANH MỤC CÁC KÝ HIỆU VIẾT TẮT


KÍ HIỆU

Ý NGHĨA TIẾNG ANH

Ý NGHĨA TIẾNG VIỆT

BFS

Breadth First Search

Tìm kiếm theo chiều rộng

cond

Conditional

Điều kiện

CSDL

Database

Cơ sở dữ liệu

DB

Transaction database of

conditional database

Cơ sở dữ liệu giao tác có điều

kiện

DB|i

Transaction database of

conditional database i

Cơ sở dữ liệu giao tác có điều

kiện i

DFS

Depth-first search

Tìm kiếm theo chiều sâu

F.C.I

Frequent closed itemset

Tập phổ biến đóng

FI

Frequent Itemset

Tập phổ biến

FP-array

Frequent Pairs Array

Mảng phổ biến

FP-Tree

Frequent Pattern Tree

Cây phổ biến

Item

Items

Hạng mục

Itemset

Itemset

Tập hạng mục

minsup

Minsup

Độ phổ biến tối thiểu

MRIH

Mining Row Item Horizontal

Thuật toán khai thác theo

phương pháp ngang


PIETM

Principle of Inclusion– Exclusion and Transaction Mapping

Thuật toán khai thác tập phổ biến dựa trên nguyên lý Bao gồm - Loại trừ và ánh xạ giao

tác

rowset

Rowset

Tập dòng

sup

Support

Độ phổ biến

TDB

Transaction Database

Cơ sở dữ liệu giao tác

tid

Transaction ID

Mã giao tác

tid-list

Transaction ID-List

Danh sách mã giao tác

Có thể bạn quan tâm!

Xem toàn bộ 84 trang tài liệu này.

Phương pháp khai thác theo chiều ngang để trích xuất các tập phổ biến - 1

DANH MỤC CÁC BẢNG

Bảng 2.1 Cơ sở dữ liệu mẫu 7

Bảng 2.2 Cơ sở dữ liệu mẫu hạng mục được sắp xếp 9

Bảng 2.3 Minh họa dữ liệu định dạng theo chiều dọc 10

Bảng 2.4 Minh họa dữ liệu biểu diễn bằng ma trận bit 11

Bảng 2.5 Các tập phổ biến có 1 danh mục 13

Bảng 2.6 Các tập phổ biến có 2 danh mục 14

Bảng 2.7 Các tập phổ biến có 3 danh mục 14

Bảng 2.8 Các tập phổ biến có 4 danh mục 15

Bảng 2.9 Cơ sở dữ liệu dùng làm dữ liệu xây dựng cây FP-Tree 17

Bảng 2.10 Minh họa các hạng mục phổ biến trong mỗi giao tác 17

Bảng 2.11 Bảng kết quả cây FP-Tree điều kiện từ mỗi cơ sở mẫu điều kiện 23

Bảng 2.12 CSDL giao tác gồm 5 giao tác và 5 hạng mục 26

Bảng 2.13 CSDL giao tác gồm 8 giáo tác và 17 hạng mục 31

Bảng 2.14 Danh sách các khoảng giao tác 33

Bảng 2.15 Kết hợp các khoảng giao tác 34

Bảng 2.16 Khai thác tập phổ biến bằng PIETM 35

Bảng 3.1 Tập dữ liệu D được cắt tỉa với minsup=2 42

Bảng 3.2 Ma trận bit tập dữ liệu giao tác I 46

Bảng 3.3 Ma trận bit D sau khi lược bỏ các cột không thỏa minsup = 2 47

Bảng 3.4 Ma trận bit d-cond D sau khi lược bỏ cột d với minsup = 2 47

Bảng 3.5 Ma trận bit chuyển đổi từ tập phần tử tương ứng với bảng 3.4 47

Bảng 3.6 Ma trận bit Tỉa d-cond D 47

Bảng 4.1 Bảng mô tả CSDL mẫu (Dataset.txt) 51

Bảng 4.2 Bảng mô tả các CSDL 51

Xem tất cả 84 trang.

Ngày đăng: 18/02/2023
Trang chủ Tài liệu miễn phí