Hệ thống tìm kiếm tri thức thông minh trên miền wikihow - 1


ĐẠI HỌC QUỐC GIA HÀ NỘI


ĐẠI HỌC CÔNG NGHỆ


LÊ ĐỖ TÂN


HỆ THỐNG TÌM KIẾM TRI THỨC THÔNG MINH TRÊN MIỀN WIKIHOW


LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Có thể bạn quan tâm!

Xem toàn bộ 81 trang tài liệu này.


i

HÀ NỘI - 2021


ĐẠI HỌC QUỐC GIA HÀ NỘI


ĐẠI HỌC CÔNG NGHỆ


LÊ ĐỖ TÂN


HỆ THỐNG TÌM KIẾM TRI THỨC THÔNG MINH TRÊN MIỀN WIKIHOW


Ngành: Khoa học máy tính Chuyên ngành: Khoa học máy tính Mã số: 8480101.01


LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH


NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. Phạm Bảo Sơn CÁN BỘ ĐỒNG HƯỚNG DẪN: TS. Nguyễn Bá Đạt


ii

HÀ NỘI - 2021


LỜI CAM ĐOAN


“Tôi xin cam đoan các kết quả nghiên cứu, thực nghiệm được trình bày trong luận văn là do tôi thực hiện và được sự hướng dẫn của PGS.TS Phạm Bảo Sơn và Tiến sĩ Nguyễn Bá Đạt, trước đây chưa từng được sử dụng để làm luận văn thạc sĩ cho bất kỳ tổ chức giáo dục, hay trường đại học nào khác.”

LỜI CẢM ƠN


Trước tiên tôi xin bày tỏ sự cảm kích đặc biệt tới thầy giáo - PGS. TS Phạm Bảo Sơn, và thầy giáo - Tiến sĩ Nguyễn Bá Đạt đã hướng dẫn tận tình khi tôi gặp phải rắc rối hoặc có câu hỏi về vấn đề nghiên cứu của mình. Thầy vẫn luôn cho phép tôi tự do bày tỏ quan điểm đồng thời đưa ra những nhận xét, góp ý, dẫn dắt tôi đi đúng hướng trong suốt thời gian nghiên cứu, thực hiện đề tài luận văn thạc sĩ.


Tôi cũng xin cảm ơn các thầy cô trong khoa Công nghệ thông tin – Trường Đại học Công Nghệ - Đại học quốc gia Hà Nội đã truyền đạt cho tôi những kiến thức chuyên sâu về chuyên ngành trong suốt thời gian học tập để tôi có được nền tảng kiến thức hỗ trợ rất lớn cho tôi trong quá trình làm luận văn thạc sĩ.


Sau cùng tôi xin tỏ lòng biết ơn đến cha mẹ, người thân và bạn bè đã luôn bên cạnh để ủng hộ, động viên tôi trong cuộc sống để tôi có thể hoàn thành tốt luận văn thạc sĩ.


Xin chân thành cảm ơn!

LỜI MỞ ĐẦU


Trong thời đại công nghệ số, Internet phổ biến khắp thế giới, nhu cầu tìm kiếm thông tin vô cùng lớn từ tất cả các nhóm thành phần trong xã hội. Trong đó tỉ lệ tìm kiếm thông tin về cách giải quyết một vấn đề chiếm một tỉ trọng đáng kể. Chúng ta gọi những câu tìm kiếm để giải quyết một vấn đề là “How-to query”. Một số câu truy vấn điển hình như:

cách nấu món sườn xào chua ngọt”,

cách cài đặt windows 10”,

cách gỡ bỏ một ứng dụng không cần thiết trên điện thoại”,

v.v.

Giải pháp phổ biến và được xem như tốt nhất hiện nay là sử dụng công cụ tìm kiếm Google. Tuy nhiên, có khá nhiều vấn đề còn tồn tại như:

Trong khi Google hoạt động tốt và tương đối chính xác với các ngôn ngữ phổ biến như Tiếng Anh. Mức độ hiệu quả của Google với dạng How-to query còn rất hạn chế với các ngôn ngữ ít phổ biến hơn, trong đó có tiếng Việt.

Kết quả tìm kiếm trên Google chỉ đề xuất ra duy nhất một phương pháp thay vì liệt kê ra các giải pháp khác nhau để người dùng có thể chọn được kết quả phù hợp nhất.

Bố cục trình bày chỉ là một phần nhỏ trên ô đề xuất nên không được thân thiện với người dùng.

Hình 1 Kết quả tìm kiếm của Google cho How to query Trong khuôn khổ luận văn này 1


Hình 1: Kết quả tìm kiếm của Google cho "How-to query"


Trong khuôn khổ luận văn này, tôi đề xuất một giải pháp để giải quyết các vấn đề trên. Cụ thể, tôi sẽ:

- Cung cấp một công cụ tìm kiếm cho câu hỏi “How-to query” tốt hơn cho tiếng Việt.

- Các kết quả của công cụ trên sẽ biểu diễn nhiều phương pháp để giải quyết vấn đề (nếu có) để người dùng có thể lựa chọn giải pháp phù hợp nhất.

- Biểu diễn các kết quả thân thiện hơn với người dùng.

MỤC LỤC

LỜI CAM ĐOAN iii

LỜI CẢM ƠN iv

LỜI MỞ ĐẦU v

MỤC LỤC vii

Danh sách bảng x

Danh sách hình vẽ xi

Chương 1 1

Giới thiệu 1

Vấn đề 1

Phạm vi bài toán và mục tiêu nghiên cứu 4

Đóng góp của luận văn 6

Cấu trúc của luận văn 7

Chương 2 8

Kiến thức nền tảng 8

Công cụ tìm kiếm 8

2.1.1. Công cụ tìm kiếm trực tuyến 8

2.1.1.1. Tổng quan 8

2.1.1.2. Cấu trúc tổng quan các công cụ tìm kiếm trực tuyến 10

2.1.2. Công cụ tìm kiếm mã nguồn mở 11

2.1.2.1. Lucene 11

2.1.2.2. Elasticsearch 13

2.1.3. Các dạng câu trả lời nhanh của Google 19

Nền tảng về xử lý ngôn ngữ tự nhiên 21

2.2.1. Tìm kiếm ngữ nghĩa (Semantic search) 21

2.2.2. TF-IDF 22

2.2.2.1. TF – term frequency 22

2.2.2.2. IDF – inverse document frequency 22

2.2.2.3. Giá trị TF-IDF 23

2.2.3. Phân tách từ (word segmentation) 23

2.2.4. Gán nhãn từ loại (Part of speech tagging – POSTag) 25

Công cụ hỗ trợ 25

2.3.1. VnCoreNLP 25

2.3.2. Word2vec 26

2.3.3. Elasticsearch 27

Chương 3 28

Hệ thống tìm kiếm tri thức trên miền Wikihow 28

Tính toán độ tương đồng giữa hai câu văn 28

Tập dữ liệu 30

Xây dựng hệ thống 33

3.3.1. Thu thập dữ liệu từ wikiHow và index dữ liệu vào Elasticsearch 33

3.3.1.1. Thu thập dữ liệu từ trang web wikiHow 33

3.3.1.2. Index dữ liệu vào công cụ ElasticSearch 38

3.3.2. Tìm kiếm bài viết phù hợp với truy vấn 40

3.3.3. Xây dựng website tìm kiếm tri thức trên miền wikiHow 41

3.3.3.1. Xây dựng cơ sở dữ liệu với MySQL 41

3.3.3.2. ElasticSearch server 41

3.3.3.3. Backend server sử dụng Play framework 41

3.3.3.4. Xây dựng giao diện người dùng với AngularJs 43

Chương 4 47

Thực nghiệm và kết luận 47

..... Xem trang tiếp theo?
⇦ Trang trước - Trang tiếp theo ⇨

Ngày đăng: 02/10/2023