Hệ thống tìm kiếm tri thức thông minh trên miền wikihow - 2

Tập dữ liệu thực nghiệm 47

Tính toán thời gian tìm kiếm 47

Tiến hành thực nghiệm 49

Đánh giá của người dùng 51

Những cải tiến trong tương lai 53

Có thể bạn quan tâm!

Xem toàn bộ 81 trang tài liệu này.

Tài liệu tham khảo 55

Phụ lục 57

Danh sách bảng


Bảng 1: Thị phần sử dụng các công cụ tìm kiếm trên toàn cầu năm 2019 9


Bảng 2: Bảng đối chiếu một số khái niệm của Elasticsearch và MySQL 14


Bảng 3: Phân tách từ trong các ngôn ngữ khác nhau 23


Bảng 4: Ma trận chỉ số tương đồng giữa các từ theo Word2vec 30


Bảng 5: Các từ tương đồng với "xinh đẹp" 39


Bảng 6: Cấu hình triển khai hệ thống tìm kiếm 48

Danh sách hình vẽ

Hình 1: Kết quả tìm kiếm của Google cho "How-to query" vi

Hình 2: Google đề xuất kết quả cho câu truy vấn dạng How-to query 2

Hình 3: Google không có kết quả trả lời nhanh cho câu hỏi How-to query trên tiếng Việt 3 Hình 4: So sánh kết quả search nội dung Tiếng Anh và Tiếng Việt trên Google 3

Hình 5: Kết quả của Google cho "How-to query" không bao gồm các bước 4

Hình 6: Trang wikiHow 5

Hình 7: Cấu trúc tổng quan hệ thống Apache lucene 11

Hình 8: Câu trả lời trực tiếp của Google 19

Hình 9: Câu trả lời ngắn của Google 20

Hình 10: Câu trả lời dài của Google 20

Hình 11: Bốn yếu tố quan trọng trong Semantic search 21

Hình 12: Các phương pháp tiếp cận của bài toán phân tách từ 24

Hình 13: Luồng xử lý của VnCoreNLP 26

Hình 14: Minh họa dữ liệu từ WikiHow 32

Hình 15: Thu thập dữ liệu và index dữ liệu vào Elasticsearch 33

Hình 16: Mô tả luồng hoạt động của cơ chế thu thập dữ liệu trên wikiHow 36

Hình 17: Bố cục của bài viết trên wikiHow 37

Hình 18: Cấu trúc lưu trữ dữ liệu bài viết của wikiHow trên database 38

Hình 19: Luồng xử lý truy vấn dữ liệu của người dùng 40

Hình 20: Vòng đời Play framework 42

Hình 21: Bố cục của ứng dụng Play 43

Hình 22: Giao diện tìm kiếm 45

Hình 23: Nội dung bài viết phù hợp với truy vấn của người dùng 46

Hình 24: Tốc độ tìm kiếm của hệ thống 49

Hình 25: Tỉ lệ tìm thấy câu trả lời dạng how-to query trên Google 50

Hình 26: Tỉ lệ tìm thấy câu trả lời trên hệ thống xây dựng 51

Hình 27: Thống kê khảo sát tính chính xác của những câu trả lời từ đánh giá của người dùng 52

Hình 28: Thống kê khảo sát tính tiện lợi của hệ thống 52

Hình 29: Thống kê khảo sát tính thân thiện với người dùng 53

Chương 1


Giới thiệu


Vấn đề


Việc tìm kiếm thông tin về một vấn đề nào đó trong thời đại công nghệ số là rất dễ dàng, chúng ta chỉ cần truy cập vào một số công cụ tìm kiếm nổi tiếng như: Google, Bing, Baidu, Ask… sau đó nhập vào vấn đề mà mình đang cần giải quyết. Với thời gian rất ngắn các công cụ tìm kiếm trên sẽ cho chúng ta các kết quả phù hợp. Và dần dần các công cụ tìm kiếm như một trợ lý đắc lực mỗi khi chúng ta chưa có giải pháp để giải quyết một vấn đề nào đó. Có thể ví dụ một số trường hợp thường gặp như: khi bạn dùng máy tính bị lỗi và bạn sẽ nghĩ ngay đến đến Google để có thể tìm cách khắc phụ sự cố này, hay một ngày đẹp trời muốn nấu cho người yêu một món ăn gì đó mới lạ thì bạn sẽ tìm thông tin và cách thức để có thể làm nó…

Google sẽ giúp bạn có những thông tin liên quan đến vấn đề bạn cần giải quyết. Các kết quả tìm kiếm sát nhất với vấn đề sẽ được trình bày bằng tiêu đề của trang web hoặc bài viết (có chứa đường dẫn đến nội dung gốc) cùng với đó là mô tả đơn giản của chúng. Sau đó người dùng sẽ vào lần lượt các đường dẫn đó và tìm kiếm giải pháp thích hợp. Điều này khiến người dùng mất khá nhiều thời gian, chính vì thế Google đã có những cải tiến để người dùng có thể nhận được câu trả lời mong muốn nhanh hơn bằng cách thêm ô đề xuất ngay trên những kết quả tìm kiếm của người dùng. Trong trường hợp Google có câu trả lời được cho là chính xác với truy vấn dạng “How-to query” của người dùng, ô đề xuất sẽ hiển thị các bước thực hiện để giải quyết vấn đề mà người dùng đang tìm kiếm:

Hình 2 Google đề xuất kết quả cho câu truy vấn dạng How to query Trong thực tế 7


Hình 2: Google đề xuất kết quả cho câu truy vấn dạng How-to query


Trong thực tế, Google nói riêng, các công cụ tìm kiếm nói chung không phải mọi lúc đều tìm được các kết quả phù hợp với truy vấn, nhất là trong bối cảnh đa dạng về ngôn ngữ và miền dữ liệu. Vì vậy, vẫn còn tồn tại một số hạn chế có thể kể đến như:

- Google hoạt động tốt và chính xác với các ngôn ngữ phổ biến như tiếng Anh, nhưng với tiếng Việt thì mức độ hiệu quả chưa cao nên đôi khi sẽ không hiển thị ô đề xuất:

Hình 3 Google không có kết quả trả lời nhanh cho câu hỏi How to query trên tiếng 8


Hình 3: Google không có kết quả trả lời nhanh cho câu hỏi How-to query trên tiếng Việt


- Google chỉ cho ra được kết quả phù hợp trên dữ liệu Tiếng Anh nhưng Tiếng Việt thì không:


Hình 4 So sánh kết quả search nội dung Tiếng Anh và Tiếng Việt trên Google Kết 9

Hình 4: So sánh kết quả search nội dung Tiếng Anh và Tiếng Việt trên Google

Kết quả tìm kiếm trong hình 4 cho chúng ta thấy cùng một truy vấn, khi tìm kiếm bằng tiếng Anh thì Google có kết quả dưới dạng các bước cụ thể và có hình minh họa để người dùng có thể hình dung được một cách tổng quát. Nhưng khi tìm kiếm bằng tiếng việt thì câu trả lời chỉ được biểu diễn dưới dạng một đoạn trích, và đôi khi kết quả sẽ không sát với ý của người dùng đang cần tìm kiếm.

- Kết quả tìm kiếm của Google chỉ được hiển thị một phần nội dung trong ô đề xuất nên không thân thiện với người dùng. Cùng với đó, chỉ có một phương pháp được liệt kê thay vì hiển thị nhiều phương pháp để người dùng có thể lựa chọn cho đúng mục đích cần tìm kiếm.


Hình 5 Kết quả của Google cho How to query không bao gồm các bước Phạm vi bài 10


Hình 5: Kết quả của Google cho "How-to query" không bao gồm các bước


Phạm vi bài toán và mục tiêu nghiên cứu


Với những vấn đề được nêu bên trên, luận văn sẽ giải quyết các vấn đề còn tồn tại bằng cách:

- Xây dựng một công cụ tìm kiếm cho dạng câu truy vấn “how-to query" trong tiếng Việt, dữ liệu tập chung vào ngôn ngữ tiếng Việt.

..... Xem trang tiếp theo?
⇦ Trang trước - Trang tiếp theo ⇨

Ngày đăng: 02/10/2023