Tập dữ liệu thực nghiệm 47
Tính toán thời gian tìm kiếm 47
Tiến hành thực nghiệm 49
Đánh giá của người dùng 51
Những cải tiến trong tương lai 53
Có thể bạn quan tâm!
- Hệ thống tìm kiếm tri thức thông minh trên miền wikihow - 1
- Thị Phần Sử Dụng Các Công Cụ Tìm Kiếm Trên Toàn Cầu Năm 2019
- Bảng Đối Chiếu Một Số Khái Niệm Của Elasticsearch Và Mysql
- Các Phương Pháp Tiếp Cận Của Bài Toán Phân Tách Từ
Xem toàn bộ 81 trang tài liệu này.
Tài liệu tham khảo 55
Phụ lục 57
Danh sách bảng
Bảng 1: Thị phần sử dụng các công cụ tìm kiếm trên toàn cầu năm 2019 9
Bảng 2: Bảng đối chiếu một số khái niệm của Elasticsearch và MySQL 14
Bảng 3: Phân tách từ trong các ngôn ngữ khác nhau 23
Bảng 4: Ma trận chỉ số tương đồng giữa các từ theo Word2vec 30
Bảng 5: Các từ tương đồng với "xinh đẹp" 39
Bảng 6: Cấu hình triển khai hệ thống tìm kiếm 48
Danh sách hình vẽ
Hình 1: Kết quả tìm kiếm của Google cho "How-to query" vi
Hình 2: Google đề xuất kết quả cho câu truy vấn dạng How-to query 2
Hình 3: Google không có kết quả trả lời nhanh cho câu hỏi How-to query trên tiếng Việt 3 Hình 4: So sánh kết quả search nội dung Tiếng Anh và Tiếng Việt trên Google 3
Hình 5: Kết quả của Google cho "How-to query" không bao gồm các bước 4
Hình 6: Trang wikiHow 5
Hình 7: Cấu trúc tổng quan hệ thống Apache lucene 11
Hình 8: Câu trả lời trực tiếp của Google 19
Hình 9: Câu trả lời ngắn của Google 20
Hình 10: Câu trả lời dài của Google 20
Hình 11: Bốn yếu tố quan trọng trong Semantic search 21
Hình 12: Các phương pháp tiếp cận của bài toán phân tách từ 24
Hình 13: Luồng xử lý của VnCoreNLP 26
Hình 14: Minh họa dữ liệu từ WikiHow 32
Hình 15: Thu thập dữ liệu và index dữ liệu vào Elasticsearch 33
Hình 16: Mô tả luồng hoạt động của cơ chế thu thập dữ liệu trên wikiHow 36
Hình 17: Bố cục của bài viết trên wikiHow 37
Hình 18: Cấu trúc lưu trữ dữ liệu bài viết của wikiHow trên database 38
Hình 19: Luồng xử lý truy vấn dữ liệu của người dùng 40
Hình 20: Vòng đời Play framework 42
Hình 21: Bố cục của ứng dụng Play 43
Hình 22: Giao diện tìm kiếm 45
Hình 23: Nội dung bài viết phù hợp với truy vấn của người dùng 46
Hình 24: Tốc độ tìm kiếm của hệ thống 49
Hình 25: Tỉ lệ tìm thấy câu trả lời dạng how-to query trên Google 50
Hình 26: Tỉ lệ tìm thấy câu trả lời trên hệ thống xây dựng 51
Hình 27: Thống kê khảo sát tính chính xác của những câu trả lời từ đánh giá của người dùng 52
Hình 28: Thống kê khảo sát tính tiện lợi của hệ thống 52
Hình 29: Thống kê khảo sát tính thân thiện với người dùng 53
Chương 1
Giới thiệu
Vấn đề
Việc tìm kiếm thông tin về một vấn đề nào đó trong thời đại công nghệ số là rất dễ dàng, chúng ta chỉ cần truy cập vào một số công cụ tìm kiếm nổi tiếng như: Google, Bing, Baidu, Ask… sau đó nhập vào vấn đề mà mình đang cần giải quyết. Với thời gian rất ngắn các công cụ tìm kiếm trên sẽ cho chúng ta các kết quả phù hợp. Và dần dần các công cụ tìm kiếm như một trợ lý đắc lực mỗi khi chúng ta chưa có giải pháp để giải quyết một vấn đề nào đó. Có thể ví dụ một số trường hợp thường gặp như: khi bạn dùng máy tính bị lỗi và bạn sẽ nghĩ ngay đến đến Google để có thể tìm cách khắc phụ sự cố này, hay một ngày đẹp trời muốn nấu cho người yêu một món ăn gì đó mới lạ thì bạn sẽ tìm thông tin và cách thức để có thể làm nó…
Google sẽ giúp bạn có những thông tin liên quan đến vấn đề bạn cần giải quyết. Các kết quả tìm kiếm sát nhất với vấn đề sẽ được trình bày bằng tiêu đề của trang web hoặc bài viết (có chứa đường dẫn đến nội dung gốc) cùng với đó là mô tả đơn giản của chúng. Sau đó người dùng sẽ vào lần lượt các đường dẫn đó và tìm kiếm giải pháp thích hợp. Điều này khiến người dùng mất khá nhiều thời gian, chính vì thế Google đã có những cải tiến để người dùng có thể nhận được câu trả lời mong muốn nhanh hơn bằng cách thêm ô đề xuất ngay trên những kết quả tìm kiếm của người dùng. Trong trường hợp Google có câu trả lời được cho là chính xác với truy vấn dạng “How-to query” của người dùng, ô đề xuất sẽ hiển thị các bước thực hiện để giải quyết vấn đề mà người dùng đang tìm kiếm:
Hình 2: Google đề xuất kết quả cho câu truy vấn dạng How-to query
Trong thực tế, Google nói riêng, các công cụ tìm kiếm nói chung không phải mọi lúc đều tìm được các kết quả phù hợp với truy vấn, nhất là trong bối cảnh đa dạng về ngôn ngữ và miền dữ liệu. Vì vậy, vẫn còn tồn tại một số hạn chế có thể kể đến như:
- Google hoạt động tốt và chính xác với các ngôn ngữ phổ biến như tiếng Anh, nhưng với tiếng Việt thì mức độ hiệu quả chưa cao nên đôi khi sẽ không hiển thị ô đề xuất:
Hình 3: Google không có kết quả trả lời nhanh cho câu hỏi How-to query trên tiếng Việt
- Google chỉ cho ra được kết quả phù hợp trên dữ liệu Tiếng Anh nhưng Tiếng Việt thì không:
Hình 4: So sánh kết quả search nội dung Tiếng Anh và Tiếng Việt trên Google
Kết quả tìm kiếm trong hình 4 cho chúng ta thấy cùng một truy vấn, khi tìm kiếm bằng tiếng Anh thì Google có kết quả dưới dạng các bước cụ thể và có hình minh họa để người dùng có thể hình dung được một cách tổng quát. Nhưng khi tìm kiếm bằng tiếng việt thì câu trả lời chỉ được biểu diễn dưới dạng một đoạn trích, và đôi khi kết quả sẽ không sát với ý của người dùng đang cần tìm kiếm.
- Kết quả tìm kiếm của Google chỉ được hiển thị một phần nội dung trong ô đề xuất nên không thân thiện với người dùng. Cùng với đó, chỉ có một phương pháp được liệt kê thay vì hiển thị nhiều phương pháp để người dùng có thể lựa chọn cho đúng mục đích cần tìm kiếm.
Hình 5: Kết quả của Google cho "How-to query" không bao gồm các bước
Phạm vi bài toán và mục tiêu nghiên cứu
Với những vấn đề được nêu bên trên, luận văn sẽ giải quyết các vấn đề còn tồn tại bằng cách:
- Xây dựng một công cụ tìm kiếm cho dạng câu truy vấn “how-to query" trong tiếng Việt, dữ liệu tập chung vào ngôn ngữ tiếng Việt.