- Khung tìm kiếm và các kết quả phù hợp với truy vấn:
Hình 22: Giao diện tìm kiếm
- Nội dung của bài viết liên quan đến truy vấn của người dùng:
Hình 23: Nội dung bài viết phù hợp với truy vấn của người dùng
Chương 4
Thực nghiệm và kết luận
Tập dữ liệu thực nghiệm
Hiện nay chưa có một tập dữ liệu chuẩn nào để đánh giá lời giải cho vấn đề tìm kiếm cho câu hỏi “How-to query”. Chính vì vậy trước khi trước khi tiến hành thực nghiệm tôi đã khảo sát 20 người để thu thập được 200 câu hỏi ngẫu nhiên dạng “how-to query” ở các lĩnh vực khác nhau trong đời sống. Sau đó sẽ dùng tập câu hỏi từ người dùng để xem hệ thống của tôi có thể có câu trả lời cho bao nhiêu câu hỏi, và những câu trả lời đó có làm hài lòng người dùng như thế nào qua các đánh giá của người dùng qua các tiêu chí như:
- Mức độ hài lòng về các câu trả lời liên quan đến câu truy vấn.
- Tốc độ tìm kiếm.
- Tính thân thiện với người dùng.
Cùng với đó tôi sẽ đo đạc hiệu quả của công cụ tìm kiếm qua thời gian thực hiện tìm kiếm với mỗi query trong trường hợp có một hoặc nhiều truy vấn cùng gửi đến server. Qua đó để đánh giá được khả năng đáp ứng lượng người dùng lớn của hệ thống.
Tính toán thời gian tìm kiếm
Để tiến hành đánh giá tốc độ tìm kiếm và khả năng đáp ứng nhu cầu của hệ thống, tôi sẽ tiến thành thực hiện đo đạc thời gian phản hồi của hệ thống với các truy vấn. Hệ thống sẽ được triển khai trên máy tính có cấu hình như bảng dưới đây:
Windows 10 | |
CPU | Intel Core i7 – 1050U Số core: 4 Số thread: 8 |
RAM | 16GB |
Card đồ họa | Card on board |
Có thể bạn quan tâm!
- Các Phương Pháp Tiếp Cận Của Bài Toán Phân Tách Từ
- Ma Trận Chỉ Số Tương Đồng Giữa Các Từ Theo Word2Vec
- Cấu Trúc Lưu Trữ Dữ Liệu Bài Viết Của Wikihow Trên Database
- Hệ thống tìm kiếm tri thức thông minh trên miền wikihow - 9
- Hệ thống tìm kiếm tri thức thông minh trên miền wikihow - 10
Xem toàn bộ 81 trang tài liệu này.
Hệ điều hành
Bảng 6: Cấu hình triển khai hệ thống tìm kiếm
Tôi tiến hành thực hiện truy vấn đa luồng, tức là sẽ gửi nhiều truy vấn (requests) vào cùng một thời điểm để tính toán thời gian nhanh nhất, chậm nhất của kết quả trả về từ hệ thống. Mỗi lần kiểm tra, bộ dữ liệu sẽ được lặp lại 10 lần để tính thời gian trung bình. Điều này mô phỏng lại tương tự việc có nhiều người dùng (users) cùng vào hệ thống để thực hiện truy vấn. Kết quả được thống kê như hình 24:
Trong hình 24, trục tung biểu diễn thời gian phản hồi của các câu trả lời của hệ thống được tính theo mili giây và trục hoành là số lượng truy vấn được gửi cùng 1 lúc.
320
300
280
260
240
220
200
180
160
140
120
100
80
60
40
20
0
1
2
3
4
5
6
7
8
Số lượng truy vấn cùng thời điểm
Nhanh nhất
Chậm nhất
Trung bình
Thời gian phản hồi (ms)
Hình 24: Tốc độ tìm kiếm của hệ thống
Nhìn vào hình trên ta thấy, thời gian nhanh nhất để xử lý 1 truy vấn trong tất cả các thử nghiệm (gửi đồng thời từ 1 đến 8 truy vấn cùng 1 lúc) là khoảng 20 mili giây. Thời gian xử lý trung bình tăng dần từ 62 mili giây lên 203 mili giây. Với kết quả như trên và hệ thống được chạy thử nghiệm với cấu hình của một máy tính cá nhân thì cho thấy hệ thống có khả năng xử lý tốt các truy vấn.
Tiến hành thực nghiệm
Với 200 câu hỏi dạng “how-to query” thu thập được tôi sẽ nhân bản theo 2 ngôn ngữ: Tiếng Anh và Tiếng Việt để thử nghiệm trên các ngôn ngữ tương ứng trên công cụ tìm kiếm Google. Sau khi thực hiện tìm kiếm 200 câu hỏi bằng Tiếng Anh và 200 câu hỏi bằng tiếng Việt thì kết quả nhận được như sau:
- Với Tiếng Anh: Tỉ lệ câu trả lời của Google được hiển thị dưới dạng câu trả lời cho câu hỏi how-to query là 49%.
- Với Tiếng Việt: Tỉ lệ câu trả lời của Google được hiển thị dưới dạng câu trả lời cho câu hỏi how-to query là 18%.
Tiếng Anh
Tiếng Việt
18
49
51
82
How-to query Dạng khác
How-to query Dạng khác
Hình 25: Tỉ lệ tìm thấy câu trả lời dạng how-to query trên Google
Kết quả cho thấy cùng một nội dung truy vấn, trên ngôn ngữ Tiếng Anh tỉ lệ câu trả lời được hiển thị cho câu hỏi how-to query cao hơn nhiều so với trên ngôn ngữ Tiếng Việt.
Thực hiện tìm kiếm tập câu hỏi trên Tiếng Việt bằng hệ thống của tôi thì số lượng câu trả lời là xấp xỉ 55%. Tỉ lệ này được xác định bằng việc người dùng thỏa mãn với câu trả lời mà hệ thống trả lời cho người dùng, không bao gồm các câu trả lời mà người dùng đánh giá là chỉ chấp nhận được (không thật sự sát với cả sự mong muốn), kết quả này được tính dự trên thông tin thống kê đánh giá người dùng mục 4.4 bên dưới:
45.5
54.5
Có kết quả
Hình 26: Tỉ lệ tìm thấy câu trả lời trên hệ thống xây dựng
Đánh giá của người dùng
Để đánh giá được tính khả dụng của hệ thống, tôi đã thu thập ý kiến của những người cung cấp bộ dữ liệu thực nghiệm đánh giá về hệ thống. Với mỗi câu truy vấn của người dùng cung cấp tôi sẽ khảo sát xem mức độ chính xác của những gợi ý mà hệ thống đưa ra cho họ theo ba mức độ hài lòng, chấp nhận được và không hài lòng. Kết quả sau khi khảo sát:
- 109/200 câu trả lời được đánh giá là hài lòng với người dùng, có kết quả phù hợp với tìm kiếm của người dùng, đạt tỉ lệ 54.5%.
- 19 câu trả lời ở được xem là chấp nhận được, đạt tỉ lệ 9.5%.
- 72 câu trả lời không đúng với nhu cầu tìm kiếm của người dùng, chiếm 36%.
Độ chính xác
120
100
80
60
40
20
0
Không hài lòng Chấp nhận được
Đánh giá
Hài lòng
Số câu trả lời
Hình 27: Thống kê khảo sát tính chính xác của những câu trả lời từ đánh giá của người dùng
Tính tiện lợi
18
16
14
12
10
8
6
4
2
0
Không tiện lợi
Tiện lợi
Đánh giá
Số câu trả lời
Cùng với đánh giá tính chính xác của những câu trả lời từ hệ thống, tôi cũng khảo sát người dùng về tính tiện lợi và thân thiện của hệ thống đối với họ.
Hình 28: Thống kê khảo sát tính tiện lợi của hệ thống