Bước đầu xây dựng mạng tương tác y học áp dụng trí tuệ nhân tạo lên dữ liệu sách y khoa của Đại học Oxford

MỞ ĐẦ U‌

Sự vận động bình thường, ổn định của cơ thể sống là kết quả của sự tương tác đa chiều, phức tạp của rất nhiều yếu tố. Sự bất thường của yếu tố này dẫn đến tới sự bất thường trong hoạt động của các yếu tố khác thông qua sự tương tác. Việc hiểu được sự tương tác, mối quan hệ của các yếu tố mở ra cơ hội hiểu được và kiểm soát các bất thường và từ đó nhanh chóng xử lý tình trạng bệnh lý. Tuy nhiên việc xây dựng được biểu đồ tương tác phức tạp này trong lĩnh vực Y học tương đối khó khăn. Những thách thức đó đến cả từ việc cần xử lý một lượng rất lớn các thông tin lẫn sự phức tạp đặc thù của dữ liệu. Thông thường, các mạng tương tác (Knowledge Graph- KG) thường được xây dựng bởi các chuyên gia của các chuyên ngành hẹp và thường ở dạng tri thức ẩn (taxit knowledge). Cũng do đó, các mạng này thường có kích thước nhỏ và phụ thuộc vào năng lực lẫn kinh nghiệm của các chuyên gia.

Những năm gần đây, cùng với giai đoạn dữ liệu của tất cả các ngành bắt đầu có dấu hiệu bùng nổ. Việc phân tích dữ liệu bằng sức người trở thành vấn đề khi mà tốc độ phân tích đáp ứng không kịp với nhu cầu phát triển thì lĩnh vực trí tuệ nhân tạo (Artificial Intelligence-AI) bắt đầu có những bước tiến đáng kể. Trí tuệ nhân tạo là sự kết hợp giữa năng tư duy của con người và năng lực tính toán của máy tính, cho phép tăng tốc các quá trình xử lý. Nó đã có những bước tiến lớn trong các bài toán xử lý ảnh, nhận diện hình ảnh, dịch máy,… tiêu biểu trong game khi robot Alpha-Go đã chơi thắng nhà vô địch cờ vây thế giới. Hiện nay, trí tuệ nhân tạo đang được nghiên cứu để áp dụng cho hầu hết các lĩnh vực của cuộc sống. Cũng như thế, trong lĩnh vực Y tế nó còn được gọi là health-informatics hay medical informatics, được kì vọng sẽ tạo ra sự bùng nổ tri thức, giảm bớt được sức người.

Trong nghiên cứu này, chúng tôi cũng sử dụng hướng tiếp cận trí tuệ nhân tạo, dùng các thuật toán học máy phân tích trên dữ liệu Y học để xây dựng mạng tương tác. Tuy nhiên, chúng tôi có sự cải biến khi áp dụng trên dữ liệu văn bản Y khoa là các sách thay vì dữ liệu bệnh án. Sự khác nhau về cấu trúc dữ liệu, cũng như mật độ thông tin loãng hơn, và lượng tri thức nhiều hơn có thể dẫn tới sự khó khăn trong việc

cô đọng thông tin. Tuy nhiên, chúng tôi kỳ vọng xây dựng được mạng tương tác có tính phổ dụng rộng và ít bị chi phối hơn bởi thiên lệch trong phân bố dữ liệu.

Xuất phát từ những thưc tế trên, đề tài “Xây dựng mạng tương tác Y học áp

dụng trí tuệ nhân tạp lên dữ liệu văn bản” đươc

thưc

Có thể bạn quan tâm!

Xem toàn bộ 73 trang tài liệu này.

hiên

vớ i những muc

tiêu:

1. Xây dựng được mạng tương tác nhờ của các phương pháp học máy của trí tuệ nhân tạo dối với tập dữ liệu thu thập được.

2. Kiểm định định tính được mạng tương tác đã xây dựng.

CHƯƠNG 1: TỔNG QUAN‌

1.1. Tổng quan về mạng tương tác trong trí tuệ nhân tạo‌

1.1.1. Khái niệm mạng tương tác‌

Mạng tương tác (KG) là một cách biểu diễn dữ liệu bằng đồ thị, nó bao gồm “nốt - cạnh – nốt” biểu thị mối quan hệ phong phú của các thực thể với nhau trong thế giới thực. Nốt đại diện cho “một yếu tố”, “một thực thể” hoặc “một khái niệm” và cạnh biểu thị mối quan hệ giữa hai thực thể. Ví dụ, trong Hình 1. 1., một bộ ba: Thực thể 1, Thực thể 2 và Quan hệ 1 liên kết giữa chúng. KG có thể kết hợp cả dữ liệu không có cấu trúc và dữ liệu có cấu trúc [1].

Thực thể 1

Thực thể 5

Quan hệ 6

Thực thể 2

Quan hệ 4

Thực thể 6

Quan hệ 2

Thực thể 4

Quan hệ 3

Hình 1. 1. Minh họa một mạng tương tác

Thực thể 3

Việc xây dựng các mạng tương tác thường bị hạn chế vì tính phức tạp và tính đồ sộ của lượng thông tin - tích lũy từ trước và ngày càng tăng nhanh theo thời gian. Vì vậy, sự hỗ trợ của AI có vai trò rất quan trọng trong việc tổng hợp, xây dựng một mạng tương tác hoàn chỉnh, chính xác [33].

1.1.2. Trí tuệ nhân tạo‌

Trí tuệ nhân tạo (AI) được định nghĩa là một lĩnh vực khoa học máy tính [26]. Trí tuệ nhân tạo là trí tuệ do con người lập trình với mục tiêu giúp máy tính có thể tự động hóa các hành vi thông minh như con người. Sau một thời gian khó khăn trong việc tìm kiếm tài trợ cho các dự án AI [34] và tốn nhiều chi phí, đến thế kỷ 21, AI đã

hồi sinh sau những tiến bộ vượt bậc của sức mạnh máy tính, Big Data,… AI đã trở thành một phần thiết yếu của ngành công nghệ.

Trong các công việc thường ngày, con người có thể nhầm lẫn khi mắc lỗi hoặc thực hiện nhiều công việc lặp đi lặp lại như gửi thư cảm ơn, trả lời email, ... Khi sử dụng AI, các dữ liệu được áp dụng các bộ thuật toán cụ thể. AI có thể xử lý hiệu quả các công việc thông thường này, loại bỏ các công việc “nhàm chán” và có thể đạt được độ chính xác ở mức độ cao hơn [4].

1.1.3. Xây dựng mạng tương tác bằng trí tuệ nhân tạo‌

Những năm gần đây, cùng với giai đoạn dữ liệu của tất cả các ngành bắt đầu có dấu hiệu bùng nổ. Việc phân tích dữ liệu bằng sức người trở thành vấn đề khi mà tốc độ phân tích không kịp đáp ứng với nhu cầu phát triển thì lĩnh vực trí tuệ nhân tạo bắt đầu có những bước tiến đáng kể. Trí tuệ nhân tạo là sự kết hợp giữa năng tư duy của con người và năng lực tính toán của máy tính, cho phép tăng tốc các quá trình xử lý. Nó đã có những bước tiến lớn trong các bài toán xử lý ảnh, nhận diện hình ảnh, dịch máy,… tiêu biểu trong game khi robot Alpha-Go đã thắng nhà vô địch cờ vây thế giới. Hiện nay, trí tuệ nhân tạo đang được nghiên cứu để áp dụng cho hầu hết các lĩnh vực của cuộc sống. Và việc xây dựng mạng tương tác bằng trí tuệ nhân tạo là một thách thức lớn trong thời đại công nghệ ngày nay.

Có hai hình thức xây dựng mạng tương tác là thủ công hoặc bán tự động. Việc xây dựng các mạng tương tác theo cách thủ công vẫn rất tốn kém. Do đó, bất kỳ sự tự động hóa nào cũng có thể đạt được một mạng tương tác hiệu quả, tiết kiệm chi phí hơn. Cho đến một vài năm trước, các thuật toán xử lý ngôn ngữ tự nhiên (Natural Language Processing-NLP) và thị giác máy tính (Computer Vision) đang cố gắng trong việc nhận dạng thực thể từ văn bản và phát hiện đối tượng từ hình ảnh. Do những tiến bộ gần đây, các thuật toán này đang bắt đầu vượt ra khỏi các nhiệm vụ cơ bản để trích xuất các mối quan hệ giữa các thực thể. Trong đó các quan hệ được trích xuất có thể được lưu trữ để xử lý và suy luận thêm. Trích xuất thực thể và trích xuất quan hệ từ văn bản là hai nhiệm vụ cơ bản trong NLP. Các phương pháp tiếp cận dựa trên quy tắc cú pháp của câu hoặc các thực thể, mối quan hệ có thể được xác định trong văn bản đầu vào [31].

Thông tin được trích xuất từ nhiều phần của văn bản cần phải có mối tương quan. Ví dụ, trong Hình 1. 2., có các thực thể: “Albert Einstein, Đức, Nhà vật lý lý thuyết, Thuyết tương đối” và các quan hệ: “sinh ở, nghề nghiệp, đã phát triển”. Khi

đoạn kiến thức này được kết hợp vào một KG lớn hơn, có thể sử dụng suy luận logic để có được các liên kết (quan hệ) bổ sung (được thể hiện bằng các đường nét đứt), chẳng hạn như Nhà vật lý lý thuyết thuộc về Nhà vật lý và Thuyết tương đối là một nhánh của Vật lý [31].

Đức

Albert

Einstein

Nhà vật lý lý thuyết

Nhà vật lý

thực hành

Thuyết tương đối

Vật lý

Hình 1. 2. Mạng tương tác được tạo bằng cách trích xuất thực thể và quan hệ

1.2. Mạng tương tác trong Y học‌

Các nghiên cứu đã khám phá ra các ứng dụng tiềm năng của trí tuệ nhân tạo trong lĩnh vực Y học [13, 20]. Ứng dụng của công nghệ AI trong lĩnh vực phẫu thuật lần đầu tiên được Gunn nghiên cứu thành công vào năm 1976, khi ông khám phá ra khả năng chẩn đoán cơn đau bụng cấp tính bằng cách phân tích thông qua máy tính [9]. Từ đó đến nay đã chứng kiến sự quan tâm đáng kể của AI trong lĩnh vực Y học, ví dụ như hệ thống hỗ trợ quyết định lâm sàng để chẩn đoán và điều trị [3, 5, 22, 32], tự chẩn đoán để hỗ trợ bệnh nhân đánh giá tình trạng sức khỏe dựa trên các triệu chứng [8, 30]. Hầu hết các công trình trước đây đều cố gắng xây dựng KG từ các bài báo liên quan đến Y học. Một số được xây dựng theo cách thủ công và một số khác là bán tự động. Tuy nhiên, việc xây dựng KG theo cách thủ công đòi hỏi thời gian và công sức rất nhiều từ các chuyên gia lâm sàng. Ví dụ, có báo cáo rằng cần khoảng mười lăm năm để xây dựng cơ sở kiến thức Internist-1/QMR [21, 28]. Bán tự động xây dựng KG từ các bài báo là một công việc đầy thách thức vì các dữ liệu gần như không có cấu trúc, rất khó xử lý bằng máy tính.

Y học hiện đại đang phải đối mặt với thách thức trong việc tiếp thu, phân tích và áp dụng một lượng lớn các kiến thức cần thiết để giải quyết các vấn đề lâm sàng phức tạp. Trong khi đó thông tin chăm sóc sức khỏe đang phát triển bùng nổ, kiến thức Y tế dạng văn bản (Textual Medical Knowledge-TMK) đang ngày càng chiếm một vị trí quan trọng trong hệ thống thông tin chăm sóc sức khỏe. Vì vậy, một số nghiên cứu đã phát triển và tích hợp TMK vào mạng tương tác để cung cấp cho máy tính việc truy xuất và giải thích các kiến thức Y khoa một cách nhanh chóng và chính xác. Ernst và cộng sự, đề xuất phương pháp xây dựng một mạng tương tác lớn một cách tự động. Nguồn dữ liệu của họ là từ điển đồng nghĩa từ (Unified Medical Language System) và nguồn đầu vào từ nhiều ấn phẩm khoa học và bài đăng trên các cổng thông tin sức khỏe khác nhau [7]. Shi và cộng sự, cung cấp một thuật toán để loại bỏ suy luận vô nghĩa trên biểu đồ kiến thức để cải thiện hiệu suất của kết quả suy luận [27]. Rotmensch và cộng sự, đề xuất tạo một biểu đồ quan hệ giữa các bệnh với các triệu chứng mà dữ liệu có thể lấy từ EMR một cách tự động. Nguồn dữ liệu của họ bao gồm hồ sơ Y tế ở khoa cấp cứu của hơn 270,000 lượt bệnh nhân [25].

Những cách tiếp cận để xây dựng các mạng tương tác Y học phụ thuộc vào thuật ngữ Y tế tiêu chuẩn, vốn còn thiếu trong một số ngôn ngữ như tiếng Trung Quốc. Do đó, những nỗ lực xây dựng các mạng tương tác Y học trên các ngôn ngữ như vậy luôn nhận được kết quả có độ chính xác tương đối thấp. Các thuật toán xây dựng vẫn cần được cải thiện để giải quyết các vấn đề như vậy trong công việc trong tương lai [37].

Sự phát triển của trí tuệ nhân tạo trong việc giúp các bác sĩ lâm sàng chẩn đoán, đưa ra quyết định điều trị và dự đoán kết quả. Chúng được thiết kế để hỗ trợ nhân viên Y tế trong công việc hàng ngày của họ dựa vào các thao tác máy móc với các dữ liệu và kiến thức đã được lưu trữ. Các hệ thống như vậy bao gồm mạng nơ ron nhân tạo (Artificial Neural Network), hệ thống chuyên gia mở, hệ thống thông minh kết hợp, …[23]. Và nhờ sự tiến bộ của công nghệ xử lý dữ liệu lớn (big data) và NLP, tự động khái thác dữ liệu từ hồ sơ sức khỏe điện tử (Electronic Medical Records- EMR) [10, 12, 14-16, 18, 19, 29, 32, 35], khai thác dữ liệu từ các văn bản Y khoa trở thành một xu hướng nghiên cứu đầy hứa hẹn trong việc xây dựng mạng tương tác.

1.3. Các nghiên cứu liên quan‌

1.3.1. Mạng tương tác trong lĩnh vực Y tế‌

Năm 2020, Gyanesh Anand [2] đã xây dựng mạng tương tác Y học với tập dữ liệu đã được thu thập từ các nguồn khác nhau. Nguồn nổi bật là trang web MedIndia. Các nguồn khác là Medline, WebMD và trang web NIH. Dữ liệu Y tế dạng văn bản đã được thu thập từ Bách khoa toàn thư Y tế với mã nguồn mở có sẵn trên mạng internet. Sau khi thu thập dữ liệu, dữ liệu phải được xử lý. Dữ liệu đã xử lý được lưu trữ ở định dạng JSON. Số trang sau khi xử lý còn lại 1742. Tác giả tạo bản thể MedOnto để mô hình hóa các khái niệm khác nhau trong lĩnh vực Y tế. Dữ liệu thực tế được đưa vào bản thể một cách tự động. Phương pháp Entity Recognition (NER) trích xuất thực thể trong trường hợp văn bản ở định dạng ngôn ngữ tự nhiên thuần túy tiếng Anh. MetaMap NER của Unified Medical Language System đã được sử dụng để trích xuất các thực thể mong muốn từ các đoạn văn. Hai phương pháp phân biệt đã được sử dụng để trích xuất các thực thể có liên quan sau đó được thêm vào mạng tương tác.

1.3.2. Mạng tương tác Y học trong thế giới thực: xây dựng và ứng dụng‌

Năm 2020, Linfeng Li cùng các cộng sự [17] đã xây dựng mạng tương tác Y học từ các EMR quy mô lớn. Quy trình xây dựng KG bao gồm 8 bước, đó là chuẩn bị dữ liệu, nhận dạng các thực thể, chuẩn hóa thực thể, trích xuất quan hệ, tính toán thuộc tính, làm sạch biểu đồ, xếp hạng thực thể liên quan và xây dựng KG tương ứng. Mạng tương tác Y học được xây dựng dựa trên dữ liệu y tế từ năm 2015 đến 2018, bao gồm 16,217,270 lượt khám chưa xác định của tổng số 3,767,198 bệnh nhân. Các triệu chứng được trích xuất từ lịch sử bệnh Named Entity Recognition (NER), tất cả các thực thể khác được trích xuất trực tiếp từ trường cấu trúc của EMR. Có thể tồn tại các thuật ngữ khác nhau cho cùng một thực thể, chuẩn hóa chúng đưa về thuật ngữ chuẩn duy nhất (ví dụ Bệnh tật dùng thuật ngữ chuẩn của ICD-10). Khai thác quan hệ, xác định mối liên hệ giữa 2 thực thể. Đối với mỗi quan hệ, bốn thuộc tính cơ bản được tính toán, đó là số lần cùng xuất hiện, xác suất, tính đặc hiệu và độ tin cậy. Các quan hệ và thực thể ở dưới ngưỡng chỉ định sẽ bị xóa. Một thực thể sẽ liên quan dến rất nhiều thực thể khác, vì thế các thực thể được xếp hạng mức độ liên quan bằng cách sử dụng hàm Probability-Specificity-Reliability (PSR). PrTransH được sử dụng để tạo vectơ cho mỗi thực thể và mối quan hệ, chúng được đưa vào một chiều không gian để tạo được một KG hoàn chỉnh.

1.3.3. Nghiên cứu mạng tương tác Y học về đột quỵ‌

Năm 2021, Binjie Cheng cùng các cộng sự [6] đã xây dựng một mạng tương tác về bệnh đột quỵ. Đầu tiên, tác giả xây dựng từ điển xoay quanh bệnh đột quỵ, sử dụng chú thích bán tự động và xây dựng mô hình bản thể của KG kết hợp với thuật ngữ Y tế tiêu chuẩn quốc tế như ICD-10. Nghiên cứu xây dựng mô hình bản thể dựa trên phương pháp xây dựng bán tự động kết hợp chú thích thủ công. Phương pháp này có thể thu được bản thể với chất lượng cao hơn và tiết kiệm nguồn nhân lực. Thứ hai, tổng hợp dữ liệu thông tin về bệnh đột quỵ tại 2 trang web: Xunyiwenyao.com, Dingxiangyuan.comvà bách khoa toàn thư Baidu. Các nguồn dữ liệu khác nhau yêu cầu các phương pháp xử lý khác nhau, nghiên cứu này sử dụng trình thu thập thông tin phân tán để tự động thu thập dữ liệu Y tế. Và thu được 4,113 thực thể liên quan đến bệnh đột quỵ, thuộc 8 loại thuộc tính. Đồng nhất dữ liệu bằng việc căn chỉnh thuộc tính và chuẩn hóa các giá trị của thuộc tính. Sau đó tính toán độ tương đồng, xác định mối quan hệ giữa các thực thể. Liên kết các thực thể bằng cách ánh xạ vector. Sau đó, KG được xây dựng. Cơ sở dữ liệu bản thể học đột quỵ đã được xây dựng trước đó tiếp tục được cải thiện và bổ sung các dữ liệu mới để KG được cập nhật liên tục để tăng độ chính xác của mối liên kết giữa các thực thể.

Với mong muốn khắc phục các khó khăn tồn tại trong việc nghiên cứu và phân tích dữ liệu Y khoa từ đó tạo ra một công cụ hỗ trợ chẩn đoán (Medical Diagnostic Decision Support), trong nghiên cứu này, chúng tôi đề xuất xây dựng mạng tương tác của các yếu tố Y học bằng sự hỗ trợ của các thuật toán trí tuệ nhân tạo. Cụ thể, chúng tôi phân tích dữ liệu văn bản, lọc ra các từ khoá và lượng hoá mối quan hệ của các từ khoá với nhau, sau đó biểu diễn mối quan hệ đó thành một mạng lưới tương tác và đánh giá kết quả.

Thông qua nghiên cứu này, chúng tôi kỳ vọng đóng góp một phương pháp xây dựng các mạng tương tác biểu diễn tri thức Y học một cách toàn diện và hiệu quả, hỗ trợ cho các bác sĩ trong chẩn đoán và bệnh nhân trong việc tiếp cận các thông tin Y khoa. Bên cạnh đó, ứng dụng của nghiên cứu này còn mở ra nhiều triển vọng trong liên ngành Y sinh- tin học.

Bước đầu xây dựng mạng tương tác y học áp dụng trí tuệ nhân tạo lên dữ liệu sách y khoa của Đại học Oxford - 2

Gửi bình luận