Các phương sai sắp hàng đa chuỗi nhanh

Chương 5: Kết Luận

Mặc dù có một lịch sử lâu dài, nhưng việc nghiên cứu trong lĩnh vực sắp hàng đa chuỗi vẫn tiếp tục phát triển mạnh mẽ. Mỗi năm, hàng chục bài báo mô tả các phương pháp mới cho việc sắp hàng đa chuỗi được công bố. Mặc dù nhiều phương pháp trong các phương pháp đó đều tiếp cận dựa trên các nguyên tắc cơ bản giống nhau, nhưng các chi tiết của việc triển khai có thể có tác động đáng kể đến hiệu suất, cả về tính chính xác và tốc độ. Lý do chính cho việc vấn đề này vẫn được tiếp tục quan tâm trong lĩnh vực tin sinh học là sắp hàng đa chuỗi vẫn là trung tâm của phân tích so sánh trình tự trong sinh học tính toán hiện đại: sự sắp hàng chính xác tạo thành cơ sở của nhiều nghiên cứu trong lĩnh vực tin sinh học, và những tiến bộ trong các phương pháp sắp hàng đa chuỗi có thể tạo ra những lợi ích sâu rộng trong nhiều lĩnh vực ứng dụng khác nhau.

Trong những năm gần đây, xu hướng trong việc sắp hàng đa chuỗi có bao gồm việc phát triển các công cụ thích hợp cho xử lý hiệu quả cao trên máy tính (MUSCLE, MAFFT, POA, KAlign), ứng dụng kỹ thuật học máy (PROBCONS, CONTRAlign, MUMMALS), và khai thác các cơ sở dữ liệu được công bố công khai để cải thiện tính chính xác của việc sắp hàng đa chuỗi (PRALINE, MAFFT, PROMALS). Tuy nhiên mỗi một phương pháp đều có một ưu nhược điểm của riêng mình. Do đó một số nhà khoa học đã nhận ra một vấn đề quan trọng là tích hợp nhiều phương pháp vào cùng một công cụ, và sử dụng cây hướng dẫn để có thể giúp đỡ cho các nhà khoa học khác có thể ứng dụng dễ dàng.

Nội dung của khóa luận này cũng mang ý nghĩa tương tự. Phần mềm được thiết kế được tích hợp các phương pháp hiện đại và tôi đã đưa ra một phương án tiếp cận trong việc chọn lựa, sử dụng các phương pháp đó một cách hiệu quả. Hai phương pháp sử dụng cây quyết định cho kết quả trên từng bộ dữ liệu chuẩn riêng lẻ luôn cho kết quả khá tốt (xấp xỉ với kết quả của phương án tốt nhất trên bộ dữ liệu đó). Đặc biệt là điều này vẫn đúng với nhiều bộ dữ liệu chuẩn khác nhau, điều mà các phương pháp khác không thực hiện được. Ngoài ra, một ưu điểm nổi trội của hai phương pháp này là, nó có thể thực hiện được nhiều kiểu dữ liệu khác nhau và cố gắng cho kết quả tốt nhất trong khoảng thời gian cho phép. Đây là một ưu điểm lớn của phương pháp này, do những phương pháp khác hầu như chỉ thực hiện tốt với một kiểu dữ liệu. Qua đó có thể thấy được sự hiệu quả của phương án mà tôi đề xuất trong khóa luận này.

Tài Liệu Tham Khảo

[1] Lê Sỹ Vinh. PhD in 2005 (Heinrich-Heine-University Duesseldorf, Germany). Topic : Phylogenetic tree reconstruction.

[2] Felsenstein, J. (2004). Inferring Phylogenies. Sinauer Associates, Sunderland, Mass.

[3] Chenna R, Sugawara H, Koike T, Lopez R, Gibson TJ, Higgins DG, Thompson JD (2003). "Multiple sequence alignment with the Clustal series of programs"

[4] Kazutaka Katoh, Kazuharu Misawa1, Kei-ichi Kuma andTakashi Miyata

(2002). MAFFT: a novel method for rapid multiple sequence alignment based on fast Fourier transform