Chương 5: Kết Luận
Mặc dù có một lịch sử lâu dài, nhưng việc nghiên cứu trong lĩnh vực sắp hàng đa chuỗi vẫn tiếp tục phát triển mạnh mẽ. Mỗi năm, hàng chục bài báo mô tả các phương pháp mới cho việc sắp hàng đa chuỗi được công bố. Mặc dù nhiều phương pháp trong các phương pháp đó đều tiếp cận dựa trên các nguyên tắc cơ bản giống nhau, nhưng các chi tiết của việc triển khai có thể có tác động đáng kể đến hiệu suất, cả về tính chính xác và tốc độ. Lý do chính cho việc vấn đề này vẫn được tiếp tục quan tâm trong lĩnh vực tin sinh học là sắp hàng đa chuỗi vẫn là trung tâm của phân tích so sánh trình tự trong sinh học tính toán hiện đại: sự sắp hàng chính xác tạo thành cơ sở của nhiều nghiên cứu trong lĩnh vực tin sinh học, và những tiến bộ trong các phương pháp sắp hàng đa chuỗi có thể tạo ra những lợi ích sâu rộng trong nhiều lĩnh vực ứng dụng khác nhau.
Trong những năm gần đây, xu hướng trong việc sắp hàng đa chuỗi có bao gồm việc phát triển các công cụ thích hợp cho xử lý hiệu quả cao trên máy tính (MUSCLE, MAFFT, POA, KAlign), ứng dụng kỹ thuật học máy (PROBCONS, CONTRAlign, MUMMALS), và khai thác các cơ sở dữ liệu được công bố công khai để cải thiện tính chính xác của việc sắp hàng đa chuỗi (PRALINE, MAFFT, PROMALS). Tuy nhiên mỗi một phương pháp đều có một ưu nhược điểm của riêng mình. Do đó một số nhà khoa học đã nhận ra một vấn đề quan trọng là tích hợp nhiều phương pháp vào cùng một công cụ, và sử dụng cây hướng dẫn để có thể giúp đỡ cho các nhà khoa học khác có thể ứng dụng dễ dàng.
Nội dung của khóa luận này cũng mang ý nghĩa tương tự. Phần mềm được thiết kế được tích hợp các phương pháp hiện đại và tôi đã đưa ra một phương án tiếp cận trong việc chọn lựa, sử dụng các phương pháp đó một cách hiệu quả. Hai phương pháp sử dụng cây quyết định cho kết quả trên từng bộ dữ liệu chuẩn riêng lẻ luôn cho kết quả khá tốt (xấp xỉ với kết quả của phương án tốt nhất trên bộ dữ liệu đó). Đặc biệt là điều này vẫn đúng với nhiều bộ dữ liệu chuẩn khác nhau, điều mà các phương pháp khác không thực hiện được. Ngoài ra, một ưu điểm nổi trội của hai phương pháp này là, nó có thể thực hiện được nhiều kiểu dữ liệu khác nhau và cố gắng cho kết quả tốt nhất trong khoảng thời gian cho phép. Đây là một ưu điểm lớn của phương pháp này, do những phương pháp khác hầu như chỉ thực hiện tốt với một kiểu dữ liệu. Qua đó có thể thấy được sự hiệu quả của phương án mà tôi đề xuất trong khóa luận này.
Tài Liệu Tham Khảo
[1] Lê Sỹ Vinh. PhD in 2005 (Heinrich-Heine-University Duesseldorf, Germany). Topic : Phylogenetic tree reconstruction.
[2] Felsenstein, J. (2004). Inferring Phylogenies. Sinauer Associates, Sunderland, Mass.
[3] Chenna R, Sugawara H, Koike T, Lopez R, Gibson TJ, Higgins DG, Thompson JD (2003). "Multiple sequence alignment with the Clustal series of programs"
[4] Kazutaka Katoh, Kazuharu Misawa1, Kei-ichi Kuma andTakashi Miyata
(2002). MAFFT: a novel method for rapid multiple sequence alignment based on fast Fourier transform
Có thể bạn quan tâm!
- Các phương sai sắp hàng đa chuỗi nhanh - 1
- Các phương sai sắp hàng đa chuỗi nhanh - 2
- Cách Giải Quyết Của Chuong B. Do Và Kazutaka Katoh
- Dữ Liệu Với Số Lượng Chuỗi Lớn ( > 200 Chuỗi)
- Các phương sai sắp hàng đa chuỗi nhanh - 5
Xem toàn bộ 50 trang tài liệu này.
[5] B. Do, Mahathi SP. Mahabhashyam, Michael Brudno, and Serafim Batzoglou (2005). PROBCONS: Probabilistic consistency – based multiple sequence alignment.
[6] Robert C. Edgar (2004). MUSCLE: multiple sequence alignment with high accuracy and high throughput
[7] Wilbur, W.J. and Lipman, D.J. (1983). Proc. Natl. Acad. Sci. USA, 80, 726- 730
[8] Saitou, N. and Nei, M. (1987). Mol. Biol. Evol. 4, 406-425.
[9] Myers, E.W. and Miller, W. (1988). CABIOS, 4, 11-17.
[10] Thompson, J.D. (1994). CABIOS, (Submitted).
[11] Edgar R.C. (2004) Local homology recognition and distance measures in linear time using compressed amino acid alphabets. Nucleic Acids Res., 32, 380 – 385.
[12] Kimura M. (1983) The Neutral Theory of Molecular Evolution.
Cambridge University Press
[13] Sneath & Sokal (1973). Numerical Taxonomy. W.H. Freeman and Company, San Francisco, pp 230-234 Unweighted Pair Group Method with Arithmetic Mean.
[14] Muller T., Spang,R. and Vingron,M. (2002) Estimating amino acid substitution models: a comparison of Dayhoff’s estimator, the resolvent approach and a maximum likelihood method. Mol. Biol. Evol., 19, 8–13.
[15] Hirosawa M., Totoki,Y., Hoshida,M. and Ishikawa,M. (1995) Comprehensive study on iterative algorithms of multiple sequence alignment. CABIOS, 11, 13–18.
[16] Miyata,T., Miyazawa,S. and Yasunaga,T. (1979) Two types of amino acid substitutions in protein evolution. J. Mol. Evol., 12, 219–236.
[17] Grantham,R. (1974) Amino acid difference formula to help explain protein evolution. Science, 185, 862–864.
[18] Press,W.H., Teukolsky,S.A., Vetterling,W.T. and Flannery, B.P(1995) Numerical Recipes in C: The Art of Scientific Computing, 2nd Edn. Cambridge University Press, Cambridge, UK.
[19] Vogt,G., Etzold,T. and Argos,P. (1995) An assessment of amino acid exchange matrices in aligning protein sequences: the twilight zone revisited. J. Mol. Biol., 249, 816–831.
[20] Eddy, S.R. (1995). Multiple alignment using hidden Markov models. In.
[21] Viterbi, A.J. (1967). Error bounds for convolutional codes and an asymptotically optimal decoding algorithm. IEEE Trans. Inf. Theory IT-13: 260- 269.
[22] Henikoff, S. and Henikoff, J.G. (1992). Amino acid substitution matrices from protein blocks. Proc. Nat. Acad. Sci. 89: 10915-10919.
[23] Thompson, J.D., Plewniak, F., and Poch, O. (1999). BAliBASE: A benchmark alignment database for the evaluation of multiple alignment programs.Bioinformatics 15: 87-88.
[24] Julie Thompson, Frédéric Plewniak and Olivier Poch (1999) Bioinformatics, 15,87-88. BAliBASE: A benchmark alignments database for the evaluation of multiple sequence alignment programs
[25] Sonnhammer EL, Eddy SR, Durbin R (1997). Sanger Centre, Wellcome Trust Genome Campus, Hinxton, Cambridge, United Kingdom. Pfam: a comprehensive database of protein domain families based on seed alignments.
[26] Chuong B. Do, Kazutaka Katoh (2008) ,Protein Multiple Sequence Alignment, Methods in Molecular Biology vol. 484: Functional Proteomics.