COFFEE ::: : * - Techniques for Multiple Sequence Alignments

konzervovaných reziduích. MultiAlign *****:: :::: .** **.: * :***:***::*: *: * .:.:::*:*:**: T-COFFEE *****:: :::: .** **.: . *:: :***:***::*: *: * .:.:::*:*:**: CLUSTALW *****:: :::: .** ** . * :***:***::*: *: * .:.:::*:*:**: MultiAlign *.:: **..::.::*: *.*:*. *.*.: :: *::* : .**: ** :**** * T-COFFEE *.:: **..::.::*: *.*:*. *.*.: :: *::* : .**: ** :**** * CLUSTALW *.:: **..::.::*: *.*:*. *.*.: :: *::* : .**: ** :**** * MultiAlign :*:****** .* ..*. . * .:* :: : * ::::.:*****::*** T-COFFEE :*:****** .* ..*.: * .:* :: : * ::::.:*****::*** CLUSTALW :*:****** .* ..*. . * .:* :: : * ::::.:*****::*** MultiAlign :* :* :: : .** * :** .* :. : :.::: *. :::**:*. : T-COFFEE :* :* :: : .** * :** .* :. : :.::: *. :::**:*. : CLUSTALW :* :* :: : .** * :** .* :. : :.::: *. :::**:*. : MultiAlign * : :** :*:* * :::*.. * ::.***.**::** ** * : . :*.:* :* T-COFFEE * : :** :*:* * :::*.. * ::.***.**::** ** * : . :*.:* :* CLUSTALW * : :** :*:* * :::*.. * ::.***.**::** ** * : . :*.:* :* MultiAlign ::: **:**::::::*: . * * .* .: .: *.::***.: .:. *:. *:* T-COFFEE ::: **:**::::::*: . * * .* .: .: *.::***.: .:. *:. *:* CLUSTALW ::: **:**::::::*: . * * .* .: .: *.::***.: .:. *:. *:* MultiAlign **:****:::: :::*:.* **: *:.** :* **... ::: :.*.::::* ** T-COFFEE **:****:::: :::*:.* **: *:.** :* **... ::: :.*.::::* ** CLUSTALW **:****:::: :::*:.* **: *:.** :* **... ::: :.*.::::* ** MultiAlign : .. *: * :::::***:* ***.* *:* .:.: :*::** * .*:.* *.: T-COFFEE : .. *: * :::::***:* ***.* *:* .:.: :*::** * .*:.* *.: CLUSTALW : .. *: * :::::***:* ***.* *:* .:.: :*::** * .*:.* *.: MultiAlign ** ::: * :*.**:.:.*::**: .:*****:.: * .* * * *:*. . T-COFFEE ** ::: * :*.**:.:.*::**: .:*****:.: * .* * * *:*. . CLUSTALW ** ::: * :*.**:.:.*::**: .:*****:.: * .* * * *:*. . MultiAlign :*: . *::: : . * :*:*:**: * :*:::: * :::.** : : **. ** T-COFFEE :*: . *::: : . * :*:*:**: * :*:::: * :::.** : : **. ** CLUSTALW :*: . *::: : . * :*:*:**: * :*:::: * :::.** : : **. **

MultiAlign ::: : *

T-COFFEE ::: : *

CLUSTALW ::: : *

Z uvedeného výsledku vidíme, že u skupiny vysoce konzervovaných proteinů dává program stejné výsledky jako programy ClustalW a T-Coffee. Nyní přejděme ke druhé skupině testovacích sekvencí. Jedná se o 5 sekvencí subjednotek hemoglobinu člověka společně s 5 sekvencemi leghemoglobinu. Výsledné zarovnání má délku 159 znaků. Ani v tomto případě aplikace nezaostává, co se kvality výsledného zarovnání týká, za svými konkurenty. MultiAlign * :: : : :.: : . . :: * :: * : . ClustalW :: : : :.: : . : :: * :: * : . . T-Coffee :: : : :.: : . . :: * :: * : MultiAlign .:: .*. *: . :. :: .. : : . .. :* :: . : ClustalW .:: .*. *: . :. :: .. : * * * .*. :* :: . :: T-Coffee ..:: .*. *: . :. :: . : *. :* * .*. :* :: . : MultiAlign : .: ::: : : :: .: ClustalW .: ::: : : :: .: T-Coffee : .: ::: : : :: .:

Poslední testovací skupinou jsou vzdálenější sekvence. Získány byly ve vyhledávači konzervovaných domén na stránkách NCBI, konkrétně ze shluku sekvencí s označením cd003333. Celkem šest sekvencí bylo vybráno rovnoměrně z celého stromu. MultiAlign * :* ..* ::. * *. * T-Coffee : :* ..* ::. * *. * ClustalW :* ..* ::. * * : . . MultiAlign : .: : . :** *.** .*:. : : : : *. *. . T-Coffee : .: : . :** *.** .*:. : : : : *. *. . ClustalW : .: : . :** *.** .*:. : : : : *. *. . : MultiAlign : .. :. : : T-Coffee : ClustalW MultiAlign . : : : T-Coffee . . . :: : : ClustalW .. * : : MultiAlign . :: * : :.. T-Coffee . :*: : :. :* * . : ClustalW . :*: : :. :* * MultiAlign .. T-Coffee . . .. . : . ClustalW . . . .. . : .

Ze zarovnání je vidět, že i v tomto případě je schopna metoda MultiAlign udržet krok s konkurenčními metodami. Problematická je akorát oblast mezi 120 a 240 znaky (třetí a čtvrtá skupina výsledků).

6.2 Možnosti dalšího rozvoje

V oblasti bioinformatických metod bylo v uplynulých 15 letech dosaženo obrovského pokroku. Objevilo se mnoho vylepšení existujících algoritmů pro zarovnání skupiny sekvencí, a to jak po stránce přesnosti výsledku, tak i rychlost jejich získání. V této práci jsem implementoval zarovnání pomocí metod dostupných na přelomu 80. a 90. let minulého století. Z tohoto pohledu je možné aplikaci dále rozšiřovat o nově objevené a publikované metody. V následujících odstavcích bych rád zmínil nejvýznamnější z nich.

Vzorem pro inspiraci mi jsou programy ClustalW [24] a Muscle [26]. ClustalW používá váhování sekvencí, aby zmírnil vliv skupiny velmi podobných sekvencí na výsledné zarovnání. Další metodou pozitivně ovlivňující přesnost dosažených výsledků je implementace pozičně specifické skórovací matice, rozdílné hodnocení mezer uvnitř a na krajích sekvencí, přihlédnutí k sekundární struktuře sekvencí aminokyselin (úprava hodnocení hydrofilních aminokyselin).

Druhá skupina vylepšení se týká spíše použitelnosti programu pro koncové uživatele. Bylo by možné načítat větší paletu formátů na vstupu (všechny uvedené v kapitole 3.1). Stejně tak může být užitečné neukládat pouze výsledná zarovnání, ale i tvar vygenerovaného stromu, případně i matici vzdáleností vyprodukovanou v prvním kroku. Pro rychlé vizuální zhodnocení zarovnání by pomohlo barevné zvýraznění konzervovaných reziduí.

Třetí část možných vylepšení se týká zrychlení výpočtu. V předchozí části jsem ukázal, že největší brzdou programu je výpočet zarovnání dvojice sekvencí (případně dvojice profilů). V prvním kroku je možné veškerá zarovnání pro účely výpočtu vzdálenosti paralelizovat, neboť na sobě nejsou nikterak závislé. Paralelizace výpočtu zarovnání ve třetí části je taktéž možná, avšak jen v omezené míře. Čím blíže kořenu se dostáváme, tím méně výpočtů můžeme paralelizovat, neboť musíme vždy zarovnávat dva odlišné podstromy, a oba podstromy zarovnávaných uzlů musí již být zarovnány. Kromě paralelizace by jistě bylo možné i optimalizovat existující implementaci větší mírou znovupoužití existujících objektů a struktur, případně použitím prostého pole místo kolekce ArrayList.

Poslední skupina vylepšení je namířena k optimalizaci struktury zdrojového kódu. Aplikace vznikala živelně, a tak i přes použití návrhových vzorů některé části kódu vyžadují refaktorizaci, která by vedla k důslednému oddělení výpočetní a prezentační logiky.

7 Závěr

V diplomové práci jsem navázal na poznatky o problematice zarovnání skupin biologických sekvencí získané během řešení semestrálního projektu. Seznámil jsem se s metodami pro globální i lokální zarovnání sekvencí, nastudoval jsem aplikaci problematiky hierarchického shlukování při tvorbě fylogenetických stromů, a také metody vycházející při zarovnání skupiny sekvencí z topologie vytvořeného fylogenetického stromu.

V praktické části diplomové práce jsem v jazyce Java implementoval aplikaci MultiAlign, umožňující jednoduché provádění zarovnání skupiny sekvencí. Aplikace umožňuje uživatelům ovlivnit jak metody použité v jednotlivých částech aplikace, tak i parametry, na nichž závisí kvalita výsledného zarovnání.

Při porovnání s existujícími a dlouhodobě vylepšovanými aplikacemi, jako jsou ClustalW, T- Coffee nebo MUSCLE tento program z hlediska rychlosti neobstojí, co se kvality zarovnání týká, dokáže při vhodném nastavení parametrů podávat ne o mnoho horší výsledky.

Literatura

[1] VACÍK, Jiří, et al. Přehled středoškolské chemie. 3. dopl. vyd. [s.l.] : SPN – pedagogické nakladatelství, a.s., 1995. 365 s. ISBN 80-85937-08-5.

[2] CVRČKOVÁ, Fatima. Úvod do praktické bioinformatiky. vyd. Praha : Academia, 2006. 148 s. ISBN 80-200-1360-1.

[3] FASTA format - Wikipedia, the free encyclopedia [online]. 2008 , This page was last modified

on 27 December 2008 [cit. 2009-01-05]. Dostupný z WWW: <http://en.wikipedia.org/wiki/Fasta_format>.

[4] NCBI Sequence Viewer v2.0 [online]. [2008] , Last update: Thu, 04 Dec 2008 Rev. 147052 [cit.

2009-01-05]. Dostupný z WWW:

<http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?db=protein&qty=1&c_start=1&list_uids= 1419987&uids=&dopt=fasta&dispmax=5&sendto=&from=begin&to=end&extrafeatpresent =1&ef_CDD=8&ef_MGC=16&ef_HPRD=32&ef_STS=64&ef_tRNA=128&ef_microRNA =256&ef_Exon=512>.

[5] The DDBJ/EMBL/GenBank Feature Table: Definition [online]. 2008 , Version 8 Oct 2008 [cit.

2009-01-05]. Dostupný z WWW:

<http://www.ncbi.nlm.nih.gov/projects/collab/FT/index.html>.

[6] Explanation of DDBJ flat file format [online]. [2008] , Last modified: Aug. 13, 2008 [cit. 2009-

01-05]. Dostupný z WWW: <http://www.ddbj.nig.ac.jp/sub/ref10-e.html>.

[7] EMBL Genome Project Submission Account guidelines [online]. c2006 [cit. 2009-01-05].

Dostupný z WWW: <http://www.ebi.ac.uk/embl/Submission/genomes.html>.

[8] EBI:: Help:: About Sequence Formats [online]. [2006] [cit. 2009-01-05]. Dostupný z WWW:

<http://www.ebi.ac.uk/help/formats.html>.

[9] INSDC :: About INSDC [online]. [2008] [cit. 2009-01-05]. Dostupný z WWW:

<http://www.insdc.org/>.

[10] EMBL Database Release Notes [online]. 2000 [cit. 2009-01-05]. Dostupný z WWW: <http://www.ebi.ac.uk/embl/Documentation/Release_notes/current/printable.html>.

[11] DNA Database - Release 76.0 [online]. 2008 , Last published date in the present release: November 28, 2008 [cit. 2009-01-05]. Dostupný z WWW: <ftp://ftp.ddbj.nig.ac.jp/ddbj_database/release_note_archive/ddbj/ddbjrel.76.txt>.

[12] NCBI-GenBank Flat File Release 169.0 [online]. 2008 , Release Date: December 15, 2008 [cit. 2009-01-05]. Dostupný z WWW: <ftp://ftp.ncbi.nih.gov/genbank/README.genbank>. [13] MOUNT, David W. Bioinformatics: Sequence and Genome Analysis. [s.l.] : Cold Spring

[14] GIBBS, Adrian J., MCINTYRE, George A. The Diagram, a Method for Comparing Sequences. Its Use with Amino Acid and Nucleotide Sequences. In European journal of biochemistry. 16th edition. [s.l.] : [s.n.], 1970. s. 1-11.

[15] NEEDLEMAN, Saul B., WUNSCH, Christian D. A general method applicable to the search for similarities in the amino acid sequence of two proteins.. In Journal of molecular biology. [s.l.] : [s.n.], 1970. s. 443-453. Vol. 48, No. 3.

[16] WIKIPEDIA CONTRIBUTORS. Needleman-Wunsch algorithm [online]. Wikipedia, The Free Encyclopedia. , 2008 , Date of last revision: 18 November 2008 15:28 UTC [cit. 2009-01- 05]. Dostupný z WWW: <http://en.wikipedia.org/w/index.php?title=Needleman- Wunsch_algorithm&oldid=252581845>.

[17] SMITH, T. F., WATERMAN, M. S. Identification of Common Molecular Subsequences. In

Journal of Molecular Biology. [s.l.] : [s.n.], 1981. s. 195-197.

[18] BENNER, SA, COHEN, MA, GONNET, GH. Empirical and structural models for insertions and deletions in the divergent evolution of proteins.. In Journal of molecular biology. England : Academic Press, 1993. s. 1065-1082. ISSN 0022-2836.

[19] DAYHOFF, M.O., SCHWARTZ, R., ORCUTT, B.C. (1978), "A model of Evolutionary Change in Proteins", Atlas of protein sequence and structure (volume 5, supplement 3 ed.), Nat. Biomed. Res. Found., p. 345-358, ISBN 0912466073

[20] HENIKOFF, S, HENIKOFF, J G. Amino acid substitution matrices from protein blocks.. Proceedings of the National Academy of Sciences of the United States of America. 1992, vol. 89, issue 22, s. 10915-10919. Dostupný z WWW: <http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=50453>.

[21] GAUTHAM, N. Bioinformatics: Databases and Algorithms. [s.l.] : Alpha Science , 2006. 260 s. ISBN 978-1-84265-300-5.

[22] WANG L, JIANG T: On the complexity of multiple sequence alignment. Journal of

Computational Biology 1994, 337:337-348.

[23] KIMURA, Motoo. Neutral Theory of Molecular Evolution. [s.l.] : Cambridge University Press, 1985. 384 s. ISBN 9780521317931.

[24] Align Sequences using ClustalW2 | EBI [online]. 2009 [cit. 2009-05-24]. Dostupný z WWW: <http://www.ebi.ac.uk/Tools/clustalw2/index.html>.

[25] EDGAR, RC. Local homology recognition and distance measures in linear time using compressed amino acid alphabets. In Nucleic acids research. [s.l.] : [s.n.], 2004. s. 380-385. ISSN 0305-1048.

[26] EDGAR, Robert C. MUSCLE: a multiple sequence alignment method with reduced time and space complexity. BMC Bioinformatics [online]. 2004, vol. 5, is. 113 [cit. 2009-05-24]. Dostupný z WWW: <http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=517706>.

[28] SAITOU, N., NEI, M. The neighbor-joining method: a new method for reconstructing phylogenetic trees.. In Molecular biology and evolution. [s.l.] : Oxford University Press, 1987. s. 406-425. ISSN 0737-4038.

Seznam příloh

Příloha A – Uživatelská příručka Příloha B – Klávesové zkratky Příloha C – Obsah CD

Příloha A – Klávesové zkratky

Pro ovládání aplikace MultiAlign je možno použít následující klávesové zkratky: Ctrl+N vytvoří nový projekt

Ctrl+O otevře existující projekt Ctrl+S uloží aktuální projekt Ctrl+Q zavře program

Ctrl+D zobrazí okno s parametry zarovnání

Ctrl+E umožňuje uložit výsledek zarovnání do souboru Del vymaže označenou sekvenci v Seznamu sekvencí

Příloha B – Uživatelská příručka

Pro spuštění aplikace je nutné mít na počítači nainstalováno běhové prostřední Java Runtime Engine. Aplikace je distribuována v podobě souboru MultiAlign.jar a adresáře s potřebnou knihovnou appframework. Program se spouští pomocí příkazu java –jar MultiAlign.jar

Po spuštění se zobrazí hlavní okno aplikace, v němž je pracovní plocha rozdělena na tři části. Část „Seznam sekvencí“ má aktivní kontextové menu, které umožňuje přidávat, mazat a editovat sekvence. Při kliknutí na označení sekvence v Seznamu sekvencí se v Zobrazení sekvence zobrazí sekvence. Zarovnání se spouští kliknutím na položku menu Align à Do complete alignment. Výsledné zarovnání je pak zobrazeno ve spodní polovině obrazovky.

Příloha C – Obsah CD

Na CD naleznete následující adresáře a soubory: dist - přeložený program v balíčku JAR

example_proj - ukázkové XML soubory projektu zarovnání

src - zdrojové kódy aplikace MultiAlign, projektové soubory NetBeans 6.5 dip.pdf - text technické zprávy

In document Techniques for Multiple Sequence Alignments (Page 45-55)