Prediction of Protein Stability upon Mutations Using Machine Learning

(1)

VYSOK ´

E U ˇ

CEN´I TECHNICK ´

E V BRN ˇ

E

BRNO UNIVERSITY OF TECHNOLOGY

FAKULTA INFORMA ˇ

CN´ICH TECHNOLOGI´I

´

USTAV INFORMA ˇ

CN´ICH SYST ´

EM ˚

U

FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INFORMATION SYSTEMS

STROJOV ´

E U ˇ

CEN´I V ´

ULOZE PREDIKCE VLIVU

AMINOKYSELINOV ´

YCH MUTAC´I NA STABILITU

PROTEINU

DIPLOMOV ´

A PR ´

ACE

MASTER’S THESIS

AUTOR PR ´

ACE

Bc. FRANTI ˇ

SEK MALINKA

AUTHOR

(2)

VYSOK ´

E U ˇ

CEN´I TECHNICK ´

E V BRN ˇ

E

BRNO UNIVERSITY OF TECHNOLOGY

FAKULTA INFORMA ˇ

CN´ICH TECHNOLOGI´I

´

USTAV INFORMA ˇ

CN´ICH SYST ´

EM ˚

U

FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INFORMATION SYSTEMS

STROJOV ´

E U ˇ

CEN´I V ´

ULOZE PREDIKCE VLIVU

AMINOKYSELINOV ´

YCH MUTAC´I NA STABILITU

PROTEINU

PREDICTION OF PROTEIN STABILITY UPON MUTATIONS USING MACHINE LEARNING

DIPLOMOV ´

A PR ´

ACE

MASTER’S THESIS

AUTOR PR ´

ACE

Bc. FRANTI ˇ

SEK MALINKA

AUTHOR

VEDOUC´I PR ´

ACE

Ing. JAROSLAV BENDL

SUPERVISOR

(3)

Abstrakt

Tato práce popisuje nový pˇr´ıstup k predikci vlivu aminokyselinových mutac´ı na zmˇenu stability proteinu. C´ılem je vytvoˇrit nový meta-nástroj, který kombinuje výstupy osmi vy-braných nástroj˚u, d´ıky ˇcemuˇz je schopen svoji predikˇcn´ı schopnost zlepˇsit. Pro nalezen´ı optimáln´ıho konsenzu mezi tˇemito nástroji je pouˇzito r˚uzných metod strojového uˇcen´ı. Ze vˇsech testovaných metod strojového uˇcen´ı dosahuje KStar nejvyˇsˇs´ı úspˇeˇsnosti predikce na trénovac´ım datasetu tvoˇreného experimentálnˇe ovˇeˇrenými mutacemi z databáze Pro-Therm. Právˇe z tohoto d˚uvodu je KStar vybrán jako optimáln´ı predikˇcn´ı technika. Pro prokázán´ı korektnosti výsledk˚u tohoto meta-nástroje je pouˇzito testovac´ıho datasetu vy-tvoˇreného ojedinˇelým zp˚usobem, a to z v´ıcebodových mutac´ı extrahovaných taktéˇz z da-tabáze ProTherm. Jelikoˇz nebyly v´ıcebodové mutace pouˇzity pro natrénován´ı ˇzádného z in-tegrovaných nástroj˚u, pˇredpokládá se, ˇze takovéto porovnán´ı je objektivn´ı. Ve výsledku se t´ımto pˇr´ıstupem podaˇrilo pomoc´ı metody strojového uˇcen´ı KStar zvýˇsit korelaˇcn´ı koe-ficient na trénovac´ım datasetu o 0,130, respektive o 0,239 na datasetu testovac´ım oproti nejúspˇeˇsnˇejˇs´ımu integrovanému nástroji. Na základˇe zjiˇstˇených údaj˚u je moˇzné ˇr´ıci, ˇze me-tody strojového uˇcen´ı jsou vhodnými technikami pro problémy z oblasti proteinových pre-dikc´ı.

Abstract

This thesis describes a new approach to the detection of protein stability change upon amino acid mutations. The main goal is to create a new meta-tool, which combines the outputs of eight well-established prediction tools and due to suitable method of consensus making, it is able to improve the overall prediction accuracy. The optimal strategy of combination of outputs of these tools is found by using a various number of machine learning methods. From all tested machine learning methods, KStar showed the highest prediction accuracy on the training dataset compiled from experimentally validated mutations originating from ProTherm database. Due to this reason, it is chosen as an optimal prediction technique. The general prediction abilities is validated on the testing dataset composed of multi-point amino acid mutations extracted also from ProTherm database. Since the multi-point mutations were not used for training any of integrated tools, we suppose that such comparison is objective. As a result, the developed meta-tool based on KStar technique improves the correlation coefficient about 0.130 on the training dataset and 0.239 on the testing dataset, respectively (the comparison is being made against the most succesful integrated tool). Based on the obtained results, it is possible to claim that machine learning methods are suitable technique for the problems from area of protein predictions.

Kl´ıˇ

cov´

a slova

Predikce stability, stabilita proteinu, strojov´e uˇcen´ı, mutace proteinu, protherm.

Keywords

Stability prediction, protein stability, machine learning, protein mutation, protherm.

Citace

Frantiˇsek Malinka: Strojové uˇcen´ı v úloze predikce vlivu aminokyselinových mutac´ı na sta-bilitu proteinu, diplomová práce, Brno, FIT VUT v Brnˇe, 2014

(4)

Strojov´

e uˇ

cen´ı v ´

uloze predikce vlivu

aminokyselinov´

ych mutac´ı na stabilitu

proteinu

Prohl´

aˇ

sen´ı

Prohlaˇsuji, ˇze jsem tuto diplomovou práci vypracoval samostatnˇe pod veden´ım pana Ing. Jaroslava Bendla.Uvedl jsem vˇsechny literárn´ı prameny a publikace, ze kterých jsem ˇcerpal. . . . .

Frantiˇsek Malinka 26. kvˇetna 2014

Podˇ

ekov´

an´ı

T´ımto bych chtˇel podˇekovat panu Ing. Jaroslavu Bendlovi za odborné veden´ı, jeho cenné rady a pˇripom´ınky, které mi pomohly tuto diplomovou práci sepsat a prezentovat.

c

Frantiˇsek Malinka, 2014.

Tato práce vznikla jako ˇskoln´ı d´ılo na Vysokém uˇcen´ı technickém v Brnˇe, Fakultˇe in-formaˇcn´ıch technologi´ı. Práce je chránˇena autorským zákonem a jej´ı uˇzit´ı bez udˇelen´ı oprávnˇen´ı autorem je nezákonné, s výjimkou zákonem definovaných pˇr´ıpad˚u.

(5)

Obsah

1 Uvod´ 3

2 Proteiny 4

2.1 Aminokyseliny . . . 4

2.2 Struktura proteinov´e molekuly . . . 6

2.2.1 Prim´arn´ı struktura . . . 6

2.2.2 Sekund´arn´ı struktura . . . 6

2.2.3 Terci´aln´ı struktura . . . 7

2.2.4 Kvartern´ı struktura . . . 7

3 Probl´em predikce vlivu aminokyselinov´e substituce na stabilitu proteinu 9 3.1 Stabilita proteinu . . . 9

3.1.1 Datab´aze ProTherm . . . 9

3.2 Mutace v proteinu . . . 10

3.2.1 Pˇr´ıˇcina vzniku mutac´ı . . . 10

3.2.2 Typy mutac´ı . . . 11

3.2.3 Nukleotidov´y polymorfismus . . . 11

3.2.4 D˚usledky mutac´ı strukturn´ıch gen˚u. . . 12

4 N´astroje pro predikci stability proteinu 13 4.1 AUTO-MUTE . . . 14 4.2 SDM . . . 14 4.3 CUPSAT . . . 15 4.4 I-Mutant3.0 . . . 15 4.5 iPTREE-STAB . . . 16 4.6 mCSM . . . 16 4.7 PoPMuSiC . . . 17

4.8 Porovn´an´ı a shrnut´ı . . . 17

4.9 V´ysledky predikˇcn´ıch n´astroj˚u . . . 18

4.9.1 Metodika porovn´an´ı n´astroj˚u . . . 19

4.9.2 V´ysledky jednotliv´ych studi´ı . . . 19

5 Strojov´e uˇcen´ı 26 5.1 Generalizaˇcn´ı schopnost a jej´ı odhad . . . 29

5.1.1 Kˇrivka uˇcen´ı . . . 30

5.1.2 Pˇreuˇcen´ı. . . 31

5.2 WEKA - platforma pro anal´yzu znalost´ı . . . 34

(6)

6 Implementace 41

6.1 Pouˇzit´e datov´e sady . . . 41

6.1.1 Tr´enovac´ı dataset . . . 42

6.1.2 Testovac´ı dataset . . . 44

6.2 Vybran´e predikˇcn´ı n´astroje . . . 45

7 Experimenty a výsledky 47 7.1 Výsledky vybraných predikˇcn´ıch nástroj˚u na trénovac´ım datasetu . . . 47

7.2 Výsledky metod strojového uˇcen´ı na trénovac´ım datasetu . . . 48

7.2.1 Porovnán´ı výsledk˚u predikˇcn´ıch nástroj˚u a pˇr´ıstup˚u strojového uˇcen´ı 49 7.2.2 Nezávislý dataset v´ıcebodových mutac´ı . . . 51

7.2.3 V´ybˇer rys˚u . . . 52

8 Z´avˇer 55

A Databázové schéma pro databázi Stability 60

B Tabulky a grafy s v´ysledky test˚u 67

(7)

Kapitola 1

´

Uvod

Proteiny jsou z chemického hlediska nejsloˇzitˇejˇs´ı a funkˇcnˇe nejd˚umyslnˇejˇs´ı známé molekuly, a proto nen´ı divu, ˇze se velká ˇcást výzkumu v bioinformatice zabývá právˇe jimi. Mutace jednotlivých aminokyselin mohou m´ıt významný vliv na výslednou stabilitu proteinu. Je d˚uleˇzité si uvˇedomit, ˇze ne vˇsechny mutace musej´ı vést ke stabiln´ı molekule. Z tohoto d˚uvodu byly vyvinuty nástroje predikuj´ıc´ı vliv aminokyselinových mutac´ı na stabilitu pro-teinu.

Výsledkem této diplomové práce je návrh a vytvoˇren´ı meta-nástroje, který kombi-nuje výstupy jednotlivých nástroj˚u urˇcených pro predikci zmˇeny stability proteinu s c´ılem zpˇresnit poˇzadovaný výsledek vzhledem k výsledk˚um jiˇz existuj´ıc´ıch nástroj˚u.

Druhá kapitola pojednává o aminokyselinách a proteinech. Podrobnˇeji je zde rozebrána struktura proteinu, kterou je moˇzné rozdˇelit na primárn´ı, sekundárn´ı, terciáln´ı a kvartern´ı. Nechyb´ı zde ani zm´ınka o aminokyselinách a jejich moˇzné klasifikaci.

Tˇret´ı kapitola se zabývá problémem predikce vlivu aminokyselinové substituce na sta-bilitu proteinu. Konkrétnˇe je zde popsáno rozdˇelen´ı mutac´ı aminokyselin a jednotlivé typy jsou detailnˇeji popsány. Nast´ınˇeny jsou taktéˇz moˇzné problémy pˇri predikci stability pro-teinu.

V ˇctvrté kapitole je moˇzné naj´ıt výˇcet dostupných nástroj˚u pro predikci stability pro-teinu. Vybrané nástroje jsou zde struˇcnˇe popsány a klasifikovány do konkrétn´ı skupiny nástroj˚u podle zp˚usobu predikce stability. Jednotlivé metody predikce stability jsou zde taktéˇz rozepsány. V závˇeru této kapitoly jsou uvedeny metodiky a studie, zabývaj´ıc´ı se výkonnost´ı predikˇcn´ıch nástroj˚u.

Pátá kapitola je urˇcena strojovému uˇcen´ı. Zde jsou popsány základn´ı problémy, principy a metody vyuˇz´ıvané v bioinformatické praxi. Nechyb´ı zde ani informace ohlednˇe problém˚u pˇri výbˇeru vhodného datasetu, problému pˇreuˇcen´ı a nast´ınˇen´ı jejich moˇzných ˇreˇsen´ı.

ˇ

Sestá kapitola je vˇenována implementaci meta-nástroje. Je zde popsán postup vytvoˇren´ı trénovac´ıho a testovac´ıho datasetu, uvedeny jsou taktéˇz jejich základn´ı charakteristiky.

Sedmá kapitola se zabývá testován´ım a experimentován´ım s dosaˇzenými výsledky nad trénovac´ımi i testovac´ımi daty. Tyto výsledky jsou zhodnoceny a porovnány s výsledky jednotlivých predikˇcn´ıch nástroj˚u. Diskutovány jsou taktéˇz výsledky techniky výbˇeru rys˚u. V závˇereˇcné kapitole je shrnuta výsledná práce s d˚urazem na z´ıskané výsledky. Popsán je pˇr´ınos a úspˇeˇsnost ˇreˇsen´ı této práce, uvedena jsou taktéˇz moˇzná vylepˇsen´ı pro budouc´ı práci.

(8)

Kapitola 2

Proteiny

Proteiny neboli b´ılkoviny tvoˇr´ı zhruba jednu polovinu suché hmotnosti buˇnky [35]. Jedná se vlastnˇe o biopolymer tvoˇrený jedn´ım nebo v´ıce polypeptidovými ˇretˇezci. Polypepti-dové ˇretˇezce oznaˇcujeme jako polymery aminokyselin spojených navzájem peptidovými vazbami [43]. Proteiny nejsou ovˇsem jenom pouhými stavebn´ımi kameny, z nichˇz je buˇnka tvoˇrena. Z [2] je patrné, ˇze obstarávaj´ı i mnoho dalˇs´ıch funkc´ı a ˇze proteiny lze rozdˇelit na:

• enzymy, • proteiny strukturn´ı, • transportn´ı, • pohybové, • zásobn´ı, • signáln´ı, • a dalˇs´ı.

Vzhledem k jisté univerzálnosti protein˚u nikoho nepˇrekvap´ı, ˇze z chemického hlediska jsou právˇe proteiny nejsloˇzitˇejˇs´ı a funkˇcnˇe nejd˚umyslnˇejˇs´ı známé molekuly. Velké mnoˇzstv´ı funkc´ı, které proteiny zajiˇst’uj´ı, je d˚usledkem obrovského poˇctu r˚uzných tvar˚u, kterých mohou pro-teiny nabývat.

2.1

Aminokyseliny

Aminokyseliny jsou odvozeny od organických kyselin, kde na alfa uhl´ık je navázána karbo-xylová (-COOH) a aminová (-NH2) funkˇcn´ı skupina. Jednotlivé aminokyseliny se od sebe

liˇs´ı v tzv. postrann´ım ˇretˇezci (R), jehoˇz podoba urˇcuje chemické vlastnosti aminokyse-lin, resp. protein˚u. Obecný vzorec pro tvorbu aminokyseliny je znázornˇen na obrázku 2.1. Jednotlivé aminokyseliny jsou v molekule spojeny pomoc´ı peptidové vazby, která vznikne spojen´ım karboxylové skupiny jedné aminokyseliny s amino skupinou druhé aminokyseliny (viz obrázek 2.2). Pˇri tvorbˇe této peptidové vazby se zároveˇn vyluˇcuje molekula vody, coˇz lze oznaˇcit za kondenzaci.

Zˇretˇezen´ım v´ıce aminokyselin vzniká peptidový ˇretˇezec. Zbytky aminokyselin odstupuj´ı od osy ˇretˇezce jako tzv. postrann´ı ˇretˇezce. Kaˇzdý peptidový ˇretˇezec je na jednom konci

(9)

Obrázek 2.1: Základn´ı obecný vzorec aminokyselin. Symbol R oznaˇcuje postrann´ı ˇretˇezec, který pˇredstavuje zbytek aminokyseliny. Postrann´ı ˇretˇezec R, karboxylová a aminová sku-pina jsou navázány na alfa-uhl´ık. [35]

Obr´azek 2.2: Tvorba peptidov´e vazby mezi dvˇema aminokyselinami. [35]

zakonˇcen NH2 skupinou (aminový ˇci N konec) a na druhém COOH skupinou (karboxylový

ˇ

ci C konec). [35]

Jak jiˇz bylo ˇreˇceno, o vlastnostech protein˚u rozhoduje charakter postrann´ıch ˇretˇezc˚u aminokyselin. Podle [43] lze aminokyseliny z hlediska fyzik´alnˇe-chemick´eho klasifikovat takto:

• Aminokyseliny s nepolárn´ım zbytkem. Do této skupiny patˇr´ı vˇsechny aminoky-seliny, které maj´ı alkylový postrann´ı ˇretˇezec a jsou hydrofobn´ı. Postrann´ı ˇretˇezce se snaˇz´ı shlukovat uvnitˇr molekuly a vyhnout se tak kontaktu s vodou, která je uvnitˇr buˇnky obklopuje. Mezi tyto aminokyseliny patˇr´ı glycin, alanin, valin, leucin, izoleucin, fenylalanin, tryptofan, methionin a prolin. [2]

• Aminokyseliny s polárn´ım zbytkem. Naopak aminokyseliny s polárn´ım zbyt-kem se snaˇz´ı zdrˇzovat na povrchu molekuly, kde mohou vytváˇret vod´ıkové m˚ustky s molekulami vody a dalˇs´ıch polárn´ıch látek. Tyto aminokyseliny se ve vodˇe dobˇre rozpouˇstˇej´ı. Patˇr´ı sem tyrosin, asparagin, glutamin, serin, threonin a cystein. [2]

• Aminokyseliny s kyselým zbytkem. Jsou to takové aminokyseliny, jejichˇz po-strann´ı ˇretˇezec obsahuje karboxylovou skupiny. Patˇr´ı sem kyselina asparagová a ky-selina glutamová. [43]

• Aminokyseliny se zásaditým zbytkem. Tyto aminokyseliny maj´ı pˇri neutráln´ım pH v postrann´ım ˇretˇezci kladný náboj. Patˇr´ı sem aminokyseliny histidin, arginin a lysin. [43]

Pro úplnost dopln´ım, ˇze dˇelen´ı aminokyselin m˚uˇze být zaloˇzeno i na struktuˇre jejich po-strann´ıch ˇretˇezc˚u, v´ıce lze nalézt na [43].

(10)

Jelikoˇz je moˇzné setkat se s v´ıce variantami zápisu konkrétn´ı aminokyseliny, v ta-bulce 2.1 je uveden seznam dvaceti aminokyselin a jejich odpov´ıdaj´ıc´ıch tˇr´ıp´ısmenných a jednop´ısmenných ekvivalent˚u.

Pol´arn´ı aminokyseliny

Asparagov´a kys. Asp D Glutaminov´a kys. Glu E

Arginin Arg R Lysin Lys K Histidin His H Asparagin Asn N Glutamin Gln Q Serin Ser S Threonin Thr T Tyrosin Tyr Y

Nepol´arn´ı aminokyseliny

Alanin Ala A Glycin Gly G Valin Val V Leucin Leu L Izoleucin Ile I Prolin Pro P Fenylalanin Phe F Methionin Met M Tryptofan Trp W Cystein Cys C

Tabulka 2.1: Seznam 20 r˚uzných aminokyselin nacházej´ıc´ıch se v proteinech. Vedle jména aminokyseliny je jej´ı tˇr´ıp´ısmenná i jednop´ısmenná zkratka. [2]

2.2

Struktura proteinov´

e molekuly

2.2.1 Prim´arn´ı struktura

Primárn´ı struktura proteinu je taková struktura, která je tvoˇrena sledem (sekvenc´ı) jed-notlivých aminokyselin v molekule. Z tohoto tvrzen´ı vyplývá, ˇze vlastnosti urˇcité b´ılkoviny nejsou dány pouze aminokyselinovým sloˇzen´ım, ale taktéˇz jejich poˇrad´ım. Tatáˇz mnoˇzina aminokyselin m˚uˇze být seˇrazena lineárnˇe teoreticky ve vˇsech kombinac´ıch. [35]

Tato struktura obsahuje informaci, podle které se tvoˇr´ı sekundárn´ı, terciáln´ı a kvartern´ı struktura proteinu, realizuje se jejich nadmolekulárn´ı struktura a biologická funkce [43].

Pro zjiˇstˇen´ı primárn´ı struktury proteinu se pouˇz´ıvá technika zvanásekvenován´ı.

2.2.2 Sekund´arn´ı struktura

Jelikoˇz polypeptidový ˇretˇezec umoˇzˇnuje volnou rotaci atom˚u, m˚uˇzeme tyto ˇretˇezce oznaˇcit jako velmi flexibiln´ı. Tvar ˇretˇezce v prostoru oznaˇcujeme jako konformaci proteinu. Konfor-mace ovˇsem nen´ı náhodná, ale je urˇcována silami, které p˚usob´ı uvnitˇr molekuly. Pˇredevˇs´ım se jedná o rozloˇzen´ı sil mezi aminokyselinami s polárn´ımi a nepolárn´ımi postrann´ımi ˇretˇezci. Nepolárn´ı postrann´ı ˇretˇezce jsou pˇritahovány k sobˇe (dovnitˇr molekuly), kdeˇzto polárn´ı po-strann´ı ˇretˇezce se orientuj´ı na povrch molekuly (viz obrázek 2.3). [35]

Dalˇs´ı silou, která zde p˚usob´ı, jsou vod´ıkové m˚ustky mezi peptidovými vazbami v ˇretˇezci, dále mezi nimi a postrann´ımi ˇretˇezci a mezi postrann´ımi ˇretˇezci navzájem [35]. D˚usledkem tˇechto sil je to, ˇze daný polypeptidový ˇretˇezec zaujme vˇzdy stejnou konformaci. Zmˇ en´ıme-li pomˇer tˇechto sil (napˇr. denaturac´ı), polypeptidový ˇretˇezec se vrát´ı zpˇet do p˚uvodn´ıho stavu, jakmile tyto s´ıly pˇrestanou p˚usobit (napˇr. renaturac´ı).

Pˇri bliˇzˇs´ım zkoumán´ı struktur proteinu si lze vˇsimnout, ˇze obvykle obsahuj´ı dva základn´ı modely. Prvn´ım modelem jeα-ˇsroubovice (α-helix).α-helix je takové prostorové uspoˇrádán´ı,

(11)

Obrázek 2.3: Rozvinutý polypeptidový ˇretˇezec zauj´ımá ve vodném prostˇred´ı urˇcitou pro-storovou strukturu. Nepolárn´ı postrann´ı ˇretˇezce se soustˇred’uj´ı uvnitˇr molekuly, kdeˇzto hydrofiln´ı postrann´ı ˇretˇezce se vyskytuj´ı na povrchu molekuly, kde interaguj´ı s molekulami vody. [35]

kde ˇretˇezec vytváˇr´ı ˇsroubovici. Tato konformace je stabilizována vod´ıkovými m˚ustky mezi nad sebou leˇz´ıc´ımi peptidovými vazbami. [35]

Druhým modelem jeβ-struktura (βskládaný list). Vβ-struktuˇre prob´ıhaj´ı úseky ˇretˇezce paralelnˇe vedle sebe. Tato struktura je stabilizována vod´ıkovými m˚ustky mezi soused´ıc´ımi ´

useky. [35]

2.2.3 Terci´aln´ı struktura

Terciáln´ı strukturou se oznaˇcuje prostorové trojrozmˇerné uspoˇrádán´ı polypeptidového ˇretˇezce. Hlavn´ım d˚uvodem pro vytvoˇren´ı terciárn´ı struktury protein˚u je r˚uznost chemické povahy aminokyselinových postrann´ıch ˇretˇezc˚u schopných tvoˇrit nekovalentn´ı vazby. [43]

Jelikoˇz jsou vˇsechny interakce udrˇzuj´ıc´ı konformaˇcn´ı stabilitu energeticky slabé (taktéˇz nekovalentn´ı), p˚usoben´ım vnˇejˇs´ıch faktor˚u docház´ı ke zmˇenˇe terciáln´ı struktury [35]. Pokud je tato zmˇena vratná, mluv´ıme o vratné denaturaci, jinak ji oznaˇcujeme jako nevratnou denaturaci.

(12)

2.2.4 Kvartern´ı struktura

Kvartern´ı struktura ˇreˇs´ı uspoˇrádán´ı jednotlivých polypeptidových ˇretˇezc˚u v molekule pro-teinu. Toto se týká ovˇsem jen oligomern´ıch protein˚u, tj. takových protein˚u, které jsou tvoˇrený v´ıce jak jedn´ım polypeptidovým ˇretˇezcem. Je zaj´ımavé, ˇze i pˇrestoˇze je protein tvoˇren nˇekolika polypeptidovými ˇretˇezci, chová se v roztoku a v ˇzivé soustavˇe jako jedna molekula vyznaˇcuj´ıc´ı se urˇcitou biologickou funkc´ı. [43]

Sekundárn´ı, terciáln´ı a kvartern´ı strukturu lze zhlédnout na obrázku 2.4.

Obrázek 2.4: V levé ˇcásti obrázku m˚uˇzeme vidˇet sekundárn´ı strukturu proteinu (konkrétnˇe

α-helix a β-strukturu). V prostˇredn´ı ˇcásti je zobrazena terciáln´ı struktura s proteinovou doménou a proteinovou podjednotkou (monomerem). V pravé ˇcásti se nacház´ı proteinová molekula (dimer) ˇrad´ıc´ı se do kvartern´ı struktury. [35]

(13)

Kapitola 3

Probl´

em predikce vlivu

aminokyselinov´

e substituce na

stabilitu proteinu

3.1

Stabilita proteinu

Stabilita proteinu je urˇcena mnoˇzinou navzájem p˚usob´ıc´ıch a ovlivˇnuj´ıc´ıch se sil. Pokud pro-tein oznaˇc´ıme za stabiln´ı, nacház´ı se ve své p˚uvodn´ı sloˇzené konformaci. Na druhou stranu, pokud je protein nestabiln´ı, dojde k jeho rozloˇzen´ı (denaturaci). Protein ve sloˇzené konfor-maci je stabilizován r˚uznými vzájemnými interakcemi jako jsou hydrofobn´ı, elektrostatické, vod´ıkové vazby ˇci van der Waaalsovi s´ıly. V rozloˇzené konformaci dominuje entropická a neentropická volná energie. [19]

Interakce mezi hlavn´ım ˇretˇezcem a jeho postrann´ımi ˇretˇezci urˇcuje vˇsechny moˇzné kon-formace, kterých protein m˚uˇze nabývat. Struktura výsledného proteinu je omezena také pomoc´ı tzv. torzn´ıch úhl˚u. Tyto torzn´ı úhly umoˇzˇnuj´ı rotaci okolo N −Cα a Cα−C jed-noduchých vazeb jednotlivých residu´ı. D˚usledkem je druhý termodynamický zákon, který ˇr´ıká, ˇze systémy s konstantn´ı teplotou a tlakem najdou rovnováˇzný bod jako jistý kompro-mis mezi entalpi´ı (H), entropi´ı (S) a termodynamickou teplotou (T). Výsledkem je tzv. Gibbsova volná energie vyjádˇrená vztahemG=H−T∗S. [26]

Pokud pˇrihlédneme k moˇznostem vzniku mutac´ı maj´ıc´ı za následek zmˇenu aminoky-seliny, je zˇrejmé, ˇze m˚uˇze doj´ıt jak ke zmˇenˇe konformace proteinu, tak i ke zmˇenˇe jeho stability. Podrobnˇejˇs´ı informace o mutac´ıch lze nalézt v kapitole 3.2.

3.1.1 Datab´aze ProTherm

Termodynamická data protein˚u jsou velmi d˚uleˇzitá pro porozumˇen´ı základn´ım mecha-nism˚um proteinové stability. Z tohoto d˚uvodu bylo bˇehem posledn´ıch desetilet´ı provedeno mnoho experiment˚u s c´ılem z´ıskat tato data. Výsledky tˇechto experiment˚u byly vˇetˇsinou publikovány v r˚uzných ˇcasopisech zabývaj´ıc´ıch se touto tématikou. Jelikoˇz se data nevy-skytovala na jednom m´ıstˇe, hledán´ı konkrétn´ıch záznam˚u byl velký problém. Proto v roce 1998 vznikla elektronicky dostupná databáze ProTherm [25], která shromaˇzd’uje takto ex-perimentálnˇe z´ıskaná data. Tato databáze obsahuje termodynamická data (napˇr. zmˇena Gi-bbsovy volné energie, zmˇena entalpie aj.), strukturn´ı informace, mˇeˇr´ıc´ı metody, odkazy na souvisej´ıc´ı literaturu nebo podm´ınky, ve kterých byl experiment proveden [26]. V souˇcasné dobˇe tato databáze obsahuje 25 820 záznam˚u [1].

(14)

Shromaˇzd’ován´ı tˇechto dat a zpˇr´ıstupnˇen´ı vˇedecké komunitˇe m˚uˇze pomoci vyvinout nové metody pro lepˇs´ı porozumˇen´ı a pˇredpov´ıdán´ı stability proteinu. Tohoto faktu je vyuˇzito i v této diplomové práci.

3.2

Mutace v proteinu

Jak bylo ˇreˇceno v úvodu kapitoly, stabilitu proteinu je moˇzné ovlivnit zejména mutac´ı jednotlivých aminokyselin.

Term´ınem mutace jsou v souvislosti s lidským genomem oznaˇcovány náhlé, náhodné nebo neusmˇernˇené zmˇeny genetického materiálu. Jsou to vˇsechny zmˇeny genetické infor-mace, které nejsou výsledkem segregac´ı a rekombinac´ı ˇcásti genotyp˚u jiˇz existuj´ıc´ıch [49].

Dle [35] mohou mutace mˇenit obsah genomu na tˇrech ´urovn´ıch, podle toho rozliˇsujeme mutace:

• genov´e (mˇen´ı informaci nesenou genem),

• chromozomov´e (zp˚usobena zmˇenou struktury chromozomu),

• genomov´e (zmˇena poˇctu chromozom˚u).

Jak jiˇz bylo zm´ınˇeno, primárn´ı struktura proteinu je urˇcována z informac´ı obsaˇzených v DNA a právˇe DNA je m´ıstem, kde prob´ıhaj´ı mutace, které mohou, ale také nemus´ı m´ıt zásadn´ı vliv na strukturu resp. funkci proteinu. Z tohoto d˚uvodu se v dalˇs´ıch podkapitolách budeme podrobnˇeji zmiˇnovat jen o mutac´ıch genových.

3.2.1 Pˇr´ıˇcina vzniku mutac´ı

V této podkapitole jsou popsány fyzické i chemické faktory ovlivˇnuj´ıc´ı vznik mutageneze (tj. procesu vzniku mutac´ı). Genové mutace mohou vzniknout napˇr´ıklad jako chyby pˇri replikaci DNA. Pokud se zamˇeˇr´ıme sp´ıˇse na pˇrenos genetické informace, mutace mohou ovlivnit procesy jako transkripce ˇci translace. Známým pˇr´ıpadem mutace je napˇr´ıklad srp-kovitá anémie. Ta vzniká mutac´ı genu pro hemoglobin, konkrétnˇe zámˇenou v jeho beta-peptidickém ˇretˇezci, kde se na ˇsesté pozici m´ısto glutaminové kyseliny objevuje valin, který zp˚usobuje srpkovitost ˇcervených krvinek. [49]

Mezi fyzikáln´ı faktory zp˚usobuj´ıc´ı mutaci m˚uˇzeme zaˇradit záˇren´ı, a to jak ionizuj´ıc´ı, tak i neionizuj´ıc´ı. Stupeˇn poˇskozen´ı molekulárn´ı struktury DNA je pˇr´ımo úmˇerný absorbo-vané dávce záˇren´ı. Mezi ionizuj´ıc´ı záˇren´ı lze zaˇradit pˇredevˇs´ım rentgenové záˇren´ı, neutrony, protony a elektrony o vysokém obsahu energie. Toto záˇren´ı zp˚usobuje pˇreruˇsen´ı kontinu-ity vlákna DNA. Mezi neionizuj´ıc´ı záˇren´ı zaˇrazujeme pˇredevˇs´ım záˇren´ı ultrafialové, které poˇskozuje DNA.

Mezi chemické faktory ovlivˇnuj´ıc´ı strukturu DNA lze zaˇradit látky zvané genotoxiny. Tˇechto látek je obrovské mnoˇzstv´ı a patˇr´ı mezi nˇe napˇr´ıklad alkylaˇcn´ı ˇcinidla, silná oxidaˇcn´ı ˇ

cinidla, ˇcinidla interkalaˇcn´ı a jiné. Nˇekteré látky ovˇsem nemusej´ı poˇskozovat DNA pˇr´ımo, ale mohou naruˇsovat napˇr´ıklad replikaci. [49]

(15)

3.2.2 Typy mutac´ı

Dle [35] mezi z´akladn´ı typy mutac´ı patˇr´ı:

• substituce,

• inzerce,

• delece.

Vˇsechny ostatn´ı typy mutac´ı jsou jenom r˚uzn´ymi variantami tˇechto tˇr´ı zm´ınˇen´ych mutac´ı.

Substituce je zámˇena jednoho ˇci nˇekolika po sobˇe jdouc´ıch pár˚u nukleotid˚u.Transpozic´ıse oznaˇcuje zmˇena poˇrad´ı nukleotid˚u nebo nukleotidových pár˚u. Inverze je výmˇena jednoho nebo v´ıce nukleotidových pár˚u mezi obˇema vlákny DNA. Vˇclenˇen´ı jednoho nebo v´ıce po sobˇe následuj´ıc´ıch nukleotid˚u nebo nukleotidových pár˚u oznaˇcujeme jakoinzerce.Deleceje pak ztráta jednoho nebo nˇekolika po sobˇe následuj´ıc´ıch nukleotid˚u ˇci nukleotidových pár˚u. Vˇsechny uvedené mutace m˚uˇzeme pˇrehlednˇe vidˇet v tabulce3.1.

vl´akno standardn´ı DNA a b c d e f

substituce a r c d e f transpozice a c d b e f inzerce a b m n c d e f duplikace a b b c d e f delece a b d e f inverze a b e f c d

Tabulka 3.1: Bˇeˇzné typy genových mutac´ı (pˇrepracováno z [35]).

3.2.3 Nukleotidov´y polymorfismus

Vˇsichni lidé, s výjimkou identických sourozenc˚u, maj´ı unikátn´ı DNA sekvenci. Pˇri porovnán´ı jedinc˚u, kteˇr´ı nebyli v pˇr´ıbuzenském vztahu, se zjistilo, ˇze se genom tˇechto jedinc˚u liˇs´ı zhruba o 0,1%. Vˇetˇsina tˇechto odliˇsnost´ı je zp˚usobena právˇe nukleotidovými polymorfismy, konkrétnˇe jednobodovým polymorfismem oznaˇcovaným SNP (Single-nucleotide polymor-phism) [26]. Odhaduje se, ˇze v´ıce jak 93% lidských gen˚u obsahuje alespoˇn nˇejaký SNP, z toho pˇribliˇznˇe 98% gen˚u je ve vzdálenosti do 5000 pár˚u báz´ı od SNP. [10]

SNP lze tedy chápat jako genetickou variabilitu mezi jedinci v populaci, kde docház´ı k substituci, inzerci nebo deleci pouze u jednoho páru báz´ı. Pˇr´ıkladem budiˇz jiˇz zm´ınˇená srpkovitá anémie. [26]

Pokud se pod´ıváme na tabulku 3.2, která znázorˇnuje kódován´ı aminokyselin pomoc´ı kodon˚u mRNA, zjist´ıme, ˇze urˇcitá aminokyselina m˚uˇze být kódována r˚uznými kodony. Z tohoto faktu vyplývá, ˇze pˇri mutaci nemus´ı vˇzdy doj´ıt ke zmˇenˇe aminokyseliny a s t´ım souvisej´ıc´ı zmˇenˇe primárn´ı struktury pˇr´ısluˇsného proteinu.

(16)

Dle [35], [26] lze SNP rozdˇelit na:

• synonymn´ı (tichou) mutace, které nezp˚usob´ı zámˇenu aminokyseliny na dané pozici,

• nesynonymn´ı mutace, kde vznikaj´ı kodony urˇcuj´ıc´ı jinou aminokyselinu,

• nesmyslné (nonsense) mutace, kde vznikaj´ı ukonˇcovac´ı kodony, ˇc´ımˇz dojde ke zkrácen´ı polypeptidových ˇretˇezc˚u.

U C A G

U

UUU Phe UCU Ser UAU Tyr UGU Cys

UUC Phe UCC Ser UAC Tyr UGC Cys

UUA Leu UCA Ser UAA stop UGA stop

UUG Leu UCG Ser UAG stop UGG Trp

C

CUU Leu CCU Pro CAU His CGU Arg

CUC Leu CCC Pro CAC His CGC Arg

CUA Leu CCA Pro CAA Gln CGA Arg

CUG Leu CCG Pro CAG Gln CGG Arg

A

AUU Ile ACU Thr AAU Asn AGU Ser

AUC Ile ACC Thr AAC Asn AGC Ser

AUA Ile ACA Thr AAA Lys AGA Arg

AUG Met ACG Thr AAG Lys AGG Arg

G

GUU Val GCU Ala GAU Asp GGU Gly

GUC Val GCC Ala GAC Asp GGC Gly

GUA Val GCA Ala GAA Glu GGA Gly

GUG Val GCG Ala GAG Glu GGG Gly

Tabulka 3.2: K´odov´an´ı aminokyselin pomoc´ı kodon˚u mRNA. [35]

3.2.4 D˚usledky mutac´ı strukturn´ıch gen˚u

Jelikoˇz mutace mohou ve svém d˚usledku mˇenit primárn´ı strukturu protein˚u, je zˇrejmé, ˇ

ze tyto mutace také mohou vyvolávat podstatné zmˇeny metabolických i jiných proces˚u v buˇnce (dokonce mohou zp˚usobit i jej´ı zánik). Je taktéˇz zaj´ımavé, ˇze pokud dojde k zámˇenˇe aminokyseliny v m´ıstˇe nevýznamném pro biologickou funkci proteinu, mutace se ve fenotypu neprojev´ı. Pokud dojde k zámˇenˇe aminokyseliny v aktivn´ım ˇci vazebném m´ıstˇe proteinu, funkce proteinu se zmˇen´ı nebo se daný protein stane nefunkˇcn´ım.

Delece nebo inzerce nukleotid˚u zp˚usob´ı zmˇenu ˇctec´ıho r´amce, jehoˇz d˚usledkem je vˇzdy synt´eza nefunkˇcn´ıho proteinu.

Fenotypové projevy mutac´ı strukturn´ıch gen˚u jsou r˚uzné podle zmˇeny stupnˇe genového produktu. M˚uˇze se jednat o zmˇenu kinetiky enzymu ˇci vazebných schopnost´ı proteinu nebo o absenci urˇcité metabolické funkce. [35]

(17)

Kapitola 4

N´

astroje pro predikci stability

proteinu

V pr˚ubˇehu posledn´ıho desetilet´ı bylo vyvinuto nˇekolik metod k urˇcen´ı vlivu aminokyse-linových mutac´ı na stabilitu proteinu. Vˇetˇsina z tˇechto výpoˇcetn´ıch metod je primárnˇe zaloˇzena na výpoˇctu zmˇeny volné energie (∆∆G). Nˇekteré z tˇechto metod pouˇz´ıvaj´ı pro výpoˇcet ∆∆G energetické funkce, které popisuj´ı interakce mezi jednotlivými residui. Jiné nástroje mohou pouˇz´ıvat metod strojového uˇcen´ı (machine learning approaches), kde k natr´ e-nován´ı modelu vyuˇz´ıvaj´ı databáze s experimentálnˇe namˇeˇrenými hodnotami zmˇen po pro-veden´ı mutac´ı.

Zp˚usob urˇcen´ı energetick´ych funkc´ı m˚uˇzeme rozdˇelit dle [23] na pˇr´ıstupy zaloˇzen´e na:

• fyzik´aln´ım potenci´alu (physical potential approaches),

• statistick´em potenci´alu (statistical potential approaches) a

• empirick´em potenci´alu (empirical potential approaches).

Výpoˇcty ∆∆G zaloˇzené na fyzikáln´ım potenciálu simuluj´ı rozloˇzen´ı sil mezi jednotlivými atomy (tj. analýza sil). Z tohoto d˚uvodu je tato metoda predikce stability výpoˇcetnˇe nároˇcnˇejˇs´ı neˇz metody strojového uˇcen´ı. Výpoˇcet statistického potenciálu vyuˇz´ıvá analýzy r˚uzných vlastnost´ı extrahovaných z datasetu proteinových struktur (statistické analýzy prostˇred´ı, substituˇcn´ıch frekvenc´ı ˇci korelac´ı pˇrilehlých residu´ı nalezených experimentálnˇe v proteinových strukturách). Pˇri výpoˇctu energetické funkce je empirický potenciál urˇcen kombinac´ı váhovaných fyzikáln´ıch a statistických energetických výraz˚u [23]. Nˇekteré pˇr´ıstupy taktéˇz mohou kombinovat výhody statistické analýzy a metod strojového uˇcen´ı, respektive neuronových s´ıt´ı. V nˇekterých pˇr´ıpadech se vyskytuj´ı hybridn´ı pˇr´ıstupy zaloˇzené na fy-zikáln´ım a statistickém potenciálu [39].

Dále m˚uˇzeme predikˇcn´ı nástroje rozdˇelit dle zp˚usobu práce s proteinovými záznamy (struk-turami) na

• strukturn´ı a

(18)

Predikˇcn´ı nástroje vyuˇz´ıvaj´ıc´ı 3D struktury proteinu vyˇzaduj´ı ke svému chodu soubory ve formátu PDB (Protein data bank) [6], které jsou volnˇe on-line dostupné1. K nevýhodám tohoto pˇr´ıstupu patˇr´ı právˇe závislost na PDB souborech obsahuj´ıc´ıch potˇrebné strukturn´ı informace. Zdrojem dat bývá experimentáln´ı mˇeˇren´ı metodami NMR a X-ray krystalo-grafi´ı. [6]

Nástroje vyuˇz´ıvaj´ıc´ı sekvenˇcn´ıho pˇr´ıstupu vyˇzaduj´ı pouze sekvenci aminokyselin daného proteinu. V tomto pˇr´ıpadˇe zde odpadá pˇr´ıtomnost chyb, kdy experimentáln´ı mˇeˇr´ıc´ı metody (NMR a X-ray krystalografie) nejsou schopny zaznamenat urˇcité pozice atom˚u, jak se tomu dˇeje v nˇekterých PDB záznamech, které tak znemoˇzˇnuj´ı predikci vlivu mutace na stabilitu proteinu na daných atomových souˇradnic´ıch. Na druhou stranu t´ımto pˇr´ıstupem ztrác´ıme informaci o prostorovém uspoˇrádán´ı atom˚u proteinu.

N´ıˇze uvedené predikˇcn´ı nástroje byly vybrány takovým zp˚usobem, aby byla pokryta co moˇzná nejˇsirˇs´ı ˇskála zp˚usob˚u a metod jak predikovat stabilitu proteinu a bylo t´ım dosaˇzeno co moˇzná nejvyˇsˇs´ı m´ıry univerzálnosti výsledného meta-nástroje.

4.1

AUTO-MUTE

AUTO-MUTE je kolekc´ı tˇr´ı n´astroj˚u (∆∆G, ∆∆GH2O _{a ∆T}

m) slouˇz´ıc´ıch pro predikci

vlivu aminokyselinových mutac´ı na stabilitu proteinu. V tomto textu se budeme zabývat nástrojem oznaˇceným ∆∆G, který predikuje vliv jednobodových mutac´ı na stabilitu pro-teinu s ohledem na tepelnou denaturaci.

Predikˇcn´ı modely tohoto nástroje byly trénovány na m´ırnˇe upravených záznamech z´ıskaných z databáze ProTherm (bl´ıˇze popsáno v [8]). P˚uvodn´ı dataset obsahoval 1948 jednobodových mutac´ı z celkem 58 proteinových struktur, které se zároveˇn vyskytovaly v databázi PDB. Po r˚uzných úpravách (napˇr. odstranˇen´ı proteinových struktur, které ne-obsahovaly kompletn´ı informace o 3D struktuˇre proteinu), dataset obsahoval 1925 jedno-bodových mutac´ı v 55 proteinových strukturách.

Poskytnuty jsou dva klasifikaˇcn´ı modely (pouze pro predikci znam´enka ∆∆G) a dva regresn´ı modely (predikce hodnoty ∆∆G). U klasifikaˇcn´ıch metod lze pouˇz´ıtRandom Forest

(RF) aSupport Vector Machine(SVM), regresn´ı metody nab´ızej´ı moˇznost volby meziTree Regression(REPTree) aSVM regression(SVMreg). Výbˇer mezi tˇemito modely je ponechán na uˇzivateli, podrobnˇejˇs´ı informace lze nalézt na [31].

K povinným vstupn´ım parametr˚um patˇr´ı: PDB ID (jednoznaˇcný ˇctyˇrp´ısmenný iden-tifikátor proteinové struktury v PDB databázi), proteinový ˇretˇezec, mutace (ve formátu p˚uvodn´ı residuum, pozice mutace, nahrazené residuum), teplota (v rozsahu 0◦C aˇz 100◦C) a pH (v rozsahu 0 -log[H+] aˇz 14 -log[H+]).

Výsledný efekt mutace je urˇcen na základˇe hodnoty ∆∆G. Pokud je splnˇena podm´ınka ∆∆G >0 kcal/mol, jde o stabilizuj´ıc´ı mutaci, jinak je mutace oznaˇcena za destabilizuj´ıc´ı. K dalˇs´ım výstup˚um nástroje patˇr´ı napˇr´ıklad i predikce sekundárn´ı struktury. Samotný nástroj umoˇzˇnuje predikovat aˇz pˇet mutac´ı souˇcasnˇe.

4.2

SDM

Site Directed Mutator (SDM) je on-line nástroj zaloˇzený na výpoˇctu statistického po-tenciálu energetické funkce vyvinutý Christopherem M. Tophamem [44] k predikci efektu

(19)

jednobodových mutac´ı na stabilitu proteinu. SDM pouˇz´ıvá specifické prostˇred´ı aminokyse-linových substituˇcn´ıch frekvenc´ı v rámci homologn´ıch proteinových rodin k výpoˇctu tzv.

stability skóre. Tento typ výpoˇctu lze povaˇzovat za analogii ke zmˇenˇe volné energie mezi divokým typem (z anglického pˇrekladuwild-type) a mutovaným proteinem [47]. Dalˇs´ı infor-mace ohlednˇe principu výpoˇctu predikce stability proteinu lze nalézt na [44].

Nástroj k predikci vyuˇz´ıvá strukturn´ıch informac´ı, proto je nutné zadat PDB ID nebo je moˇzné nahrát vlastn´ı PDB soubor. Dále je nutné urˇcit proteinový ˇretˇezec, pozici muto-vaného residua a samotné mutované residuum. Nástroj neumoˇzˇnuje zadat p˚uvodn´ı residuum na zvolené pozici. Tato vlastnost se zvláˇstˇe pˇri pouˇzit´ı automatického zpracován´ı ukázala jako nevýhodná, a to vzhledem k faktu, ˇze nˇekteré PDB soubory neobsahuj´ı kompletn´ı posloupnost atom˚u a m˚uˇze tak doj´ıt k chybnému urˇcen´ı mutovaného m´ısta. Typicky se jedná o problém na zaˇcátc´ıch a konc´ıch ˇretˇezce, kde vlivem pouˇzité experimentáln´ı metody nemus´ı být daná aminokyselina uvedena a m˚uˇze tak doj´ıt k nekonzistenci mezi pozicemi aminokyselin v záznamu SEQRES a atomovými souˇradnicemi. Kv˚uli absenci kontroly ekvi-valence m˚uˇzeme v tˇechto pˇr´ıpadech predikovat stabilitu proteinu na jiné pozici, neˇz bylo p˚uvodnˇe poˇzadováno.

K zaj´ımavým vlastnostem tohoto nástroje patˇr´ı, ˇze kromˇe predikce stability proteinu pˇredpov´ıdá i moˇznost onemocnˇen´ı. Mutovaná pozice je zároveˇn ukázána v Jmol appletu, kde jsou jednotlivá residua obarvena podle jejich chemických vlastnost´ı.

4.3

CUPSAT

Cologne University Protein Stability Analysis Tool (CUPSAT) je webový nástroj slouˇz´ıc´ı k analýze a predikci zmˇen stability proteinu zp˚usobené jednobodovými aminokyselinovými mutacemi. Nástroj k výpoˇctu ∆∆G pouˇz´ıvá potenciálu specifických strukturn´ıch atom˚u a potenciálu torzn´ıch úhl˚u. CUPSAT, jako jediný z vybraných predikˇcn´ıch nástroj˚u, lze zaˇradit do kategorie nástroj˚u, které pro výpoˇcet energetické funkce pouˇz´ıvaj´ı pˇr´ıstupu zaloˇzeném na empirickém potenciálu.

Poˇzadované vstupn´ı parametry jsou PDB ID, pozice mutace v aminokyselinovém ˇretˇezci a p˚uvodn´ı (pˇrirozená) aminokyselina na zadané pozici. Dále je moˇzné urˇcit experimentáln´ı metodu, kde má uˇzivatel na výbˇer ze dvou moˇznost´ıThermal a Denaturants. Pˇri výbˇeru mezi tˇemito dvˇema metodami byly brány v úvahy údaje obsaˇzené v databázi ProTherm. Pokud jako metoda denaturace nebyla v záznamu databáze ProTherm uvedena metoda

Thermal, byla vybrána experimentáln´ı metodaDenaturants, v jiném pˇr´ıpadˇe byla vybrána metoda Thermal.

Pro zadané vstupn´ı parametry nástroj predikuje celkový efekt na stabilitu proteinu (sta-biln´ı/destabiln´ı), torzn´ı úhly (favourable/unfavourable) a konkrétn´ı hodnotu ∆∆G. Kladné hodnoty ∆∆G jsou zde brány jako stabilizuj´ıc´ı, záporné jako destabilizuj´ıc´ı.

Aˇckoliv autoˇri ve svém ˇclánku [36] slibuj´ı aktualizaci lokáln´ıho PDB repozitáˇre pˇribliˇznˇe jednou mˇes´ıˇcnˇe, u nˇekterých proteinových struktur obsaˇzených v databázi PDB nelze sta-bilitu predikovat. Tento problém lze ˇreˇsit ruˇcn´ım nahrán´ım PDB souboru do lokáln´ıho repozitáˇre nástroje. [36]

4.4

I-Mutant3.0

Autoˇri tohoto nástroje pouˇzili na rozd´ıl od vˇsech zm´ınˇených nástroj˚u tˇr´ıstavovou klasifikaci. Dle [9] se v pouˇzitém datasetu vyskytovalo okolo 32% hodnot ∆∆G, které byly bl´ızké nule

(20)

(v intervalu -0,5 aˇz 0,5 kcal/mol). Hodnoty v tomto rozsahu ovˇsem nemusej´ı být urˇceny pˇresnˇe (zp˚usobeno napˇr´ıklad chybou mˇeˇren´ı ˇci pˇresnost´ı mˇeˇr´ıc´ı metody) a je moˇzné, ˇze vliv mutace bude ˇspatnˇe klasifikován. Z tohoto d˚uvodu autoˇri pouˇzili jiˇz zm´ınˇenou tˇr´ıstavovou klasifikaci, kde destabilizuj´ıc´ı mutace mus´ı splˇnovat podm´ınku ∆∆G<-1,0 kcal/mol, sta-bilizuj´ıc´ı mutace ∆∆G>1,0 kcal/mol a neutráln´ı mutace -1,0≤ ∆∆G≥1,0 kcal/mol.

I-Mutant3.0 je nástroj vyuˇz´ıvaj´ıc´ı metod strojového uˇcen´ı, konkrétnˇe metody Support Vector Machine (SVM). Autoˇri vytvoˇrili dvˇe verze tohoto programu, v prvn´ı verzi je pre-dikce zaloˇzena na strukturn´ı analýze, druhá verze vyuˇz´ıvá sekvenˇcn´ı analýzu.

Trénovac´ı dataset pro sekvenˇcn´ı verzi I-Mutant3.0 je tvoˇren 1623 r˚uznými jednobo-dovými mutacemi obsaˇzenými v 58 r˚uzných proteinech. Pro strukturn´ı verzi trénovac´ıho datasetu bylo vybráno 1576 r˚uzných mutac´ı z celkem 55 protein˚u. Aplikován´ım termody-namické reverzibility (pˇredpokládáme, ˇze reverzn´ı mutace zp˚usobuje stejnou zmˇenu ∆∆G jako mutace p˚uvodn´ı) na kaˇzdou mutaci byl poˇcet mutac´ı pro sekvenˇcn´ı dataset zvýˇsen na 3246, pro strukturn´ı dataset 3152 mutac´ı.

Kromˇe predikce efektu mutace a jej´ım ∆∆G je v´ystupem tohoto n´astroje RSA (Relative Solvent Accessible Area) a index spolehlivosti (Reliability index) v intervalu 1-9.

4.5

iPTREE-STAB

iPTREE-STAB je on-line nástroj umoˇzˇnuj´ıc´ı predikci celkového efektu na stabilitu proteinu (stabiln´ı/nestabiln´ı) a predikci zmˇeny stability proteinu (∆∆G) v závislosti na jednobo-dových mutac´ıch aminokyselinového ˇretˇezce. Pro výpoˇcet je pouˇzita sekvence aminokyse-lin, proto na rozd´ıl od nástroj˚u vyuˇz´ıvaj´ıc´ıch strukturn´ıch vlastnost´ı proteinu nen´ı nutné vkládat PDB soubor. Rozhodován´ı o stabilitˇe proteinu je ponecháno na metodách stro-jového uˇcen´ı, konkrétnˇe na jednoduchém rozhodovac´ım stromu. Autoˇri v [22] uvádˇej´ı, ˇze pro natrénován´ı rozhodovac´ıho stromu bylo pouˇzito celkem 1859 neredundantn´ıch záznam˚u jednobodových mutac´ı, které byly z´ıskány z databáze ProTherm.

Jako jediný z uvedených nástroj˚u, iPTREE-STAB neumoˇzˇnuje urˇcit pozici, na které dojde k mutaci. M´ısto toho se pouˇz´ıvá jednoduchého principu, kdy nástroj analyzuje pouze aminokyseliny v okol´ı vyˇsetˇrovaného (mutovaného) residua. Pˇred i za poˇzadovaným resi-duem je nutné zadat tˇri pˇredcházej´ıc´ı/následuj´ıc´ı aminokyseliny. Mimo tyto urˇcuj´ıc´ı údaje je nutné vyplnit i pH a teplotu.

Jelikoˇz se jedná o nástroj vyuˇz´ıvaj´ıc´ı metod strojového uˇcen´ı, výpoˇcet predikce je v tomto pˇr´ıpadˇe velmi rychlý.

4.6

mCSM

Nástroj mCSM (mutation Cutoff Scanning Matrix) pouˇz´ıvá novˇe navrˇzený pˇr´ıstup výpoˇctu zmˇeny stability proteinu bl´ıˇze popsaný v [37]. Na rozd´ıl od ostatn´ıch pˇr´ıstup˚u, tento vyuˇz´ıvá graf zaloˇzený na signaturách. Pro pochopen´ı toho, jakou roli maj´ı mutace v onemocnˇen´ı, autoˇri umoˇznili ohodnotit nejen proteinovou stabilitu, ale také interakce mezi proteinem-proteinem a proteinem-proteinem-nukleovou kyselinou. Prostˇred´ı residu´ı m˚uˇze být reprezentováno grafy, kde uzly jsou atomy a hrany jsou fyzikálnˇe-chemické interakce mezi nimi. Z tˇechto graf˚u m˚uˇze vzniknout strukturáln´ı signatura, která je vytvoˇrena extrahován´ım a sumari-zován´ım vzdálenostn´ıch vzor˚u. Tato signatura je poté pouˇzita jako objekt pro trénován´ı prediktivn´ıch model˚u.

(21)

Výpoˇcet je moˇzné uskuteˇcnit pomoc´ı webového rozhran´ı, a to tˇremi zp˚usoby nazvanými Single mutation, Mutation list a Systematic. Single mutation poskytuje stejný pˇr´ıstup, jaký jsme vidˇeli u pˇredcházej´ıc´ıch nástroj˚u. V tomto pˇr´ıpadˇe je nutné nahrát PDB soubor, urˇcit mutovaný ˇretˇezec a konkretizovat mutaci jej´ı pozic´ı, wild-typem a mutantem. Systematic se chová obdobnˇe - jen s t´ım rozd´ılem, ˇze predikce stability je vypoˇc´ıtána pro vˇsech 19 zbývaj´ıc´ıch aminokyselin. Mutation list poskytuje moˇznost vytvoˇren´ı konfiguraˇcn´ıho sou-boru, ve kterém m˚uˇze být uvedeno v´ıce mutac´ı vztahuj´ıc´ı se k jednomu proteinu, resp. PDB souboru. Tento postup je výhodný zejména pro vˇetˇs´ı poˇcet zpracovávaných mutac´ı nebo pro automatizované skripty.

Kladné hodnoty ∆∆G vyjadˇruj´ı stabilizuj´ıc´ı mutace, naopak hodnoty záporné destabi-lizuj´ıc´ı mutace.

Výstupem je snadno zpracovatelný textový soubor, který kromˇe predikované ∆∆G ob-sahuje i RSA (Relative Solvent Accessibility). Pokud je ovˇsem v konfiguraˇcn´ım souboru uvedena nekorektn´ı mutace, nejsou v tomto konkrétn´ım souboru provedeny ˇzádné predikce.

4.7

PoPMuSiC

PoPMuSiC-2.1 je webový server predikuj´ıc´ı zmˇenu termodynamické stability zp˚usobenou jednobodovými mutacemi protein˚u. Predikce je zaloˇzena na lineárn´ı kombinaci statistických potenciál˚u, jejichˇz koeficienty závisej´ı nasolvent accessibility2 _mutovan´_{ych residu´ı. Dle [}₁₄_] je predikce vyjádˇrena lineárn´ı kombinac´ı právˇe tˇrinácti statistických potenciál˚u. Predikˇcn´ı model obsahuje celkem 64 parametr˚u, jejichˇz hodnoty jsou upraveny pomoc´ı neuronových s´ıt´ı se snahou o minimalizaci stˇredn´ı kvadratické odchylky.

Tento predikˇcn´ı nástroj, jako jediný, poˇzaduje pro sv˚uj chod registraci uˇzivatele. Výhoda tohoto poˇzadavku je v tom, ˇze vˇsechny výsledky v minulosti vypoˇc´ıtaných úloh jsou uˇzivateli volnˇe dostupné.

Rozhran´ı tohoto nástroje je podobnˇe rozˇclenˇené jako v pˇr´ıpadˇe mCSM. Výpoˇcty je moˇzné provádˇet ve tˇrech reˇzimech Single, Systematic a File. Reˇzim Single slouˇz´ı pro ohod-nocen´ı jedné mutace urˇcené pomoc´ı proteinového ˇretˇezce, wild-typem a mutantem. PDB strukturu je moˇzné identifikovat pomoc´ı PDB ID nebo tento záznam nahrát na server. Systematic vypoˇc´ıtá ∆∆G pro vˇsechny zaznamenané pozice aminokyselin v zadané PDB struktuˇre, a to pro vˇsech devatenáct moˇzných variant mutac´ı. V tomto reˇzimu je taktéˇz moˇzné zobrazit graf, ve kterém je vynesen na kaˇzdé pozici souˇcet záporných predikc´ı ∆∆G. Struktura α-helix je obarvena ˇcervenou barvou, β-struktura modˇre a ostatn´ı struktury (turns a coils) jsou zelené. V reˇzimu File je moˇzné pro konkrétn´ı PDB strukturu vytvoˇrit konfiguraˇcn´ı soubor obsahuj´ıc´ı poˇzadované mutace. Tento pˇr´ıstup je velmi rychlý a na rozd´ıl od nástroje mCSM se pˇri výskytu chybné mutace výpoˇcet nepˇreruˇs´ı.

Na rozd´ıl od zm´ınˇených nástroj˚u, PoPMuSiC pro stabilizuj´ıc´ı mutace vrac´ı zápornou hodnotu ∆∆G, pro destabilizuj´ıc´ı mutace pak hodnotu kladnou. Aby se pˇri práci se vˇsemi nástroji pouˇz´ıvalo stejné notace, byla hodnota predikovaná t´ımto nástrojem pˇrevrácena na kladnou pro stabilizuj´ıc´ı, na zápornou pro destabilizuj´ıc´ı mutaci.

4.8

Porovn´

an´ı a shrnut´ı

Vˇsechny nástroje a jejich zaˇrazen´ı do jednotlivých skupin uvedených v úvodu této ka-pitoly lze pˇrehlednˇe nalézt v tabulce 4.1. Snahou bylo vybrat takové predikˇcn´ı nástroje,

(22)

které by pokryly co moˇzná nejv´ıce moˇzných metod a postup˚u pro výpoˇcet predikce stabi-lity proteinu. T´ımto zp˚usobem jsme schopni markantnˇe zvýˇsit celkovou velikost prostoru ˇreˇsitelných mutac´ı v závislosti na zadaném vstupu. Výsledný prostor ˇreˇsitelných mutac´ı je dán sjednocen´ım prostor˚u ˇreˇsitelných mutac´ı jednotlivých nástroj˚u.

N´astroje Zp˚usob v´ypoˇctu Algoritmus Typ dat

AUTO-MUTE [31] strojov´e uˇcen´ı random forest, SVM,

REPTree, SVMreg strukturn´ı SDM [47] energetické funkce statistický potenciál strukturn´ı CUPSAT [36] energetické funkce empirický potenciál strukturn´ı

I-Mutant3.0 [9] strojov´e uˇcen´ı SVM strukturn´ı,

sekvenˇcn´ı iPTREE-STAB [22] strojové uˇcen´ı rozhodovac´ı strom sekvenˇcn´ı mCSM [37] energetické funkce statistický potenciál strukturn´ı PoPMuSiC [14] energetické funkce statistický potenciál strukturn´ı

Tabulka 4.1: Pˇrehled n´astroj˚u a jejich metodologi´ı v´ypoˇctu.

Zároveˇn zde byla i snaha pouˇz´ıt nástroje, jejichˇz doba predikce je pˇribliˇznˇe stejná. Cel-ková doba bˇehu vytvoˇreného meta-nástroje je totiˇz vˇzdy dána ˇcasem nejpomalejˇs´ıho pre-dikˇcn´ıho nástroje. Z tohoto d˚uvodu tud´ıˇz nen´ı pˇr´ıliˇs vhodné pouˇz´ıt nástroje s diametrálnˇe odliˇsnými dobami bˇehu, pˇrijmeme-li pˇredpoklad, ˇze výsledné váhové ohodnocen´ı jednot-livých nástroj˚u nebude diametrálnˇe odliˇsné. V tabulce4.2lze nalézt informace o potˇrebném ˇ

case pro výpoˇcet jedné mutace, omezen´ı poˇctu mutac´ı pro vstupy jednotlivých nástroj˚u a také nechyb´ı popis jejich omezen´ı.

N´astroje Cas v´ˇ ypoˇctu Vstup Omezen´ı

AUTO-MUTE [31] <5 min 1-5 mutac´ı neumoˇzˇnuje nahr´an´ı vlastn´ı struktury

SDM [47] <1 min 1 mutace chyb´ı kontrola p˚uvodn´ı

aminokyseliny (wild-type)

CUPSAT [36] <1 s 1 mutace

neaktualizovaný lokáln´ı PDB repozitáˇr, chyb´ı kontrola

p˚uvodn´ı aminokyseliny (wild-type) I-Mutant3.0 [9] <1 min 1 mutace neumoˇzˇnuje nahr´an´ı vlastn´ı struktury iPTREE-STAB [22] <1 min 1 mutace nen´ı moˇznost urˇcit pozici mutace mCSM [37] <1 min lib. poˇcet neumoˇzˇnuje zadat PDB ID PoPMuSiC [14] <1 min lib. poˇcet nutnost registrace

Tabulka 4.2: Tabulka udává pˇribliˇzný ˇcas výpoˇctu jedné mutace, poˇcet mutac´ı, které je moˇzné dát na vstup nástroje (libovolný poˇcet mutac´ı se vztahuje k jedné proteinové struktuˇre) a popis omezen´ı jednotlivých nástroj˚u.

4.9

V´

ysledky predikˇ

cn´ıch n´

astroj˚

u

Tato kapitola se bude zabývat výsledky jednotlivých predikˇcn´ıch nástroj˚u. Poznatky budou ˇ

(23)

4.9.1 Metodika porovn´an´ı n´astroj˚u

Pro základn´ı pochopen´ı statistických veliˇcin je nutné definovat pojmy uvedené v [4]. Kvalitu predikce lze popsat parametry jako pˇresnost (accuracy), specificita (specificity), senzitivita (sensitivity) a také pomoc´ı Matthewsova korelaˇcn´ıho koeficientu (MCC). Zat´ımco senzitivita je pravdˇepodobnost správné predikce pozitivn´ıho pˇr´ıpadu, specificita je definována jako pravdˇepodobnost, ˇze hodnota pozitivn´ı predikce je správná. [4]

Vztah pro výpoˇcet pˇresnosti predikce je definován n´ıˇze. TP (true positive) v tomto pˇr´ıpadˇe znaˇc´ı poˇcet výskyt˚u pravdivˇe pozitivn´ıch (reálnˇe stabilizuj´ıc´ı mutace oznaˇcena jako stabilizuj´ıc´ı), FP (false positive) faleˇsnˇe pozitivn´ıch (reálnˇe destabilizuj´ıc´ı mutace je oznaˇcena jako stabilizuj´ıc´ı), TN (true negative) pravdivˇe negativn´ıch (reálnˇe destabilizuj´ıc´ı mutace je oznaˇcena jako destabilizuj´ıc´ı) a FN (false negative) faleˇsnˇe negativn´ıch (reálnˇe stabilizuj´ıc´ı mutace oznaˇcena jako destabilizuj´ıc´ı). Matthews˚uv korelaˇcn´ı koeficient dosa-huje hodnot v rozmez´ı -1 aˇz 1. Hodnota M CC = 1 oznaˇcuje nejlepˇs´ı moˇznou predikci, zat´ımco M CC = −1 indikuje nejhorˇs´ı moˇznou predikci (nˇekdy oznaˇcováno antikorelace). Pro hodnotu M CC = 0 nen´ı zjistitelná ˇzádná lineárn´ı závislost (predikce je výsledkem náhody). [4] Accuracy = T P +T N T P +T N +F P +F N (4.1) Specif icity= T N T N+F P (4.2) Sensitivity = T P T P +F N (4.3) M CC = p T P ×T N−F N×F P (T P +F N)(T P +F P)(T N +F N)(T N +F P) (4.4)

4.9.2 V´ysledky jednotliv´ych studi´ı

Pro porovnán´ı jednotlivých predikˇcn´ıch nástroj˚u lze pouˇz´ıt závˇery ze studie [23], která po-rovnávala výkonnost 11 online dostupných nástroj˚u. Mezi tyto nástroje patˇr´ı CUPSAT [36], Dmutant [48], FoldX [20], I-Mutant2.0 [8], I-Mutant3.0 (strukturn´ı i sekvenˇcn´ı verze) [9], MultiMutate [15], MUpro [12], SCide [17], Scpred [16] a SRide [28].

Pro testován´ı pˇresnosti predikce jednotlivých nástroj˚u byla pouˇzita databáze ProTherm s experimentálnˇe zjiˇstˇenými hodnotami ∆∆G. Mutace v intervalu ∆∆G mezi 0,5 a -0,5 kcal/mol byly klasifikovány jako neutráln´ı mutace (nemˇen´ıc´ı stabilitu proteinu), jelikoˇz pr˚umˇerná hodnota maximáln´ı experimentáln´ı chyby se dle [24] pohybuje okolo±0,48 kca-l/mol (chyba mˇeˇren´ı by mohla ovlivnit klasifikaci do tˇr´ıdy stabilizuj´ıc´ı/destabilizuj´ıc´ı).

Výsledný testovac´ı dataset obsahoval 1784 neduplicitn´ıch mutac´ı z celkovˇe 80 pro-tein˚u, kde 931 mutac´ı bylo destabilizuj´ıc´ıch (∆∆G ≥ 0,5 kcal/mol), 222 stabilizuj´ıc´ıch (∆∆G ≤ -0,5 kcal/mol) a 631 mutac´ı bylo neutráln´ıch (0,5 kcal/mol >∆∆G ≥ -0,5 kca-l/mol). Znaménko hodnoty ∆∆G bylo v této studii pˇrevráceno oproti hodnotám v da-tabázi ProTherm. Velikost trénovac´ıch dataset˚u pro jednotlivé nástroje byla promˇenná, a to z toho d˚uvodu, ˇze nˇekteré nástroje pouˇz´ıvaly pro natrénován´ı svého predikˇcn´ıho mo-delu ˇcást záznam˚u z databáze ProTherm a výsledky by v tomto pˇr´ıpadˇe byly zkreslené (nadhodnocené). Z tohoto d˚uvodu byly vybrány kaˇzdému nástroji pro testován´ı pouze ty záznamy, které se v databázi ProTherm zveˇrejnily aˇz po jejich vydán´ı. Velikosti dataset˚u jsou pˇrehlednˇe znázornˇeny v tabulce 4.3.

(24)

Celkovˇe nejlepˇs´ıch výsledk˚u dosahovaly I-Mutant3.0 (strukturn´ı verze), Dmutant a FoldX. Pˇresnost tˇechto nástroj˚u kol´ısala od hodnot 0,54 do 0,64. Nejlepˇs´ı senzitivitu vykazoval nástroj MUpro (0,74), hodnoty senzitivity pro I-Mutant2.0 a CUPSAT byly jen nepa-trnˇe menˇs´ı (0,71 a 0,69). Nejvyˇsˇs´ı specificitu zaznamenal nástroj SRide (0,95). Hodnoty Matthewsova korelaˇcn´ıho koeficientu byly ovˇsem n´ızké pro vˇsechny predikˇcn´ı nástroje. Nej-lepˇs´ıho korelaˇcn´ıho koeficientu dosáhl nástroj I-Mutant3.0 (strukturn´ı verze), jeho hodnota se pohybovala okolo 0,27. Naopak nejhorˇs´ıho korelaˇcn´ıho koeficientu (-0,39) dosáhl nástroj MUpro.

V tabulce 4.3 lze nalézt dosaˇzené výsledky pro vybrané predikˇcn´ı nástroje. Kompletn´ı výsledky vˇsech nástroj˚u lze nalézt v [23].

Parametry CUPSAT I-Mutant3.0 (strukturn´ı) I-Mutant3.0 (sekvenˇcn´ı)

velikost datasetu 536 115 115

pˇresnost 0,50 0,64 0.52

specificita 0,30 0,63 0.39

senzitivita 0,69 0,64 0.66

MCC -0,01 0,27 0.05

Tabulka 4.3: Vybrané výsledky z [23] pro nástroj CUPSAT a I-Mutant3.0 ve strukturn´ı i sekvenˇcn´ı verzi.

Obrázek 4.1 zobrazuje graf distribuce predikovaných a experimentálnˇe namˇeˇrených ∆∆G hodnot, které jsou vyjádˇreny normáln´ı distribuˇcn´ı kˇrivkou. Hodnoty predikované pomoc´ı nástroj˚u I-Mutant2.0 a CUPSAT jsou vychýlené smˇerem k negativn´ım hodnotám (hodnoty znaˇc´ıc´ı destabilizaci), zat´ımco u nástroje Dmutant smˇeˇruj´ı sp´ıˇse ke kladným hodnotám, aˇckoliv nejvyˇsˇs´ı vrchol jeho kˇrivky je pro ∆∆G = 0. Distribuˇcn´ı kˇrivka pro FoldX neobsahuje jasnˇe ˇcitelný vrchol, vˇetˇs´ı mnoˇzstv´ı ∆∆G hodnot je menˇs´ıch neˇz -4 kcal/mol.

Obrázek 4.1: A: Distribuce predikovaných a experimentálnˇe namˇeˇrených ∆∆G hodnot. Jako predikˇcn´ı nástroje byly pouˇzity I-Mutant2.0 (ˇcervená), Dmutant (zelená), CUPSAT (modrá), FoldX (ˇsedá). Experimentáln´ı hodnota ∆∆G je znázornˇena ˇcernou barvou. B:

ROC kˇrivka znázorˇnuj´ıc´ı úspˇeˇsnost nástroj˚u FoldX, I-Mutant2.0, Dmutant a CUPSAT. Zobrazeny jsou taktéˇz hodnoty AUC a standardn´ı odchylky odvozené od ploch pod jednot-livými kˇrivkami. Barevné oznaˇcen´ı nástroj˚u je zaznaˇceno na obrázku. [23]

(25)

Ve výsledc´ıch této studie nebyly zahrnuty predikˇcn´ı nástroje jako PoPMuSiC, ERIS, iPTREE-STAB, AUTO-MUTE a jiné. PoPMuSiC nebyl zaˇrazen z toho d˚uvodu, ˇze bˇehem psan´ı studie [23] nebyla dostupná stabiln´ı verze tohoto nástroje (stabiln´ı verze byla vydána aˇz po dokonˇcen´ı studie). Rozhran´ı nástroje ERIS dle autor˚u neumoˇzˇnuje dávkové zpra-cován´ı, coˇz znemoˇznilo jej´ı zaˇrazen´ı. iPTREE-STAB pouˇz´ıvá metodu rozhodovac´ıho stromu, nen´ı zde ovˇsem moˇzné pˇresnˇe urˇcit pozici ˇci proteinovou strukturu. Nástroj AUTO-MUTE obsahoval pouze 28 pˇr´ıpad˚u, které nebyly pouˇzity pro natrénován´ı jeho trénovac´ıho data-setu. Pro statistickou analýzu je toto ˇc´ıslo pˇr´ıliˇs malé. Pro tˇechto 28 pˇr´ıpad˚u byl nástroj AUTO-MUTE schopen správnˇe predikovat 6 pˇr´ıpad˚u (21%).

Studie [39] porovnává celkem 6 odliˇsných nástroj˚u pro predikci zmˇeny stability proteinu. Mezi tyto nástroje patˇr´ı CC/PBSA [5], EGAD [38], FoldX [20], I-Mutant2.0 [8], Rosetta [42] a Hunter. Pro ohodnocen´ı pˇresnosti predikce byl pouˇzit dataset obsahuj´ıc´ı 2156 jed-nobodových mutac´ı, které nebyly pouˇzity pro trénován´ı u jednotlivých nástroj˚u. Korelaˇcn´ı koeficient mezi experimentáln´ı a predikovanou hodnotou ∆∆G byl v rozmez´ı 0,59 pro nej-lepˇs´ı a 0,26 pro nejhorˇs´ı nástroj. Vˇsechny predikˇcn´ı nástroje vykazuj´ı správný trend v pre-dikci svých výsledk˚u (celkový efekt na stability proteinu), ve vˇetˇs´ı m´ıˇre ovˇsem selhávaj´ı pˇri poskytován´ı pˇresných hodnot.

Na obrázku 4.2 lze vidˇet distribuce experimentáln´ıch a predikovaných ∆∆G hodnot pro jednotlivé nástroje. Na kaˇzdém z uvedených graf˚u jsou na horizontáln´ı ose vyneseny

Obrázek 4.2: Porovnán´ı r˚uzných nástroj˚u pro predikci zmˇeny stability. Kaˇzdý nástroj byl testován na mutac´ıch, které nebyly obsaˇzeny v jejich trénovac´ıch sadách. Na kaˇzdém grafu v jeho horn´ım rohu je zaznaˇcen korelaˇcn´ı koeficient (r) a rovnice regresn´ı pˇr´ımky (y). Plnou ˇ

(26)

hodnoty experimentáln´ı ∆∆G, na vertikáln´ı ose je to z´ıskaná (predikovaná) hodnota ∆∆G. Pˇreruˇsovaná ˇcára s pˇredpisem y = x znázorˇnuje ideáln´ı polohu jednotlivých bod˚u. Plnou ˇ

carou je vyjádˇrena regresn´ı pˇr´ımka vypoˇctená z bod˚u grafu. ˇC´ım v´ıce regresn´ı pˇr´ımka pˇrekrývá pˇreruˇsovanou pˇr´ımku, t´ım je výsledek pˇresnˇejˇs´ı. Na kaˇzdém grafu je v horn´ım rohu zaznaˇcen korelaˇcn´ı koeficient (r) a rovnice regresn´ı pˇr´ımky (y).

Na obrázku4.3je taktéˇz znázornˇena distribuce experimentáln´ıch a predikovaných ∆∆G hodnot pro jednotlivé nástroje jak tomu bylo na obrázku4.2. V tomto pˇr´ıpadˇe bylo ovˇsem pouˇzito metody tzv. binning, kde doˇslo k rozdˇelen´ı daného prostoru na 12 interval˚u a v kaˇzdém intervalu byly jednotlivé výsledk˚u zpr˚umˇerovány. Výsledkem je tedy jeden bod reprezentuj´ıc´ı hodnoty v urˇcitém intervalu.

Obrázek 4.3: Porovnán´ı r˚uzných nástroj˚u pro predikci zmˇeny stability s vyuˇzit´ım metody

binning pro 12 interval˚u. Kaˇzdý nástroj byl testován na mutac´ıch, které nebyly obsaˇzeny v jejich trénovac´ıch sadách. Na kaˇzdém grafu v jeho horn´ım rohu je zaznaˇcen korelaˇcn´ı koefi-cient (r) a rovnice regresn´ı pˇr´ımky (y). Plnou ˇcarou je vyjádˇrena regresn´ı pˇr´ımka vypoˇctená z bod˚u na grafu. [39]

Autoˇri této studie se taktéˇz zamˇeˇrili na kombinován´ı výsledk˚u r˚uzných metod s pˇ red-pokladem, ˇze dosáhnou lepˇs´ıho výsledku. Celkovˇe bylo vytvoˇreno 57 r˚uzných kombinac´ı dvou a v´ıce nástroj˚u, kde výsledky tˇechto kombinac´ı byly zpr˚umˇerovány. Ve výsledku ovˇsem doˇsli k závˇeru, ˇze kombinac´ı r˚uzných metod nedojde k signifikantn´ımu zlepˇsen´ı predikˇcn´ı pˇresnosti v porovnán´ı s pouˇzit´ım jediného. Toto tvrzen´ı je podloˇzeno výsledkem zobra-zeným na obrázku4.4. Tento graf znázorˇnuje výsledek kombinován´ı nástroj˚u s c´ılem zlepˇsit predikci ∆∆G. Výsledky nástroj˚u EGAD, I-Mutant2.0 a Rosetta byly zpr˚umˇerovány a za-neseny do grafu oproti experimentálnˇe zjiˇstˇeným hodnotám ∆∆G. Teˇckovanou ˇcarou je

(27)

znázornˇena regresn´ı pˇr´ımka pro výsledky samotného nástroje EGAD. Lze si také vˇsimnout, ˇ

ze korelaˇcn´ı koeficient pro zpr˚umˇerované výsledky tˇechto nástroj˚u dosahuje hodnoty 0,64, pro samotný EGAD potom 0,62. Jak jiˇz bylo zm´ınˇeno výˇse, kombinován´ım (pr˚umˇerován´ım) r˚uzných nástroj˚u nebylo dosaˇzeno velkého zlepˇsen´ı. [39]

Obrázek 4.4: Graf znázorˇnuj´ıc´ı výsledky kombinován´ı nástroj˚u pro zlepˇsen´ı predikce ∆∆G. EGAD, I-Mutant2.0 a Rosetta byly pouˇzity pro predikován´ı ∆∆G na datasetu o 407 mu-tac´ıch. Pr˚umˇer tˇechto tˇr´ı nástroj˚u byl vypoˇc´ıtán pro kaˇzdou mutaci a zanesen do grafu. Tyto zpr˚umˇerované výsledky byly porovnány na stejném datasetu se samotným nástrojem EGAD (teˇckovaná pˇr´ımka). [39]

Dalˇs´ı zaj´ımavá studie [11] porovnává celkem 5 predikˇcn´ıch nástroj˚u, kterými jsou I-Mutant2.0, AUTO-MUTE, MUpro, PoPMuSiC a CUPSAT. Pro I-Mutant2.0 byla pouˇzita jeho sek-venˇcn´ı (I-Mutant SEQ) i strukturn´ı verze (I-Mutant PDB). Pro nástroj AUTO-MUTE byly dostupné ˇctyˇri predikˇcn´ı modely, autoˇri této studie zvolili pro porovnán´ı model vyuˇz´ıvaj´ıc´ı

random forest(AUTO-MUTE RF) asupport vector machine(AUTO-MUTE SVM). MUpro vyuˇz´ıvá modelu support vector machine, kde pro svoji predikci primárnˇe pouˇz´ıvá sek-venˇcn´ıch informac´ı. Tento nástroj umoˇzˇnuje predikovat pouze celkový efekt na stabilitu proteinu (stabiln´ı/nestabiln´ı).

Pro porovnán´ı výkonnosti jednotlivých nástroj˚u bylo pouˇzito dvou odliˇsných dataset˚u. Tyto datasety byly vytvoˇreny z databáze ProTherm. Prvn´ı dataset (S1948) byl pouˇzit pˇri konstrukci I-Mutant2.0 a obsahuje 1948 mutac´ı z celkem 58 protein˚u. Druhý dataset (S2648) byl pouˇzit pˇri trénován´ı PoPMuSiC a obsahuje 2648 mutac´ı z celkem 119 protein˚u. V da-tasetu S1948 se nacház´ı mnoˇzstv´ı mutac´ı se stejným PDB ID a stejnými hodnotami ∆∆G (m´ırnˇe odliˇsné byly jen hodnoty pH a teploty). Tˇechto 637 redundantn´ıch záznam˚u bylo odstranˇeno, zbývaj´ıc´ıch 1311 mutac´ı vytvoˇrilo nový dataset pojmenovaný M1311. Dataset S2648 sd´ılel celkem 815 mutac´ı s datasetem M1311, pro dosaˇzen´ı vzájemné nezávislosti tˇechto dataset˚u byly tyto mutace odstranˇeny. Celkovˇe tedy druhý dataset obsahoval 1820 mutac´ı a byl pojmenován M1820. Slouˇcen´ım dataset˚u M1311 a M1820 vznikl tˇret´ı dataset s oznaˇcen´ım M3131.

(28)

V tabulce 4.4 jsou zobrazeny výsledky uvedených predikˇcn´ıch nástroj˚u pro dataset M1311. Matthews˚uv korelaˇcn´ı koeficient se v tomto pˇr´ıpadˇe pohybuje v rozmez´ı od 0,341 pro CUPSAT do 0,906 pro nástroj AUTO-MUTE s predikˇcn´ım modelem random forest.

N´astroj Specificita Senzitivita Pˇresnost MCC

I-Mutant PDB 0,922 0,555 0,800 0,530 I-Mutant SEQ 0,973 0,702 0.883 0,734 AUTO-MUTE RF 0,991 0,893 0.958 0,906 AUTO-MUTE SVM 0,975 0,772 0.907 0,789 MUpro SVM 0,956 0,775 0.896 0,761 PoPMuSiC 0,941 0,313 0.724 0,341 CUPSAT 0,823 0,579 0.742 0,411 Pr˚umˇer 0,984 0,737 0.902 0,779

Tabulka 4.4: Porovnán´ı výsledk˚u predikˇcn´ıch nástroj˚u pro dataset M1311. [11]

V tabulce 4.5 jsou zobrazeny výsledky uvedených predikˇcn´ıch nástroj˚u pro dataset M1820. Matthews˚uv korelaˇcn´ı koeficient se zde pohybuje v rozmez´ı od 0,072 pro AUTO-MUTE s predikˇcn´ım modelem support vector machine do 0,352 pro nástroj PoPMuSiC.

N´astroj Specificita Senzitivita Pˇresnost MCC

I-Mutant PDB 0,906 0,198 0,670 0,148 I-Mutant SEQ 0,899 0,212 0.670 0,155 AUTO-MUTE RF 0,985 0,129 0.700 0,234 AUTO-MUTE SVM 0,965 0,067 0.666 0,072 MUpro SVM 0,885 0,276 0.682 0,206 PoPMuSiC 0,952 0,303 0.736 0,352 CUPSAT 0,757 0,370 0.628 0,133 Pr˚umˇer 0,984 0,113 0.693 0,212

Tabulka 4.5: Porovnán´ı výsledk˚u predikˇcn´ıch nástroj˚u pro dataset M1820. [11]

Tabulka 4.6 obsahuje výsledky jednotlivých predikˇcn´ıch nástroj˚u pro dataset M3131 vzniklý slouˇcen´ım dvou pˇredcházej´ıc´ıch dataset˚u. Matthews˚uv korelaˇcn´ı koeficient se po-hybuje v rozmez´ı od 0,261 pro CUPSAT do 0,615 pro nástroj AUTO-MUTE s predikˇcn´ım modelem random forest.

Celkovˇe nejlepˇs´ıch výsledk˚u dosáhl nástroj AUTO-MUTE s predikˇcn´ım modelem ran-dom forest. Je vˇsak nutné podotknout, ˇze právˇe u tohoto nástroje byl trénovac´ı dataset vy-tvoˇren z databáze ProTherm. Takto dobrý výsledek m˚uˇze být tedy zp˚usoben neadekvátn´ım pouˇzit´ım modelu a nemus´ı obecnˇe korespondovat s výsledky na nezávislém datasetu.

(29)

N´astroj Specificita Senzitivita Pˇresnost MCC I-Mutant PDB 0,377 0,916 0,736 0,357 I-Mutant SEQ 0,457 0,934 0.775 0,464 AUTO-MUTE RF 0,511 0,989 0.829 0,615 AUTO-MUTE SVM 0,420 0,969 0.786 0,499 MUpro SVM 0,526 0,908 0.780 0,480 PoPMuSiC 0,308 0,945 0.733 0,348 CUPSAT 0,474 0,780 0.678 0,261 Pr˚umˇer 0,425 0,980 0.795 0,527

(30)

Kapitola 5

Strojov´

e uˇ

cen´ı

Strojové uˇcen´ı je v dneˇsn´ı dobˇe chápáno jako discipl´ına umˇelé inteligence. Jej´ı základn´ı technikou je prohledáván´ı stavového prostoru. K charakteristickým rys˚um patˇr´ı vyuˇz´ıván´ı znalost´ı, práce se symbolickými ˇci strukturovanými promˇennými ˇci aplikace modern´ıch po-znatk˚u z oboru nestandardn´ıch logik. Typicky se v tˇechto úlohách hledaj´ı zaj´ımavé souvis-losti ˇci pr˚ubˇehy pozorovaných jev˚u, které lze povaˇzovat za charakteristické. Nejtypiˇctˇejˇs´ı aplikac´ı strojového uˇcen´ı je pomoc pˇri z´ıskáván´ı znalost´ı pro expertn´ı systémy, kde bylo dosaˇzeno výrazných úspˇech˚u v podobˇe zkrácen´ı doby nutné pro tvorbu a ladˇen´ı báze zna-lost´ı. Dalˇs´ı uplatnˇen´ı strojového uˇcen´ı je napˇr´ıklad pˇri porozumˇen´ı pˇrirozenému jazyku, v poˇc´ıtaˇcovém vidˇen´ı nebo právˇe v bioinformatice.

Dá se ˇr´ıci, ˇze strojové uˇcen´ı patˇr´ı mezi nejstarˇs´ı discipl´ıny matematické informatiky. Proto se jiˇz od padesátých let hledaj´ı zp˚usoby, jak tvorbu program˚u zautomatizovat. Stro-jové uˇcen´ı zaloˇzené na umˇelé inteligenci je jednou z metod této automatizace. [29]

Dle [3] lze rozdˇelit algoritmy strojov´eho uˇcen´ı na

• klasifikaci,

• regresi a

• hled´an´ı asociac´ı.

Klasifikace, resp. klasifikaˇcn´ı problém je takový problém, který ˇreˇs´ı pˇriˇrazen´ı tˇr´ıd objekt˚um. Typickou úlohou udávanou jako pˇr´ıklad klasifikace je urˇcen´ı rizikovosti p˚ujˇcky. O jed-notlivých zákazn´ıc´ıch jsou uchovávány vˇsechny relevantn´ı informace ovlivˇnuj´ıc´ı schopnost splácet p˚ujˇcku (pˇr´ıjem, úspory, povolán´ı, vˇek atd.). C´ılem je naj´ıt asociace mezi zákazn´ıkovými atributy a rizikem nesplacen´ı. Toto je klasický pˇr´ıklad klasifikaˇcn´ıho problému pro dvˇe tˇr´ıdy (n´ızká a vysoká rizikovost p˚ujˇcky). Vstupem jsou tedy informace o zákazn´ıkovi, výstupem jsou tyto dvˇe tˇr´ıdy (vysoká/n´ızká rizikovost). Po natrénován´ı modelu m˚uˇze být klasifikaˇcn´ı pravidlo pro tuto úlohu napˇr´ıklad ve tvaru

IF p r i j e m > Θ1 AND u s p o r y > Θ2

THEN n i z k a r i z i k o v o s t ELSE v y so k a r i z i k o v o s t .

Na obrázku 5.1 je znázornˇen pˇr´ıklad rozdˇelen´ı prostoru moˇzných ˇreˇsen´ı. Horizontáln´ı osa reprezentuje velikost pˇr´ıjmu, vertikáln´ı osa znázorˇnuje velikost úspor. Oznaˇcené body Θ1 a

Θ2urˇcuj´ı hranice rozdˇelen´ı prostoru. Kruˇznice zde reprezentuj´ı datov´e instance, znam´enkem

+ jsou oznaˇceny instance patˇr´ıc´ı do tˇr´ıdy n´ızkorizikových p˚ujˇcek, znaménku - patˇr´ı tˇr´ıda vysokorizikových p˚ujˇcek. Plnou ˇcarou je znázornˇeno rozdˇelen´ı tˇechto tˇr´ıd v prostoru.

(31)

Obrázek 5.1: Pˇr´ıklad trénovac´ıho datasetu, kde kaˇzdá kruˇznice náleˇz´ı jedné datové instanci. Tyto instance reprezentuj´ı vstupy zobrazené na pˇr´ısluˇsných souˇradnic´ıch, kde znaménka + ˇ

ci - urˇcuj´ı pˇr´ısluˇsnost do tˇr´ıdy n´ızkorizikové resp. vysokorizikové. Plnou ˇcarou je znázornˇeno oddˇelen´ı tˇechto tˇr´ıd. [3]

Regresn´ı metody, na rozd´ıl od klasifikace, neurˇcuj´ı do jaké tˇr´ıdy vstupn´ı prvek patˇr´ı, ale rovnou odhaduj´ı (predikuj´ı) jeho ˇc´ıselnou hodnotu. Jako pˇr´ıklad lze uvést systém, který bude predikovat cenu ojetého automobilu. Vstupem mohou být atributy jako znaˇcka auto-mobilu, rok výroby, poˇcet najetých kilometr˚u atd. Pro jednoduˇsˇs´ı znázornˇen´ı uvaˇzme poˇcet najetých kilometr˚u jako jediný atribut ovlivˇnuj´ıc´ı cenu automobilu. Regresn´ı pˇr´ımka poté nabývá lineárn´ı tvar

y =wx+w0.

Na obrázku5.2je pˇr´ıklad lineárnˇe ˇreˇsitelného problému závislosti ceny automobilu na poˇctu ujetých kilometr˚u (m´ıl´ıch). Pokud je lineárn´ı model pˇr´ıliˇs omezuj´ıc´ı, lze vyuˇz´ıt napˇr´ıklad kvadratickou funkci

y=w2x2+w1x+w0,

polynomiáln´ı funkci vyˇsˇs´ıch ˇrád˚u ˇci jinou nelineárn´ı funkci.

Asociaˇcn´ı pravidla (association rules) jsou vyuˇz´ıvána pro hledán´ı zaj´ımavých asociac´ı nebo korelac´ı nad velkým mnoˇzstv´ım datových poloˇzek. Nalezen´ı zaj´ımavých asociac´ı nad ob-chodn´ımi transakˇcn´ımi záznamy m˚uˇze pomoci v procesu obchodn´ıho rozhodován´ı, jako je

(32)

Obrázek 5.2: Pˇr´ıklad trénovac´ıho datasetu pro výpoˇcet ceny ojetého automobilu. Pro zjed-noduˇsen´ı je uvaˇzován pouze jeden vstupn´ı atribut (poˇcet najetých kilometr˚u), jedná se tedy o lineárn´ı model. Regresn´ı pˇr´ımka je urˇcuj´ıc´ı predikovanou hodnotou, je dána pˇredpisem

y=wx+w0. [3]

návrh katalog˚u, akˇcn´ıch nab´ıdek nebo rozm´ıstˇen´ı zboˇz´ı v obchodˇe. Typickým pˇr´ıkladem je analýza nákupn´ıho koˇs´ıku. Tento proces analyzuje chován´ı zákazn´ıka, hledá asociace mezi zboˇz´ım, které zákazn´ık um´ıst´ı do svého nákupn´ıho koˇs´ıku. T´ımto lze tedy zjistit, jaké druhy zboˇz´ı si zákazn´ıci nejˇcastˇeji kupuj´ı dohromady.

Pˇri hledán´ı tˇechto asociaˇcn´ım pravidel nás zaj´ımá zejména podm´ınˇená pravdˇepodobnost uvádˇená ve formˇeP(Y|X), kdeY je produkt podm´ınˇený výskytem produktuX, coˇz je pro-dukt nebo mnoˇzina produkt˚u, u kterých v´ıme, ˇze je zákazn´ık nakupuje. Uved’me napˇr´ıklad pravdˇepodobnost P(limonada|oplatky) = 0,7. T´ımto výrazem definujeme, ˇze 70 procent zákazn´ık˚u, kteˇr´ı si koupili oplatky taktéˇz koupili limonádu.

Dle [3] lze algoritmy strojov´eho uˇcen´ı podle zp˚usobu uˇcen´ı rozdˇelit na

• uˇcen´ı s uˇcitelem a

• uˇcen´ı bez uˇcitele.

Pro uˇcen´ı s uˇcitelem je specifické to, ˇze pˇri fázi uˇcen´ı jsou kromˇe vstupn´ıch dat dostupná i data výstupn´ı. Uˇcitel je tedy schopný z´ıskat výsledky z daného modelu a porovnat je s poˇzadovaným výstupem. Mezi algoritmy strojového uˇcen´ı, které je moˇzné zaˇradit do této kategorie, patˇr´ı klasifikace i regrese.

Naopak pro uˇcen´ı bez uˇcitele je specifické to, ˇze nejsou k dispozici data výstupn´ı (nen´ı tedy moˇzné výstup jednotlivých model˚u strojového uˇcen´ı porovnat s jakýmkoli jiným výstupem). Typickým pˇr´ıklade