VYSOK ´
E U ˇ
CEN´I TECHNICK ´
E V BRN ˇ
E
BRNO UNIVERSITY OF TECHNOLOGYFAKULTA INFORMA ˇ
CN´ICH TECHNOLOGI´I
´
USTAV INFORMA ˇ
CN´ICH SYST ´
EM ˚
U
FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INFORMATION SYSTEMSSTROJOV ´
E U ˇ
CEN´I V ´
ULOZE PREDIKCE VLIVU
AMINOKYSELINOV ´
YCH MUTAC´I NA STABILITU
PROTEINU
DIPLOMOV ´
A PR ´
ACE
MASTER’S THESIS
AUTOR PR ´
ACE
Bc. FRANTI ˇ
SEK MALINKA
AUTHOR
VYSOK ´
E U ˇ
CEN´I TECHNICK ´
E V BRN ˇ
E
BRNO UNIVERSITY OF TECHNOLOGYFAKULTA INFORMA ˇ
CN´ICH TECHNOLOGI´I
´
USTAV INFORMA ˇ
CN´ICH SYST ´
EM ˚
U
FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INFORMATION SYSTEMSSTROJOV ´
E U ˇ
CEN´I V ´
ULOZE PREDIKCE VLIVU
AMINOKYSELINOV ´
YCH MUTAC´I NA STABILITU
PROTEINU
PREDICTION OF PROTEIN STABILITY UPON MUTATIONS USING MACHINE LEARNING
DIPLOMOV ´
A PR ´
ACE
MASTER’S THESIS
AUTOR PR ´
ACE
Bc. FRANTI ˇ
SEK MALINKA
AUTHOR
VEDOUC´I PR ´
ACE
Ing. JAROSLAV BENDL
SUPERVISOR
Abstrakt
Tato pr´ace popisuje nov´y pˇr´ıstup k predikci vlivu aminokyselinov´ych mutac´ı na zmˇenu stability proteinu. C´ılem je vytvoˇrit nov´y meta-n´astroj, kter´y kombinuje v´ystupy osmi vy-bran´ych n´astroj˚u, d´ıky ˇcemuˇz je schopen svoji predikˇcn´ı schopnost zlepˇsit. Pro nalezen´ı optim´aln´ıho konsenzu mezi tˇemito n´astroji je pouˇzito r˚uzn´ych metod strojov´eho uˇcen´ı. Ze vˇsech testovan´ych metod strojov´eho uˇcen´ı dosahuje KStar nejvyˇsˇs´ı ´uspˇeˇsnosti predikce na tr´enovac´ım datasetu tvoˇren´eho experiment´alnˇe ovˇeˇren´ymi mutacemi z datab´aze Pro-Therm. Pr´avˇe z tohoto d˚uvodu je KStar vybr´an jako optim´aln´ı predikˇcn´ı technika. Pro prok´az´an´ı korektnosti v´ysledk˚u tohoto meta-n´astroje je pouˇzito testovac´ıho datasetu vy-tvoˇren´eho ojedinˇel´ym zp˚usobem, a to z v´ıcebodov´ych mutac´ı extrahovan´ych takt´eˇz z da-tab´aze ProTherm. Jelikoˇz nebyly v´ıcebodov´e mutace pouˇzity pro natr´enov´an´ı ˇz´adn´eho z in-tegrovan´ych n´astroj˚u, pˇredpokl´ad´a se, ˇze takov´eto porovn´an´ı je objektivn´ı. Ve v´ysledku se t´ımto pˇr´ıstupem podaˇrilo pomoc´ı metody strojov´eho uˇcen´ı KStar zv´yˇsit korelaˇcn´ı koe-ficient na tr´enovac´ım datasetu o 0,130, respektive o 0,239 na datasetu testovac´ım oproti nej´uspˇeˇsnˇejˇs´ımu integrovan´emu n´astroji. Na z´akladˇe zjiˇstˇen´ych ´udaj˚u je moˇzn´e ˇr´ıci, ˇze me-tody strojov´eho uˇcen´ı jsou vhodn´ymi technikami pro probl´emy z oblasti proteinov´ych pre-dikc´ı.
Abstract
This thesis describes a new approach to the detection of protein stability change upon amino acid mutations. The main goal is to create a new meta-tool, which combines the outputs of eight well-established prediction tools and due to suitable method of consensus making, it is able to improve the overall prediction accuracy. The optimal strategy of combination of outputs of these tools is found by using a various number of machine learning methods. From all tested machine learning methods, KStar showed the highest prediction accuracy on the training dataset compiled from experimentally validated mutations originating from ProTherm database. Due to this reason, it is chosen as an optimal prediction technique. The general prediction abilities is validated on the testing dataset composed of multi-point amino acid mutations extracted also from ProTherm database. Since the multi-point mutations were not used for training any of integrated tools, we suppose that such comparison is objective. As a result, the developed meta-tool based on KStar technique improves the correlation coefficient about 0.130 on the training dataset and 0.239 on the testing dataset, respectively (the comparison is being made against the most succesful integrated tool). Based on the obtained results, it is possible to claim that machine learning methods are suitable technique for the problems from area of protein predictions.
Kl´ıˇ
cov´
a slova
Predikce stability, stabilita proteinu, strojov´e uˇcen´ı, mutace proteinu, protherm.
Keywords
Stability prediction, protein stability, machine learning, protein mutation, protherm.
Citace
Frantiˇsek Malinka: Strojov´e uˇcen´ı v ´uloze predikce vlivu aminokyselinov´ych mutac´ı na sta-bilitu proteinu, diplomov´a pr´ace, Brno, FIT VUT v Brnˇe, 2014
Strojov´
e uˇ
cen´ı v ´
uloze predikce vlivu
aminokyselinov´
ych mutac´ı na stabilitu
proteinu
Prohl´
aˇ
sen´ı
Prohlaˇsuji, ˇze jsem tuto diplomovou pr´aci vypracoval samostatnˇe pod veden´ım pana Ing. Jaroslava Bendla.Uvedl jsem vˇsechny liter´arn´ı prameny a publikace, ze kter´ych jsem ˇcerpal. . . . .
Frantiˇsek Malinka 26. kvˇetna 2014
Podˇ
ekov´
an´ı
T´ımto bych chtˇel podˇekovat panu Ing. Jaroslavu Bendlovi za odborn´e veden´ı, jeho cenn´e rady a pˇripom´ınky, kter´e mi pomohly tuto diplomovou pr´aci sepsat a prezentovat.
c
Frantiˇsek Malinka, 2014.
Tato pr´ace vznikla jako ˇskoln´ı d´ılo na Vysok´em uˇcen´ı technick´em v Brnˇe, Fakultˇe in-formaˇcn´ıch technologi´ı. Pr´ace je chr´anˇena autorsk´ym z´akonem a jej´ı uˇzit´ı bez udˇelen´ı opr´avnˇen´ı autorem je nez´akonn´e, s v´yjimkou z´akonem definovan´ych pˇr´ıpad˚u.
Obsah
1 Uvod´ 3
2 Proteiny 4
2.1 Aminokyseliny . . . 4
2.2 Struktura proteinov´e molekuly . . . 6
2.2.1 Prim´arn´ı struktura . . . 6
2.2.2 Sekund´arn´ı struktura . . . 6
2.2.3 Terci´aln´ı struktura . . . 7
2.2.4 Kvartern´ı struktura . . . 7
3 Probl´em predikce vlivu aminokyselinov´e substituce na stabilitu proteinu 9 3.1 Stabilita proteinu . . . 9
3.1.1 Datab´aze ProTherm . . . 9
3.2 Mutace v proteinu . . . 10
3.2.1 Pˇr´ıˇcina vzniku mutac´ı . . . 10
3.2.2 Typy mutac´ı . . . 11
3.2.3 Nukleotidov´y polymorfismus . . . 11
3.2.4 D˚usledky mutac´ı strukturn´ıch gen˚u. . . 12
4 N´astroje pro predikci stability proteinu 13 4.1 AUTO-MUTE . . . 14 4.2 SDM . . . 14 4.3 CUPSAT . . . 15 4.4 I-Mutant3.0 . . . 15 4.5 iPTREE-STAB . . . 16 4.6 mCSM . . . 16 4.7 PoPMuSiC . . . 17
4.8 Porovn´an´ı a shrnut´ı . . . 17
4.9 V´ysledky predikˇcn´ıch n´astroj˚u . . . 18
4.9.1 Metodika porovn´an´ı n´astroj˚u . . . 19
4.9.2 V´ysledky jednotliv´ych studi´ı . . . 19
5 Strojov´e uˇcen´ı 26 5.1 Generalizaˇcn´ı schopnost a jej´ı odhad . . . 29
5.1.1 Kˇrivka uˇcen´ı . . . 30
5.1.2 Pˇreuˇcen´ı. . . 31
5.2 WEKA - platforma pro anal´yzu znalost´ı . . . 34
6 Implementace 41
6.1 Pouˇzit´e datov´e sady . . . 41
6.1.1 Tr´enovac´ı dataset . . . 42
6.1.2 Testovac´ı dataset . . . 44
6.2 Vybran´e predikˇcn´ı n´astroje . . . 45
7 Experimenty a v´ysledky 47 7.1 V´ysledky vybran´ych predikˇcn´ıch n´astroj˚u na tr´enovac´ım datasetu . . . 47
7.2 V´ysledky metod strojov´eho uˇcen´ı na tr´enovac´ım datasetu . . . 48
7.2.1 Porovn´an´ı v´ysledk˚u predikˇcn´ıch n´astroj˚u a pˇr´ıstup˚u strojov´eho uˇcen´ı 49 7.2.2 Nez´avisl´y dataset v´ıcebodov´ych mutac´ı . . . 51
7.2.3 V´ybˇer rys˚u . . . 52
8 Z´avˇer 55
A Datab´azov´e sch´ema pro datab´azi Stability 60
B Tabulky a grafy s v´ysledky test˚u 67
Kapitola 1
´
Uvod
Proteiny jsou z chemick´eho hlediska nejsloˇzitˇejˇs´ı a funkˇcnˇe nejd˚umyslnˇejˇs´ı zn´am´e molekuly, a proto nen´ı divu, ˇze se velk´a ˇc´ast v´yzkumu v bioinformatice zab´yv´a pr´avˇe jimi. Mutace jednotliv´ych aminokyselin mohou m´ıt v´yznamn´y vliv na v´yslednou stabilitu proteinu. Je d˚uleˇzit´e si uvˇedomit, ˇze ne vˇsechny mutace musej´ı v´est ke stabiln´ı molekule. Z tohoto d˚uvodu byly vyvinuty n´astroje predikuj´ıc´ı vliv aminokyselinov´ych mutac´ı na stabilitu pro-teinu.
V´ysledkem t´eto diplomov´e pr´ace je n´avrh a vytvoˇren´ı meta-n´astroje, kter´y kombi-nuje v´ystupy jednotliv´ych n´astroj˚u urˇcen´ych pro predikci zmˇeny stability proteinu s c´ılem zpˇresnit poˇzadovan´y v´ysledek vzhledem k v´ysledk˚um jiˇz existuj´ıc´ıch n´astroj˚u.
Druh´a kapitola pojedn´av´a o aminokyselin´ach a proteinech. Podrobnˇeji je zde rozebr´ana struktura proteinu, kterou je moˇzn´e rozdˇelit na prim´arn´ı, sekund´arn´ı, terci´aln´ı a kvartern´ı. Nechyb´ı zde ani zm´ınka o aminokyselin´ach a jejich moˇzn´e klasifikaci.
Tˇret´ı kapitola se zab´yv´a probl´emem predikce vlivu aminokyselinov´e substituce na sta-bilitu proteinu. Konkr´etnˇe je zde pops´ano rozdˇelen´ı mutac´ı aminokyselin a jednotliv´e typy jsou detailnˇeji pops´any. Nast´ınˇeny jsou takt´eˇz moˇzn´e probl´emy pˇri predikci stability pro-teinu.
V ˇctvrt´e kapitole je moˇzn´e naj´ıt v´yˇcet dostupn´ych n´astroj˚u pro predikci stability pro-teinu. Vybran´e n´astroje jsou zde struˇcnˇe pops´any a klasifikov´any do konkr´etn´ı skupiny n´astroj˚u podle zp˚usobu predikce stability. Jednotliv´e metody predikce stability jsou zde takt´eˇz rozeps´any. V z´avˇeru t´eto kapitoly jsou uvedeny metodiky a studie, zab´yvaj´ıc´ı se v´ykonnost´ı predikˇcn´ıch n´astroj˚u.
P´at´a kapitola je urˇcena strojov´emu uˇcen´ı. Zde jsou pops´any z´akladn´ı probl´emy, principy a metody vyuˇz´ıvan´e v bioinformatick´e praxi. Nechyb´ı zde ani informace ohlednˇe probl´em˚u pˇri v´ybˇeru vhodn´eho datasetu, probl´emu pˇreuˇcen´ı a nast´ınˇen´ı jejich moˇzn´ych ˇreˇsen´ı.
ˇ
Sest´a kapitola je vˇenov´ana implementaci meta-n´astroje. Je zde pops´an postup vytvoˇren´ı tr´enovac´ıho a testovac´ıho datasetu, uvedeny jsou takt´eˇz jejich z´akladn´ı charakteristiky.
Sedm´a kapitola se zab´yv´a testov´an´ım a experimentov´an´ım s dosaˇzen´ymi v´ysledky nad tr´enovac´ımi i testovac´ımi daty. Tyto v´ysledky jsou zhodnoceny a porovn´any s v´ysledky jednotliv´ych predikˇcn´ıch n´astroj˚u. Diskutov´any jsou takt´eˇz v´ysledky techniky v´ybˇeru rys˚u. V z´avˇereˇcn´e kapitole je shrnuta v´ysledn´a pr´ace s d˚urazem na z´ıskan´e v´ysledky. Pops´an je pˇr´ınos a ´uspˇeˇsnost ˇreˇsen´ı t´eto pr´ace, uvedena jsou takt´eˇz moˇzn´a vylepˇsen´ı pro budouc´ı pr´aci.
Kapitola 2
Proteiny
Proteiny neboli b´ılkoviny tvoˇr´ı zhruba jednu polovinu such´e hmotnosti buˇnky [35]. Jedn´a se vlastnˇe o biopolymer tvoˇren´y jedn´ım nebo v´ıce polypeptidov´ymi ˇretˇezci. Polypepti-dov´e ˇretˇezce oznaˇcujeme jako polymery aminokyselin spojen´ych navz´ajem peptidov´ymi vazbami [43]. Proteiny nejsou ovˇsem jenom pouh´ymi stavebn´ımi kameny, z nichˇz je buˇnka tvoˇrena. Z [2] je patrn´e, ˇze obstar´avaj´ı i mnoho dalˇs´ıch funkc´ı a ˇze proteiny lze rozdˇelit na:
• enzymy, • proteiny strukturn´ı, • transportn´ı, • pohybov´e, • z´asobn´ı, • sign´aln´ı, • a dalˇs´ı.
Vzhledem k jist´e univerz´alnosti protein˚u nikoho nepˇrekvap´ı, ˇze z chemick´eho hlediska jsou pr´avˇe proteiny nejsloˇzitˇejˇs´ı a funkˇcnˇe nejd˚umyslnˇejˇs´ı zn´am´e molekuly. Velk´e mnoˇzstv´ı funkc´ı, kter´e proteiny zajiˇst’uj´ı, je d˚usledkem obrovsk´eho poˇctu r˚uzn´ych tvar˚u, kter´ych mohou pro-teiny nab´yvat.
2.1
Aminokyseliny
Aminokyseliny jsou odvozeny od organick´ych kyselin, kde na alfa uhl´ık je nav´az´ana karbo-xylov´a (-COOH) a aminov´a (-NH2) funkˇcn´ı skupina. Jednotliv´e aminokyseliny se od sebe
liˇs´ı v tzv. postrann´ım ˇretˇezci (R), jehoˇz podoba urˇcuje chemick´e vlastnosti aminokyse-lin, resp. protein˚u. Obecn´y vzorec pro tvorbu aminokyseliny je zn´azornˇen na obr´azku 2.1. Jednotliv´e aminokyseliny jsou v molekule spojeny pomoc´ı peptidov´e vazby, kter´a vznikne spojen´ım karboxylov´e skupiny jedn´e aminokyseliny s amino skupinou druh´e aminokyseliny (viz obr´azek 2.2). Pˇri tvorbˇe t´eto peptidov´e vazby se z´aroveˇn vyluˇcuje molekula vody, coˇz lze oznaˇcit za kondenzaci.
Zˇretˇezen´ım v´ıce aminokyselin vznik´a peptidov´y ˇretˇezec. Zbytky aminokyselin odstupuj´ı od osy ˇretˇezce jako tzv. postrann´ı ˇretˇezce. Kaˇzd´y peptidov´y ˇretˇezec je na jednom konci
Obr´azek 2.1: Z´akladn´ı obecn´y vzorec aminokyselin. Symbol R oznaˇcuje postrann´ı ˇretˇezec, kter´y pˇredstavuje zbytek aminokyseliny. Postrann´ı ˇretˇezec R, karboxylov´a a aminov´a sku-pina jsou nav´az´any na alfa-uhl´ık. [35]
Obr´azek 2.2: Tvorba peptidov´e vazby mezi dvˇema aminokyselinami. [35]
zakonˇcen NH2 skupinou (aminov´y ˇci N konec) a na druh´em COOH skupinou (karboxylov´y
ˇ
ci C konec). [35]
Jak jiˇz bylo ˇreˇceno, o vlastnostech protein˚u rozhoduje charakter postrann´ıch ˇretˇezc˚u aminokyselin. Podle [43] lze aminokyseliny z hlediska fyzik´alnˇe-chemick´eho klasifikovat takto:
• Aminokyseliny s nepol´arn´ım zbytkem. Do t´eto skupiny patˇr´ı vˇsechny aminoky-seliny, kter´e maj´ı alkylov´y postrann´ı ˇretˇezec a jsou hydrofobn´ı. Postrann´ı ˇretˇezce se snaˇz´ı shlukovat uvnitˇr molekuly a vyhnout se tak kontaktu s vodou, kter´a je uvnitˇr buˇnky obklopuje. Mezi tyto aminokyseliny patˇr´ı glycin, alanin, valin, leucin, izoleucin, fenylalanin, tryptofan, methionin a prolin. [2]
• Aminokyseliny s pol´arn´ım zbytkem. Naopak aminokyseliny s pol´arn´ım zbyt-kem se snaˇz´ı zdrˇzovat na povrchu molekuly, kde mohou vytv´aˇret vod´ıkov´e m˚ustky s molekulami vody a dalˇs´ıch pol´arn´ıch l´atek. Tyto aminokyseliny se ve vodˇe dobˇre rozpouˇstˇej´ı. Patˇr´ı sem tyrosin, asparagin, glutamin, serin, threonin a cystein. [2]
• Aminokyseliny s kysel´ym zbytkem. Jsou to takov´e aminokyseliny, jejichˇz po-strann´ı ˇretˇezec obsahuje karboxylovou skupiny. Patˇr´ı sem kyselina asparagov´a a ky-selina glutamov´a. [43]
• Aminokyseliny se z´asadit´ym zbytkem. Tyto aminokyseliny maj´ı pˇri neutr´aln´ım pH v postrann´ım ˇretˇezci kladn´y n´aboj. Patˇr´ı sem aminokyseliny histidin, arginin a lysin. [43]
Pro ´uplnost dopln´ım, ˇze dˇelen´ı aminokyselin m˚uˇze b´yt zaloˇzeno i na struktuˇre jejich po-strann´ıch ˇretˇezc˚u, v´ıce lze nal´ezt na [43].
Jelikoˇz je moˇzn´e setkat se s v´ıce variantami z´apisu konkr´etn´ı aminokyseliny, v ta-bulce 2.1 je uveden seznam dvaceti aminokyselin a jejich odpov´ıdaj´ıc´ıch tˇr´ıp´ısmenn´ych a jednop´ısmenn´ych ekvivalent˚u.
Pol´arn´ı aminokyseliny
Asparagov´a kys. Asp D Glutaminov´a kys. Glu E
Arginin Arg R Lysin Lys K Histidin His H Asparagin Asn N Glutamin Gln Q Serin Ser S Threonin Thr T Tyrosin Tyr Y
Nepol´arn´ı aminokyseliny
Alanin Ala A Glycin Gly G Valin Val V Leucin Leu L Izoleucin Ile I Prolin Pro P Fenylalanin Phe F Methionin Met M Tryptofan Trp W Cystein Cys C
Tabulka 2.1: Seznam 20 r˚uzn´ych aminokyselin nach´azej´ıc´ıch se v proteinech. Vedle jm´ena aminokyseliny je jej´ı tˇr´ıp´ısmenn´a i jednop´ısmenn´a zkratka. [2]
2.2
Struktura proteinov´
e molekuly
2.2.1 Prim´arn´ı struktura
Prim´arn´ı struktura proteinu je takov´a struktura, kter´a je tvoˇrena sledem (sekvenc´ı) jed-notliv´ych aminokyselin v molekule. Z tohoto tvrzen´ı vypl´yv´a, ˇze vlastnosti urˇcit´e b´ılkoviny nejsou d´any pouze aminokyselinov´ym sloˇzen´ım, ale takt´eˇz jejich poˇrad´ım. Tat´aˇz mnoˇzina aminokyselin m˚uˇze b´yt seˇrazena line´arnˇe teoreticky ve vˇsech kombinac´ıch. [35]
Tato struktura obsahuje informaci, podle kter´e se tvoˇr´ı sekund´arn´ı, terci´aln´ı a kvartern´ı struktura proteinu, realizuje se jejich nadmolekul´arn´ı struktura a biologick´a funkce [43].
Pro zjiˇstˇen´ı prim´arn´ı struktury proteinu se pouˇz´ıv´a technika zvan´asekvenov´an´ı.
2.2.2 Sekund´arn´ı struktura
Jelikoˇz polypeptidov´y ˇretˇezec umoˇzˇnuje volnou rotaci atom˚u, m˚uˇzeme tyto ˇretˇezce oznaˇcit jako velmi flexibiln´ı. Tvar ˇretˇezce v prostoru oznaˇcujeme jako konformaci proteinu. Konfor-mace ovˇsem nen´ı n´ahodn´a, ale je urˇcov´ana silami, kter´e p˚usob´ı uvnitˇr molekuly. Pˇredevˇs´ım se jedn´a o rozloˇzen´ı sil mezi aminokyselinami s pol´arn´ımi a nepol´arn´ımi postrann´ımi ˇretˇezci. Nepol´arn´ı postrann´ı ˇretˇezce jsou pˇritahov´any k sobˇe (dovnitˇr molekuly), kdeˇzto pol´arn´ı po-strann´ı ˇretˇezce se orientuj´ı na povrch molekuly (viz obr´azek 2.3). [35]
Dalˇs´ı silou, kter´a zde p˚usob´ı, jsou vod´ıkov´e m˚ustky mezi peptidov´ymi vazbami v ˇretˇezci, d´ale mezi nimi a postrann´ımi ˇretˇezci a mezi postrann´ımi ˇretˇezci navz´ajem [35]. D˚usledkem tˇechto sil je to, ˇze dan´y polypeptidov´y ˇretˇezec zaujme vˇzdy stejnou konformaci. Zmˇ en´ıme-li pomˇer tˇechto sil (napˇr. denaturac´ı), polypeptidov´y ˇretˇezec se vr´at´ı zpˇet do p˚uvodn´ıho stavu, jakmile tyto s´ıly pˇrestanou p˚usobit (napˇr. renaturac´ı).
Pˇri bliˇzˇs´ım zkoum´an´ı struktur proteinu si lze vˇsimnout, ˇze obvykle obsahuj´ı dva z´akladn´ı modely. Prvn´ım modelem jeα-ˇsroubovice (α-helix).α-helix je takov´e prostorov´e uspoˇr´ad´an´ı,
Obr´azek 2.3: Rozvinut´y polypeptidov´y ˇretˇezec zauj´ım´a ve vodn´em prostˇred´ı urˇcitou pro-storovou strukturu. Nepol´arn´ı postrann´ı ˇretˇezce se soustˇred’uj´ı uvnitˇr molekuly, kdeˇzto hydrofiln´ı postrann´ı ˇretˇezce se vyskytuj´ı na povrchu molekuly, kde interaguj´ı s molekulami vody. [35]
kde ˇretˇezec vytv´aˇr´ı ˇsroubovici. Tato konformace je stabilizov´ana vod´ıkov´ymi m˚ustky mezi nad sebou leˇz´ıc´ımi peptidov´ymi vazbami. [35]
Druh´ym modelem jeβ-struktura (βskl´adan´y list). Vβ-struktuˇre prob´ıhaj´ı ´useky ˇretˇezce paralelnˇe vedle sebe. Tato struktura je stabilizov´ana vod´ıkov´ymi m˚ustky mezi soused´ıc´ımi ´
useky. [35]
2.2.3 Terci´aln´ı struktura
Terci´aln´ı strukturou se oznaˇcuje prostorov´e trojrozmˇern´e uspoˇr´ad´an´ı polypeptidov´eho ˇretˇezce. Hlavn´ım d˚uvodem pro vytvoˇren´ı terci´arn´ı struktury protein˚u je r˚uznost chemick´e povahy aminokyselinov´ych postrann´ıch ˇretˇezc˚u schopn´ych tvoˇrit nekovalentn´ı vazby. [43]
Jelikoˇz jsou vˇsechny interakce udrˇzuj´ıc´ı konformaˇcn´ı stabilitu energeticky slab´e (takt´eˇz nekovalentn´ı), p˚usoben´ım vnˇejˇs´ıch faktor˚u doch´az´ı ke zmˇenˇe terci´aln´ı struktury [35]. Pokud je tato zmˇena vratn´a, mluv´ıme o vratn´e denaturaci, jinak ji oznaˇcujeme jako nevratnou denaturaci.
2.2.4 Kvartern´ı struktura
Kvartern´ı struktura ˇreˇs´ı uspoˇr´ad´an´ı jednotliv´ych polypeptidov´ych ˇretˇezc˚u v molekule pro-teinu. Toto se t´yk´a ovˇsem jen oligomern´ıch protein˚u, tj. takov´ych protein˚u, kter´e jsou tvoˇren´y v´ıce jak jedn´ım polypeptidov´ym ˇretˇezcem. Je zaj´ımav´e, ˇze i pˇrestoˇze je protein tvoˇren nˇekolika polypeptidov´ymi ˇretˇezci, chov´a se v roztoku a v ˇziv´e soustavˇe jako jedna molekula vyznaˇcuj´ıc´ı se urˇcitou biologickou funkc´ı. [43]
Sekund´arn´ı, terci´aln´ı a kvartern´ı strukturu lze zhl´ednout na obr´azku 2.4.
Obr´azek 2.4: V lev´e ˇc´asti obr´azku m˚uˇzeme vidˇet sekund´arn´ı strukturu proteinu (konkr´etnˇe
α-helix a β-strukturu). V prostˇredn´ı ˇc´asti je zobrazena terci´aln´ı struktura s proteinovou dom´enou a proteinovou podjednotkou (monomerem). V prav´e ˇc´asti se nach´az´ı proteinov´a molekula (dimer) ˇrad´ıc´ı se do kvartern´ı struktury. [35]
Kapitola 3
Probl´
em predikce vlivu
aminokyselinov´
e substituce na
stabilitu proteinu
3.1
Stabilita proteinu
Stabilita proteinu je urˇcena mnoˇzinou navz´ajem p˚usob´ıc´ıch a ovlivˇnuj´ıc´ıch se sil. Pokud pro-tein oznaˇc´ıme za stabiln´ı, nach´az´ı se ve sv´e p˚uvodn´ı sloˇzen´e konformaci. Na druhou stranu, pokud je protein nestabiln´ı, dojde k jeho rozloˇzen´ı (denaturaci). Protein ve sloˇzen´e konfor-maci je stabilizov´an r˚uzn´ymi vz´ajemn´ymi interakcemi jako jsou hydrofobn´ı, elektrostatick´e, vod´ıkov´e vazby ˇci van der Waaalsovi s´ıly. V rozloˇzen´e konformaci dominuje entropick´a a neentropick´a voln´a energie. [19]
Interakce mezi hlavn´ım ˇretˇezcem a jeho postrann´ımi ˇretˇezci urˇcuje vˇsechny moˇzn´e kon-formace, kter´ych protein m˚uˇze nab´yvat. Struktura v´ysledn´eho proteinu je omezena tak´e pomoc´ı tzv. torzn´ıch ´uhl˚u. Tyto torzn´ı ´uhly umoˇzˇnuj´ı rotaci okolo N −Cα a Cα−C jed-noduch´ych vazeb jednotliv´ych residu´ı. D˚usledkem je druh´y termodynamick´y z´akon, kter´y ˇr´ık´a, ˇze syst´emy s konstantn´ı teplotou a tlakem najdou rovnov´aˇzn´y bod jako jist´y kompro-mis mezi entalpi´ı (H), entropi´ı (S) a termodynamickou teplotou (T). V´ysledkem je tzv. Gibbsova voln´a energie vyj´adˇren´a vztahemG=H−T∗S. [26]
Pokud pˇrihl´edneme k moˇznostem vzniku mutac´ı maj´ıc´ı za n´asledek zmˇenu aminoky-seliny, je zˇrejm´e, ˇze m˚uˇze doj´ıt jak ke zmˇenˇe konformace proteinu, tak i ke zmˇenˇe jeho stability. Podrobnˇejˇs´ı informace o mutac´ıch lze nal´ezt v kapitole 3.2.
3.1.1 Datab´aze ProTherm
Termodynamick´a data protein˚u jsou velmi d˚uleˇzit´a pro porozumˇen´ı z´akladn´ım mecha-nism˚um proteinov´e stability. Z tohoto d˚uvodu bylo bˇehem posledn´ıch desetilet´ı provedeno mnoho experiment˚u s c´ılem z´ıskat tato data. V´ysledky tˇechto experiment˚u byly vˇetˇsinou publikov´any v r˚uzn´ych ˇcasopisech zab´yvaj´ıc´ıch se touto t´ematikou. Jelikoˇz se data nevy-skytovala na jednom m´ıstˇe, hled´an´ı konkr´etn´ıch z´aznam˚u byl velk´y probl´em. Proto v roce 1998 vznikla elektronicky dostupn´a datab´aze ProTherm [25], kter´a shromaˇzd’uje takto ex-periment´alnˇe z´ıskan´a data. Tato datab´aze obsahuje termodynamick´a data (napˇr. zmˇena Gi-bbsovy voln´e energie, zmˇena entalpie aj.), strukturn´ı informace, mˇeˇr´ıc´ı metody, odkazy na souvisej´ıc´ı literaturu nebo podm´ınky, ve kter´ych byl experiment proveden [26]. V souˇcasn´e dobˇe tato datab´aze obsahuje 25 820 z´aznam˚u [1].
Shromaˇzd’ov´an´ı tˇechto dat a zpˇr´ıstupnˇen´ı vˇedeck´e komunitˇe m˚uˇze pomoci vyvinout nov´e metody pro lepˇs´ı porozumˇen´ı a pˇredpov´ıd´an´ı stability proteinu. Tohoto faktu je vyuˇzito i v t´eto diplomov´e pr´aci.
3.2
Mutace v proteinu
Jak bylo ˇreˇceno v ´uvodu kapitoly, stabilitu proteinu je moˇzn´e ovlivnit zejm´ena mutac´ı jednotliv´ych aminokyselin.
Term´ınem mutace jsou v souvislosti s lidsk´ym genomem oznaˇcov´any n´ahl´e, n´ahodn´e nebo neusmˇernˇen´e zmˇeny genetick´eho materi´alu. Jsou to vˇsechny zmˇeny genetick´e infor-mace, kter´e nejsou v´ysledkem segregac´ı a rekombinac´ı ˇc´asti genotyp˚u jiˇz existuj´ıc´ıch [49].
Dle [35] mohou mutace mˇenit obsah genomu na tˇrech ´urovn´ıch, podle toho rozliˇsujeme mutace:
• genov´e (mˇen´ı informaci nesenou genem),
• chromozomov´e (zp˚usobena zmˇenou struktury chromozomu),
• genomov´e (zmˇena poˇctu chromozom˚u).
Jak jiˇz bylo zm´ınˇeno, prim´arn´ı struktura proteinu je urˇcov´ana z informac´ı obsaˇzen´ych v DNA a pr´avˇe DNA je m´ıstem, kde prob´ıhaj´ı mutace, kter´e mohou, ale tak´e nemus´ı m´ıt z´asadn´ı vliv na strukturu resp. funkci proteinu. Z tohoto d˚uvodu se v dalˇs´ıch podkapitol´ach budeme podrobnˇeji zmiˇnovat jen o mutac´ıch genov´ych.
3.2.1 Pˇr´ıˇcina vzniku mutac´ı
V t´eto podkapitole jsou pops´any fyzick´e i chemick´e faktory ovlivˇnuj´ıc´ı vznik mutageneze (tj. procesu vzniku mutac´ı). Genov´e mutace mohou vzniknout napˇr´ıklad jako chyby pˇri replikaci DNA. Pokud se zamˇeˇr´ıme sp´ıˇse na pˇrenos genetick´e informace, mutace mohou ovlivnit procesy jako transkripce ˇci translace. Zn´am´ym pˇr´ıpadem mutace je napˇr´ıklad srp-kovit´a an´emie. Ta vznik´a mutac´ı genu pro hemoglobin, konkr´etnˇe z´amˇenou v jeho beta-peptidick´em ˇretˇezci, kde se na ˇsest´e pozici m´ısto glutaminov´e kyseliny objevuje valin, kter´y zp˚usobuje srpkovitost ˇcerven´ych krvinek. [49]
Mezi fyzik´aln´ı faktory zp˚usobuj´ıc´ı mutaci m˚uˇzeme zaˇradit z´aˇren´ı, a to jak ionizuj´ıc´ı, tak i neionizuj´ıc´ı. Stupeˇn poˇskozen´ı molekul´arn´ı struktury DNA je pˇr´ımo ´umˇern´y absorbo-van´e d´avce z´aˇren´ı. Mezi ionizuj´ıc´ı z´aˇren´ı lze zaˇradit pˇredevˇs´ım rentgenov´e z´aˇren´ı, neutrony, protony a elektrony o vysok´em obsahu energie. Toto z´aˇren´ı zp˚usobuje pˇreruˇsen´ı kontinu-ity vl´akna DNA. Mezi neionizuj´ıc´ı z´aˇren´ı zaˇrazujeme pˇredevˇs´ım z´aˇren´ı ultrafialov´e, kter´e poˇskozuje DNA.
Mezi chemick´e faktory ovlivˇnuj´ıc´ı strukturu DNA lze zaˇradit l´atky zvan´e genotoxiny. Tˇechto l´atek je obrovsk´e mnoˇzstv´ı a patˇr´ı mezi nˇe napˇr´ıklad alkylaˇcn´ı ˇcinidla, siln´a oxidaˇcn´ı ˇ
cinidla, ˇcinidla interkalaˇcn´ı a jin´e. Nˇekter´e l´atky ovˇsem nemusej´ı poˇskozovat DNA pˇr´ımo, ale mohou naruˇsovat napˇr´ıklad replikaci. [49]
3.2.2 Typy mutac´ı
Dle [35] mezi z´akladn´ı typy mutac´ı patˇr´ı:
• substituce,
• inzerce,
• delece.
Vˇsechny ostatn´ı typy mutac´ı jsou jenom r˚uzn´ymi variantami tˇechto tˇr´ı zm´ınˇen´ych mutac´ı.
Substituce je z´amˇena jednoho ˇci nˇekolika po sobˇe jdouc´ıch p´ar˚u nukleotid˚u.Transpozic´ıse oznaˇcuje zmˇena poˇrad´ı nukleotid˚u nebo nukleotidov´ych p´ar˚u. Inverze je v´ymˇena jednoho nebo v´ıce nukleotidov´ych p´ar˚u mezi obˇema vl´akny DNA. Vˇclenˇen´ı jednoho nebo v´ıce po sobˇe n´asleduj´ıc´ıch nukleotid˚u nebo nukleotidov´ych p´ar˚u oznaˇcujeme jakoinzerce.Deleceje pak ztr´ata jednoho nebo nˇekolika po sobˇe n´asleduj´ıc´ıch nukleotid˚u ˇci nukleotidov´ych p´ar˚u. Vˇsechny uveden´e mutace m˚uˇzeme pˇrehlednˇe vidˇet v tabulce3.1.
vl´akno standardn´ı DNA a b c d e f
substituce a r c d e f transpozice a c d b e f inzerce a b m n c d e f duplikace a b b c d e f delece a b d e f inverze a b e f c d
Tabulka 3.1: Bˇeˇzn´e typy genov´ych mutac´ı (pˇrepracov´ano z [35]).
3.2.3 Nukleotidov´y polymorfismus
Vˇsichni lid´e, s v´yjimkou identick´ych sourozenc˚u, maj´ı unik´atn´ı DNA sekvenci. Pˇri porovn´an´ı jedinc˚u, kteˇr´ı nebyli v pˇr´ıbuzensk´em vztahu, se zjistilo, ˇze se genom tˇechto jedinc˚u liˇs´ı zhruba o 0,1%. Vˇetˇsina tˇechto odliˇsnost´ı je zp˚usobena pr´avˇe nukleotidov´ymi polymorfismy, konkr´etnˇe jednobodov´ym polymorfismem oznaˇcovan´ym SNP (Single-nucleotide polymor-phism) [26]. Odhaduje se, ˇze v´ıce jak 93% lidsk´ych gen˚u obsahuje alespoˇn nˇejak´y SNP, z toho pˇribliˇznˇe 98% gen˚u je ve vzd´alenosti do 5000 p´ar˚u b´az´ı od SNP. [10]
SNP lze tedy ch´apat jako genetickou variabilitu mezi jedinci v populaci, kde doch´az´ı k substituci, inzerci nebo deleci pouze u jednoho p´aru b´az´ı. Pˇr´ıkladem budiˇz jiˇz zm´ınˇen´a srpkovit´a an´emie. [26]
Pokud se pod´ıv´ame na tabulku 3.2, kter´a zn´azorˇnuje k´odov´an´ı aminokyselin pomoc´ı kodon˚u mRNA, zjist´ıme, ˇze urˇcit´a aminokyselina m˚uˇze b´yt k´odov´ana r˚uzn´ymi kodony. Z tohoto faktu vypl´yv´a, ˇze pˇri mutaci nemus´ı vˇzdy doj´ıt ke zmˇenˇe aminokyseliny a s t´ım souvisej´ıc´ı zmˇenˇe prim´arn´ı struktury pˇr´ısluˇsn´eho proteinu.
Dle [35], [26] lze SNP rozdˇelit na:
• synonymn´ı (tichou) mutace, kter´e nezp˚usob´ı z´amˇenu aminokyseliny na dan´e pozici,
• nesynonymn´ı mutace, kde vznikaj´ı kodony urˇcuj´ıc´ı jinou aminokyselinu,
• nesmysln´e (nonsense) mutace, kde vznikaj´ı ukonˇcovac´ı kodony, ˇc´ımˇz dojde ke zkr´acen´ı polypeptidov´ych ˇretˇezc˚u.
U C A G
U
UUU Phe UCU Ser UAU Tyr UGU Cys
UUC Phe UCC Ser UAC Tyr UGC Cys
UUA Leu UCA Ser UAA stop UGA stop
UUG Leu UCG Ser UAG stop UGG Trp
C
CUU Leu CCU Pro CAU His CGU Arg
CUC Leu CCC Pro CAC His CGC Arg
CUA Leu CCA Pro CAA Gln CGA Arg
CUG Leu CCG Pro CAG Gln CGG Arg
A
AUU Ile ACU Thr AAU Asn AGU Ser
AUC Ile ACC Thr AAC Asn AGC Ser
AUA Ile ACA Thr AAA Lys AGA Arg
AUG Met ACG Thr AAG Lys AGG Arg
G
GUU Val GCU Ala GAU Asp GGU Gly
GUC Val GCC Ala GAC Asp GGC Gly
GUA Val GCA Ala GAA Glu GGA Gly
GUG Val GCG Ala GAG Glu GGG Gly
Tabulka 3.2: K´odov´an´ı aminokyselin pomoc´ı kodon˚u mRNA. [35]
3.2.4 D˚usledky mutac´ı strukturn´ıch gen˚u
Jelikoˇz mutace mohou ve sv´em d˚usledku mˇenit prim´arn´ı strukturu protein˚u, je zˇrejm´e, ˇ
ze tyto mutace tak´e mohou vyvol´avat podstatn´e zmˇeny metabolick´ych i jin´ych proces˚u v buˇnce (dokonce mohou zp˚usobit i jej´ı z´anik). Je takt´eˇz zaj´ımav´e, ˇze pokud dojde k z´amˇenˇe aminokyseliny v m´ıstˇe nev´yznamn´em pro biologickou funkci proteinu, mutace se ve fenotypu neprojev´ı. Pokud dojde k z´amˇenˇe aminokyseliny v aktivn´ım ˇci vazebn´em m´ıstˇe proteinu, funkce proteinu se zmˇen´ı nebo se dan´y protein stane nefunkˇcn´ım.
Delece nebo inzerce nukleotid˚u zp˚usob´ı zmˇenu ˇctec´ıho r´amce, jehoˇz d˚usledkem je vˇzdy synt´eza nefunkˇcn´ıho proteinu.
Fenotypov´e projevy mutac´ı strukturn´ıch gen˚u jsou r˚uzn´e podle zmˇeny stupnˇe genov´eho produktu. M˚uˇze se jednat o zmˇenu kinetiky enzymu ˇci vazebn´ych schopnost´ı proteinu nebo o absenci urˇcit´e metabolick´e funkce. [35]
Kapitola 4
N´
astroje pro predikci stability
proteinu
V pr˚ubˇehu posledn´ıho desetilet´ı bylo vyvinuto nˇekolik metod k urˇcen´ı vlivu aminokyse-linov´ych mutac´ı na stabilitu proteinu. Vˇetˇsina z tˇechto v´ypoˇcetn´ıch metod je prim´arnˇe zaloˇzena na v´ypoˇctu zmˇeny voln´e energie (∆∆G). Nˇekter´e z tˇechto metod pouˇz´ıvaj´ı pro v´ypoˇcet ∆∆G energetick´e funkce, kter´e popisuj´ı interakce mezi jednotliv´ymi residui. Jin´e n´astroje mohou pouˇz´ıvat metod strojov´eho uˇcen´ı (machine learning approaches), kde k natr´ e-nov´an´ı modelu vyuˇz´ıvaj´ı datab´aze s experiment´alnˇe namˇeˇren´ymi hodnotami zmˇen po pro-veden´ı mutac´ı.
Zp˚usob urˇcen´ı energetick´ych funkc´ı m˚uˇzeme rozdˇelit dle [23] na pˇr´ıstupy zaloˇzen´e na:
• fyzik´aln´ım potenci´alu (physical potential approaches),
• statistick´em potenci´alu (statistical potential approaches) a
• empirick´em potenci´alu (empirical potential approaches).
V´ypoˇcty ∆∆G zaloˇzen´e na fyzik´aln´ım potenci´alu simuluj´ı rozloˇzen´ı sil mezi jednotliv´ymi atomy (tj. anal´yza sil). Z tohoto d˚uvodu je tato metoda predikce stability v´ypoˇcetnˇe n´aroˇcnˇejˇs´ı neˇz metody strojov´eho uˇcen´ı. V´ypoˇcet statistick´eho potenci´alu vyuˇz´ıv´a anal´yzy r˚uzn´ych vlastnost´ı extrahovan´ych z datasetu proteinov´ych struktur (statistick´e anal´yzy prostˇred´ı, substituˇcn´ıch frekvenc´ı ˇci korelac´ı pˇrilehl´ych residu´ı nalezen´ych experiment´alnˇe v proteinov´ych struktur´ach). Pˇri v´ypoˇctu energetick´e funkce je empirick´y potenci´al urˇcen kombinac´ı v´ahovan´ych fyzik´aln´ıch a statistick´ych energetick´ych v´yraz˚u [23]. Nˇekter´e pˇr´ıstupy takt´eˇz mohou kombinovat v´yhody statistick´e anal´yzy a metod strojov´eho uˇcen´ı, respektive neuronov´ych s´ıt´ı. V nˇekter´ych pˇr´ıpadech se vyskytuj´ı hybridn´ı pˇr´ıstupy zaloˇzen´e na fy-zik´aln´ım a statistick´em potenci´alu [39].
D´ale m˚uˇzeme predikˇcn´ı n´astroje rozdˇelit dle zp˚usobu pr´ace s proteinov´ymi z´aznamy (struk-turami) na
• strukturn´ı a
Predikˇcn´ı n´astroje vyuˇz´ıvaj´ıc´ı 3D struktury proteinu vyˇzaduj´ı ke sv´emu chodu soubory ve form´atu PDB (Protein data bank) [6], kter´e jsou volnˇe on-line dostupn´e1. K nev´yhod´am tohoto pˇr´ıstupu patˇr´ı pr´avˇe z´avislost na PDB souborech obsahuj´ıc´ıch potˇrebn´e strukturn´ı informace. Zdrojem dat b´yv´a experiment´aln´ı mˇeˇren´ı metodami NMR a X-ray krystalo-grafi´ı. [6]
N´astroje vyuˇz´ıvaj´ıc´ı sekvenˇcn´ıho pˇr´ıstupu vyˇzaduj´ı pouze sekvenci aminokyselin dan´eho proteinu. V tomto pˇr´ıpadˇe zde odpad´a pˇr´ıtomnost chyb, kdy experiment´aln´ı mˇeˇr´ıc´ı metody (NMR a X-ray krystalografie) nejsou schopny zaznamenat urˇcit´e pozice atom˚u, jak se tomu dˇeje v nˇekter´ych PDB z´aznamech, kter´e tak znemoˇzˇnuj´ı predikci vlivu mutace na stabilitu proteinu na dan´ych atomov´ych souˇradnic´ıch. Na druhou stranu t´ımto pˇr´ıstupem ztr´ac´ıme informaci o prostorov´em uspoˇr´ad´an´ı atom˚u proteinu.
N´ıˇze uveden´e predikˇcn´ı n´astroje byly vybr´any takov´ym zp˚usobem, aby byla pokryta co moˇzn´a nejˇsirˇs´ı ˇsk´ala zp˚usob˚u a metod jak predikovat stabilitu proteinu a bylo t´ım dosaˇzeno co moˇzn´a nejvyˇsˇs´ı m´ıry univerz´alnosti v´ysledn´eho meta-n´astroje.
4.1
AUTO-MUTE
AUTO-MUTE je kolekc´ı tˇr´ı n´astroj˚u (∆∆G, ∆∆GH2O a ∆T
m) slouˇz´ıc´ıch pro predikci
vlivu aminokyselinov´ych mutac´ı na stabilitu proteinu. V tomto textu se budeme zab´yvat n´astrojem oznaˇcen´ym ∆∆G, kter´y predikuje vliv jednobodov´ych mutac´ı na stabilitu pro-teinu s ohledem na tepelnou denaturaci.
Predikˇcn´ı modely tohoto n´astroje byly tr´enov´any na m´ırnˇe upraven´ych z´aznamech z´ıskan´ych z datab´aze ProTherm (bl´ıˇze pops´ano v [8]). P˚uvodn´ı dataset obsahoval 1948 jednobodov´ych mutac´ı z celkem 58 proteinov´ych struktur, kter´e se z´aroveˇn vyskytovaly v datab´azi PDB. Po r˚uzn´ych ´uprav´ach (napˇr. odstranˇen´ı proteinov´ych struktur, kter´e ne-obsahovaly kompletn´ı informace o 3D struktuˇre proteinu), dataset obsahoval 1925 jedno-bodov´ych mutac´ı v 55 proteinov´ych struktur´ach.
Poskytnuty jsou dva klasifikaˇcn´ı modely (pouze pro predikci znam´enka ∆∆G) a dva regresn´ı modely (predikce hodnoty ∆∆G). U klasifikaˇcn´ıch metod lze pouˇz´ıtRandom Forest
(RF) aSupport Vector Machine(SVM), regresn´ı metody nab´ızej´ı moˇznost volby meziTree Regression(REPTree) aSVM regression(SVMreg). V´ybˇer mezi tˇemito modely je ponech´an na uˇzivateli, podrobnˇejˇs´ı informace lze nal´ezt na [31].
K povinn´ym vstupn´ım parametr˚um patˇr´ı: PDB ID (jednoznaˇcn´y ˇctyˇrp´ısmenn´y iden-tifik´ator proteinov´e struktury v PDB datab´azi), proteinov´y ˇretˇezec, mutace (ve form´atu p˚uvodn´ı residuum, pozice mutace, nahrazen´e residuum), teplota (v rozsahu 0◦C aˇz 100◦C) a pH (v rozsahu 0 -log[H+] aˇz 14 -log[H+]).
V´ysledn´y efekt mutace je urˇcen na z´akladˇe hodnoty ∆∆G. Pokud je splnˇena podm´ınka ∆∆G >0 kcal/mol, jde o stabilizuj´ıc´ı mutaci, jinak je mutace oznaˇcena za destabilizuj´ıc´ı. K dalˇs´ım v´ystup˚um n´astroje patˇr´ı napˇr´ıklad i predikce sekund´arn´ı struktury. Samotn´y n´astroj umoˇzˇnuje predikovat aˇz pˇet mutac´ı souˇcasnˇe.
4.2
SDM
Site Directed Mutator (SDM) je on-line n´astroj zaloˇzen´y na v´ypoˇctu statistick´eho po-tenci´alu energetick´e funkce vyvinut´y Christopherem M. Tophamem [44] k predikci efektu
jednobodov´ych mutac´ı na stabilitu proteinu. SDM pouˇz´ıv´a specifick´e prostˇred´ı aminokyse-linov´ych substituˇcn´ıch frekvenc´ı v r´amci homologn´ıch proteinov´ych rodin k v´ypoˇctu tzv.
stability sk´ore. Tento typ v´ypoˇctu lze povaˇzovat za analogii ke zmˇenˇe voln´e energie mezi divok´ym typem (z anglick´eho pˇrekladuwild-type) a mutovan´ym proteinem [47]. Dalˇs´ı infor-mace ohlednˇe principu v´ypoˇctu predikce stability proteinu lze nal´ezt na [44].
N´astroj k predikci vyuˇz´ıv´a strukturn´ıch informac´ı, proto je nutn´e zadat PDB ID nebo je moˇzn´e nahr´at vlastn´ı PDB soubor. D´ale je nutn´e urˇcit proteinov´y ˇretˇezec, pozici muto-van´eho residua a samotn´e mutovan´e residuum. N´astroj neumoˇzˇnuje zadat p˚uvodn´ı residuum na zvolen´e pozici. Tato vlastnost se zvl´aˇstˇe pˇri pouˇzit´ı automatick´eho zpracov´an´ı uk´azala jako nev´yhodn´a, a to vzhledem k faktu, ˇze nˇekter´e PDB soubory neobsahuj´ı kompletn´ı posloupnost atom˚u a m˚uˇze tak doj´ıt k chybn´emu urˇcen´ı mutovan´eho m´ısta. Typicky se jedn´a o probl´em na zaˇc´atc´ıch a konc´ıch ˇretˇezce, kde vlivem pouˇzit´e experiment´aln´ı metody nemus´ı b´yt dan´a aminokyselina uvedena a m˚uˇze tak doj´ıt k nekonzistenci mezi pozicemi aminokyselin v z´aznamu SEQRES a atomov´ymi souˇradnicemi. Kv˚uli absenci kontroly ekvi-valence m˚uˇzeme v tˇechto pˇr´ıpadech predikovat stabilitu proteinu na jin´e pozici, neˇz bylo p˚uvodnˇe poˇzadov´ano.
K zaj´ımav´ym vlastnostem tohoto n´astroje patˇr´ı, ˇze kromˇe predikce stability proteinu pˇredpov´ıd´a i moˇznost onemocnˇen´ı. Mutovan´a pozice je z´aroveˇn uk´az´ana v Jmol appletu, kde jsou jednotliv´a residua obarvena podle jejich chemick´ych vlastnost´ı.
4.3
CUPSAT
Cologne University Protein Stability Analysis Tool (CUPSAT) je webov´y n´astroj slouˇz´ıc´ı k anal´yze a predikci zmˇen stability proteinu zp˚usoben´e jednobodov´ymi aminokyselinov´ymi mutacemi. N´astroj k v´ypoˇctu ∆∆G pouˇz´ıv´a potenci´alu specifick´ych strukturn´ıch atom˚u a potenci´alu torzn´ıch ´uhl˚u. CUPSAT, jako jedin´y z vybran´ych predikˇcn´ıch n´astroj˚u, lze zaˇradit do kategorie n´astroj˚u, kter´e pro v´ypoˇcet energetick´e funkce pouˇz´ıvaj´ı pˇr´ıstupu zaloˇzen´em na empirick´em potenci´alu.
Poˇzadovan´e vstupn´ı parametry jsou PDB ID, pozice mutace v aminokyselinov´em ˇretˇezci a p˚uvodn´ı (pˇrirozen´a) aminokyselina na zadan´e pozici. D´ale je moˇzn´e urˇcit experiment´aln´ı metodu, kde m´a uˇzivatel na v´ybˇer ze dvou moˇznost´ıThermal a Denaturants. Pˇri v´ybˇeru mezi tˇemito dvˇema metodami byly br´any v ´uvahy ´udaje obsaˇzen´e v datab´azi ProTherm. Pokud jako metoda denaturace nebyla v z´aznamu datab´aze ProTherm uvedena metoda
Thermal, byla vybr´ana experiment´aln´ı metodaDenaturants, v jin´em pˇr´ıpadˇe byla vybr´ana metoda Thermal.
Pro zadan´e vstupn´ı parametry n´astroj predikuje celkov´y efekt na stabilitu proteinu (sta-biln´ı/destabiln´ı), torzn´ı ´uhly (favourable/unfavourable) a konkr´etn´ı hodnotu ∆∆G. Kladn´e hodnoty ∆∆G jsou zde br´any jako stabilizuj´ıc´ı, z´aporn´e jako destabilizuj´ıc´ı.
Aˇckoliv autoˇri ve sv´em ˇcl´anku [36] slibuj´ı aktualizaci lok´aln´ıho PDB repozit´aˇre pˇribliˇznˇe jednou mˇes´ıˇcnˇe, u nˇekter´ych proteinov´ych struktur obsaˇzen´ych v datab´azi PDB nelze sta-bilitu predikovat. Tento probl´em lze ˇreˇsit ruˇcn´ım nahr´an´ım PDB souboru do lok´aln´ıho repozit´aˇre n´astroje. [36]
4.4
I-Mutant3.0
Autoˇri tohoto n´astroje pouˇzili na rozd´ıl od vˇsech zm´ınˇen´ych n´astroj˚u tˇr´ıstavovou klasifikaci. Dle [9] se v pouˇzit´em datasetu vyskytovalo okolo 32% hodnot ∆∆G, kter´e byly bl´ızk´e nule
(v intervalu -0,5 aˇz 0,5 kcal/mol). Hodnoty v tomto rozsahu ovˇsem nemusej´ı b´yt urˇceny pˇresnˇe (zp˚usobeno napˇr´ıklad chybou mˇeˇren´ı ˇci pˇresnost´ı mˇeˇr´ıc´ı metody) a je moˇzn´e, ˇze vliv mutace bude ˇspatnˇe klasifikov´an. Z tohoto d˚uvodu autoˇri pouˇzili jiˇz zm´ınˇenou tˇr´ıstavovou klasifikaci, kde destabilizuj´ıc´ı mutace mus´ı splˇnovat podm´ınku ∆∆G<-1,0 kcal/mol, sta-bilizuj´ıc´ı mutace ∆∆G>1,0 kcal/mol a neutr´aln´ı mutace -1,0≤ ∆∆G≥1,0 kcal/mol.
I-Mutant3.0 je n´astroj vyuˇz´ıvaj´ıc´ı metod strojov´eho uˇcen´ı, konkr´etnˇe metody Support Vector Machine (SVM). Autoˇri vytvoˇrili dvˇe verze tohoto programu, v prvn´ı verzi je pre-dikce zaloˇzena na strukturn´ı anal´yze, druh´a verze vyuˇz´ıv´a sekvenˇcn´ı anal´yzu.
Tr´enovac´ı dataset pro sekvenˇcn´ı verzi I-Mutant3.0 je tvoˇren 1623 r˚uzn´ymi jednobo-dov´ymi mutacemi obsaˇzen´ymi v 58 r˚uzn´ych proteinech. Pro strukturn´ı verzi tr´enovac´ıho datasetu bylo vybr´ano 1576 r˚uzn´ych mutac´ı z celkem 55 protein˚u. Aplikov´an´ım termody-namick´e reverzibility (pˇredpokl´ad´ame, ˇze reverzn´ı mutace zp˚usobuje stejnou zmˇenu ∆∆G jako mutace p˚uvodn´ı) na kaˇzdou mutaci byl poˇcet mutac´ı pro sekvenˇcn´ı dataset zv´yˇsen na 3246, pro strukturn´ı dataset 3152 mutac´ı.
Kromˇe predikce efektu mutace a jej´ım ∆∆G je v´ystupem tohoto n´astroje RSA (Relative Solvent Accessible Area) a index spolehlivosti (Reliability index) v intervalu 1-9.
4.5
iPTREE-STAB
iPTREE-STAB je on-line n´astroj umoˇzˇnuj´ıc´ı predikci celkov´eho efektu na stabilitu proteinu (stabiln´ı/nestabiln´ı) a predikci zmˇeny stability proteinu (∆∆G) v z´avislosti na jednobo-dov´ych mutac´ıch aminokyselinov´eho ˇretˇezce. Pro v´ypoˇcet je pouˇzita sekvence aminokyse-lin, proto na rozd´ıl od n´astroj˚u vyuˇz´ıvaj´ıc´ıch strukturn´ıch vlastnost´ı proteinu nen´ı nutn´e vkl´adat PDB soubor. Rozhodov´an´ı o stabilitˇe proteinu je ponech´ano na metod´ach stro-jov´eho uˇcen´ı, konkr´etnˇe na jednoduch´em rozhodovac´ım stromu. Autoˇri v [22] uv´adˇej´ı, ˇze pro natr´enov´an´ı rozhodovac´ıho stromu bylo pouˇzito celkem 1859 neredundantn´ıch z´aznam˚u jednobodov´ych mutac´ı, kter´e byly z´ısk´any z datab´aze ProTherm.
Jako jedin´y z uveden´ych n´astroj˚u, iPTREE-STAB neumoˇzˇnuje urˇcit pozici, na kter´e dojde k mutaci. M´ısto toho se pouˇz´ıv´a jednoduch´eho principu, kdy n´astroj analyzuje pouze aminokyseliny v okol´ı vyˇsetˇrovan´eho (mutovan´eho) residua. Pˇred i za poˇzadovan´ym resi-duem je nutn´e zadat tˇri pˇredch´azej´ıc´ı/n´asleduj´ıc´ı aminokyseliny. Mimo tyto urˇcuj´ıc´ı ´udaje je nutn´e vyplnit i pH a teplotu.
Jelikoˇz se jedn´a o n´astroj vyuˇz´ıvaj´ıc´ı metod strojov´eho uˇcen´ı, v´ypoˇcet predikce je v tomto pˇr´ıpadˇe velmi rychl´y.
4.6
mCSM
N´astroj mCSM (mutation Cutoff Scanning Matrix) pouˇz´ıv´a novˇe navrˇzen´y pˇr´ıstup v´ypoˇctu zmˇeny stability proteinu bl´ıˇze popsan´y v [37]. Na rozd´ıl od ostatn´ıch pˇr´ıstup˚u, tento vyuˇz´ıv´a graf zaloˇzen´y na signatur´ach. Pro pochopen´ı toho, jakou roli maj´ı mutace v onemocnˇen´ı, autoˇri umoˇznili ohodnotit nejen proteinovou stabilitu, ale tak´e interakce mezi proteinem-proteinem a proteinem-proteinem-nukleovou kyselinou. Prostˇred´ı residu´ı m˚uˇze b´yt reprezentov´ano grafy, kde uzly jsou atomy a hrany jsou fyzik´alnˇe-chemick´e interakce mezi nimi. Z tˇechto graf˚u m˚uˇze vzniknout struktur´aln´ı signatura, kter´a je vytvoˇrena extrahov´an´ım a sumari-zov´an´ım vzd´alenostn´ıch vzor˚u. Tato signatura je pot´e pouˇzita jako objekt pro tr´enov´an´ı prediktivn´ıch model˚u.
V´ypoˇcet je moˇzn´e uskuteˇcnit pomoc´ı webov´eho rozhran´ı, a to tˇremi zp˚usoby nazvan´ymi Single mutation, Mutation list a Systematic. Single mutation poskytuje stejn´y pˇr´ıstup, jak´y jsme vidˇeli u pˇredch´azej´ıc´ıch n´astroj˚u. V tomto pˇr´ıpadˇe je nutn´e nahr´at PDB soubor, urˇcit mutovan´y ˇretˇezec a konkretizovat mutaci jej´ı pozic´ı, wild-typem a mutantem. Systematic se chov´a obdobnˇe - jen s t´ım rozd´ılem, ˇze predikce stability je vypoˇc´ıt´ana pro vˇsech 19 zb´yvaj´ıc´ıch aminokyselin. Mutation list poskytuje moˇznost vytvoˇren´ı konfiguraˇcn´ıho sou-boru, ve kter´em m˚uˇze b´yt uvedeno v´ıce mutac´ı vztahuj´ıc´ı se k jednomu proteinu, resp. PDB souboru. Tento postup je v´yhodn´y zejm´ena pro vˇetˇs´ı poˇcet zpracov´avan´ych mutac´ı nebo pro automatizovan´e skripty.
Kladn´e hodnoty ∆∆G vyjadˇruj´ı stabilizuj´ıc´ı mutace, naopak hodnoty z´aporn´e destabi-lizuj´ıc´ı mutace.
V´ystupem je snadno zpracovateln´y textov´y soubor, kter´y kromˇe predikovan´e ∆∆G ob-sahuje i RSA (Relative Solvent Accessibility). Pokud je ovˇsem v konfiguraˇcn´ım souboru uvedena nekorektn´ı mutace, nejsou v tomto konkr´etn´ım souboru provedeny ˇz´adn´e predikce.
4.7
PoPMuSiC
PoPMuSiC-2.1 je webov´y server predikuj´ıc´ı zmˇenu termodynamick´e stability zp˚usobenou jednobodov´ymi mutacemi protein˚u. Predikce je zaloˇzena na line´arn´ı kombinaci statistick´ych potenci´al˚u, jejichˇz koeficienty z´avisej´ı nasolvent accessibility2 mutovan´ych residu´ı. Dle [14] je predikce vyj´adˇrena line´arn´ı kombinac´ı pr´avˇe tˇrin´acti statistick´ych potenci´al˚u. Predikˇcn´ı model obsahuje celkem 64 parametr˚u, jejichˇz hodnoty jsou upraveny pomoc´ı neuronov´ych s´ıt´ı se snahou o minimalizaci stˇredn´ı kvadratick´e odchylky.
Tento predikˇcn´ı n´astroj, jako jedin´y, poˇzaduje pro sv˚uj chod registraci uˇzivatele. V´yhoda tohoto poˇzadavku je v tom, ˇze vˇsechny v´ysledky v minulosti vypoˇc´ıtan´ych ´uloh jsou uˇzivateli volnˇe dostupn´e.
Rozhran´ı tohoto n´astroje je podobnˇe rozˇclenˇen´e jako v pˇr´ıpadˇe mCSM. V´ypoˇcty je moˇzn´e prov´adˇet ve tˇrech reˇzimech Single, Systematic a File. Reˇzim Single slouˇz´ı pro ohod-nocen´ı jedn´e mutace urˇcen´e pomoc´ı proteinov´eho ˇretˇezce, wild-typem a mutantem. PDB strukturu je moˇzn´e identifikovat pomoc´ı PDB ID nebo tento z´aznam nahr´at na server. Systematic vypoˇc´ıt´a ∆∆G pro vˇsechny zaznamenan´e pozice aminokyselin v zadan´e PDB struktuˇre, a to pro vˇsech devaten´act moˇzn´ych variant mutac´ı. V tomto reˇzimu je takt´eˇz moˇzn´e zobrazit graf, ve kter´em je vynesen na kaˇzd´e pozici souˇcet z´aporn´ych predikc´ı ∆∆G. Struktura α-helix je obarvena ˇcervenou barvou, β-struktura modˇre a ostatn´ı struktury (turns a coils) jsou zelen´e. V reˇzimu File je moˇzn´e pro konkr´etn´ı PDB strukturu vytvoˇrit konfiguraˇcn´ı soubor obsahuj´ıc´ı poˇzadovan´e mutace. Tento pˇr´ıstup je velmi rychl´y a na rozd´ıl od n´astroje mCSM se pˇri v´yskytu chybn´e mutace v´ypoˇcet nepˇreruˇs´ı.
Na rozd´ıl od zm´ınˇen´ych n´astroj˚u, PoPMuSiC pro stabilizuj´ıc´ı mutace vrac´ı z´apornou hodnotu ∆∆G, pro destabilizuj´ıc´ı mutace pak hodnotu kladnou. Aby se pˇri pr´aci se vˇsemi n´astroji pouˇz´ıvalo stejn´e notace, byla hodnota predikovan´a t´ımto n´astrojem pˇrevr´acena na kladnou pro stabilizuj´ıc´ı, na z´apornou pro destabilizuj´ıc´ı mutaci.
4.8
Porovn´
an´ı a shrnut´ı
Vˇsechny n´astroje a jejich zaˇrazen´ı do jednotliv´ych skupin uveden´ych v ´uvodu t´eto ka-pitoly lze pˇrehlednˇe nal´ezt v tabulce 4.1. Snahou bylo vybrat takov´e predikˇcn´ı n´astroje,
kter´e by pokryly co moˇzn´a nejv´ıce moˇzn´ych metod a postup˚u pro v´ypoˇcet predikce stabi-lity proteinu. T´ımto zp˚usobem jsme schopni markantnˇe zv´yˇsit celkovou velikost prostoru ˇreˇsiteln´ych mutac´ı v z´avislosti na zadan´em vstupu. V´ysledn´y prostor ˇreˇsiteln´ych mutac´ı je d´an sjednocen´ım prostor˚u ˇreˇsiteln´ych mutac´ı jednotliv´ych n´astroj˚u.
N´astroje Zp˚usob v´ypoˇctu Algoritmus Typ dat
AUTO-MUTE [31] strojov´e uˇcen´ı random forest, SVM,
REPTree, SVMreg strukturn´ı SDM [47] energetick´e funkce statistick´y potenci´al strukturn´ı CUPSAT [36] energetick´e funkce empirick´y potenci´al strukturn´ı
I-Mutant3.0 [9] strojov´e uˇcen´ı SVM strukturn´ı,
sekvenˇcn´ı iPTREE-STAB [22] strojov´e uˇcen´ı rozhodovac´ı strom sekvenˇcn´ı mCSM [37] energetick´e funkce statistick´y potenci´al strukturn´ı PoPMuSiC [14] energetick´e funkce statistick´y potenci´al strukturn´ı
Tabulka 4.1: Pˇrehled n´astroj˚u a jejich metodologi´ı v´ypoˇctu.
Z´aroveˇn zde byla i snaha pouˇz´ıt n´astroje, jejichˇz doba predikce je pˇribliˇznˇe stejn´a. Cel-kov´a doba bˇehu vytvoˇren´eho meta-n´astroje je totiˇz vˇzdy d´ana ˇcasem nejpomalejˇs´ıho pre-dikˇcn´ıho n´astroje. Z tohoto d˚uvodu tud´ıˇz nen´ı pˇr´ıliˇs vhodn´e pouˇz´ıt n´astroje s diametr´alnˇe odliˇsn´ymi dobami bˇehu, pˇrijmeme-li pˇredpoklad, ˇze v´ysledn´e v´ahov´e ohodnocen´ı jednot-liv´ych n´astroj˚u nebude diametr´alnˇe odliˇsn´e. V tabulce4.2lze nal´ezt informace o potˇrebn´em ˇ
case pro v´ypoˇcet jedn´e mutace, omezen´ı poˇctu mutac´ı pro vstupy jednotliv´ych n´astroj˚u a tak´e nechyb´ı popis jejich omezen´ı.
N´astroje Cas v´ˇ ypoˇctu Vstup Omezen´ı
AUTO-MUTE [31] <5 min 1-5 mutac´ı neumoˇzˇnuje nahr´an´ı vlastn´ı struktury
SDM [47] <1 min 1 mutace chyb´ı kontrola p˚uvodn´ı
aminokyseliny (wild-type)
CUPSAT [36] <1 s 1 mutace
neaktualizovan´y lok´aln´ı PDB repozit´aˇr, chyb´ı kontrola
p˚uvodn´ı aminokyseliny (wild-type) I-Mutant3.0 [9] <1 min 1 mutace neumoˇzˇnuje nahr´an´ı vlastn´ı struktury iPTREE-STAB [22] <1 min 1 mutace nen´ı moˇznost urˇcit pozici mutace mCSM [37] <1 min lib. poˇcet neumoˇzˇnuje zadat PDB ID PoPMuSiC [14] <1 min lib. poˇcet nutnost registrace
Tabulka 4.2: Tabulka ud´av´a pˇribliˇzn´y ˇcas v´ypoˇctu jedn´e mutace, poˇcet mutac´ı, kter´e je moˇzn´e d´at na vstup n´astroje (libovoln´y poˇcet mutac´ı se vztahuje k jedn´e proteinov´e struktuˇre) a popis omezen´ı jednotliv´ych n´astroj˚u.
4.9
V´
ysledky predikˇ
cn´ıch n´
astroj˚
u
Tato kapitola se bude zab´yvat v´ysledky jednotliv´ych predikˇcn´ıch n´astroj˚u. Poznatky budou ˇ
4.9.1 Metodika porovn´an´ı n´astroj˚u
Pro z´akladn´ı pochopen´ı statistick´ych veliˇcin je nutn´e definovat pojmy uveden´e v [4]. Kvalitu predikce lze popsat parametry jako pˇresnost (accuracy), specificita (specificity), senzitivita (sensitivity) a tak´e pomoc´ı Matthewsova korelaˇcn´ıho koeficientu (MCC). Zat´ımco senzitivita je pravdˇepodobnost spr´avn´e predikce pozitivn´ıho pˇr´ıpadu, specificita je definov´ana jako pravdˇepodobnost, ˇze hodnota pozitivn´ı predikce je spr´avn´a. [4]
Vztah pro v´ypoˇcet pˇresnosti predikce je definov´an n´ıˇze. TP (true positive) v tomto pˇr´ıpadˇe znaˇc´ı poˇcet v´yskyt˚u pravdivˇe pozitivn´ıch (re´alnˇe stabilizuj´ıc´ı mutace oznaˇcena jako stabilizuj´ıc´ı), FP (false positive) faleˇsnˇe pozitivn´ıch (re´alnˇe destabilizuj´ıc´ı mutace je oznaˇcena jako stabilizuj´ıc´ı), TN (true negative) pravdivˇe negativn´ıch (re´alnˇe destabilizuj´ıc´ı mutace je oznaˇcena jako destabilizuj´ıc´ı) a FN (false negative) faleˇsnˇe negativn´ıch (re´alnˇe stabilizuj´ıc´ı mutace oznaˇcena jako destabilizuj´ıc´ı). Matthews˚uv korelaˇcn´ı koeficient dosa-huje hodnot v rozmez´ı -1 aˇz 1. Hodnota M CC = 1 oznaˇcuje nejlepˇs´ı moˇznou predikci, zat´ımco M CC = −1 indikuje nejhorˇs´ı moˇznou predikci (nˇekdy oznaˇcov´ano antikorelace). Pro hodnotu M CC = 0 nen´ı zjistiteln´a ˇz´adn´a line´arn´ı z´avislost (predikce je v´ysledkem n´ahody). [4] Accuracy = T P +T N T P +T N +F P +F N (4.1) Specif icity= T N T N+F P (4.2) Sensitivity = T P T P +F N (4.3) M CC = p T P ×T N−F N×F P (T P +F N)(T P +F P)(T N +F N)(T N +F P) (4.4)
4.9.2 V´ysledky jednotliv´ych studi´ı
Pro porovn´an´ı jednotliv´ych predikˇcn´ıch n´astroj˚u lze pouˇz´ıt z´avˇery ze studie [23], kter´a po-rovn´avala v´ykonnost 11 online dostupn´ych n´astroj˚u. Mezi tyto n´astroje patˇr´ı CUPSAT [36], Dmutant [48], FoldX [20], I-Mutant2.0 [8], I-Mutant3.0 (strukturn´ı i sekvenˇcn´ı verze) [9], MultiMutate [15], MUpro [12], SCide [17], Scpred [16] a SRide [28].
Pro testov´an´ı pˇresnosti predikce jednotliv´ych n´astroj˚u byla pouˇzita datab´aze ProTherm s experiment´alnˇe zjiˇstˇen´ymi hodnotami ∆∆G. Mutace v intervalu ∆∆G mezi 0,5 a -0,5 kcal/mol byly klasifikov´any jako neutr´aln´ı mutace (nemˇen´ıc´ı stabilitu proteinu), jelikoˇz pr˚umˇern´a hodnota maxim´aln´ı experiment´aln´ı chyby se dle [24] pohybuje okolo±0,48 kca-l/mol (chyba mˇeˇren´ı by mohla ovlivnit klasifikaci do tˇr´ıdy stabilizuj´ıc´ı/destabilizuj´ıc´ı).
V´ysledn´y testovac´ı dataset obsahoval 1784 neduplicitn´ıch mutac´ı z celkovˇe 80 pro-tein˚u, kde 931 mutac´ı bylo destabilizuj´ıc´ıch (∆∆G ≥ 0,5 kcal/mol), 222 stabilizuj´ıc´ıch (∆∆G ≤ -0,5 kcal/mol) a 631 mutac´ı bylo neutr´aln´ıch (0,5 kcal/mol >∆∆G ≥ -0,5 kca-l/mol). Znam´enko hodnoty ∆∆G bylo v t´eto studii pˇrevr´aceno oproti hodnot´am v da-tab´azi ProTherm. Velikost tr´enovac´ıch dataset˚u pro jednotliv´e n´astroje byla promˇenn´a, a to z toho d˚uvodu, ˇze nˇekter´e n´astroje pouˇz´ıvaly pro natr´enov´an´ı sv´eho predikˇcn´ıho mo-delu ˇc´ast z´aznam˚u z datab´aze ProTherm a v´ysledky by v tomto pˇr´ıpadˇe byly zkreslen´e (nadhodnocen´e). Z tohoto d˚uvodu byly vybr´any kaˇzd´emu n´astroji pro testov´an´ı pouze ty z´aznamy, kter´e se v datab´azi ProTherm zveˇrejnily aˇz po jejich vyd´an´ı. Velikosti dataset˚u jsou pˇrehlednˇe zn´azornˇeny v tabulce 4.3.
Celkovˇe nejlepˇs´ıch v´ysledk˚u dosahovaly I-Mutant3.0 (strukturn´ı verze), Dmutant a FoldX. Pˇresnost tˇechto n´astroj˚u kol´ısala od hodnot 0,54 do 0,64. Nejlepˇs´ı senzitivitu vykazoval n´astroj MUpro (0,74), hodnoty senzitivity pro I-Mutant2.0 a CUPSAT byly jen nepa-trnˇe menˇs´ı (0,71 a 0,69). Nejvyˇsˇs´ı specificitu zaznamenal n´astroj SRide (0,95). Hodnoty Matthewsova korelaˇcn´ıho koeficientu byly ovˇsem n´ızk´e pro vˇsechny predikˇcn´ı n´astroje. Nej-lepˇs´ıho korelaˇcn´ıho koeficientu dos´ahl n´astroj I-Mutant3.0 (strukturn´ı verze), jeho hodnota se pohybovala okolo 0,27. Naopak nejhorˇs´ıho korelaˇcn´ıho koeficientu (-0,39) dos´ahl n´astroj MUpro.
V tabulce 4.3 lze nal´ezt dosaˇzen´e v´ysledky pro vybran´e predikˇcn´ı n´astroje. Kompletn´ı v´ysledky vˇsech n´astroj˚u lze nal´ezt v [23].
Parametry CUPSAT I-Mutant3.0 (strukturn´ı) I-Mutant3.0 (sekvenˇcn´ı)
velikost datasetu 536 115 115
pˇresnost 0,50 0,64 0.52
specificita 0,30 0,63 0.39
senzitivita 0,69 0,64 0.66
MCC -0,01 0,27 0.05
Tabulka 4.3: Vybran´e v´ysledky z [23] pro n´astroj CUPSAT a I-Mutant3.0 ve strukturn´ı i sekvenˇcn´ı verzi.
Obr´azek 4.1 zobrazuje graf distribuce predikovan´ych a experiment´alnˇe namˇeˇren´ych ∆∆G hodnot, kter´e jsou vyj´adˇreny norm´aln´ı distribuˇcn´ı kˇrivkou. Hodnoty predikovan´e pomoc´ı n´astroj˚u I-Mutant2.0 a CUPSAT jsou vych´ylen´e smˇerem k negativn´ım hodnot´am (hodnoty znaˇc´ıc´ı destabilizaci), zat´ımco u n´astroje Dmutant smˇeˇruj´ı sp´ıˇse ke kladn´ym hodnot´am, aˇckoliv nejvyˇsˇs´ı vrchol jeho kˇrivky je pro ∆∆G = 0. Distribuˇcn´ı kˇrivka pro FoldX neobsahuje jasnˇe ˇciteln´y vrchol, vˇetˇs´ı mnoˇzstv´ı ∆∆G hodnot je menˇs´ıch neˇz -4 kcal/mol.
Obr´azek 4.1: A: Distribuce predikovan´ych a experiment´alnˇe namˇeˇren´ych ∆∆G hodnot. Jako predikˇcn´ı n´astroje byly pouˇzity I-Mutant2.0 (ˇcerven´a), Dmutant (zelen´a), CUPSAT (modr´a), FoldX (ˇsed´a). Experiment´aln´ı hodnota ∆∆G je zn´azornˇena ˇcernou barvou. B:
ROC kˇrivka zn´azorˇnuj´ıc´ı ´uspˇeˇsnost n´astroj˚u FoldX, I-Mutant2.0, Dmutant a CUPSAT. Zobrazeny jsou takt´eˇz hodnoty AUC a standardn´ı odchylky odvozen´e od ploch pod jednot-liv´ymi kˇrivkami. Barevn´e oznaˇcen´ı n´astroj˚u je zaznaˇceno na obr´azku. [23]
Ve v´ysledc´ıch t´eto studie nebyly zahrnuty predikˇcn´ı n´astroje jako PoPMuSiC, ERIS, iPTREE-STAB, AUTO-MUTE a jin´e. PoPMuSiC nebyl zaˇrazen z toho d˚uvodu, ˇze bˇehem psan´ı studie [23] nebyla dostupn´a stabiln´ı verze tohoto n´astroje (stabiln´ı verze byla vyd´ana aˇz po dokonˇcen´ı studie). Rozhran´ı n´astroje ERIS dle autor˚u neumoˇzˇnuje d´avkov´e zpra-cov´an´ı, coˇz znemoˇznilo jej´ı zaˇrazen´ı. iPTREE-STAB pouˇz´ıv´a metodu rozhodovac´ıho stromu, nen´ı zde ovˇsem moˇzn´e pˇresnˇe urˇcit pozici ˇci proteinovou strukturu. N´astroj AUTO-MUTE obsahoval pouze 28 pˇr´ıpad˚u, kter´e nebyly pouˇzity pro natr´enov´an´ı jeho tr´enovac´ıho data-setu. Pro statistickou anal´yzu je toto ˇc´ıslo pˇr´ıliˇs mal´e. Pro tˇechto 28 pˇr´ıpad˚u byl n´astroj AUTO-MUTE schopen spr´avnˇe predikovat 6 pˇr´ıpad˚u (21%).
Studie [39] porovn´av´a celkem 6 odliˇsn´ych n´astroj˚u pro predikci zmˇeny stability proteinu. Mezi tyto n´astroje patˇr´ı CC/PBSA [5], EGAD [38], FoldX [20], I-Mutant2.0 [8], Rosetta [42] a Hunter. Pro ohodnocen´ı pˇresnosti predikce byl pouˇzit dataset obsahuj´ıc´ı 2156 jed-nobodov´ych mutac´ı, kter´e nebyly pouˇzity pro tr´enov´an´ı u jednotliv´ych n´astroj˚u. Korelaˇcn´ı koeficient mezi experiment´aln´ı a predikovanou hodnotou ∆∆G byl v rozmez´ı 0,59 pro nej-lepˇs´ı a 0,26 pro nejhorˇs´ı n´astroj. Vˇsechny predikˇcn´ı n´astroje vykazuj´ı spr´avn´y trend v pre-dikci sv´ych v´ysledk˚u (celkov´y efekt na stability proteinu), ve vˇetˇs´ı m´ıˇre ovˇsem selh´avaj´ı pˇri poskytov´an´ı pˇresn´ych hodnot.
Na obr´azku 4.2 lze vidˇet distribuce experiment´aln´ıch a predikovan´ych ∆∆G hodnot pro jednotliv´e n´astroje. Na kaˇzd´em z uveden´ych graf˚u jsou na horizont´aln´ı ose vyneseny
Obr´azek 4.2: Porovn´an´ı r˚uzn´ych n´astroj˚u pro predikci zmˇeny stability. Kaˇzd´y n´astroj byl testov´an na mutac´ıch, kter´e nebyly obsaˇzeny v jejich tr´enovac´ıch sad´ach. Na kaˇzd´em grafu v jeho horn´ım rohu je zaznaˇcen korelaˇcn´ı koeficient (r) a rovnice regresn´ı pˇr´ımky (y). Plnou ˇ
hodnoty experiment´aln´ı ∆∆G, na vertik´aln´ı ose je to z´ıskan´a (predikovan´a) hodnota ∆∆G. Pˇreruˇsovan´a ˇc´ara s pˇredpisem y = x zn´azorˇnuje ide´aln´ı polohu jednotliv´ych bod˚u. Plnou ˇ
carou je vyj´adˇrena regresn´ı pˇr´ımka vypoˇcten´a z bod˚u grafu. ˇC´ım v´ıce regresn´ı pˇr´ımka pˇrekr´yv´a pˇreruˇsovanou pˇr´ımku, t´ım je v´ysledek pˇresnˇejˇs´ı. Na kaˇzd´em grafu je v horn´ım rohu zaznaˇcen korelaˇcn´ı koeficient (r) a rovnice regresn´ı pˇr´ımky (y).
Na obr´azku4.3je takt´eˇz zn´azornˇena distribuce experiment´aln´ıch a predikovan´ych ∆∆G hodnot pro jednotliv´e n´astroje jak tomu bylo na obr´azku4.2. V tomto pˇr´ıpadˇe bylo ovˇsem pouˇzito metody tzv. binning, kde doˇslo k rozdˇelen´ı dan´eho prostoru na 12 interval˚u a v kaˇzd´em intervalu byly jednotliv´e v´ysledk˚u zpr˚umˇerov´any. V´ysledkem je tedy jeden bod reprezentuj´ıc´ı hodnoty v urˇcit´em intervalu.
Obr´azek 4.3: Porovn´an´ı r˚uzn´ych n´astroj˚u pro predikci zmˇeny stability s vyuˇzit´ım metody
binning pro 12 interval˚u. Kaˇzd´y n´astroj byl testov´an na mutac´ıch, kter´e nebyly obsaˇzeny v jejich tr´enovac´ıch sad´ach. Na kaˇzd´em grafu v jeho horn´ım rohu je zaznaˇcen korelaˇcn´ı koefi-cient (r) a rovnice regresn´ı pˇr´ımky (y). Plnou ˇcarou je vyj´adˇrena regresn´ı pˇr´ımka vypoˇcten´a z bod˚u na grafu. [39]
Autoˇri t´eto studie se takt´eˇz zamˇeˇrili na kombinov´an´ı v´ysledk˚u r˚uzn´ych metod s pˇ red-pokladem, ˇze dos´ahnou lepˇs´ıho v´ysledku. Celkovˇe bylo vytvoˇreno 57 r˚uzn´ych kombinac´ı dvou a v´ıce n´astroj˚u, kde v´ysledky tˇechto kombinac´ı byly zpr˚umˇerov´any. Ve v´ysledku ovˇsem doˇsli k z´avˇeru, ˇze kombinac´ı r˚uzn´ych metod nedojde k signifikantn´ımu zlepˇsen´ı predikˇcn´ı pˇresnosti v porovn´an´ı s pouˇzit´ım jedin´eho. Toto tvrzen´ı je podloˇzeno v´ysledkem zobra-zen´ym na obr´azku4.4. Tento graf zn´azorˇnuje v´ysledek kombinov´an´ı n´astroj˚u s c´ılem zlepˇsit predikci ∆∆G. V´ysledky n´astroj˚u EGAD, I-Mutant2.0 a Rosetta byly zpr˚umˇerov´any a za-neseny do grafu oproti experiment´alnˇe zjiˇstˇen´ym hodnot´am ∆∆G. Teˇckovanou ˇcarou je
zn´azornˇena regresn´ı pˇr´ımka pro v´ysledky samotn´eho n´astroje EGAD. Lze si tak´e vˇsimnout, ˇ
ze korelaˇcn´ı koeficient pro zpr˚umˇerovan´e v´ysledky tˇechto n´astroj˚u dosahuje hodnoty 0,64, pro samotn´y EGAD potom 0,62. Jak jiˇz bylo zm´ınˇeno v´yˇse, kombinov´an´ım (pr˚umˇerov´an´ım) r˚uzn´ych n´astroj˚u nebylo dosaˇzeno velk´eho zlepˇsen´ı. [39]
Obr´azek 4.4: Graf zn´azorˇnuj´ıc´ı v´ysledky kombinov´an´ı n´astroj˚u pro zlepˇsen´ı predikce ∆∆G. EGAD, I-Mutant2.0 a Rosetta byly pouˇzity pro predikov´an´ı ∆∆G na datasetu o 407 mu-tac´ıch. Pr˚umˇer tˇechto tˇr´ı n´astroj˚u byl vypoˇc´ıt´an pro kaˇzdou mutaci a zanesen do grafu. Tyto zpr˚umˇerovan´e v´ysledky byly porovn´any na stejn´em datasetu se samotn´ym n´astrojem EGAD (teˇckovan´a pˇr´ımka). [39]
Dalˇs´ı zaj´ımav´a studie [11] porovn´av´a celkem 5 predikˇcn´ıch n´astroj˚u, kter´ymi jsou I-Mutant2.0, AUTO-MUTE, MUpro, PoPMuSiC a CUPSAT. Pro I-Mutant2.0 byla pouˇzita jeho sek-venˇcn´ı (I-Mutant SEQ) i strukturn´ı verze (I-Mutant PDB). Pro n´astroj AUTO-MUTE byly dostupn´e ˇctyˇri predikˇcn´ı modely, autoˇri t´eto studie zvolili pro porovn´an´ı model vyuˇz´ıvaj´ıc´ı
random forest(AUTO-MUTE RF) asupport vector machine(AUTO-MUTE SVM). MUpro vyuˇz´ıv´a modelu support vector machine, kde pro svoji predikci prim´arnˇe pouˇz´ıv´a sek-venˇcn´ıch informac´ı. Tento n´astroj umoˇzˇnuje predikovat pouze celkov´y efekt na stabilitu proteinu (stabiln´ı/nestabiln´ı).
Pro porovn´an´ı v´ykonnosti jednotliv´ych n´astroj˚u bylo pouˇzito dvou odliˇsn´ych dataset˚u. Tyto datasety byly vytvoˇreny z datab´aze ProTherm. Prvn´ı dataset (S1948) byl pouˇzit pˇri konstrukci I-Mutant2.0 a obsahuje 1948 mutac´ı z celkem 58 protein˚u. Druh´y dataset (S2648) byl pouˇzit pˇri tr´enov´an´ı PoPMuSiC a obsahuje 2648 mutac´ı z celkem 119 protein˚u. V da-tasetu S1948 se nach´az´ı mnoˇzstv´ı mutac´ı se stejn´ym PDB ID a stejn´ymi hodnotami ∆∆G (m´ırnˇe odliˇsn´e byly jen hodnoty pH a teploty). Tˇechto 637 redundantn´ıch z´aznam˚u bylo odstranˇeno, zb´yvaj´ıc´ıch 1311 mutac´ı vytvoˇrilo nov´y dataset pojmenovan´y M1311. Dataset S2648 sd´ılel celkem 815 mutac´ı s datasetem M1311, pro dosaˇzen´ı vz´ajemn´e nez´avislosti tˇechto dataset˚u byly tyto mutace odstranˇeny. Celkovˇe tedy druh´y dataset obsahoval 1820 mutac´ı a byl pojmenov´an M1820. Slouˇcen´ım dataset˚u M1311 a M1820 vznikl tˇret´ı dataset s oznaˇcen´ım M3131.
V tabulce 4.4 jsou zobrazeny v´ysledky uveden´ych predikˇcn´ıch n´astroj˚u pro dataset M1311. Matthews˚uv korelaˇcn´ı koeficient se v tomto pˇr´ıpadˇe pohybuje v rozmez´ı od 0,341 pro CUPSAT do 0,906 pro n´astroj AUTO-MUTE s predikˇcn´ım modelem random forest.
N´astroj Specificita Senzitivita Pˇresnost MCC
I-Mutant PDB 0,922 0,555 0,800 0,530 I-Mutant SEQ 0,973 0,702 0.883 0,734 AUTO-MUTE RF 0,991 0,893 0.958 0,906 AUTO-MUTE SVM 0,975 0,772 0.907 0,789 MUpro SVM 0,956 0,775 0.896 0,761 PoPMuSiC 0,941 0,313 0.724 0,341 CUPSAT 0,823 0,579 0.742 0,411 Pr˚umˇer 0,984 0,737 0.902 0,779
Tabulka 4.4: Porovn´an´ı v´ysledk˚u predikˇcn´ıch n´astroj˚u pro dataset M1311. [11]
V tabulce 4.5 jsou zobrazeny v´ysledky uveden´ych predikˇcn´ıch n´astroj˚u pro dataset M1820. Matthews˚uv korelaˇcn´ı koeficient se zde pohybuje v rozmez´ı od 0,072 pro AUTO-MUTE s predikˇcn´ım modelem support vector machine do 0,352 pro n´astroj PoPMuSiC.
N´astroj Specificita Senzitivita Pˇresnost MCC
I-Mutant PDB 0,906 0,198 0,670 0,148 I-Mutant SEQ 0,899 0,212 0.670 0,155 AUTO-MUTE RF 0,985 0,129 0.700 0,234 AUTO-MUTE SVM 0,965 0,067 0.666 0,072 MUpro SVM 0,885 0,276 0.682 0,206 PoPMuSiC 0,952 0,303 0.736 0,352 CUPSAT 0,757 0,370 0.628 0,133 Pr˚umˇer 0,984 0,113 0.693 0,212
Tabulka 4.5: Porovn´an´ı v´ysledk˚u predikˇcn´ıch n´astroj˚u pro dataset M1820. [11]
Tabulka 4.6 obsahuje v´ysledky jednotliv´ych predikˇcn´ıch n´astroj˚u pro dataset M3131 vznikl´y slouˇcen´ım dvou pˇredch´azej´ıc´ıch dataset˚u. Matthews˚uv korelaˇcn´ı koeficient se po-hybuje v rozmez´ı od 0,261 pro CUPSAT do 0,615 pro n´astroj AUTO-MUTE s predikˇcn´ım modelem random forest.
Celkovˇe nejlepˇs´ıch v´ysledk˚u dos´ahl n´astroj AUTO-MUTE s predikˇcn´ım modelem ran-dom forest. Je vˇsak nutn´e podotknout, ˇze pr´avˇe u tohoto n´astroje byl tr´enovac´ı dataset vy-tvoˇren z datab´aze ProTherm. Takto dobr´y v´ysledek m˚uˇze b´yt tedy zp˚usoben neadekv´atn´ım pouˇzit´ım modelu a nemus´ı obecnˇe korespondovat s v´ysledky na nez´avisl´em datasetu.
N´astroj Specificita Senzitivita Pˇresnost MCC I-Mutant PDB 0,377 0,916 0,736 0,357 I-Mutant SEQ 0,457 0,934 0.775 0,464 AUTO-MUTE RF 0,511 0,989 0.829 0,615 AUTO-MUTE SVM 0,420 0,969 0.786 0,499 MUpro SVM 0,526 0,908 0.780 0,480 PoPMuSiC 0,308 0,945 0.733 0,348 CUPSAT 0,474 0,780 0.678 0,261 Pr˚umˇer 0,425 0,980 0.795 0,527
Kapitola 5
Strojov´
e uˇ
cen´ı
Strojov´e uˇcen´ı je v dneˇsn´ı dobˇe ch´ap´ano jako discipl´ına umˇel´e inteligence. Jej´ı z´akladn´ı technikou je prohled´av´an´ı stavov´eho prostoru. K charakteristick´ym rys˚um patˇr´ı vyuˇz´ıv´an´ı znalost´ı, pr´ace se symbolick´ymi ˇci strukturovan´ymi promˇenn´ymi ˇci aplikace modern´ıch po-znatk˚u z oboru nestandardn´ıch logik. Typicky se v tˇechto ´uloh´ach hledaj´ı zaj´ımav´e souvis-losti ˇci pr˚ubˇehy pozorovan´ych jev˚u, kter´e lze povaˇzovat za charakteristick´e. Nejtypiˇctˇejˇs´ı aplikac´ı strojov´eho uˇcen´ı je pomoc pˇri z´ısk´av´an´ı znalost´ı pro expertn´ı syst´emy, kde bylo dosaˇzeno v´yrazn´ych ´uspˇech˚u v podobˇe zkr´acen´ı doby nutn´e pro tvorbu a ladˇen´ı b´aze zna-lost´ı. Dalˇs´ı uplatnˇen´ı strojov´eho uˇcen´ı je napˇr´ıklad pˇri porozumˇen´ı pˇrirozen´emu jazyku, v poˇc´ıtaˇcov´em vidˇen´ı nebo pr´avˇe v bioinformatice.
D´a se ˇr´ıci, ˇze strojov´e uˇcen´ı patˇr´ı mezi nejstarˇs´ı discipl´ıny matematick´e informatiky. Proto se jiˇz od pades´at´ych let hledaj´ı zp˚usoby, jak tvorbu program˚u zautomatizovat. Stro-jov´e uˇcen´ı zaloˇzen´e na umˇel´e inteligenci je jednou z metod t´eto automatizace. [29]
Dle [3] lze rozdˇelit algoritmy strojov´eho uˇcen´ı na
• klasifikaci,
• regresi a
• hled´an´ı asociac´ı.
Klasifikace, resp. klasifikaˇcn´ı probl´em je takov´y probl´em, kter´y ˇreˇs´ı pˇriˇrazen´ı tˇr´ıd objekt˚um. Typickou ´ulohou ud´avanou jako pˇr´ıklad klasifikace je urˇcen´ı rizikovosti p˚ujˇcky. O jed-notliv´ych z´akazn´ıc´ıch jsou uchov´av´any vˇsechny relevantn´ı informace ovlivˇnuj´ıc´ı schopnost spl´acet p˚ujˇcku (pˇr´ıjem, ´uspory, povol´an´ı, vˇek atd.). C´ılem je naj´ıt asociace mezi z´akazn´ıkov´ymi atributy a rizikem nesplacen´ı. Toto je klasick´y pˇr´ıklad klasifikaˇcn´ıho probl´emu pro dvˇe tˇr´ıdy (n´ızk´a a vysok´a rizikovost p˚ujˇcky). Vstupem jsou tedy informace o z´akazn´ıkovi, v´ystupem jsou tyto dvˇe tˇr´ıdy (vysok´a/n´ızk´a rizikovost). Po natr´enov´an´ı modelu m˚uˇze b´yt klasifikaˇcn´ı pravidlo pro tuto ´ulohu napˇr´ıklad ve tvaru
IF p r i j e m > Θ1 AND u s p o r y > Θ2
THEN n i z k a r i z i k o v o s t ELSE v y so k a r i z i k o v o s t .
Na obr´azku 5.1 je zn´azornˇen pˇr´ıklad rozdˇelen´ı prostoru moˇzn´ych ˇreˇsen´ı. Horizont´aln´ı osa reprezentuje velikost pˇr´ıjmu, vertik´aln´ı osa zn´azorˇnuje velikost ´uspor. Oznaˇcen´e body Θ1 a
Θ2urˇcuj´ı hranice rozdˇelen´ı prostoru. Kruˇznice zde reprezentuj´ı datov´e instance, znam´enkem
+ jsou oznaˇceny instance patˇr´ıc´ı do tˇr´ıdy n´ızkorizikov´ych p˚ujˇcek, znam´enku - patˇr´ı tˇr´ıda vysokorizikov´ych p˚ujˇcek. Plnou ˇcarou je zn´azornˇeno rozdˇelen´ı tˇechto tˇr´ıd v prostoru.
Obr´azek 5.1: Pˇr´ıklad tr´enovac´ıho datasetu, kde kaˇzd´a kruˇznice n´aleˇz´ı jedn´e datov´e instanci. Tyto instance reprezentuj´ı vstupy zobrazen´e na pˇr´ısluˇsn´ych souˇradnic´ıch, kde znam´enka + ˇ
ci - urˇcuj´ı pˇr´ısluˇsnost do tˇr´ıdy n´ızkorizikov´e resp. vysokorizikov´e. Plnou ˇcarou je zn´azornˇeno oddˇelen´ı tˇechto tˇr´ıd. [3]
Regresn´ı metody, na rozd´ıl od klasifikace, neurˇcuj´ı do jak´e tˇr´ıdy vstupn´ı prvek patˇr´ı, ale rovnou odhaduj´ı (predikuj´ı) jeho ˇc´ıselnou hodnotu. Jako pˇr´ıklad lze uv´est syst´em, kter´y bude predikovat cenu ojet´eho automobilu. Vstupem mohou b´yt atributy jako znaˇcka auto-mobilu, rok v´yroby, poˇcet najet´ych kilometr˚u atd. Pro jednoduˇsˇs´ı zn´azornˇen´ı uvaˇzme poˇcet najet´ych kilometr˚u jako jedin´y atribut ovlivˇnuj´ıc´ı cenu automobilu. Regresn´ı pˇr´ımka pot´e nab´yv´a line´arn´ı tvar
y =wx+w0.
Na obr´azku5.2je pˇr´ıklad line´arnˇe ˇreˇsiteln´eho probl´emu z´avislosti ceny automobilu na poˇctu ujet´ych kilometr˚u (m´ıl´ıch). Pokud je line´arn´ı model pˇr´ıliˇs omezuj´ıc´ı, lze vyuˇz´ıt napˇr´ıklad kvadratickou funkci
y=w2x2+w1x+w0,
polynomi´aln´ı funkci vyˇsˇs´ıch ˇr´ad˚u ˇci jinou neline´arn´ı funkci.
Asociaˇcn´ı pravidla (association rules) jsou vyuˇz´ıv´ana pro hled´an´ı zaj´ımav´ych asociac´ı nebo korelac´ı nad velk´ym mnoˇzstv´ım datov´ych poloˇzek. Nalezen´ı zaj´ımav´ych asociac´ı nad ob-chodn´ımi transakˇcn´ımi z´aznamy m˚uˇze pomoci v procesu obchodn´ıho rozhodov´an´ı, jako je
Obr´azek 5.2: Pˇr´ıklad tr´enovac´ıho datasetu pro v´ypoˇcet ceny ojet´eho automobilu. Pro zjed-noduˇsen´ı je uvaˇzov´an pouze jeden vstupn´ı atribut (poˇcet najet´ych kilometr˚u), jedn´a se tedy o line´arn´ı model. Regresn´ı pˇr´ımka je urˇcuj´ıc´ı predikovanou hodnotou, je d´ana pˇredpisem
y=wx+w0. [3]
n´avrh katalog˚u, akˇcn´ıch nab´ıdek nebo rozm´ıstˇen´ı zboˇz´ı v obchodˇe. Typick´ym pˇr´ıkladem je anal´yza n´akupn´ıho koˇs´ıku. Tento proces analyzuje chov´an´ı z´akazn´ıka, hled´a asociace mezi zboˇz´ım, kter´e z´akazn´ık um´ıst´ı do sv´eho n´akupn´ıho koˇs´ıku. T´ımto lze tedy zjistit, jak´e druhy zboˇz´ı si z´akazn´ıci nejˇcastˇeji kupuj´ı dohromady.
Pˇri hled´an´ı tˇechto asociaˇcn´ım pravidel n´as zaj´ım´a zejm´ena podm´ınˇen´a pravdˇepodobnost uv´adˇen´a ve formˇeP(Y|X), kdeY je produkt podm´ınˇen´y v´yskytem produktuX, coˇz je pro-dukt nebo mnoˇzina produkt˚u, u kter´ych v´ıme, ˇze je z´akazn´ık nakupuje. Uved’me napˇr´ıklad pravdˇepodobnost P(limonada|oplatky) = 0,7. T´ımto v´yrazem definujeme, ˇze 70 procent z´akazn´ık˚u, kteˇr´ı si koupili oplatky takt´eˇz koupili limon´adu.
Dle [3] lze algoritmy strojov´eho uˇcen´ı podle zp˚usobu uˇcen´ı rozdˇelit na
• uˇcen´ı s uˇcitelem a
• uˇcen´ı bez uˇcitele.
Pro uˇcen´ı s uˇcitelem je specifick´e to, ˇze pˇri f´azi uˇcen´ı jsou kromˇe vstupn´ıch dat dostupn´a i data v´ystupn´ı. Uˇcitel je tedy schopn´y z´ıskat v´ysledky z dan´eho modelu a porovnat je s poˇzadovan´ym v´ystupem. Mezi algoritmy strojov´eho uˇcen´ı, kter´e je moˇzn´e zaˇradit do t´eto kategorie, patˇr´ı klasifikace i regrese.
Naopak pro uˇcen´ı bez uˇcitele je specifick´e to, ˇze nejsou k dispozici data v´ystupn´ı (nen´ı tedy moˇzn´e v´ystup jednotliv´ych model˚u strojov´eho uˇcen´ı porovnat s jak´ymkoli jin´ym v´ystupem). Typick´ym pˇr´ıklade