Induction of prediction models using domain knowledge about related features

(1)

.

Uporaba predznanja o povezanosti značilk pri gradnji

napovednih modelov

Marko Toplak

   F                   Ljubljana, 

(2)

.

(3)

.

IZJAVA

Izjavljam, da sem avtor dela in da slednje ne vsebuje materiala, ki bi ga kdorkoli predhodno že objavil ali oddal v obravnavo za pridobitev naziva na univerzi ali na

drugem visokošolskem zavodu, razen v primerih, kjer so navedeni viri.

— Marko Toplak — julij 

O   dr. Marko Robnik-Šikonja izredni profesor za računalništvo in informatiko

   dr. Blaž Zupan

redni profesor za računalništvo in informatiko     

dr. Sašo Džeroski

redni profesor za računalništvo in informatiko    

(4)

.

(5)

.

PREDHODNA OBJAVA

Izjavljam, da so bili rezultati obravnavane raziskave predhodno objavljeni/sprejeti za objavo v recenzirani reviji ali javno predstavljeni v naslednjih primerih:

[] Marko Toplak, Tomaž Curk, Janez Demšar, in Blaž Zupan. Does replication groups scoring reduce false positive rate in SNP interaction discovery? BMC Genomics, ():, .

[] Marko Toplak, Tomaž Curk, in Blaž Zupan. Similarity of transcription proﬁles for genes in gene sets. Predstavljeno na konferenci ter objavljeno v zborniku International Conference Adaptive and Natural Computing Algorithms, strani –. Springer, . [] Marko Toplak, Rok Močnik, Matija Polajnar, Zoran Bosnić, Lars Carlsson, Catrin

Hasselgren, Janez Demšar, Scott Boyer, Blaž Zupan, in Jonna Stålring. Assessment of machine learning reliability methods for quantifying the applicability domain of QSAR regression models. Journal of Chemical Information and Modeling, ():–, .

Potrjujem, da sem pridobil pisna dovoljenja vseh lastnikov avtorskih pravic, ki mi dovoljujejo vključitev zgoraj navedenega materiala v pričujočo disertacijo. Potrjujem, da zgoraj navedeni material opisuje rezultate raziskav, izvedenih v času mojega podi-plomskega študija na Univerzi v Ljubljani.

(6)

.

(7)

.

POVZETEK

Univerza v Ljubljani Fakulteta za računalništvo in informatiko

Marko Toplak

Uporaba predznanja o povezanosti značilk pri gradnji napovednih modelov

Z ustreznim predznanjem lahko zgradimo točnejše napovedne modele. Eno od podro-čij, kjer je gradnja napovednih modelov razmeroma težka zaradi malo učnih primerov v tipičnem naboru podatkov, a kjer imamo na voljo veliko predznanja, je področje molekularne biologije. Osnovne entitete na področju, geni, proteini ali presnovni pro-dukti, so opisani in razvrščeni v kategorije v raznih prosto dostopnih bazah podatkov. Ta dodatna znanja lahko s pridom izkoristimo pri gradnji napovednih modelov. V di-sertaciji smo osredotočeni na metode, ki transformirajo prostor značilk v prostor sku-pin značilk, pri čemer skusku-pine pridobimo iz obstoječih baz podatkov in predstavljajo predznanje.

Značilke na podatkovnih naborih s področja molekularne biologije, ki smo jih upo-rabljali v disertaciji, predstavljajo gene. Metode, ki obravnavajo skupine genov, teme-ljijo na predpostavki, da so izrazni profili genov, ki pripadajo isti skupini, podobni. V disertaciji to predpostavko potrdimo in pokažemo, da so pari izraznih profilov genov iz skupin v bazah KEGG in BioGRID bolj podobni kot pari izraznih profilov naključno izbranih genov, a tudi pokažemo, da so te razlike majhne. Razlike ostajajo enake ne glede na verzijo podatkovnih baz skupin.

V delu predlagamo metodo transformacije podatkov v prostor skupin značilk s so-časno matrično faktorizacijo, ki matriki podatkov in skupin značilk hkrati razcepi na produkt faktorjev z manjšimi rangi od rangov izvirnih matrik. Na resničnih podatkih po transformaciji s sočasno faktorizacijo lahko zgradimo modele, ki dosegajo primer-ljivo točnost kot modeli zgrajeni na netransformiranih podatkih. Predlagan pristop pri pretvorbi v prostor skupin uporabi tudi značilke, ki so podobne značilkam v skupini, a skupini ne pripadajo, kar ga loči od ostalih transformacijskih metod.

Pri transformaciji v prostor skupin značilk moramo nastaviti parametre transfor-macij, kot so uteži značilk iz skupine. Transformacije, ki pri izračunu parametrov

(8)

.

.ii Povzetek Marko Toplak

uporabljajo tudi ciljno spremenljivko, ustvarijo vrednosti skupin značilk, ki so vsaj de-loma prilagojene ciljni spremenljivki. Učne metode bodo zato značilkam, ki so preveč prilagojene razredu, pripisale prevelik pomen, kar lahko poslabša točnost na novih po-datkih. Predlagamo rešitev s skladanjem. Predlagana rešitev deluje z obstoječimi me-todami transformacije v prostor skupin značilk in na nekaterih podatkovnih naborih bistveno izboljša točnost končnih napovednih modelov.

V disertaciji preučimo tehnike transformacije podatkov v prostor vnaprej deﬁniranih skupin značilk. V največji študiji doslej pokažemo, da z gradnjo napovednih modelov na podatkih s področja molekularne biologije, ki smo jih transformirali z obstoječimi ali predlaganimi metodami, v povprečju ne izboljšamo točnosti napovednih modelov na netransformiranih podatkih. Točnosti napovednih modelov, ki jih zgradimo na transformiranih podatkih, so še vedno podobne točnostim na netransformiranih po-datkih. Ker je modele na podatkih transformiranih v skupine značilk laže interpretirati, je transformacije v prostor skupin smiselno uporabiti.

Ključne besede: strojno učenje, predznanje, povezane značilke, sočasna matrična

(9)

.

ABSTRACT

University of Ljubljana Faculty of Computer and Information Science

Marko Toplak

Induction of prediction models using domain knowledge about related features

Domain knowledge can help us build more accurate prediction models. Molecular biology is one of the ﬁelds where induction of prediction models is relatively hard due to few learning instances in a typical data set, but there exists vast domain knowledge. Basic entities of the ﬁeld—genes, proteins, and metabolic products—are described and categorized in various freely accessible databases. is thesis focuses on methods that transform data from the space of features into the space of feature groups, which can be assembled from existing data bases and represent prior knowledge.

Features in data sets from the field of molecular biology that we used in the the-sis represent genes. Methods working with gene groups assume that gene expression profiles belonging to the same group are similar. We show that gene expressions of gene pairs from groups in databases KEGG and BioGRID are more similar than gene expression of random gene pairs, but the differences are small. e differences do not change with the database version.

We propose a technique for transformation of data into a space of feature groups with collective matrix factorization, which simultaneously factorizes matrices repre-senting data and feature groups into a product of latent factors with ranks smaller than ranks of original matrices. e models induced from the transformed data can be as ac-curate as models on the non-transformed data. In contrast to existing approaches, the proposed approach can also use features that are not in predeﬁned groups of features but are similar to features in a group.

Transformation techniques that transform data into a space of feature groups require estimation of transformation parameters such as, for example, feature weights. Tech-niques that use values of the target variable for parameter estimation, produce values for the feature groups that are at least partially ﬁtted to the target variable. e induced models could therefore overestimate the importance of class-overﬁtted features, which

(10)

.

.iv Abstract Marko Toplak

can decrease their accuracy on novel data. We propose a solution that uses stacking. e proposed solution can work with any transformation technique and, for some data sets, boosts accuracy substantially.

In the thesis we throughly study transformation of data into predeﬁned feature groups. We show, in the largest study so far, that, on average, models induced from data sets transformed with feature groups do not obtain better prediction accuracies than models induced on non-transformed data sets. As the accuracies on transformed and non-transformed data sets are similar, the transformed data may still be preferred as models on feature groups are easier to interpret.

Keywords: machine learning, domain knowledge, related features, collective matrix

(11)

.

ZAHVALA

Zahvaljujem se vsem sedanjim in bivšim članom Laboratorija za bioinformatiko, ki so soustvarjali prijetno in spodbudno okolje. Posebej se zahvaljujem mentorju Blažu Zupa-nu za uvajanje v raziskovalno delo, usmeritve in kritične komentarje, Minci Mramor, ki me je spoznala s področjem napovedovanja s skupinami značilk in mi z medicinskim zna-njem pomagala pri ilustraciji interpretabilnosti, Marinki Žitnik za vzor dobro opravljenega znanstvenega dela in diskusije o matrični faktorizaciji ter Janezu Demšarju za večno otro-ško radovednost. Hvala tudi ožji in širši družini, ker vas je glede mojega doktorata že kar malo skrbelo in ste me spodbujali, naj ga vendarle zaključim. Disertacijo je podpirala in tudi zelo skrbno prebrala Agnieszka Rovšnik – hvala!

— Marko Toplak, Ljubljana, julij .

(12)

.

(13)

. .

KAZALO

Povzetek i Abstract iii Zahvala v  Uvod  . Motivacija . . .  . Pregled disertacije . . .  .. Podobnost izraznih proﬁlov genov v genskih skupinah . . .  .. Sočasna matrična faktorizacija za napovedovanje s skupinami

značilk . . .  .. Napovedovanje s skladanjem transformiranih vrednosti . . .  . Glavna prispevka k znanosti . . . 

 Pregled področja 

. Napovedovanje s predznanjem o povezanih značilkah . . .  .. Na podatke osredotočeni pristopi . . .  .. Na predznanje osredotočeni pristopi . . .  . Napovedovanje z značilkami, ki opisujejo skupine . . .  .. Aritmetična sredina in mediana . . .  .. Analiza glavnih komponent (PCA) . . .  .. Analiza glavnih komponent z izborom značilk (SPCA) . . .  .. Delni najmanjši kvadrati (PLS) . . .  .. Analiza genskih skupin (GSA) . . . 

(14)

.

.viii Kazalo Marko Toplak

.. SetSig . . .  .. Aktivnost glede na odzivne gene (CORG) . . .  .. Redke linearne napovedi (SpLin) . . .  .. Druge metode . . .  . Primerjava metod za transformacijo v prostor skupin . . .  .. Podatki . . .  .. Učne metode . . .  .. Testiranje . . .  .. Rezultati in diskusija . . .  . Interpretabilnost napovednih modelov s skupinami značilk . . . 

 Podobnost izraznih proﬁlov genov v genskih skupinah 

. Uvod . . .  . Podatki in metode . . .  .. Podatki o genskih izrazih . . .  .. Mere podobnosti izrazov para genov . . .  .. Skupine genov . . .  .. Opis poskusa . . .  . Rezultati in razprava . . .  . Zaključek . . .   Sočasna matrična faktorizacija za napovedovanje s skupinami značilk 

. Uvod . . .  . Metode . . .  .. Transformacija v prostor skupin z množenjem matrik . . . .  .. Zlivanje podatkov z matrično faktorizacijo . . .  .. Transformacija v prostor skupin s sočasno matrično faktorizacijo  .. Napovedovanje s transformiranimi podatki . . .  . Eksperimenti . . .  .. Metode za primerjavo . . .  .. Simulirani podatki . . .  .. Resnični podatki . . .  .. Potek eksperimentov . . .  . Rezultati in diskusija . . . 

(15)

.

Uporaba predznanja o povezanosti značilk pri gradnji napovednih modelov ix

.. Sočasna faktorizacija uporabi značilke, ki jih ni v skupinah .  .. Značilke, ki jih ni v skupinah, vplivajo na rekonstrukcijo

ma-trike skupin . . .  .. Razlike med metodami na resničnih naborih podatkov niso

velike . . .  .. Vpliv ranga latentnih faktorjev na rezultate . . .  .. Razširjene skupine so smiselne . . .  .. Vpliv naključnih genskih skupin . . .  . Zaključek . . . 

 Napovedovanje s skladanjem transformiranih vrednosti 

. Uvod . . .  . Načini transformacije v značilke skupin . . .  .. Uporaba vseh podatkov za transformacijo . . .  .. Obstoječe rešitve pretirane prilagoditve značilk skupin . . .  .. Skladanje transformiranih vrednosti . . .  . Metoda SetSig s skladanjem . . .  . Potek eksperimentov . . .  .. Simulirani podatki . . .  .. Resnični podatki . . .  .. Metode transformacije . . .  .. Potek eksperimentov . . .  . Rezultati in diskusija . . .  .. Skladanje omogoči klasiﬁkatorju, da oceni kvaliteto značilk .  .. Skladanje izboljša rezultate na simuliranih podatkih . . .  .. Rezultati na podatkih o izrazih genov . . .  . Skladanje ocen zanesljivosti . . .  . Zaključek . . . 

 Zaključek 

. Glavna prispevka k znanosti . . .  . Nadaljnje delo . . . 

(16)

.

.x Kazalo Marko Toplak

(17)

.



Uvod

(18)

.

.  Uvod Marko Toplak

. Motivacija

Na tekmovanju konference IJCNN  so pokazali, da lahko v domenah, kjer imamo na voljo predznanje, zgradimo točnejše napovedne modele []. Tekmovalci so morali izdelati čim boljše napovedne modele za pet problemov iz različnih domen. Za vsako domeno so bili na voljo podatki dveh vrst. Tekmovalci, ki so tekmovali s predznanjem, so prejeli izvirne podatke, kjer so pomen značilk poznali. Nasprotno so tekmovalci, ki so tekmovali brez predznanja, prejeli pripravljeno tabelo podatkov z značilkami, katerih pomena niso poznali. Pri enem problemu so morali tekmovalci ustvariti model, ki zna ročno napisane števke razdeliti v dva razreda: na soda in liha števila. Tekmovalci s predznanjem so uporabljali slike števk, tekmovalci brez predznanja pa so imeli na voljo zgolj intenzivnosti posameznih točk slike, a v naključnem vrstnem redu, tako da slike niso mogli rekonstruirati. Štiri od petih problemov so tekmovalci s predznanjem bolje rešili. Opazimo še eno zanimivost: tekmovalci brez predznanja so na začetku tekmovanja hitreje prišli do svoje najboljše rešitve, tekmovalci s predznanjem pa so za dobro rešitev porabili več časa in so šele kasneje prehiteli slabše uvrščene tekmovalce brez predznanja. Ta nakazuje, da je predznanje težko ustrezno uporabiti.

Obstoječe predznanje bi lahko občutno pripomoglo k izboljšanju napovednih toč-nosti na področju molekularne biologije, konkretneje na področju nadzorovanega uče-nja na podlagi podatkov o genskih izrazih (angl. gene expression data) [,]. Tam se poskušamo naučiti modela, ki bi za nek vzorec, opisan s tipično vsaj nekaj tisoč dnostmi značilk (vsaka opisuje stopnjo izražanja nekega gena), lahko napovedal vre-dnost razreda, recimo prisotnost bolezni. Če bi znali zgraditi dobre napovedne mo-dele, bi lahko izboljšali diagnostiko in prognostiko nekaterih bolezni. Pri raku, kjer je natančno diagnosticiranje tipa bolezni težko, bi lahko z boljšo diagnostiko terapijo lažje prilagajali posameznikom []. Ker je pridobivanje podatkov takega tipa razmera-ma drago in zamudno, je vzorcev glede na število značilk zelo razmera-malo, najpogosteje nekaj sto, kar gradnjo napovednih modelov otežuje.

Na podatkih o genskih izrazih so sprva ocenjevali stopnjo povezanosti posameznih genov s ciljno spremenljivko in tako dobili urejen seznam genov []. Tak seznam je težko interpretirati. Zaradi majhnega števila vzorcev glede na število genov in omejene natančnosti mikromrež mRNA, s katerimi podatke o genskih izrazih zajemamo, so rezultati nezanesljivi: če uporabimo druge vzorce ali zgolj zamenjamo laboratorij, ki zbira podatke, se lahko razvrstitev genov precej spremeni [,].

(19)

.

Uporaba predznanja o povezanosti značilk pri gradnji napovednih modelov 

Človeški geni in geni modelnih organizmov so opisani in razvrščeni v kategorije skladno z različnimi ontologijami v raznih prosto dostopnih bazah podatkov. Iz opisov v teh bazah lahko pridobimo skupine funkcijsko, lokacijsko ali procesno povezanih genov. V bazi KEGG [] so glede na vlogo v metabolizmu geni razvrščeni v grafe, ki opisujejo presnovne poti. V projektu genske ontologije (angl. gene ontology, GO) [] so gene strukturirali v skupine glede na to, ali njihovi produkti – proteini – sodelujejo v istih celičnih procesih, se pojavljajo v istih delih celice, ali opravljajo podobno funkcijo. Baze proteinskih interakcij, kot je STRING [], opisujejo pare genov, ki kodirajo skupaj delujoče proteine. Baza OMIM opisuje gene glede na bolezni, pri katerih ti igrajo ključno vlogo []. O genih imamo torej na voljo veliko predznanja, ki bi ga bilo moč izkoristiti pri gradnji napovednih modelov tako za izboljšanje točnosti kot za lažjo podajo razlage fenomenov, katerih principe delovanja bi lahko izluščili iz podatkov.

Če ocenjujemo povezanost posameznih skupin s ciljno spremenljivko, dobimo ure-jene sezname genskih skupin, ki so zanesljivejši kot seznami z geni, poleg tega pa je sezname skupin lažje interpretirati [,], ker skupine ponavadi opisujejo poznane bi-ološke procese ali strukture []. Pričakujemo, da bodo genske skupine uporabne tudi pri napovedovanju ciljne spremenljivke: da lahko z njimi zgradimo točnejše in stabil-nejše modele ter dobimo drugačen vpogled v podatke, ki ga je morda laže interpretirati. Kljub temu, da metode za napovedovanje z genskimi skupinami razvijajo že vsaj od le-ta  [], dosedanje primerjalne študije na več naborih podatkov poročajo, da z modeli, ki napovedujejo na podlagi genskih skupin, dosežemo zgolj primerljivo dobre in ne boljših rezultatov kot z napovedovanjem na podlagi posameznih genov [–].

. Pregled disertacije

.. Podobnost izraznih proﬁlov genov v genskih skupinah

Metode, ki obravnavajo skupine genov, temeljijo na predpostavki, da so izrazni proﬁli genov, ki pripadajo isti skupini, povezani. Da bi ocenili, če predpostavka drži, smo izmerili podobnosti med izraznimi proﬁli genov (stopnje izraženosti za nek gen čez več vzorcev) med geni iz genskih skupin iz vira presnovnih poti KEGG in iz vira interakcij BioGrid.

V poglavju predstavljamo analizo podobnosti med izraznimi profili genov v gen-skih skupinah ali interakcijah na velikem naboru podatkov. Podobnosti med izrazni-mi profili genov smo merili s Pearsonovim koeficientom korelacije in interakcijskim

(20)

.

.  Uvod Marko Toplak

prispevkom. Interakcijski prispevek je nadzorovana mera podobnosti, ki temelji na informacijski teoriji []. Uporabili smo veliko več naborov podatkov kot predho-dne raziskave in dodatno mero podobnosti med izraznimi proﬁli genov, ki upošteva vrednost razredne spremenljivke.

Naši rezultati kažejo, da so pari izraznih proﬁlov genov iz skupin v bazah KEGG in BioGRID bolj podobni kot pari izraznih proﬁlov naključno izbranih genov, kar potrjuje rezultate predhodnih raziskav [–]. Kljub temu, da smo lahko razlike med porazdelitvami ocen podobnosti zanesljivo opazili, so bile le-te precej majhne. Podobnosti genskih izrazov iz skupin preizkušenih baz ostajajo enake ne glede na verzije baz podatkov, a jih z večanjem števila skupin v posamezni bazi ocenimo kot statistično bolj značilne.

V poglavju predstavljamo naslednja prispevka k znanosti:

Na velikem številu naborov podatkov smo pokazali, da so izrazni profili genov znotraj genskih skupin bolj podobni kot izrazni profili naključnih genov. Pokazali smo, da so novejše interakcije v bazi BioGRID glede na podobnosti izraznih profilov enakovredne starejšim.

.. Sočasna matrična faktorizacija za napovedovanje s skupinami značilk

Matrična faktorizacija razcepi matriko na produkt faktorjev z manjšimi rangi od izvirne matrike tako, da produkt čim bolje aproksimira izvorno matriko. Še posebej popularna je ta tehnika modeliranja podatkov postala po zmagi na tekmovanju priporočilnih siste-mov Netﬂix prize []. V zadnjem času jo uporabljajo na raznih področjih, denimo za iskanje skupnosti v omrežjih []. Dobro se obnese tudi pri zlivanju podatkov [,]. V poglavju predlagamo postopek za transformacijo učnih in testnih primerov iz prostora značilk v prostor skupin značilk s sočasno matrično faktorizacijo. Za fakto-rizacijo uporabimo algoritem za zlivanje podatkov DFMF [], transformiramo pa z veriženjem razcepnih faktorjev [].

Predlagano metodo ovrednotimo na umetno generiranih in resničnih podatkovnih naborih s področja molekularne biologije. Rezultati s klasiﬁkacijo z logistično regresijo na resničnih naborih podatkov kažejo, da lahko s transformacijo s sočasno faktorizacijo zgradimo modele, ki dosegajo primerljivo točnost kot modeli zgrajeni na originalnih (netransformiranih) podatkih. Pri klasiﬁkaciji z naključnimi gozdovi se matrična fak-torizacija ni dobro obnesla. S sočasno faktorizacijo dobimo boljše rezultate kot z ločeno

(21)

.

Uporaba predznanja o povezanosti značilk pri gradnji napovednih modelov 

faktorizacijo obeh vhodnih matrik, matriki podatkov in skupin značilk. Za razliko od drugih metod transformacije v prostor skupin značilk, sočasna faktorizacija pri pretvor-bi v prostor skupin uporapretvor-bi tudi značilke, ki so podobne značilkam v skupini, a skupini ne pripadajo. Pokažemo, da so dodatne značilke, ki jih sočasna matrična faktorizacija uporabi, smiselne.

Predlagamo metodo za transformacijo vhodnih značilk v značilke, ki opisuje-jo skupine. Metoda temelji na sočasni matrični faktorizaciji in uporablja vir podatkov, ki opisuje skupine značilk.

Pokazali smo, da predlagana metoda skupine značilk smiselno razširja s podob-nimi značilkami iz izvornih podatkov.

.. Napovedovanje s skladanjem transformiranih vrednosti

Pri napovedovanju z vnaprejšnjo transformacijo iz prostora originalnih značilk v pro-stor skupin značilk moramo nastaviti parametre modelov, ki skupino značilk trans-formirajo v vrednost skupine. Takšni parametri so denimo uteži značilk iz skupine. Nekatere transformacije [, –] pri izračunu parametrov uporabijo tudi ciljno spremenljivko in se zato vsaj deloma prilagodijo ciljni spremenljivki. Učni algoritem, ki gradi napovedni model, po hkratni transformaciji celotnih učnih podatkov nato ne more razločiti, ali neka transformirana značilka dobro opisuje razred ali pa so se pa-rametri transformacije pretirano prilagodili razredu. Učna metoda bo značilkam, ki so preveč prilagojene razredu, pripisala prevelik pomen, kar vodi do slabše napovedne točnosti na novih podatkih.

Večina obstoječih raziskav, ki se ukvarjajo s transformacijskimi metodami, ki upo-rabljajo ciljno spremenljivko, težave s preveliko prilagoditvijo ne komentira [,, ,], druge raziskave pa problem rešujejo z uporabo različnih delov učne mno-žice podatkov za nastavitev parametrov transformacije in izbor transformiranih zna-čilk [,,]. Ob tem odstranijo značilke skupin, katerih transformacije dobro opišejo le podmnožico, ki smo jo uporabili za nastavitev parametrov transformacije.

Predlagamo metodo, ki problem ciljni spremenljivki preveč prilagojenih transforma-cij značilk rešuje s skladanjem (angl. stacking) [] transformacij skupin. V nasprotju z obstoječimi predlogi za uporabo transformiranih značilk, vse transformirane značilke obdržimo vse do gradnje končnega napovednega modela. Pokazali smo, da skladanje

(22)

.

.  Uvod Marko Toplak

odločitvenim modelom lahko omogoči bolje oceniti kvaliteto značilk, vendar na re-sničnih podatkih razlike med skladanjem in transformacijo s celotno učno množico niso značilne. Opišemo tudi prilagoditev metode SetSig, po kateri lahko transformaci-jo s skladanjem izvedemo v enakem času, kot bi ga potrebovali za transformacitransformaci-jo brez skladanja.

Predlagali in preizkusili smo uporabo skladanja za napovedovanje s transformi-ranimi značilkami transformacijskih metod, ki pri transformaciji uporabljajo vrednosti ciljne spremenljivke.

Metodo SetSig smo prilagodili tako, da je časovna kompleksnost transformacije v prostor skupin značilk s skladanjem enaka časovni kompleksnosti transforma-cije brez skladanja.

. Glavna prispevka k znanosti

Poudarili bi sledeča ključna prispevka disertacije:

Poglobljeno smo preučili tehnike transformacije podatkov iz prostora značilk v prostor vnaprej deﬁniranih skupin značilk. V največji študiji doslej smo poka-zali, da z gradnjo napovednih modelov na transformiranih podatkih ne izbolj-šamo točnosti, še vedno pa dobimo zadovoljivo dobre napovedne modele, da jih je zaradi prednosti pri interpretaciji smiselno uporabljati.

Predlagali smo metodo za transformacijo vhodnih značilk v značilke, ki opisu-jejo skupine. Metoda temelji na sočasni matrični faktorizaciji in uporablja vir podatkov, ki opisuje skupine značilk.

(23)

.



Pregled področja

(24)

.

.  Pregled področja Marko Toplak

Pri nadzorovanem strojnem učenju se iz označenih primerov, ki so predstavljeni z vre-dnostmi značilk in pripadajočo oznako ali razredom, poskušamo naučiti modela, ki zna določiti razred novim, dotlej nevidenim, primerom. Tipične metode za gradnjo napo-vednih modelov, kot so metoda najbližjih sosedov [], metoda podpornih vektorjev (angl. support vector machines, SVM) [] ali metoda naključnih gozdov (angl. ran-dom forests) [], poleg samih podatkov ne upoštevajo nobenih dodanih informacij o učni domeni oziroma predznanja. Kot smo omenili v uvodu, lahko v domenah, kjer je predznanje na voljo, z njegovo pomočjo zgradimo točnejše napovedne modele [,] Pristopi globokega učenja (angl. deep learning) delujejo na podlagi različnih nivojev predstavitve. Nivoji v globokih nevronskih mrežah so medsebojno povezani s prepro-stimi nelinearnimi funkcijami, ki predstavitve nekega nivoja predelajo v vedno bolj abstraktne predstavitve []. V zadnjih letih globoko učenje dosega dobre rezultate na raznih področjih, na primer v računalniškem vidu, razpoznavanju govora in klasi-ﬁkaciji besedil []. Globoke nevronske mreže lahko gradimo zaradi velike količine podatkov, ki nam je na voljo v sodobnem času. Medtem ko osnovni algoritmi za gra-dnjo napovednih modelov zahtevajo, da so učni primeri označeni, nekateri pristopi gradnje globokih nevronskih mrež za učenje vmesnih nivojev nevronskih mrež upora-bljajo tudi neoznačene primere: iz njih se lahko naučijo predstavitve učnih podatkov, na kateri bo gradnja končnega napovednega modela lažja []. Pristopi globokega uče-nja običajno ne uporabljajo eksplicitne predstavitve predznauče-nja, vendar si strukturo, ki na nek način opisuje predznanje, zgradijo na neoznačenih primerih. Lake et al. [] so zasnovali algoritem za razpoznavanje pisave, ki daje dobre rezultate že z enim ozna-čenim učnim primerom na znak nove pisave, ki naj bi jo razpoznal, vendar so tako učinkovito učenje dosegli s poprejšnjim učenjem na  različnih abecedah, na katerih se je algoritem naučil splošnih modelov pisanja – predznanja.

V pričujoči disertaciji se z gradnjo predznanja iz neoznačenih ali iz sorodnih učnih primerov ne ukvarjamo. V nadaljevanju opisujemo zgolj algoritme, ki delujejo z eks-plicitno podanim predznanjem, kar ima prednost pri interpretaciji modelov. Medtem ko globoko učenje temelji na dostopnosti izjemno velikih podatkovnih baz, se v našem delu osredotočamo na analizo manjših, danes dostopnih baz s področja molekularne biologije.

(25)

.

Uporaba predznanja o povezanosti značilk pri gradnji napovednih modelov 

. Napovedovanje s predznanjem o povezanih značilkah

V nekaterih primerih lahko metodam gradnje napovednih modelov pomagamo, če značilke predelamo v ustrezno obliko ali pa izberemo ustrezno podmnožico značilk. Izbor podmnožice značilk lahko opravimo s ﬁltriranjem glede na mero, ki značilke vre-dnoti bodisi ločeno, kot je razmerje informacijskega prispevka (angl. gain-ratio) [], bodisi v kontekstu ostalih, kot je ReliefF []. Alternativni način izbora je izbor po principu ovojnice, kjer značilke dodajamo ali odstranjujemo iz izbrane množice gle-de na kakovost odločitvenega mogle-dela na izbranih značilkah []. Ko so značilke tako povezane, da nam skupaj podajajo več informacije, kot bi nam je ob posamični obrav-navi [], se nam lahko izplača, če iz njih tvorimo nove značilke. Primer sistema za tvorbo novih značilk je HINT [].

Pri gradnji napovednih modelov s predznanjem o povezanih značilkah imamo na vhodu dva nabora podatkov različnih tipov. Primarni nabor podatkov v obliki prime-rov, ki so opisani z vektorji vrednosti značilk, opisuje objekte, katerih lastnosti oziroma vrednosti razredne spremenljivke želimo modelirati in napovedovati novim primerom. Dodatni nabor podatkov vsebuje podatke o povezanih skupinah značilk, ki predstavlja-jo predznanje in jih lahko pridobimo neodvisno od primarnega nabora podatkov. Cun in Fröhlich [] razdelita pristope za napovedovanje s predznanjem v obliki skupin ali grafov značilk v dve skupini:

. V skupino na podatke osredotočenih pristopov (angl. data centric), ki gradijo napovedni model na značilkah originalnih podatkov, vendar gradnjo modela usmerjajo tako, da upošteva predznanje.

. V skupino na predznanje osredotočenih pristopov (angl. network centric, origi-nalni izraz smo posplošili), ki pretvorijo originalne podatke v nov prostor, ki ga določa predznanje, in nato znotraj novega prostora gradijo napovedne modele. S hkratno analizo več virov podatkov se ukvarja področje zlivanja podatkov (angl. data fusion), ki ga je v doktorski disertaciji temeljito obdelala Marinka Žitnik []. Pa-vlidis et al. [] so pristope zlivanja podatkov razdelili v tri skupine: v () zgodnje zdru-ževanje (angl. early integration), () pozno zdruzdru-ževanje (angl. late integration) in () vmesno združevanje (angl. intermediate integration). Zgodnje združevanje vse podat-ke združi v eno veliko matriko in na njej zgradi napovedni model. Pozno združevanje

(26)

.

.  Pregled področja Marko Toplak

za vsak vir podatkov zgradi svoj model ter združi le napovedi. Pri vmesnem združe-vanju je faza modeliranja prilagojena tako, da se razni viri podatkov uporabijo znotraj gradnje modela, vendar tako, da tega ne moremo opisati le z združevanjem matrik. Na pristope za napovedovanje s predznanjem o povezanih značilkah gledamo kot na spe-cializirano zlivanje podatkov. Glede na delitev po Pavlidis et al. [] vsi v nadaljevanju opisani pristopi spadajo med pristope vmesnega združevanja. Prispevek Pavlidis et al. [] opisuje soroden problem večličnega učenja (angl. multi-view learning) [], ki hkrati obravnava več naborov podatkov, kjer vsak nabor z drugimi značilkami opisuje iste primere.

Predznanje o povezanih značilkah lahko strukturirano opišemo v obliki: . Skupin značilk, kjer so si značilke v skupini enakovredne.

. Grafov, kjer značilke predstavljajo vozlišča grafa. Povezave grafa so lahko ute-žene.

Tako predznanje imenujejo znanje o povezanosti (angl. relevance knowledge) oziroma o bližini (angl. proximity knowledge; Liu in Motoda [, . poglavje]).

V doktorski nalogi smo se omejili na na predznanje osredotočene pristope, ki upo-rabljajo predznanje v obliki podatkov o skupinah značilk. Taki pristopi so še posebej zanimivi, ker nam omogočajo interpretacijo kasneje zgrajenih napovednih modelov v prostoru genskih skupin, ki jih je laže interpretirati kot modele zgrajene v prostoru posameznih genov []. V nadaljevanju razdelka na kratko opišemo nekaj na podat-ke osredotočenih pristopov in na predznanje osredotočenih pristopov, ki uporabljajo grafe značilk, temeljiteje pa se posvetimo na predznanje osredotočenim pristopom, ki uporabljajo skupine značilk.

.. Na podatke osredotočeni pristopi

Na podatke osredotočeni pristopi na primarnih podatkih direktno zgradijo napovedni model, vendar gradnjo modela usmerjajo tako, da ob tem smiselno upoštevajo kot predznanje podane grafe ali skupine značilk.

Induktivno logično programiranje Če podatke predstavimo kot predikate, kar lahko storimo tako za primarne podatke kot za podatke o povezanih skupinah, lahko za napovedovanje uporabimo induktivno logično programiranje (ILP) []. ILP zgradi

(27)

.

Uporaba predznanja o povezanosti značilk pri gradnji napovednih modelov 

klasiﬁkacijski model kot računalniški program, ki uporablja v obliki predikatov pred-stavljene podatke.

Ryeng in Alsberg [] sta kot predznanje v obliki predikatov predstavila gensko ontologijo. Zaradi splošnosti predikatnega zapisa sta lahko predstavila tudi relacije med razredi genske ontologije. Ker so pristopi ILP zaradi velike izrazne moči počasni, sta morala avtorja pred uporabo predlagane metode podatke zmanjšati z izborom genov.

Trajkovski et al. [] z induktivnim logičnim programiranjem sicer niso gradili na-povednih modelov, ampak so ocenjevali povezanost posameznih genskih skupin s cilj-no spremenljivko. Kot vir predznanja so dodali še podatke o interakcijah med geni in pokazali, da njihov pristop koristno uporabi tako skupine iz genske ontologije kot interakcije. Algoritem so preizkušali na majhnem izboru genov.

Izbor značilk Johannes et al. [] so združili metodo podpornih vektorjev, kjer so zna-čilke rekurzivno odstranjevali s SVM-RFE [], in algoritmu PageRank [] podobno določanje pomembnosti vozlišč v grafu značilk. Na vsakem koraku so posameznim značilkam (genom) v grafu določili uteži, ki so jih izračunali iz podatkov o genskih izrazih z metriko povezanosti posamezne značilke z razredno spremenljivko. Nato so z algoritmom GeneRank [] uteži rangirali ter odstranili  najslabše ocenjenih zna-čilk glede na kombinacijo uteži SVM in ranga, ki ga je vrnil GeneRank.

Cun in Fröhlich [] sta glede na podan graf značilk izračunala zglajeno statistiko𝑡 posamezne značilke, s permutacijskim testom izbrala nekaj najbolje ocenjenih značilk in z njimi zgradila končni model.

Razširitev regularizacije Predznanje so pogosto poskušali upoštevati s prilagoditvijo regularizacije obstoječih učnih metod. Tibshirani et al. [] so linearno regresijo zℓ1 regularizacijo oziroma Lasso [] razširili s členom, s katerim dosežejo, da se določeni pari regresijskih koeﬁcientov ne razlikujejo preveč. Sprejmejo lahko predznanje v obliki neusmerjenega grafa značilk. Predlagano metodo so poimenovali Fused Lasso.

Li in Li [] sta regularizacijoℓ1 linearne regresije razširila z regularizacijo posame-znih značilk glede na uteži povezav v grafu značilk. V njunem predlogu bosta značilki, ki imata visoko vrednost uteži povezave, dodatek regularizacijskemu členu najmanj povečali, če je razlika med pripadajočima koeﬁcientoma linearne regresije čim manjša. Takeuchi et al. [] so posplošili metodo Fused Lasso [], tako da lahko namesto zgolj parov značilk upošteva skupine značilk, za katere želimo, da imajo podobne vre-dnosti regresijskih koeﬁcientov. Njihov algoritem omogoča tudi delo s prekrivajočimi

(28)

.

.  Pregled področja Marko Toplak

skupinami.

Zhu et al. [] so razširili regularizacijo podpornih vektorjev, tako da ta lahko izbira skupine značilk: predlagajo regularizacijo celotne skupine z regularizacijoℓ1 glede na največji koeﬁcient značilke v skupini.

Druge prilagoditve učnih metod Rapaport et al. [] so razvili jedrno funkcijo za meto-do podpornih vektorjev, ki glede na predznanje, podano v grafu značilk, pri računanju podobnosti upošteva le po Fourierjevi transformaciji dobljene nizkofrekvenčne kom-ponente, visokofrekvenčne pa odstrani, ker predstavljajo šum.

Lavi et al. [] metodi podpornih vektorjev dodajo regularizacijo glede na podan graf značilk, ki sosednji značilki v grafu kaznuje za kvadrat razlike njunih uteži znotraj metode podpornih vektorjev. Regularizacijo formulirajo kot novo jedro za linearni SVM.

Anděl et al. [] so omejili gradnjo naključnih gozdov (angl. random forests) [] glede na podan graf značilk. Prilagojeni naključni gozdovi pri gradnji posameznih dre-ves značilk, po kateri delijo primere, ne izbirajo iz naključne podmnožice vseh značilk, temveč izbor utežijo glede na oddaljenost in strukturo grafa. Za računanje uteži upo-rabljajo naključne sprehode (angl. random walk).

.. Na predznanje osredotočeni pristopi

Če želimo predznanje uporabiti s standardnimi algoritmi za strojno učenje, ki upo-rabljajo učne primere predstavljene v atributnem prostoru, moramo značilke s kon-struktivno indukcijo preoblikovati v nove značilke [], ki predznanje upoštevajo. Po delitvi, ki jo je zasnoval Kramer [], lahko značilke gradimo na podlagi analize učnih podatkov (angl. data-driven), zgrajenih hipotez (angl. hypothesis-driven) ali podanega predznanja (angl. knowledge-driven constructive induction).

Primer pristopa, ki kot vir predznanja uporablja grafe značilk, so razvili Chuang et al. []. Njihov pristop poskuša izbrati povezane dele grafa tako, da požrešno po-navlja postopek, kjer množici trenutno izbranih značilk na vsakem koraku doda tisto značilko izmed sosednjih značilk trenutno izbranega dela, ki najbolj poveča povezanost povprečne vrednosti izbranih značilk z razredom.

Na predznanje osredotočene pristope, ki uporabljajo skupine značilk in so jedro disertacije, opisujemo v naslednjem razdelku.

(29)

.

Uporaba predznanja o povezanosti značilk pri gradnji napovednih modelov 

F X y ˘ X ? T y ˘ T ? y˘ Zgradi model Napovej Pretvori v skupine Modeliraj skupine _{Slika .} Napovedovanje z značil-kami skupin. Skupine iz 𝐅 modeliramo na množici

učnih podatkov𝐗. Učno

množico pretvorimo v prostor skupin in na tako transformiranem nabo-ru podatkov zgradimo napovedni model. Tudi

testne primere ̆𝐗

mora-mo transformirati pred napovedovanjem ciljne spremenljivke.

. Napovedovanje z značilkami, ki opisujejo skupine

Naj primarna podatkovna množica𝐗 ∈ ℝ𝑚×𝑛_vsebuje_{𝑚 primerov 𝐱 ∈ 𝑅}𝑛_{v vrsticah,}

kjer je vsak primer opisan z vrednostmi𝑛 značilk: 𝑥𝑖𝑗je vrednost𝑗-te značilke 𝑖-tega

primera. Vrednosti razredne spremenljivke so zapisane v vektorju𝐲 ∈ {0, 1}𝑚_;_𝑦

𝑖je

vrednost razreda𝑖-tega primera. V prostor skupin značilk transformiran primer 𝐱 je vektor transformiranih vrednosti za vsako skupino značilk𝐺 iz množice skupin 𝐅, torej 𝐭(𝐱) = (𝑡𝐺(𝐱) ∶ 𝐺 ∈ 𝐅). Transformacijo v prostor skupin za nek primer 𝐱 in skupino

značilk𝐺 označimo s 𝑡𝐺(𝐱). Transformacije 𝐭(𝐱) za vse 𝐱 iz učnih podatkov 𝐗 tvorijo

transformirano matriko podatkov𝐓 (slika.).

Množico primerov z razredom𝑐 bomo označili 𝐗𝑦=𝑐_: _𝐗𝑦=𝑐 _{= {𝐱}

𝑖 ∶ 𝑦(𝑖) = 𝑐}. Z

nadpisanim(𝐺) označimo izbor značilk iz skupine: 𝐗(𝐺)_{na primer predstavlja}_{𝐗 z le}

tistim značilkami, ki so v skupini𝐺.

Po transformaciji lahko uporabimo katerikoli standardni algoritem za gradnjo napo-vednih modelov, denimo logistično regresijo, metodo najbližjih sosedov [], metodo podpornih vektorjev (angl. support vector machines, SVM) [] ali naključne goz-dove (angl. random forests) []. Z metodami za gradnjo napovednih modelov se v disertaciji sicer ne ukvarjamo.

Klasiﬁkatorje bi lahko gradili tudi na originalnih in transformiranih značilkah sku-paj. V disertaciji smo se osredotočili na pretvorbo v prostor skupin značilk in se s

(30)

.

.  Pregled področja Marko Toplak

kombiniranjem originalnih in transformiranih značilk ne ukvarjamo. Glede na pre-liminarne rezultate z naivnim kombiniranjem, kjer smo transformirane in originalne značilke pred gradnjo klasiﬁkatorjev združili v eno tabelo, bi nam to v disertacijo do-dalo nov nivo kompleksnosti, saj so razlike med metodami manjše, same metode so pa tudi drugače razvrščene.

.. Aritmetična sredina in mediana

Skupino značilk lahko opišemo z aritmetično sredino ali mediano vrednosti značilk skupine []:

𝑡aritmetična sredina

𝐺 (𝐱) = mean 𝐱𝐺 􏸈􏸍 (.)

𝑡mediana

𝐺 (𝐱) = median 𝐱𝐺. (.)

.. Analiza glavnih komponent (PCA)

Guo et al. [] so predlagali uporabo analize glavnih komponent (angl. principal com-ponent analysis, PCA). Vrednost𝑡PCA

𝐺 (𝐱), ki za nek primer 𝐱 opiše skupino 𝐺, je odmik

primera v smeri, v kateri se primeri najbolj razlikujejo, če pri računanju opazujemo le značilke iz skupine𝐺. Transformirana vrednost 𝑡PCA

𝐺 (𝐱) je 0, če so vrednosti značilk

iz𝐺 primera 𝐱 enake povprečnim vrednostim značilk iz 𝐺; pozitivne (ali negativne) vrednosti predstavljajo odmik v smeri (ali nasprotni smeri) največje variacije vrednosti značilk iz skupine. Za vsako skupino značilk uporabimo le prvo glavno komponento. Najprej izračunamo centrirano𝐗(𝐺)_{tako, da vsakemu primeru odštejemo povprečje}

vseh primerov: ̇𝐱(𝐺) _{= 𝐱}(𝐺)_{− 𝐱}(𝐺)

􏸦􏸞􏸚􏸧, kjer je𝐱(𝐺)􏸦􏸞􏸚􏸧vektor povprečij značilk iz𝐺. Naj

bo𝐯1lastni vektor, ki ustreza največji lastni vrednosti centrirane kovariančne matrike

( ̇𝐗(𝐺)₎𝑇 _̇𝐗(𝐺)_.

Vrednost skupine značilk izračunamo kot skalarni produkt centriranega primera𝐱 in lastnega vektorja𝐯1:

𝑡PCA

𝐺 (𝐱) = (𝐱(𝐺)− 𝐱 (𝐺)

􏸦􏸞􏸚􏸧)𝐯1. (.)

.. Analiza glavnih komponent z izborom značilk (SPCA)

Analiza glavnih komponent z izborom značilk najprej izbere tiste značilke iz skupine, ki so dobro povezane z razredno spremenljivko in nato uporabi metodo PCA [,]. Značilke izbiramo glede na statistiko𝑡 []. Za značilko𝑗 dobimo 𝑡𝑗= 𝑡-statistika({𝑥𝑗∶

𝐱 ∈ 𝐗𝑦=0_{}, {𝑥}

(31)

.

Uporaba predznanja o povezanosti značilk pri gradnji napovednih modelov 

statistika𝑡 preseže mejo 𝜏: 𝐺′_{= {𝑗 ∈ 𝐺 ∶ |𝑡}

𝑗| > 𝜏}. Potem je

𝑡SPCA

𝐺 (𝐱) = 𝑡PCA𝐺′ (𝐱). (.)

Mejo𝜏 bi v idealnem primeru morali nastaviti z notranjim prečnim preverjanjem. V naših poskusih smo𝜏 nastavili kot vrednost, ki ustreza 𝑝 = 0.01 permutacijskega testa.

Tukaj bi opozorili, da statistika𝑡 ni ustrezna mera povezanosti z razredom, če poraz-delitev vrednosti značilk za posamezni razred ne ustreza normalni porazdelitvi. Študije, ki se ukvarjajo s podatki mikromrež mRNA, tipično predpostavljajo, da so rezultati sta-tistike𝑡 smiselni [,,,]. Namesto statistike𝑡 bi lahko uporabili tudi kako drugo mero, denimo ReliefF [].

.. Delni najmanjši kvadrati (PLS)

Metoda delnih najmanjših kvadrov (angl. partial least squares regression, PLS) je po-dobna analizi glavnih komponent, le da prva latentna komponenta PLS ustreza smeri, ki maksimizira kovarianco med značilkami in oznakami razredov (tukaj opisujemo PLS za eno razredno spremenljivko). Transformirana vrednost primera je položaj primera glede na to smer [,].

Pri izračunu najprej centriramo𝐗(𝐺) _{(kot pri PCA) in vektor vrednosti razredne}

spremenljivke𝐲: ( ̇𝐲 = 𝐲−mean 𝐲). Prva latentna komponenta za primer 𝐱 in skupino značilk𝐺 je 𝐰𝟏= ( ̇𝐗(𝐺))𝑇 ̇𝐲/||( ̇𝐗(𝐺))𝑇 ̇𝐲||. Nadaljujemo kot pri 𝑡PCA:

𝑡PLS

𝐺 (𝐱) = (𝐱(𝐺)− 𝐱 (𝐺)

􏸦􏸞􏸚􏸧)𝐰1. (.)

.. Analiza genskih skupin (GSA)

Metoda analize genskih skupin (angl. gene set analysis, GSA) [] za vsako značilko v skupini ugotovi, s katerim razredom je višja vrednost tiste značilke bolj povezana, in ustvari podskupine značilk glede na bolj povezan razred. Transformirana vrednost skupine je povprečna vrednost značilk močnejše podskupine.

Za značilko𝑗 iz skupine 𝐺 izračunamo statistiko 𝑡: 𝑡𝑗 = 𝑡-statistika({𝑥𝑗 ∶ 𝐱 ∈

𝐗𝑦=0_{}, {𝑥}

𝑗 ∶ 𝐱 ∈ 𝐗𝑦=1}). Vrednosti statistike 𝑡 transformiramo v vrednosti statistike

𝑧, 𝑧𝑗 = 􏸾−1(𝐹𝑛−2(𝑡𝑗)), kjer 􏸾 označuje porazdelitveno funkcijo normalne porazdelitve

in𝐹𝑛−2označuje porazdelitveno funkcijo porazdelitve𝑡 z dvema prostostnima

(32)

.

.  Pregled področja Marko Toplak

Naj bosta𝐺+in𝐺−podmnožici genov iz𝐺 s pozitivnimi in negativnimi

vrednost-mi𝑧𝑗(povezani s prvim oziroma z drugim razredom). Moč povezave podskupine z

razredom izračunamo kot

𝑧+= mean_𝑗∈𝐺

+ 𝑧𝑗 􏸈􏸍 𝑧−= mean𝑗∈𝐺− 𝑧−.

Transformirana vrednost je povprečna vrednost značilk močnejše skupine:

𝑡GSA 𝐺 (𝐱) = ⎧ ⎪ ⎪ ⎨ ⎪ ⎪ ⎩ mean 𝑗∈𝐺+ 𝑥𝑗 ; 𝑧+≥ 𝑧− mean 𝑗∈𝐺− 𝑥𝑗 􏸒􏸈􏸂􏸄􏸑 . (.) .. SetSig

Metoda SetSig [] za primer𝐱, ki ga želimo transformirati v vrednosti skupine značilk 𝐺, izračuna Pearsonove koeﬁciente korelacije do primerov iz obeh razredov, ob čemer upošteva le značilke iz skupine𝐺:

𝑅0(𝐱; 𝐺) = {𝑟(𝐱(𝐺), 𝐱′(𝐺)) ∶ 𝐱′∈ 𝐗𝑦=0} in 𝑅1(𝐱; 𝐺) = {𝑟(𝐱(𝐺), 𝐱′(𝐺)) ∶ 𝐱′∈ 𝐗𝑦=1},

kjer sta𝐱(𝐺)_in_𝐱′(𝐺)_primera_{𝐱 in 𝐱}′_{opisana zgolj z vrednostmi značilk iz skupine}_𝐺.

Transformirana vrednost primera𝐱 za skupino 𝐺 je s statistiko 𝑡 ocenjena razlika med vrednostmi obeh množic:

𝑡SetSig𝐺 (𝐱) = 𝑡-statistika(𝑅0(𝐱; 𝐺), 𝑅1(𝐱; 𝐺)). (.)

.. Aktivnost glede na odzivne gene (CORG)

Metoda CORG [] izračuna povprečje podmnožice značilk iz skupine, katerih vre-dnosti se najbolj razlikujejo med razredi. Povezanost značilke z razredom merijo s 𝑡-testom. Za vsako skupino značilke požrešno dodajajo v izbor (v vrstnem redu glede na povezanost značilke z razredom), dokler se statistika𝑡 povprečja vrednosti značilk iz-bora ne neha izboljševati. Takšnemu izboru značilk iz skupine rečejo “na stanje odzivni geni” (angl. condition-responsive genes, CORG).

Aktivnost (pod)skupine značilk𝐺 za vzorec 𝐱 deﬁnirajo kot 𝐴(𝐱, 𝐺) = mean 𝐱(𝐺)

/􏽮|𝐺|. Kvaliteto podmnožice𝑄(𝐺) izračunajo s primerjavo aktivnosti 𝐴(𝐱, 𝐺) vseh primerov glede na razred s statistiko𝑡. Posamezne značilke iz skupine 𝑔 ∈ 𝐺 najprej uredijo glede

(33)

.

Uporaba predznanja o povezanosti značilk pri gradnji napovednih modelov 

na𝑄({𝑔}), in to padajoče, če je mean𝑔∈𝐺𝑄({𝑔}) pozitiven, sicer pa naraščajoče.

Zač-nejo s prazno množico genov𝐺′_{= ∅. Nato gene dodajajo, dokler se 𝑄(𝐺}′_{) povečuje.}

Ocena skupine značilk je

𝑡CORG

𝐺 (𝐱) = 𝐴(𝑥, 𝐺′), (.)

kjer je𝐺′_{množica na stanje odzivnih genov.}

.. Redke linearne napovedi (SpLin)

Prej predstavljeni transformaciji PCA in PLS iz prostora značilk v prostor skupin pre-tvarjata z linearnimi kombinacijami vrednosti značilk. Metoda SPCA temu doda še izbor značilk, vendar sta pri SPCA fazi izbora značilk in določanja uteži značilke v li-nearni kombinaciji ločeni. Vse opisane transformacije so značilke izbirale neodvisno od drugih značilk v skupini.

Wu et al. [] so predlagali metodo, ki elegantno izbere in uteži značilke v skupini znotraj enega optimizacijskega problema. Metodo, ki jo sicer uporabijo za izračun obogatenosti skupine genov čez vse primere, lahko uporabimo tudi za transformacijo vrednosti za posamezni primer𝐱, če vrednosti značilk pomnožimo s pripadajočimi utežmi modela skupine značilk:

𝑡SpLin𝐺 (𝐱) = 􏾜

𝑔∈𝐺

𝑤𝐺

𝑔𝑥𝑔, (.)

kjer so𝑤𝐺

𝑔 uteži, ki nam jih vrne metoda za gradnjo linearnega napovednega modela na

podatkih z značilkami iz skupine𝐺, 𝐗(𝐺)_{. Če uporabimo}_{ℓ1 regularizacijo, ki večino}

uteži nastavi na0, implicitno dobimo še izbor značilk. Za pretvorbo smo uporabili logistično regresijo [] zℓ1 regularizacijo, ki jo uporablja algoritem Lasso [].

V poskusih smo za vse skupine značilk uporabili enako stopnjo regularizacije:𝐶 = 1 v nastavitvah knjižnice LibLinear []. Bolje, a časovno bolj potratno, bi bilo vrednosti za vsako skupino posebej nastaviti z notranjim prečnim preverjanjem.

.. Druge metode

Transformacija, ki jo predlagajo Su et al. [], izračuna podporo skupine obema ra-zredoma, ob čemer predpostavlja neodvisnost med značilkami in ločene Gaussove po-razdelitve vrednosti za vsako značilko in razred. Avtorji za vsako značilko in razred izračunajo verjetje ter s seštevkom normaliziranih logaritmiranih razmerij verjetij obeh razredov iz skupine izračunajo transformirano vrednost skupine značilk.

(34)

.

.  Pregled področja Marko Toplak

Metoda ASSESS [], po vzoru metode GSEA [], na urejenem seznamu korelacij značilk z razredom oceni skupine značilk s statistiko podobno statistiki Kolmogorov-Smirnov. Medtem ko GSEA ocenjuje korelacije značilk z razredom čez vse primere, ASSESS ocenjuje korelacije za vsak primer posebej. Vrednost transformirane skupine značilk je največja vrednost na nekem koraku seštevanja korelacij, kjer seštevamo v vr-stnem redu urejenega seznama korelacij vseh značilk in prištevamo le korelacije značilk iz trenutne skupine, pri drugih značilkah pa prištevamo (oziroma odštevamo) takšno konstanto, da na celem seznamu dobimo rezultat enak0.

Li [] predlaga transformacijo skupin značilk v manjše skupine z zmanjševanjem dimenzionalnosti z metodo SDR [], ki transformira značilke v nižje dimenzionalni prostor, ob čemer poskuša ohraniti čim več informacije o razredu.

Hwang [] predlaga računanje aritmetične sredine genov iz genske skupine, ob čemer uporabi  genov iz skupine, ki imajo najvišje vrednosti statistike𝑡.

. Primerjava metod za transformacijo v prostor skupin

Metode opisane v poglavju., ki transformirajo podatke iz prostora značilk v prostor skupin, smo preizkusili na resničnih podatkih o genskih izrazih ter jih primerjali s klasiﬁkacijo na netransformiranih podatkih.

.. Podatki

Podatki o genskih izrazih Uporabili smo42 naborov podatkov o človekovih genskih izrazih. Vsak nabor podatkov je vseboval vsaj20 primerov (vzorcev), ki so bili razpore-jeni v dva diagnostična razreda (vsak razred je vseboval vsaj8 vzorcev). Uporabili smo podatke iz dveh virov: iz Gene Expression Omnibus (GEO) [] (imena teh podat-kovnih naborov se začnejo z GDS) ter iz e Broad Institute¹; našteti so v tabeli.. V povprečju so podatki vsebovali66 primerov. Če so podatki vsebovali več meritev za isti gen, smo uporabili njihovo mediano. Vse stolpce smo standardizirali, da so imeli povprečje enako0 in varianco enako 1.

Viri skupin značilk Skupine značilk smo pridobili iz baze MSigDB [] verzije .: uporabili smo vire z oznakami C.CP, C.BP in C.MF.

(35)

.

Uporaba predznanja o povezanosti značilk pri gradnji napovednih modelov 

.. Učne metode

Primarne podatke z značilkami, ki so predstavljale gene, in iste podatke transformirane v prostor skupin značilk smo klasiﬁcirali z regularizirano logistično regresijo in naključ-nimi gozdovi. Regularizacijski parameter knjižnice LibLinear [] smo z notranjim prečnim preverjanjem nastavljali na vrednosti iz množice{2𝑖_{; 𝑖 ∈ {−10, −8, … 8, 10}}.}

Naključni gozdovi [] so vsebovali1000 dreves; v vsakem vozlišču so značilke za de-litev izbirali iz naključno izbrane množice velikosti korena vseh značilk in med njimi izbrali najustreznejšo glede na razmerje informacijskega prispevka (gain-ratio) [].

.. Testiranje

Testirali smo s5-kratnim prečnim preverjanjem, ki smo ga pognali štirikrat. Točnost smo ovrednotili s površino pod krivuljo ROC (AUC []). Stabilnost smo izračunali z mero, ki jo je deﬁnirala Kuncheva []: kot povprečje ujemanja najbolje ocenjenih 𝑘 značilk na vseh parih različnih učnih množic nabora podatkov, kjer ujemanje med paroma izračunamo kot 𝑟𝑛−𝑘2

𝑘(𝑛−𝑘);𝑟 označuje velikost preseka najbolje ocenjenih značilk

para različnih učnih množic. Pri izračunu stabilnosti smo izbrali𝑘 = 100 značilk z največjo absolutno vrednostjo koeﬁcienta logistične regresije.

Pri vseh poskusih v disertaciji smo uporabljali paket za odkrivanje znanja iz podat-kov Orange []. Za poenotenje imen genov iz različnih virov smo uporabili dodatek Orange Bioinformatics², znotraj katerega smo implementirali preizkušene transforma-cijske metode.

.. Rezultati in diskusija

V povprečju je logistična regresija najtočnejše klasifikatorje zgradila na podatkih trans-formiranih z metodami SpLin, SetSig in CORG (slika.), a na transformiranih po-datkih z nobeno metodo ne dobimo boljših rezultatov kot na netransformiranih. Pri gradnji klasifikatorjev z naključnimi gozdovi je med najboljšimi tremi transformacijski-mi metodatransformacijski-mi namesto metode SetSig metoda SPCA, klasifikatorji zgrajeni na podatkih transformiranih z metodo SpLin pa celo premagajo klasifikatorje na netransformiranih podatkih (slika.). Opazimo lahko, da so metode, ki pri gradnji modelov transforma-cije uporabljajo tudi vrednosti ciljne spremenljivke, z izjemo metode GSA pri logistični

(36)

.

.  Pregled področja Marko Toplak

Slika . Povprečni rangi napovedne točnosti čez  podat-kovnih naborov. Končne klasifikatorje smo gradili z linearno regresijo ali naključnimi gozdovi. CD označuje kritično razdaljo, znotraj katere razlike med povprečnimi rangi končnih klasifikatorjev niso značilne glede na Nemenyi-ev test (𝛼 = 0.05). 1 2 3 4 5 6 7 8 9 10 logistiˇcna regresija netransformirani SpLin SetSig CORG PLS SPCAPCA arit. sred. GSA mediana CD 1 2 3 4 5 6 7 8 9 10 nakljuˇcni gozdovi SpLin netransformirani CORG SPCA SetSig PLSGSA arit. sred. mediana PCA CD Slika . Povprečni rangi stabilnosti čez  podatkovnih nabo-rov. Končne klasifikatorje smo gradili z linearno regresijo. CD označuje kritično razdaljo, znotraj katere razlike med pov-prečnimi rangi končnih klasifikatorjev niso značilne glede na Nemenyi-ev test (𝛼 = 0.05). 1 2 3 4 5 6 7 8 9 10 logistiˇcna regresija arit. sred. mediana netransformirani PCA SpLin SetSigPLS GSA SPCA CORG CD

regresiji, bolje uvrščene kot metode, ki ciljne spremenljivke ne uporabljajo. Skoraj no-bena razlika ni statistično značilna, kar je lahko posledica nizke moči testa, kjer smo paroma primerjali  metod. Rezultate na posameznih naborih prikazujeta tabeli. in..

Naši rezultati so v skladu z rezultati drugih medsebojnih primerjav metod za na-povedovanje s predznanjem o skupinah in graﬁh, ki poročajo, da trenutne metode z uporabo genskih skupin ne izboljšajo napovednih točnosti, a le-te ostanejo primerlji-ve s točnostmi na podatkih o posameznih genih [–]. Rezultati se razlikujejo od rezultatov predstavitev posameznih metod [,,], kjer so na manjšem naboru podatkov opazili izboljšanje točnosti tehnik, ki upoštevajo skupine. Naša primerjava tudi sicer uporablja največje število podatkovnih virov.

(37)

.

Uporaba predznanja o povezanosti značilk pri gradnji napovednih modelov 

Tabela .

Rezultati AUC različnih transformacijskih metod, kjer smo kot končni klasiﬁkator uporabili logistično regresijo.

nabor podatkov primer

ov

značilk skupin netransformirani SpLin SetS

ig

COR

G

PLS SPCA PCA arit.

sr ed. GSA mediana DLBCL 77 6219 1904 .982 .989 .999 .987 .986 .994 .984 .974 .980 .980 GDS 23 932 811 .629 .491 .515 .461 .548 .608 .596 .697 .680 .706 GDS 173 9459 1977 .767 .756 .762 .750 .779 .716 .753 .763 .777 .787 GDS 60 20007 1985 .701 .663 .704 .677 .686 .684 .699 .634 .680 .663 GDS 23 9695 1980 .871 .967 .988 .938 .975 .892 .975 .950 .954 .846 GDS 53 6200 1867 .690 .713 .699 .711 .692 .649 .673 .680 .722 .652 GDS 27 14903 1984 .715 .691 .774 .767 .679 .692 .667 .658 .667 .706 GDS 54 14903 1984 .989 .981 .972 .971 .968 .968 .972 .998 .981 1.000 GDS 30 6277 1917 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 GDS 54 14903 1984 .894 .894 .911 .896 .894 .892 .897 .893 .896 .890 GDS 28 9697 1980 .529 .610 .584 .573 .610 .553 .429 .511 .557 .481 GDS 32 14903 1984 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 GDS 43 14902 1984 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 GDS 63 14903 1984 .983 .997 .990 .990 .995 .997 .973 .997 .980 .992 GDS 20 14903 1984 .855 .855 .842 .842 .803 .829 .816 .842 .803 .829 GDS 28 1394 454 .994 .989 .972 .989 .989 .989 .989 .983 .967 .983 GDS 20 14903 1984 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 GDS 39 9697 1980 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 GDS 36 34700 1968 .977 1.000 1.000 1.000 1.000 1.000 1.000 .960 .991 .976 GDS 28 16246 1990 .814 .764 .781 .811 .736 .836 .725 .708 .719 .633 GDS 46 9697 1980 .455 .407 .376 .410 .412 .461 .407 .446 .451 .370 GDS 75 14903 1984 .645 .594 .571 .598 .587 .535 .613 .613 .596 .582 GDS 37 14903 1984 1.000 1.000 1.000 .996 1.000 1.000 1.000 .978 .992 .965 GDS 38 34700 1968 .990 1.000 1.000 .992 .993 1.000 .985 .972 .990 .957 GDS 59 14345 1964 .750 .749 .742 .729 .737 .725 .759 .737 .759 .707 GDS 44 6278 1917 .980 .988 .972 .997 .988 .990 .985 .993 .988 .995 GDS 44 9697 1980 .986 .983 .989 .976 .978 .981 .988 .963 .954 .968 GDS 122 10629 1163 .777 .763 .765 .775 .761 .763 .757 .710 .745 .705 GDS 22 34700 1968 .908 .950 .938 .963 .917 .950 .938 .900 .883 .883 GDS 46 18022 1974 .678 .671 .612 .715 .649 .731 .720 .749 .636 .627 GDS 187 14902 1984 .789 .781 .803 .777 .777 .752 .759 .747 .757 .762 GDS 43 9697 1980 .822 .838 .860 .860 .829 .810 .811 .787 .808 .835 GDS 36 9697 1980 .642 .573 .602 .555 .537 .527 .518 .554 .530 .594 GDS 202 29391 1971 .925 .922 .890 .895 .895 .888 .880 .876 .890 .782 GDS 183 19136 1968 .479 .554 .455 .501 .502 .468 .578 .404 .406 .391 GDS 88 31623 1966 .477 .471 .471 .509 .489 .461 .463 .457 .446 .396 GDS 166 3779 1457 .841 .744 .761 .732 .750 .749 .729 .714 .739 .695 GDS_agent 125 3779 1457 .891 .879 .866 .833 .842 .843 .846 .836 .838 .834 GSE 110 6776 1888 .955 .975 .978 .926 .937 .901 .928 .934 .918 .902 GSE 52 14166 1986 .933 .930 .939 .974 .978 .960 .937 .949 .934 .946 leukemia 72 4680 1819 .996 .999 .996 .992 .989 .992 .991 .998 .994 .998 prostata 102 9582 1976 .964 .966 .954 .964 .933 .926 .946 .931 .912 .923 povprečje 66 13686 1857 .840 .836 .834 .834 .829 .826 .826 .821 .822 .808

(38)

.

.  Pregled področja Marko Toplak

Tabela .

Rezultati AUC različnih transformacijskih metod, kjer smo kot končni klasiﬁkator uporabili naključne gozdove.

nabor podatkov primer

ov

značilk skupin netransformirani SpLin SetS

ig

COR

G

PLS SPCA PCA arit.

sr ed. GSA mediana DLBCL 77 6219 1904 .961 .995 .993 .952 .974 .976 .936 .927 .953 .914 GDS 23 932 811 .526 .471 .519 .500 .605 .556 .579 .697 .711 .658 GDS 173 9459 1977 .745 .763 .761 .741 .767 .722 .691 .726 .762 .702 GDS 60 20007 1985 .770 .662 .712 .731 .705 .738 .728 .711 .713 .733 GDS 23 9695 1980 .988 .988 .988 .988 .925 .942 .854 .875 .900 .867 GDS 53 6200 1867 .667 .687 .702 .704 .685 .657 .690 .723 .734 .683 GDS 27 14903 1984 .783 .756 .792 .763 .787 .708 .733 .812 .723 .742 GDS 54 14903 1984 .996 .981 .978 .998 .987 .992 .992 .998 1.000 1.000 GDS 30 6277 1917 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 GDS 54 14903 1984 .928 .925 .904 .899 .886 .901 .890 .901 .914 .884 GDS 28 9697 1980 .485 .552 .498 .526 .482 .547 .449 .427 .456 .480 GDS 32 14903 1984 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 GDS 43 14902 1984 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 GDS 63 14903 1984 .997 .997 .995 .997 .997 .997 .997 .997 1.000 .997 GDS 20 14903 1984 .868 .868 .842 .829 .829 .776 .750 .882 .789 .824 GDS 28 1394 454 .975 .989 .972 .975 .967 .989 .950 .933 .942 .953 GDS 20 14903 1984 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 GDS 39 9697 1980 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 GDS 36 34700 1968 .996 1.000 .996 1.000 .987 1.000 .956 .953 .953 .937 GDS 28 16246 1990 .822 .778 .749 .800 .756 .792 .703 .614 .739 .539 GDS 46 9697 1980 .415 .427 .347 .346 .382 .477 .538 .534 .480 .485 GDS 75 14903 1984 .590 .598 .563 .578 .575 .495 .562 .561 .582 .632 GDS 37 14903 1984 1.000 1.000 .983 .996 .975 .962 .895 .887 .971 .879 GDS 38 34700 1968 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .895 .963 .885 GDS 59 14345 1964 .712 .752 .733 .737 .730 .724 .672 .707 .749 .664 GDS 44 6278 1917 1.000 1.000 .977 1.000 .993 1.000 .969 .975 .995 .977 GDS 44 9697 1980 .982 .991 .973 .968 .971 .975 .948 .926 .941 .944 GDS 122 10629 1163 .773 .752 .772 .766 .764 .734 .739 .707 .748 .695 GDS 22 34700 1968 .979 .942 .938 .950 .904 .950 .925 .896 .904 .971 GDS 46 18022 1974 .593 .643 .444 .560 .444 .734 .405 .502 .410 .410 GDS 187 14902 1984 .740 .793 .767 .742 .745 .753 .716 .684 .705 .698 GDS 43 9697 1980 .850 .808 .851 .857 .805 .833 .761 .711 .799 .748 GDS 36 9697 1980 .582 .597 .623 .581 .562 .555 .510 .536 .554 .567 GDS 202 29391 1971 .836 .904 .800 .810 .798 .784 .767 .752 .781 .727 GDS 183 19136 1968 .480 .505 .409 .440 .430 .487 .500 .434 .429 .468 GDS 88 31623 1966 .485 .480 .491 .526 .525 .535 .433 .511 .489 .457 GDS 166 3779 1457 .726 .761 .753 .734 .714 .735 .712 .674 .722 .721 GDS_agent 125 3779 1457 .844 .867 .819 .825 .814 .819 .823 .828 .825 .815 GSE 110 6776 1888 .915 .980 .944 .894 .870 .875 .875 .871 .863 .855 GSE 52 14166 1986 .971 .984 .949 .974 .923 .940 .877 .890 .896 .887 leukemia 72 4680 1819 .998 .998 .987 .998 .991 .998 .978 .944 .989 .950 prostata 102 9582 1976 .939 .955 .903 .932 .884 .895 .825 .881 .887 .866 povprečje 66 13686 1857 .831 .837 .820 .824 .813 .823 .793 .797 .809 .791

(39)

.

Uporaba predznanja o povezanosti značilk pri gradnji napovednih modelov 

Razlike v stabilnosti med metodami po meri Kuncheve [] so veliko večje (sli-ka.). Glede na naše rezultate se stabilnost pri preprostejših metodah izboljša, pri kompleksnejših, ki iz posameznih skupin izbirajo podmnožice značilk ali uporabljajo razredno spremenljivko, pa poslabša. Na preprostejše mere osredotočena študija poro-ča o izboljšanju stabilnosti [], na kompleksnejše mere osredotočena pa o poslabšanju stabilnosti [].

Možnih razlag za razmeroma slabo napovedno točnost po transformaciji v prostor značilk, ki opisujejo skupine, je več [,]. Razdelimo jih lahko na pomanjkljivosti virov predznanja, potencialno slabo konstrukcijo novih značilk, in neustrezno napove-dovanje s konstruiranimi značilkami. Z viri predznanja se v sklopu disertacije nismo ukvarjali, poskušali pa smo izboljšati konstrukcijo značilk skupin (poglavje) in napo-vedovanje s konstruiranimi značilkami (poglavje).

. Interpretabilnost napovednih modelov s skupinami značilk

Kljub temu, da transformacije v prostor genskih skupin s preizkušenimi metodami v povprečju niso izboljšale niti točnosti niti stabilnosti napovednih modelov, lahko iz zgrajenih modelov razberemo biološke procese, ki so pomembni za ločevanje med ra-zredi. Modeli na transformiranih podatkih, v našem primeru na genskih skupinah, z vidika interpretacije dopolnjujejo modele na netransformiranih podatkih. Tu bi pou-darili, da je v domeni molekularne biologije interpretabilnost rezultatov analiz ključna in je eden razlogov za obstoj in vzdrževanje virov podatkov o genskih skupinah []. Raziskave s področja molekularne biologije redno uporabljajo genske skupine za inter-pretacijo rezultatov [–], nekatere pa tudi za načrtovanje novih poskusov [].

Kot primer interpretacije napovednih modelov na transformiranih podatkih pred-stavljamo podatkovni nabor leukemia [], ki vsebuje genske ekspresije za dve vrsti lev-kemije: akutna limfoblastna levkemija (ALL) in akutna mieloblastna levkemija (AML). Uporabili smo transformacijsko metodo SetSig, ker je edina metoda med najboljšimi tremi, ki ne izvaja izbora genov in je zato najlažja za interpretacijo, saj ocene skupine opisujejo celo skupino in ne zgolj njene podmnožice. Za napovedovanje smo uporabili logistično regresijo. Najboljših  značilk smo izbrali z rekurzivnim odstranjevanjem značilk []. V vsaki iteraciji smo odstranili1% značilk. Končni modeli z 10 značil-kami so imeli AUC0.981, če so bile značilke geni, in 0.997 za značilke transformirane z metodo SetSig. Značilke smo izbirali le na učnih podatkih.

(40)

vi-.

.  Pregled področja Marko Toplak

Tabela .

Modeli logistične regresije z  najboljšimi značilkami na naboru podatkov leukemia na genih (levo) in genskih skupinah (desno). Če je vrednost izraza pomnožena z utežjo pozitivna (negativna), se verjetnost za razred ALL poveča (zmanjša).

gen utež NME −0.969 NEK −0.748 CD −0.747 STMN 0.745 CST −0.716 STOM −0.681 ZYX −0.625 MPO −0.600 PRG −0.555 DF −0.544

genska skupina utež

KEGG hematopoietic cell lineage 0.676 anatomical structure formation 0.613 Reactome muscle contraction 0.603

KEGG lysosome 0.590

KEGG vibrio cholerae infection 0.583 Reactome formation of platelet plug 0.573 Reactome platelet activation 0.567 Reactome gap junction traﬃcking 0.561

BioCarta ucalpain 0.557

electron transport GO: 0.554

dimo, da imajo vzorci ALL nižje vrednosti izrazov gena zyxin (ZYX) in višje vrednosti skupine, ki predstavlja signalno pot𝜇-kalpaina (BioCarta ucalpain). Kalpaini so pri raku pomembni predvsem pri množitvi celic in v zaviranju naravne celične smrti; pri limfoblastni levkemiji, kjer se celice množijo hitreje, naj bi bili kalpaini višje izraže-ni []. Aktivacija signalne poti𝜇-kalpaina poveča razgradnjo proteinskih kompleksov v fokalnih adhezijah, kjer je gen zikcin (zyxin) najbolj prisoten []. Višje vrednosti skupine signalna pot𝜇-kalpaina v vzorcih ALL lahko razložijo nižjo izraženost gena zikcin v istih vzorcih [].

Utežene genske skupine nam dobro podajo splošno sliko domene in predstavijo rezultate z bolj sistemskega vidika, bolj speciﬁčno razlago pa predstavlja seznam genov, ki je tipično razumljiv le specialistom. Primer kaže tudi na odlično dopolnjevanje seznamov genov in genskih skupin.