Development of web aplication and predictive model for predicting undiagnosed type 2 diabetes

Full text

(1)UNIVERZA V MARIBORU FAKULTETA ZA ZDRAVSTVENE VEDE. Razvoj spletne aplikacije in napovednega modela za napoved nediagnosticirane sladkorne bolezni tipa 2 (Magistrsko delo). Maribor, 2017. Andrej Fajfar, dipl. mikrobiol. (UN).

(2) UNIVERZA V MARIBORU FAKULTETA ZA ZDRAVSTVENE VEDE. Mentor: Izr. prof. dr., Gregor Štiglic.

(3) ZAHVALA Posebna zahvala gre mentorju izr. prof. dr. Gregorju Štiglicu za vso pomoč, potrpežljivost in prilagodljivost pri nastajanju magistrskega dela. Zahvaljujem se tudi zaposlenim v podjetju Vsezadiplomo, ki so hitro in kvalitetno lektorirali magistrsko delo.. i.

(4) Razvoj spletne aplikacije in napovednega modela za napoved nediagnosticirane sladkorne bolezni tipa 2 POVZETEK V magistrski nalogi smo s pomočjo metode strojnega učenja »Random Forest« skušali napovedati stopnjo tveganja za nastanek sladkorne bolezni oz. verjetnost prisotnosti nediagnosticirane sladkorne bolezni na podlagi podatkov iz Slovenije. Za izbrano metodo smo določili optimalno število in vrsto spremenljivk za posamezni model. Za evalvacijo modela smo uporabili povprečno območje pod krivuljo (AUC), točnost in F-mero. Za model populacije s povečanim tveganjem smo dosegli povprečno AUC 0,823, točnost 0,824 in F-mero 0,804. V modelu za napoved nediagnostirane sladkorne bolezni smo dosegli povprečno AUC in točnost 0,749 in F-mero 0,654. Na podlagi podatkov smo pokazali, da je možno z veliko uspešnostjo določiti osebe z visokim tveganjem, ki predstavljajo preddiabetike in nediagnostirane diabetike oz. skupino s tveganjem za nastanek sladkorne bolezni tipa 2. Pokazali smo uporabo tehnik uravnoteženja odločitvenega razreda in rezultate primerjali z neuravnoteženim razredom. Uravnoteženje razreda zviša klasifikacijsko uspešnost modela. Rezultate smo primerjali z rezultati drugih znanstvenih objav in zasledili podobnost med rezultati. Tuje raziskave navajajo, da je klasifikator Random Forest najpogosteje izbran model, v primerjavi z drugimi modeli za napovedovanje kroničnih bolezni. S korelacijskim testom smo pokazali, da napovedna uspešnost modela ne korelira s številom dreves v ansamblu (p = 0,00015). Ključne besede: strojno učenje, Random Forest, neuravnoteženi podatki, diabetes mellitus. ii.

(5) Development of web application and predictive model for predicting undiagnosed type 2 diabetes ABSTRACT The master’s thesis develops predictive models based on machine learning method Random Forest for prediction of diabetes type 2 risk population group and undiagnosed diabetes group using data collected in Slovenia. The optimal set of features for optimal results was determined. We used mean area under the curve (AUC), accuracy and F-measure for evalvation of the model. We achieved mean AUC of 0.823, accuracy 0.824 and F- measure 0.804 for risk in the preddiabetes group and mean AUC and accuracy of 0.749 and F-measure 0.654 for undiagnosed diabetes model. We achieved the best predictive performance for high-risk population representing preddiabetes and undiagnosed diabetes patients. We show techniques for balancing class variable and compare results with unbalance data. Balancing improved overall accuracy of classification model. Comparison to related scientific papers shows similarities between results and techniques and that Random Forest is a preferred model of choice in the field of prediction of chronic diseases with high accuracy rate. Correlation test shows no correlation between mean AUC and number of trees in ensemble (p = 0,00015). Key words: machine learning, Random Forest, unbalance data, diabetes mellitus. iii.

(6) KAZALO VSEBINE 1. OPREDELITEV PODROČJA IN OPIS PROBLEMA. 1. 2. NAMEN IN CILJI RAZISKAVE. 5. 3. TEORETIČNI DEL. 6. 4. 3.1. Problematika področja. 6. 3.2. Odločitvena drevesa. 7. 3.3. Ansambelske klasifikacijske metode. 9. 3.4. Metrike uspešnosti klasifikatorja in navzkrižna validacija. 10 13. EMPIRIČNI DEL 4.1. Raziskovalno vprašanje in hipoteza. 13. 4.2. Metodologija. 13. 4.2.1. Raziskovalne metode. 13. 4.2.2. Raziskovalni vzorec. 15. 4.2.3. Postopki zbiranja podatkov. 23. 5. REZULTATI. 24. 6. INTERPRETACIJA IN RAZPRAVA. 42. 7. SKLEP. 48 49. LITERATURA. 1. PRILOGE Priloga 1: Potrdilo o lektoriranju. 1. Priloga 2: Izjava študenta o avtorskem delu. 1. Priloga 3: Izjava o ustreznosti zaključenega dela. 1. iv.

(7) KAZALO TABEL TABELA 1: KLASIFIKACIJSKE METRIKE. 10. TABELA 2: MATRIKA ZMEDE ZA BINARNI RAZRED. 11. TABELA 3: OPIS SPREMENLJIVK BAZE PODATKOV S PRIPADAJOČIMI DELEŽI MANJKAJOČIH VREDNOSTI. 15. TABELA 4: KLASIFIKACIJSKE METRIKE ZA NAJBOLJŠA PARAMETRA MODELA 1. 30. TABELA 5: KLASIFIKACIJSKE METRIKE ZA NAJBOLJŠA PARAMETRA MODELA 2. 34. TABELA 6: KLASIFIKACIJSKE METRIKE ZA KONČNA MODELA 1 IN 2. 38. TABELA 7: PRIMERJAVA ŠTUDIJ. 43. v.

(8) KAZALO GRAFOV GRAF 1: PORAZDELITEV PRIMERKOV ODLOČITVENEGA RAZREDA ZA OSEBE Z TVEGANJEM IN NEDIAGNOSTICIRAN DIABETES. 24. GRAF 2: PRIMERJAVA AUC, TOČNOSTI IN F-MERE MODELA 1. 25. GRAF 3: PRIMERJAVA AUC, TOČNOSTI IN F-MERE MODELA 2. 25. GRAF 4: PRIMERJAVA KLASIFIKACIJSKIH METRIK Z URAVNOTEŽENIM IN BREZ URAVNOTEŽENJA ODLOČITVENEGA RAZREDA ZA MODEL 1. 27. GRAF 5: PRIMERJAVA KLASIFIKACIJSKIH METRIK Z URAVNOTEŽENIM IN BREZ URAVNOTEŽENJA ODLOČITVENEGA RAZREDA ZA MODEL 2. 27. GRAF 6: POVRŠINA POD KRIVULJO V ODVISNOSTI OD ŠTEVILA DREVES ZA POPULACIJO S POVEČANIM TVEGANJEM GRAF 7: RELATIVNI PRISPEVEK SPREMENLJIVKE ZA MODEL 1. 29 31. GRAF 8: “RECEIVER OPERATING CHARACTERISTIC (ROC)” KRIVULJA MODELA 1. 32. GRAF 9: POVRŠINA POD KRIVULJO V ODVISNOSTI OD ŠTEVILA DREVES ZA NEDIAGNOSTICIRAN DIABETES GRAF 10: RELATIVNI PRISPEVEK SPREMENLJIVKE ZA MODEL 2. 33 35. GRAF 11: “RECEIVER OPERATING CHARACTERISTIC (ROC)” KRIVULJA MODELA 2. 36. GRAF 12: PRIMERJAVA KLASIFIKACIJSKIH METRIK ZA KONČNA MODELA. 37. GRAF 13: PORADELITEV VREDNOSTI AUC ZA 100 ANSAMBELSKIH MODELOV. 39. GRAF 14: OKVIR Z ROČAJI ZA VREDNOSTI POVPREČNE AUC Z IN BREZ SKRAJNIH VREDNOSTI. 39. GRAF 15: KORELACIJA MED ŠTEVILOM DREVES IN AUC. vi. 41.

(9) KAZALO SLIK. SLIKA 1: SPLETNA APLIKACIJA. 45. vii.

(10) 1. OPREDELITEV PODROČJA IN OPIS PROBLEMA. Sladkorna bolezen ali diabetes mellitus je kronična presnovna bolezen. Je četrti najpogostejši vzrok umrljivosti na svetu. Svetovna zdravstvena organizacija ocenjuje, da bo do leta 2030 imela vsaka 20. oseba na svetu diabetes. Predvidevajo, da bo leta 2030 imelo 8,9 % populacije sladkorno bolezen (Janež, 2013). Na podlagi ankete Inštituta za varovanje zdravja iz leta 2007 je v Sloveniji 125.000 bolnikov s sladkorno boleznijo. 31,5 % teh oseb, starih med 35 in 70 let, ogrožajo srčno-žilne in druge kronične bolezni. Stroški za zdravljenje sladkorne bolezni z zdravili so v letu 2007 predstavljali 6,5 % vseh stroškov in so znašali 20 milijonov EUR. Stroški medicinskih pripomočkov so stali 13,5 milijonov EUR ali 30 % vseh stroškov medicinskih pripomočkov. Podatki iz leta 2005 kažejo, da je hospitalna oskrba, povezana s sladkorno boleznijo, štirikrat večji strošek kot ambulatna oskrba. 40 % stroškov je posrednih in nastanejo zaradi odsotnosti z dela in s tem izgubljenega prihodnjega zaslužka (Šatej, Zaletel, & Bulc, 2014). Evropa in Amerika spadata med kontinente z najmanjšim deležem neodkritih sladkornih bolnikov zaradi razvitega zdravstvenega sistema (Collins, Mallett, Omar, & Yu, 2011). Osnovna motnja je nezmožnost prehajanja krvnega sladkorja ali glukoze iz krvi v celice ob pomoči encima inzulin. Glukoza se v krvi poveča nad normalno vrednost ob zmanjšanju koncentracije inzulina v krvi ali neodzivnosti tarčnih tkiv na encim. Povečane vrednosti sladkorja povzročajo okvaro žil oči, ledvic in živcev. Dolgotrajna sladkorna bolezen pospeši aterosklerozo, ki lahko vodi do srčnega in možganskega infarkta ter odmrtja udov (Janež, 2013). Poznamo dva osnovna tipa sladkorne bolezni: tip 1 in tip 2. Tip 1 se pojavi predvsem pri otrocih in ga imenujemo tudi juvenilni diabetes (Kmecl, 2013). Tip 2 je najpogostejši tip sladkorne bolezni pri srednji in starejši populaciji. Zanjo zboli 90 % sladkornih bolnikov. Za bolezen sta značilni dve okvari: odpornost tarčnih tkiv na inzulin in nepravilno delovanje beta celic v trebušni slinavki, kar vodi do povečanja sladkorja v krvi. Simptomi bolezni so žeja, pretirano odvajanje urina, suha ali srbeča koža, utrujenost, slabo počutje, zamegljen vid, okužbe kože in pogostejše okužbe z glivicami (Kmecl, 2013). Sladkorno bolezen odkrijemo oz. potrdimo z 1.

(11) biokemičnimi testi v laboratoriju. Referenčne vrednosti koncentracije sladkorja v krvi za potrditev sladkorne bolezni so 7 milimolov na liter (mmol/l) na tešče ali 11 mmol/l kadarkoli čez dan (Janež, 2013). Diabetes mellitus ponavadi diagnosticiramo po 40. letu starosti, najpogosteje pri bolnikih, starih med 60 in 70 let. Za razvoj bolezni je zelo pomembna genetska osnova, katere vpliv še ni v celoti pojasnjen (Šatej et al., 2014). Med dejavnike tveganja za nastanek sladkorne bolezni tipa 2 prištevamo pozitivno diagnozo v družini, debelost (indeks telesne mase nad 27), obseg pasu (ženske nad 80 cm in moški nad 94 cm), povišane maščobe v krvi in visok tlak, osebe po možganski kapi, ženske po nosečnosti, telesna nedejavnost in starost nad 45 let (Kmecl, 2013). Na razvoj bolezni vplivajo bolezenska stanja pod skupnim imenom preddiabetes. V to skupino spadajo mejna bazalna glikemija, motena toleranca za glukozo (mejna vrednost je 6,1 mmol/l na tešče) in metabolični sindrom. Osebe z diagnosticiranim preddiabetesom in ženske z nosečnostno sladkorno boleznijo predstavljajo populacijo z visokim tveganjem za nastanek sladkorne bolezni tipa 2 (Šatej et al., 2014). Pomembno je zgodnje odkrivanje sladkorne bolezni, ker zaradi povečanega sladkorja v krvi pride do bolezni srca in ožilja, kar lahko privede do kapi, odpovedi ledvic, slepote in drugih povezanih okvar tkiv. Znano je, da se zaradi diabetesa zmanjša življenjska doba osebe, in sicer se pri moških zmanjša za 11,6 let pri ženskah pa 14,3 let (Janež, 2013). V svetovnem merilu potekajo najrazličnejše raziskave s področja ocenjevanja tveganja za nastanek bolezni, kamor spada tudi sladkorna bolezen. Študije potekajo tako, da s pomočjo spletnih ali papirnatih vprašalnikov zberemo podatke in potem s pomočjo metod strojnega učenja zgradimo napovedni model za napovedovanje tveganja za nastanek bolezni pri posamezniku. Tako lahko posameznika s povečanim tveganjem za nastanek bolezni pošljemo na dodatne preiskave. V okviru državnih organizacij obstajajo spletni vprašalniki in kalkulatorji ocene tveganja, najpogosteje uporabljeni so ameriški »American Diabetes Association Questionnaire«, ADA, britanski »Leicester. Risk. Assessment«,. LRA,. kanadski. »Canadian. Diabetes. Risk. Questionnaire«, CANRISK, avstralski »Australian Type 2 Diabetes Risk Assessment Tool«, AUSDRISK in finski »Finnish Diabetes Risk Score«, FINDRISC. Vprašalniki v drugih državah so standardizirani s pomočjo teh, že znanih modelov. Tako je. 2.

(12) CANRISK prilagojena različica FINDRISC za kanadsko prebivalstvo (Stiglic, & Pajnkihar, 2015). V Sloveniji je Ministrstvo za zdravje leta 2010 pripravilo 10-letni nacionalni program za obvladovanje sladkorne bolezni 2010–2020. V programu so opisane smernice za odkrivanje, obvladovanje, preprečevanje in zdravljenje bolezni. Velika pozornost sladkorni bolezni je namenjena zato, ker so stroški oskrbe bolnika petkrat večji od stroškov oskrbe povprečnega bolnika v populaciji. Stroški so povezani z zapleti pri sladkorni bolezni in s tem povezanimi hospitalizacijami, zato je pomembno multidisciplinarno sodelovanje v procesu odkrivanja diabetesa ali preddiabetesa. Preddiabetes je stanje, kjer ima posameznik povišan krvni sladkor, nima pa bolezni. Z odkritjem takih posameznikov lahko preprečimo nastanek bolezni s spremembo življenjskega sloga posameznika, zato je pomembno razviti dober sistem za presejanje, ki vsebuje vprašalnik in napovedni model z visoko točnostjo klasifikacije (Nacionalni program za obvladovanje sladkorne bolezni 2010–2020, 2010). V Sloveniji še nimamo presejalnega testa v spletni obliki, ampak se izvaja v papirnati obliki v referenčnih ambulantah. V nekaterih ambulantah je sicer del informacijskega sistema, vendar tudi v takšnih primerih v spletni obliki ni dostopen širši javnosti. Presejalni test vsebuje vprašalnik, kjer na podlagi odgovorov izračunamo končno število točk ter podamo oceno tveganja pri posamezniku. V Sloveniji je v uporabi preveden FINDRISC vprašalnik. Če preiskovanec doseže FINDRISC večji ali enak 15 točk, ga napotimo na laboratorijsko določitev glukoze v krvi (Šatej et al., 2014). Napovedni modeli za oceno tveganja imajo velik vpliv na odločanje v procesu določanja diagnoze pacienta in se lahko uporabijo kot presejalni test populacije. Pogosto vsebujejo več spremenljivk, na podlagi vrednosti teh pa izračunamo oceno tveganja. Tako lahko odkrijemo posameznike, ki imajo nediagnosticiran diabetes (ne zavedajo se, da imajo previsoko stopnjo krvnega sladkorja) oz. posameznike z visokim tveganjem za nastanek bolezni (so zdravi). Posameznike potem pošljemo na nadaljnja testiranja za potrditev diagnoze. Obstaja veliko modelov za oceno tveganja za nastanek bolezni, manj pa je takšnih, ki se uspešno uporabljajo v praksi. Vzroki zato se pojavijo v neobjektivnosti in slabi napovedni oceni, ki je posledica neuravnoteženosti vzorca, velikosti. vzorca. (premajhen. vzorec),. nepravilnega. ravnanje. z. zveznimi. spremenljivkami in manjkajočimi vrednostmi, nepravilne izbire modela in poročanja. 3.

(13) o postopku gradnje modela. Težava je tudi pomanjkanje univerzalnih pravil izgradnje ustreznega modela (Collins et al., 2011).. 4.

(14) 2. NAMEN IN CILJI RAZISKAVE. Namen magistrskega dela je izdelava spletne aplikacije, ki bo posamezniku omogočala, ob pomoči vprašalnika, oceniti tveganje za nastanek sladkorne bolezni tipa 2. Predstavljala bo presejalni test za slovensko populacijo za diebetes tipa 2 in s tem nadomestila dosedanji papirnati sistem. Teoretični cilji magistrskega dela so: •. pregled literature s področja ocene tveganja,. •. opisati drevesni model strojnega učenja, metrike vrednotenja uspešnosti modela in problematiko področja.. Empirični cilji magistrskega dela so: •. izdelava napovednega modela s pomočjo drevesnega klasifikatorja na slovenskih podatkih, izdelava vprašalnika in implementacija v obliki spletne aplikacije,. •. določiti spremenljivke, ki zagotavljajo optimalne rezultate za oceno tveganja pri napovedovanju nediagnosticirane sladkorne bolezni tipa 2.. 5.

(15) 3. TEORETIČNI DEL. 3.1 Problematika področja Medicinski informacijski sistem zbira ogromno količino podatkov v obliki podatkovnih baz. Zbrani podatki služijo za raziskovanje in analizo. Rezultati analiz predstavljajo pomoč zdravnikom pri postavljanju diagnoz bolezni posameznega bolnika. Z rastjo baz podatkov se je otežilo pridobivanje koristnega znanja in tradicionalne ročne metode podatkovnega rudarjenja so zamenjale učinkovite ter hitrejše računalniške metode. Podatkovno rudarjenje in strojno učenje sta v medicini izboljšala točnost postavljenih diagnoz in s tem znižala stroške. S tehnikami podatkovnega rudarjenja in strojnega učenja izboljšamo točnost postavljenih diagnoz in služijo kot pomoč razvoja smernic pri zdravljenju bolezni. Kompleksne bolezni zelo težko diagnosticiramo v zgodnjih fazah razvoja. Med take bolezni spada tudi sladkorna bolezen. Zaradi tega je potreben razvoj presejalne diagnostike s pomočjo strojnega učenja in s tem določiti osebe s povečanim tveganjem za nastanek bolezni. Takšne osebe potem pošljemo na klinična testiranja, kjer se ovrednoti bolezensko stanje. Tako znižamo stroške testiranja celotne populacije in zdravstvenim delavcem olajšamo diagnozo (Al Jarullah, 2011). Metode strojnega učenja se v grobem delijo na: •. nadzorovane,. •. nenadzorovane,. •. delno-nadzorovane in. •. metode aktivnega učenja (Han, Kamber, & Pei, 2011, str. 24-25).. Nadzorovane metode so sinonim za klasifikacijo. Za učenje potrebujemo napovedno spremenljivko ali razred, s pomočjo katerega ovrednotimo vhodne spremenljivke in s tem naučimo izbrani model (Han et al., 2011). Nenadzorovane metode so sinonim za združevanje v skupine (»clustering«). Za učenje ne potrebuje napovedne spremenljivke, ampak podatke sam razvrsti v skupine, razrede (Han et al., 2011).. 6.

(16) Delno nadzorovane metode uporabljajo mešanico nadzorovanega in nenadzorovanega učenja. En način uporabe delno nadzorovanih metod je, da najprej model naučimo z nadzorovanim učenjem in potem natančneje določimo meje med vrednostmi napovedne spremenljivke z nenadzorovanim učenjem (Han et al., 2011). Aktivno učenje zahteva aktivno sodelovanje uporabnika v procesu učenja. V takšnem primeru uporabnik v realnem času označuje podatke in s tem pomaga v procesu učenja (Han et al., 2011).. 3.2 Odločitvena drevesa Odločitvena drevesa spadajo med nadzorovane metode strojnega učenja. Grafični prikaz ima obliko podobno drevesu, kjer vsako notranje vozlišče predstavlja test določene spremenljivke, veja pa predstavlja rezultat testa v vozlišču, iz katerega izhaja. Vozlišče, najvišje v drevesu, ali prvo vozlišče drevesa predstavlja koren. Listi drevesa predstavljajo končna vozlišča in s tem odločitev ali vrednost razreda. Spadajo med požrešne metode, kjer drevo rekurzivno gradimo od zgoraj navzdol po metodi deli in vladaj. V praksi to pomeni, da drevo naučimo na učni množici s pripadajočo napovedno spremenljivko. Med gradnjo drevesa učno množico s pomočjo hevristične funkcije rekurzivno delimo na manjše podmnožice. Naloga hevristične funkcije je določitev atributa, ki razdelitev učne množice čimbolj približa idealni razdelitvi. Idealna razdelitev je taka, da dobimo končno vozlišče oz. nam v vsaki podmnožici ostanejo vrednosti enega razreda. Uporaba odločitvenih dreves je preprosta. Seznam vrednosti za izbran nabor spremenljivk, ki imajo neznano vrednost razreda, testiramo v vozlišču za izbrano spremenljivko. Ko pridemo v končno vozlišče, dobimo vrednost razreda in s tem klasificiramo neznan objekt. Predstavljajo najpogosteje uporabljen model strojnega učenja zaradi: •. vsestranske uporabe,. •. dela z večdimenzionalnimi podatki,. •. enostavne predstavitve znanja v obliki drevesa,. •. enostavnosti in hitrosti učenja.. 7.

(17) Med gradnjo drevesa uporabimo različne hevristične funkcije kot kriterij testiranja spremenljivk v posameznem vozlišču. Izbrano funkcijo uporabimo na vseh vozliščih in zavzame vrednosti na intervalu [0, 1]. Pri tem 0 pomeni najboljšo izbiro, 1 pa najslabšo izbiro. Na podlagi hevristične funkcije ločimo različne algoritme gradnje dreves. Najpogosteje uporabljene hevristične funkcije so: •. Informacijski prispevek. Funkcija, ki v vsakem vozlišču izbere atribut, ki vsebuje minimalno količino informacije za delitev učne množice oz. je informacijski prispevek atributa največji. Neprimeren je za atribute z veliko vrednostmi, ker deli množico na prav toliko podmnožic. Vgrajen je v prvi drevesni algoritem ID3 (»Iterative Dichotomiser«). •. Razmerje informacijskega prispevka. Izboljšana različica informacijskega prispevka, ki v delitvi izračuna razdelitveno funkcijo, ki je razmerje med številom vrednosti v podmnožici in številom vrednosti v originalni množici. Tako normalizira informacijski prispevek. Izbran je atribut z največjim informacijskim prispevkom. Vgrajen je v algoritem C4.5 (Han et al., 2011, str. 330–341). •. Indeks Gini. Gini indeks predstavlja porazdelitev napovedne spremenljivke v vsakem vozlišču in zavzema vrednosti med [0, 1]. Teoretično želimo Gini indeks nič, kar pomeni, da imamo v vozlišču vse vrednosti enake. Praktično Gini indeks določimo s povprečjem Gini indeksov posameznih spremenljivk v vozlišču (Khalilia, Chakraborty, & Popescu, 2011). Atribut z minimalno vrednostjo indeksa Gini deli učno množico na dve podmnožici in tako predstavlja hevristično funkcijo za gradnjo binarnih odločitvenih dreves. Vgrajen je v algoritem CART (Han et al., 2011, str. 341–343).. 8.

(18) Poznamo dva scenarija delitve hevristične funkcije: 1. Delitev na podlagi kategorične spremenljivke, kjer razdeli učno množico na toliko podmnožic, kot je vrednosti izbranega atributa. 2. Binarna delitev, kjer delitev poteka na podlagi numeričnih spremenljivk, kjer vrednost primerjamo z mejno vrednostjo. V primeru kategoričnih spremenljivk zahtevamo gradnjo binarnega drevesa. Ko je drevo zgrajeno, veliko vozlišč in vej predstavlja šum ali skrajne vrednosti, zato je potrebno drevo oklestiti. Kleščenje drevesa poskuša taka vozlišča in veje zaznati in jih odstraniti ter s tem povečati klasifikacijsko natančnost na neznanih podatkih (Han et al., 2011, str. 331–334).. 3.3 Ansambelske klasifikacijske metode Klasifikacijski ansambel predstavlja kombinacijo klasifikatorjev, kjer vsak klasifikator napove (glasuje) vrednost izhodne spremenljivke. Ansambel vrne vrednost, ki dobi največ glasov. Ansambelske metode so natančnejše od posameznih klasifikatorjev in tako dosežemo večjo klasifikacijsko natančnost modela. Primerne so za uporabo na neuravnoteženih podatkih, kjer vrednost enega razreda prevladuje nad drugo vrednostjo istega razreda za binarno spremenljivko. Med ansambelske metode spadajo »Bagging«, »Boosting« in »Random Forests« ter izpeljanke iz teh modelov. Zadnjo metodo smo uporabili za gradnjo našega modela (Han et al., 2011, str. 377–383). »Random forests« predstavlja ansambel klasifikacijskih in regresijskih dreves ali CART (»classification and regresion trees«). Za vsako drevo v gozdu naključno vzorčimo z vračanjem (v nadaljevanju naključni vzorec) iz učne množice. Podmodele naučimo na naključnem vzorcu, ki vsebuje naključen izbor spremenljivk. Indeks Gini predstavlja hevristično funkcijo za delitev v vozlišču in tako »Random Forests« predstavlja ansambel binarnih dreves. Vsak podmodel glasuje za vrednost razreda za vhodni vektor vrednosti spremenljivk. Vrednost razreda z največ glasovi je napovedna vrednost ansambelskega klasifikatorja. Algoritem lahko uporabi večdimenzionalne podatke in veliko število dreves. Z večanjem števila dreves se povečuje kompleksnost algoritma in s tem čas učenja ter napovedovanja.. 9.

(19) Značilnost metode so: •. učinkovit sistem za delo z manjkajočimi podatki,. •. dobra napovedna uspešnost tudi pri neuravnoteženih podatkih,. •. ovrednotenje prispevka posameznih spremenljivk h klasifikacijski točnosti.. Najpomembnejša značilnost »Random forests« je rangiranje prispevka spremenljivk h klasifikacijski točnosti in s tem določitev pomembnosti posamezne spremenljivke. Za oceno pomembnosti spremenljivke izberemo permutacije vzorcev, na katerih drevesa niso bila zgrajena, ali OOB (»out-of-bag«) in določimo točnost za vsako permutacijo v vsakem drevesu. Večje kot je povprečno znižanje točnosti, večja je povezava spremenljivke z izhodno spremenljivko in s tem večji prispevek spremenljivke h klasifikacijski točnosti (Khalilia, Chakraborty, & Popescu, 2011).. 3.4 Metrike uspešnosti klasifikatorja in navzkrižna validacija Metrike uspešnosti nam pomagajo pri evalvaciji izbranega klasifikatorja. Metrike izberemo na podlagi porazdelitve razreda. Mere zavzamejo vrednosti na intervalu [0, 1], pri čemer 1 pomeni najboljšo možno vrednost in 0 najslabšo možno vrednost. Tabela 1: Klasifikacijske metrike Metrika. Formula. Točnost. (PP + PN) / (PP + PN + NP + NN). Senzitivnost, priklic. PP / (PP + NN). Specifičnost. PN / (PN + NP). Preciznost. PP / (PP + NP) ali PN / (PN + NN). F-mera ali harmonično povprečje. 2 × preciznost × priklic / (preciznost + priklic). 10.

(20) Opis kratic v tabeli 1: •. PP ali pravilno pozitivni: Predstavljajo pozitivne vhodne vektorje, ki jih je klasifikator pravilno klasificiral.. •. PN ali pravilno negativni: Predstavljajo negativne vhodne vektorje, ki jih je klasifikator pravilno klasificiral.. •. NP ali nepravilno pozitivni: Predstavljajo negativne vhodne vektorje, ki jih je klasifikator klasificiral kot pozitivne.. •. NN ali nepravilno negativni: Predstavljajo pozitivne vhodne vektorje, ki jih je klasifikator klasificiral kot negativne.. Metrike uspešnosti najlažje predstavimo z matriko zmede. Uporabili bomo matriko zmede za binarni razred. Tabela 2: Matrika zmede za binarni razred Napovedani razred Dejanski razred. DA. NE. Skupaj. DA. PP. NN. PP + NN. NE. NP. PN. PN + NP. Skupaj. PP + NP. PN + NN. PP + PN + NP + NN. Točnost izračunamo tako, da delimo število pravilno klasificiranih primerkov s številom vseh primerkov. Napako klasifikatorja enostavno izračunamo s formulo: 1 – točnost. Mera se uporablja, ko imamo uravnotežen razred. V primeru neuravnoteženega razreda uporabljamo senzitivnost in specifičnost. Senzitivnost meri točnost klasifikacije pozitivnih primerkov, specifičnost pa meri točnost klasifikacije negativnih primerkov. Meri najpogosteje predstavimo grafično, z ROC (»receiver operating characteristic«) krivuljo in pripadajočo mero – tj. površino pod krivuljo ali AUC (»area under curve«). Y os predstavlja senzitivnost, x os pa 1 – specifičnost. Izberemo tak proces učenja, ki da največji AUC.. 11.

(21) Razmerje med pravilno klasificiranimi primerki posameznega razreda, glede na vse primerke tega razreda, predstavlja priklic in je enak senzitivnosti. Razmerje med pravilno klasificiranimi primerki in vsemi primerki, ki so bili klasificirani v ta razred, predstavlja preciznost. Meri se pogosto uporabljata v primeru neuravnoteženih podatkov, posebej na medicinskem področju, kjer je pozitivnih primerkov zelo malo, v primerjavi z negativnimi. Tako lahko ovrednotimo uspešnost klasifikacije manjšinskega razreda. Meri sta združeni v harmoničnem povprečju ali F- meri. Navzkrižna validacija spada med ocenjevalne metode uspešnosti modela. Uporabili smo k-kratno navzkrižno validacijo. Obstaja tudi izpusti-enega. Navzkrižna k-kratna validacija deli učno množico na k približno enako velikih podmnožic. Učenje izvedemo na k – 1 podmnožic, testiranje pa na preostali 1 podmnožici. Proces ponovimo k-krat. Tak način gradnje modela omogoča večjo točnost modela (Han et al., 2011, str. 364–377).. 12.

(22) 4. EMPIRIČNI DEL. 4.1 Raziskovalno vprašanje in hipoteza RV1: Ali je Python primerno orodje za implementacijo spletnega napovednega modela? H1: Napovedna uspešnost klasifikatorja Random Forest ne korelira s številom uporabljenih odločitvenih dreves.. 4.2 Metodologija 4.2.1 Raziskovalne metode Obdelavo podatkov smo izvedli v programskem jeziku Python 3. Python je pogosto uporabljen jezik na področju podatkovnega rudarjenja in strojnega učenja (Pedregosa, Varoquaux, Gramfort, Michel, Thirion, Grisel et al., 2011). V procesu obdelave podatkovne baze smo opravili 3 sklope analize: predpriprava podatkov, učenje napovednega modela in prikazovanje rezultatov z grafi. V predpripravi podatkov smo te pripravili za strojno učenje. Baza je vsebovala veliko manjkajočih vrednosti, zato smo v FINDRISK spremenljivkah (starost, ITM, obseg pasu, V2, V3, V4, V5, V6) odstranili vse vnose, ki so vsebovali manjkajoče vrednosti v katerikoli izmed teh spremenljivk. Iz baze smo odstranili spremenljivki kandidat in današnji datum ter letnico rojstva pretvorili v spremenljivko starost z enoto leta. Starost smo zaradi specifike referenčnih ambulant, v katerih so bili podatki zajeti, omejili na interval [18, 65] let oz. na delovno populacijo. Letnico rojstva smo prav tako odstranili iz baze podatkov. Iz spremenljivk telesna teža in telesna višina, ki smo jo pretvorili iz centimetrov v metre, smo izračunali indeks telesne mase in ga shranili v spremenljivko ITM. Iz spremenljivke krvni sladkor smo izračunali izhodni spremenljivki »populacija s povečanim tveganjem« (krvni sladkor, višji ali enak 6,1) in »diabetes« ( krvni sladkor, višji ali enak 6,9). Numerično vrednost krvni sladkor smo odstranili iz baze podatkov. Bazo podatkov smo ločili na napovedne spremenljivke in odločitveni razred. Zaradi velikega deleža manjkajočih vrednosti pri posameznih spremenljivkah smo ohranili samo tiste, ki so imele delež manjkajočih vrednosti manjši od 10 %. Takih je bilo 38 od skupno 85 spremenljivk (brez. 13.

(23) odločitvenega razreda). Implementacija algoritmov strojnega učenja v knjižnici »sklearn« zahteva zamenjavo manjkajočih vrednosti z numeričnimi vrednostmi (Pedregosa et al., 2011). Za numerične spremenljivke smo manjkajoče vrednosti nadomestili s povprečjem, manjkajoče vrednosti kategoričnih spremenljivk pa z najpogostejšo vrednostjo ali mediano (He, 2006). Model »Random Forest« smo učili s pomočjo vgnezdenih »for« zank, kjer smo za vsako določeno globino drevesa naučili nov model z ustreznim številom dreves. Poleg teh dveh parametrov sta bila pomembna parametra še hevristična funkcija (Indeks Gini) in maksimalno število spremenljivk za določitev ločitve v vozlišču (koren števila spremenljivk). Model smo evalvirali z 10-kratno navzkrižno validacijo, ki nam je služila tudi za delitev na učno in testno množico. Rezultate AUC smo povprečili. Slednje smo ponovili 10-krat za vsako nastavitev števila dreves in globine dreves ter rezultate povprečili za vsako različno nastavitev števila dreves oz. globine uporabljenih dreves. Zaradi neuravnoteženosti razreda smo za učenje modela za populacijo s povečanim tveganjem bazo uravnotežili z algoritmom »SmoteTOMEK«, za diabetes pa z algoritmom »EasyEnsemble«. Metodi se razlikujeta zaradi različne porazdelitve vrednosti odločitvenih razredov v bazi podatkov. Tako smo dosegli višjo točnost klasifikacije naučenega modela. V primeru neuravnoteženih podatkov klasifikator težko loči med primerki manjšinskega in večinskega razreda, zato pogosto pride do prilagajanja (»over fitting«) napovedi večinskemu razredu. Za uravnoteženje podatkov se običajno uporabljata dve metodi: 1. »Over-sampling«, ki največkrat kopira obstoječe primerke manjšinskega razreda. Največja pomanjkljivost je, da v celoti ne odpravimo »over-fitting-a«. 2. »Under-sampling«, ki odstrani primerke večinskega razreda. Pomanjkljivost je možnost izgube pomembnih informacij zaradi izključitve velikega števila primerkov večinskega. »SmoteTOMEK« algoritem je sestavljen iz dveh delov, in sicer iz »smote« in povezav »tomek«. »Smote« s pomočjo vektorjev manjšinskega razreda ustvari nove umetne vektorje manjšinskega razreda in tako uravnoteži porazdelitev vrednosti znotraj. 14.

(24) razreda. Tako odpravimo težavo z »over-fitting-om«. Povezave »Tomek« zaznajo tiste pare nasprotnih vrednosti razreda (ena vrednost pripada manjšinskemu razredu, druga pa večinskemu razredu), ki po uravnoteženju predstavljajo šum in takšne pare odstranijo. Tako ne izgubimo pomembnih informacij. Neto rezultat kombinacije teh dveh metod je uravnotežena baza podatkov in boljša klasifikacijska točnost modela (Batista, Bazzan, & Monard, 2003). EasyEnsemble algoritem predstavlja uravnoteženje s pomočjo ansambelskega »under sampling-a«. Algoritem naključno vzorči učno množico večinskega razreda, pri čemer je vsak vzorec uravnotežen in v velikosti manjšinskega razreda. Na vsakem vzorcu nauči model in združi rezultate modelov (Liu, Wu, & Zhou, 2009). Za ovrednotenje hipoteze smo uporabili Pearsonov test korelacije. Rezultate smo prikazali s pomočjo črtnega, stolpičnega, razsevnega in paličnega grafikona ter okvirja z ročaji.. 4.2.2 Raziskovalni vzorec Baza podatkov predstavlja slovensko delovno populacijo, starejšo od 18 let in vsebuje 85 spremenljivk s številom primerkov 743 ali dimenzije (743,85). Po prečiščenju smo dobili bazo dimenzije (560, 85). Model smo naučili na bazi dimenzije (560, 38). Tabela 3: Opis spremenljivk baze podatkov s pripadajočimi deleži manjkajočih vrednosti Spremenljivka. Opis. Delež manjkajočih vrednosti. Spol. Moški in ženske. 0,00. Letnica rojstva Leto rojstva. 0,00. Telesna teža. Telesna teža v kilogramih (kg). 0,00. Telesna višina. Telesna višina v centimetrih (cm). 0,00. Obseg pasu. Obseg pasu v cm. 0,00. Krvni sladkor. Krvni sladkor v mmol/l. 0,00. LDL. »Low density lipoprotein« holesterol v mmol/l. 0,48. 15.

(25) HDL. »High density lipoprotein« holesterol v mmol/l. 0,48. Skupni. Skupni holesterol v mmol/l. 0,44. Trigliceridi. Trigliceridi v mmol/l. 0,47. Sistolični. Sistolični tlak v milimetrih živega srebra (mmHg). 0,12. Diastolični. Diastolični tlak v mmHg. 0,13. V1. Ali imate sladkorno bolezen?. 0,11. V2. Ste vsak dan vsaj 30 minut telesno aktivni pri delu 0,00. holesterol. in/ali v prostem času? V3. Ste kdaj redno jemali zdravila za nižanje krvnega 0,00 tlaka?. V4. So vam kdaj izmerili zvišano koncentracijo krvnega 0,00 sladkorja (kadarkoli)?. V5. Kako pogosto jeste sadje in zelenjavo?. 0,00. V6. Je imel kdo od bližnjih ali širših sorodnikov 0,00 sladkorno bolezen (tipa 1 ali 2)?. V7. Če ste oseba ženskega spola, ali ste imeli gestacijsko 0,53 sladkorno bolezen (sladkorno bolezen v času nosečnosti)?. V8. Ali ste rodili otroka, ki je imel porodno težo 4,1 kg 0,64 ali več?. V9. Ali je imel kdo v družini (starši, bratje, sestre, 0,20 polbratje, polsestre) zvišan krvni tlak?. V10. Ali je imel kdo v družini (starši, bratje, sestre, 0,07 polbratje, polsestre) družinsko hiepholesterolemijo/ družinsko kombinirano hiperlipidemijo?. 16.

(26) V11. Ali je imel kdo v družini (starši, bratje, sestre, 0,09 polbratje, polsestre) katero od izraženih oblik aterosklerotičnih bolezni: srčni infarkt, angina pektoris, možganska kap, periferna bolezen arterij na nogah (moški pred 55., ženske pred 65. letom)?. V12. Družinska obremenjenost za raka na debelem 0,23 črevesu in danke – Je med vašimi sorodniki prvega reda (oče, mati, sin, hči, brat, sestra, polbrat, polsestra) kdo zbolel za rakom debelega črevesa ali danke?. V13. Družinska obremenjenost za raka na debelem 0,30 črevesu in danke – Se najmanj dva vaša krvna sorodnika zdravita zaradi raka debelega črevesja ali danke?. V14. Družinska obremenjenost za raka na debelem 0,30 črevesu in danke – So pri katerem izmed vaših krvnih sorodnikov odkrili polip (adenom) debelega črevesja ali danke pred 60. letom starosti?. V15. Družinska obremenjenost za raka na debelem 0,30 črevesu in danke – So v vaši družini vsaj trije sorodniki prvega reda (starši, brat, sestra, polsestra, polbrat) pred 60. letom starosti zboleli za enim od naslednjih rakov: rak debelega črevesa ali danke, rak materničnega vratu ali rak želodca?. V16. Koliko obrokov v povprečju zaužijete na dan?. 0,03. V17. Ali zajtrkujete?. 0,03. V18. Koliko enot zelenjave v povprečju zaužijete na dan 0,03 (1 enota = približno 100 g)?. 17.

(27) V19. Koliko enot sadja v povprečju zaužijete na dan (1 0,03 enota = približno 100 g)?. V20. Koliko kozarcev mleka/ mlečnih izdelkov po 2 dcl v 0,04 povprečju spijete na dan? Ena enota predstavlja približno 2 dcl mleka/2 dcl jogurta/2 dcl kislega mleka/2 dcl sojinega mleka.. V21. Koliko enot mlečnih živil v povprečju zaužijete v 0,41 enem dnevu? Primeri enot: 1 rezina sira, 3 žlice skute, 1 kos topljenega sira, 1 kos sojinih izdelkov.. V22. Kakšno mleko najpogosteje pijete?. 0,38. V23. Katere mlečne izdelke najpogosteje uživate?. 0,42. V24. Kakšne vrste kruha, žit in žitnih izdelkov v 0,41 povprečju najpogosteje uživate?. V25. Kako pogosto uživate rdeče meso (govedina, 0,41 svinjina, ovčetina, konjsko meso, divjačina; 100 g)?. V26. Kako pogosto uživate mesne izdelke (salame, mesne 0,33 paštete, klobase, hrenovke, safalete; 50–80 g)?. V27. Kako pogosto uživate perutnino (piščančje ali 0,41 perutninsko meso)?. V28. Kako pogosto uživate jajca kot samostojno jed?. 0,40. V29. Kako pogosto uživate morske ribe?. 0,41. V30. Ali navadno dodatno solite jedi pri mizi?. 0,03. V31. Katere vrste maščob najpogosteje uporabljate pri 0,30 kuhi?. V32. Katere vrste maščob najpogosteje uporabljate za 0,39 namaz; v količini 10–15 g?. 18.

(28) V33. Kako pogosto uživate ocvrte jedi (pomfrit, ocvrto 0,41 meso, ocvirki ...)?. V34. Kako pogosto uživate aromatizirane gazirane in 0,41 negazirane brezalkoholne pijače (kole, ledeni čaj, sadni napitki, vode z okusom ipd.)?. V35. Kako pogosto uživate sendviče, hot dog, pizzo, 0,41 burek?. V36. Kako pogosto uživate gotove jedi iz pločevinke, juhe 0,42 iz koncentratov ipd.?. V37. Kako pogosto uživate pecivo, sladice, slaščice?. 0,41. V38. Kako pogosto uživate bonbone, čokolado?. 0,41. V39. Kako pogosto uživate pravi čaj (1 skodelica)?. 0,41. V40. Kako pogosto uživate kavo (1 skodelica)?. 0,41. V41. Kako pogosto uživate 100 % sadne sokove (2 dcl)?. 0,41. V42. Koliko vode običajno popijete na dan?. 0,41. V43. Kolikokrat se v običajnem tednu (med delovnim 0,01 časom, na poti v službo ali po opravkih in nazaj, doma ter v prostem času skupaj) ukvarjate z intenzivno telesno dejavnostjo najmanj 25 min, vsakokrat do take mere, da se zadihate in oznojite (npr. tek, hitro plavanje, hoja po stopnicah, tenis, nogomet, hitro kolesarjenje, aerobika, prenašanje težkih bremen in druga težka fizična dela (gozdarska, cestna, gradbena, kmečka))?. V44. Kolikokrat se v običajnem tednu (med delovnim 0,06 časom, na poti v službo ali po opravkih in nazaj, doma ter v prostem času skupaj) ukvarjate z zmarno telesno dejavnostjo najmanj 30 minut, vsakokrat do. 19.

(29) take mere, da nekoliko pospešeno dihate in se ogrejete (lahko upoštevate tudi trikrat po vsaj 10 minut ali dvakrat po 15 minut, če je bilo to v istem dnevu) (npr. hitra hoja, lahkotno kolesarjenje, ples, golf,. lahkoten. tenis,. težja. industrijska. ali. gospodinjska opravila)? V45. Ali kadite?. 0,01. V46. Če ste pri prejšnjem vprašanju odgovorili z DA, 0,78 označite, koliko cigaret na dan pokadite.. V47. Kako pogosto ste v zadnjih 12. mesecih pili pijače, 0,02 ki vsebujejo alkohol (pivo, vino, žgane pijače, likerji, koktejli, mošt, tolkovec, medica)?. V48. Koliko meric pijače, ki vsebuje alkohol, ste v zadnjih 0,03 12. mesecih običajno popili takrat, kadar ste pili? (1 merica je 1 dcl vina, 2,5 dcl piva oz. tolkovca ali 0,03 dcl (»eno šilce«) zgane pijače).. V49. Kako pogosto se je v zadnjih 12. mesecih zgodilo, da 0,03 ste popili – MOŠKI 6 ali več meric, ŽENSKE 4 ali več meric ob eni priložnosti?. V50. Kako pogosto se vam je preteklem letu zgodilo, da 0,42 potem, ko ste enkrat začeli piti, niste mogli prenehati s pitjem?. V51. Kako pogosto se vam je v preteklem letu zgodilo, da 0,42 ste potrebovali alkoholno pijačo že zjutraj, da bi si z njo opomogli po prekomernem pitju prejšnjega dne?. V52. Kako pogosto se vam je v preteklem letu zgodilo, da 0,42 zaradi pitja niste mogli opraviti tistega, kar se je od vas pričakovalo?. 20.

(30) V53. Kako pogosto se vam je v preteklem letu zgodilo, da 0,42 vas je po pitju pekla vest ali pa ste imeli občutek krivde zaradi pitja?. V54. Kako pogosto v preteklem letu se niste mogli 0,42 spomniti, kaj se je zgodilo prejšnji večer, ker ste takrat preveč pili?. V55. Ali je bil zaradi vašega pitja kdo telesno poškodovan 0,41 (vi sami ali kdo drug)?. V56. Ali je kakšen vaš sorodnik, prijatelj, zdravnik ali 0,41 drug zdravstveni delavec že pokazal zaskrbljenost zaradi vašega pitja ali vam morda predlagal, da bi pili manj?. V57. Kako pogosto se počutite napete, pod stresom ali 0,04 velikim pritiskom?. V58. Kako obvladujete napetosti, strese in pritiske, ki jih 0,04 doživljate v življenju? Kako pogosto so vas v preteklih dveh tednih mučile naslednje težave?. V59. Malo interesa in zadovoljstva v stvareh, ki jih 0,03 počnem.. V60. Potrtost, depresivnost, obup.. 0,03. V61. Težko spim, spim slabo ali prekomerno.. 0,07. V62. Utrujenost in pomanjkanje energije.. 0,07. V63. Slab apetit ali prenajedanje.. 0,07. V64. Slabo mnenje o sebi, občutek, da sem neuspešen/a in 0,08 sem razočaral/a sebe ali bližnje.. V65. Težave s koncentracijo pri stvareh, kot so branje 0,07 časopisa ali gledanje televizije.. 21.

(31) V66. Tako upočasnjeno gibanje ali govor, da so ljudje 0,07 lahko to opazili, ali nasprotno – velika nervoza ali nemir – kot da nimam obstanka.. V67. Misli o tem, da bi bilo bolje, če bi bil mrtev, ali da bi 0,07 si nekaj hudega naredil.. V68. Če ste označili katerokoli od težav navedenih zgoraj, 0,19 kako močno so te težave vplivale na vaše delo, skrb za stvari doma in odnose z ljudmi?. V69. Prosimo, navedite vašo zaključeno stopnjo izobrazbe 0,14 (izberite le en odgovor).. V70. Kakšen je vaš trenutni zaposlitveni status (izberite le 0,06 en odgovor)?. V71. Kako vi (oz. vaše gospodinjstvo) shajate skozi 0,06 mesec, če upoštevate dohodek, če ga imate, tisto, kar ustvarite z lastnim delom (npr. manjša honorarna dela, vrtnarjenje), pa tudi medsebojno pomoč med sorodniki/sosedi/prijatelji (izberite en odgovor)?. Starost. Starost v letih. 0,00. ITM. Indeks telesne mase (kg/m2). 0,00. Populacija. s Razred (mejna vrednost krvnega sladkorja 6,1 0,00. povečanim. mmol/l). Predstavljajo osebe s preddiabetesom in. tveganjem. nediagnosticiranim diabetesom.. Diabetes. Razred (mejna vrednost krvnega sladkorja 6,9 0,00 mmol/l). Predstavljajo osebe z nediagnosticiranim diabetesom.. V bazi imamo 13 numeričnih spremenljivk (letnica rojstva, telesna teža, telesna višina, obseg pasu, krvni sladkor, LDL holesterol, HDL holesterol, trigliceridi, skupni holesterol, sistolični in diastolični tlak, starost in ITM) in 72 kategoričnih spremenljivk. 22.

(32) brez razredov (spol in spremenljivke V1–V71). Spremenljivki »Populacija s povečanim tveganjem« in »diabetes« predstavljata binarni odločitveni razred, kjer 0 pomeni negativne primerke oz. zdrave osebe in 1 pomeni pozitivne primerke oz. osebe s povečanim tveganjem ali osebe z nediagnostiranim diabetesom.. 4.2.3 Postopki zbiranja podatkov Podatki so bili zbrani v dveh zdravstvenih ustanovah (referenčne ambulante) v severovzhodnem (SV) delu Slovenije, v sklopu projekta PKP2 – »Optimizacija ocene tveganja za nastanek sladkorne bolezni tipa 2 (OptimiST2)«. Anketirani so bili posamezniki brez diagnosticirane sladkorne bolezni oz. zdravi ljudje (Lončarič, Silovšek, Pajnkihar, Mlinar Reljić, Kegl, Štiglic et al., 2015).. 23.

(33) 5. REZULTATI. Napovedna modela za razred populacija s povečanim tveganjem ali razred tveganje (model 1) in razred nediagnostiran diabetes ali razred diabetes (model 2) smo zgradili na bazi podatkov, zbrani v SV predelu Slovenije. Anketirani so bili samo zdravi ljudje. Graf 1: Porazdelitev primerkov odločitvenega razreda za osebe s tveganjem in nediagnosticiranim diabetesom. Graf 1 predstavlja porazdelitev primerkov odločitvenih razredov po prečiščenju baze podatkov. V razredu tveganje imamo 493 (88 %) zdravih oseb in 67 (12 %) oseb s povečanim tveganjem za nastanek sladkorne bolezni tipa 2. V razredu diabetes imamo 546 (97,5 %) zdravih oseb in 14 (2,5 %) oseb z diabetesom. V razredu tveganje smo označili kot pozitivne primerke vse tiste osebe, ki so imele spremenljivko krvni sladkor večjo od 6,1 mmol/l. V razredu diabetes smo kot pozitivne primerke označili vse osebe s krvnim sladkorjem večjim od 6,9 mmol/l. Mejni vrednosti predstavljata laboratorijski standard za potrditev diagnoze sladkorne bolezni v Sloveniji.. 24.

(34) Graf 2: Primerjava AUC, točnosti in F-mere modela 1. Graf 3: Primerjava AUC, točnosti in F-mere modela 2. 25.

(35) Model 1 smo zgradili s pomočjo 2 vgnezdenih »for« zank, kjer smo 10-kratno navzkrižno validacijo ponovili 10-krat. Vrednosti uporabljenih klasifikacijskih metrik predstavljajo povprečje 10 ponovitev povprečja 10-kratne navzkrižne validacije. V nadaljevanju bomo za lažjo razumevanje uporabili izraze povprečni AUC, povprečna točnost in povprečna F-mera. V primeru modela 2 smo uporabili tri vgnezdene »for« zanke. zaradi. narave. algoritma. »EasyEnsemble«. in. izračunali. povprečje. klasifikacijskih metrik. Grafa 2 in 3 predstavljata primerjavo med povprečnim AUC, povprečno točnostjo in povprečno F-mero modelov 1 in 2 za bazo z vsemi spremenljivkami in bazo s spremenljivkami, ki so imele manj kot 10 % manjkajočih vrednosti. Iz grafa 2 razberemo povečanje v vseh treh metrikah modela 1, in sicer smo povprečni AUC povečali iz 0,845 na 0,857, povprečno točnost iz 0,846 na 0,858 in F-mero iz 0,814 na 0,836. Poleg povečanja izbranih metrik smo pridobili tudi na hitrosti računanja, saj smo model lahko naučili na manjših dimenzijah baze podatkov. Iz grafa 3 vidimo, da zmanjšanje števila spremenljivk v modelu 2 zmanjša vrednosti metrik klasifikacije, zato je bilo potrebno model zgraditi ponovno, na celotni bazi podatkov. Klasifikacijske metrike smo zmanjšali za 0,039 v primeru povprečnega AUC in povprečne točnosti ter za 0,014 v primeru povprečne F-mere.. 26.

(36) Graf 4: Primerjava klasifikacijskih metrik z uravnoteženim in brez uravnoteženja odločitvenega razreda za model 1. Graf 5: Primerjava klasifikacijskih metrik z uravnoteženim in brez uravnoteženja odločitvenega razreda za model 2. 27.

(37) Grafa 4 in 5 prikazujeta rezultate metrik na neuravnoteženem in uravnoteženem vzorcu za model 1 in model 2. Iz grafa 4 je razvidno, da z uravnoteženjem odločitvenega razreda modela 1 povprečni AUC povečamo iz 0,594 na neuravnoteženem razredu na 0,857 z uravnoženim razredom. Povprečno točnost smo povečali iz 0,844 na 0,858 in F-mero iz 0,282 na 0,836. Iz grafa 5 vidimo, da z uravnoteženjem odločitvenega razreda modela 2 povprečni AUC povečamo iz 0,500 na 0,715. Povprečno točnost smo zmanjšali iz 0,975 na 0,715 in F-mero povečali iz 0,000 na 0,618.. 28.

(38) Graf 6: Površina pod krivuljo v odvisnosti od števila dreves za populacijo s povečanim tveganjem. Graf 6 predstavlja vrednosti povprečne AUC z naraščajočim številom dreves. Razred tveganje je predstavljal osnovni model. Model 1 smo najprej testirali na intervalu od [1, 1100] dreves s korakom po 100 dreves za globine 5, 10 in 15. Ugotovili smo, da se AUC bistveno ne spreminja od 100 dreves naprej. Najboljši rezultati so bili doseženi pri globini dreves 5, zato smo testiranje parametrov modela 1 zožili na interval [1, 150] s korakom 10 in globinami 3, 4, 5, 6 in 7. Model smo naučili na spremenljivkah, ki so imele manj kot 10 % delež manjkajočih vrednosti. Iz grafa 6 razberemo, da najboljše rezultate modela 1 dobimo pri naslednjih parametrih: •. število dreves v ansamblu je enako 70 in. •. globina drevesa 6.. Iz grafa 4 je razvidno, da je varianca z naraščajočo globino in številom dreves konstantna oz. ni velika.. 29.

(39) Tabela 4: Klasifikacijske metrike za najboljša parametra modela 1 Mera (povprečje). Vrednost. AUC. 0,857. Točnost. 0,858. F-mera. 0,836. Za prikaz uspešnosti klasifikatorja smo izbrali tri metrike uspešnosti: AUC, točnost in F-mero. Za najboljša parametra, globina drevesa 6 in število dreves v ansamblu 70, smo dobili povprečno točnost klasifikacije 0,858, povprečni AUC 0,857 in povprečno F-mero 0,836. Za izračun F-mere smo morali dodati parametra »average = binary« in »pos_label = 1«. S prvim parametrom smo označili odločitveni razred kot binaren, z drugim pa, da pozitivne primerke predstavljajo vrednosti 1, za katere nas zanima klasifikacijska uspešnost modela.. 30.

(40) Graf 7: Relativni prispevek spremenljivke za model 1. Graf 7 prikazuje relativni prispevek 10 najvišje rangiranih spremenljivk. Spremenljivke z največjim vplivom na odločitve modela 1 so tako: •. V4 (izmerjena povišana koncentracija sladkorja v preteklosti),. •. ITM,. •. V47 (pogostost pitja alkohola v zadnjih 12. mesecih),. •. telesna teža,. •. starost,. •. V48 (količina popitega alkohola ob pitju v zadnjih 12. mesecih),. •. V2 (telesna aktivnost vsaj 30 minut dnevno),. •. obseg pasu,. •. V44 (zmerna telesna aktivnost),. •. V57 (kako pogosto se počutite napete, pod stresom ali velikim pritiskom).. Od izbranih 10 najvišje rangiranih spremenljivk jih 5 spada v skupino FINDRISK (V2, V4, starost, ITM, obseg pasu), preostalih 5 spremenljivk spada v skupine klinični podatek (telesna teža), telesna dejavnost (V44), pivski status (V47, V48) in doživljanje stresa (V57). 31.

(41) Graf 8: »Receiver operating characteristic (ROC)« krivulja modela 1. Na grafu 8 vidimo 6 krivulj, ki predstavljajo povprečni AUC za interval [5, 10] najbolje rangiranih spremenljivk modela 1. Največjo površino pod krivuljo modela 1 predstavlja najboljših 10 spremenljivk oz. rumena krivulja. Vrednost povprečnega AUC je 0,828, sledijo najboljših 7 (0,824), 6 (0,823), 9 (0,821), 8 (0,817) in 5 (0,797). Povprečni AUC spremenljivk se razlikuje samo na 3. decimalnem mestu. Od najbolje rangiranih spremenljivk samo najboljših 5 ni preseglo meje 0,800 povprečnega AUC. Za gradnjo končnega modela 1 smo izbrali 6 najbolje rangiranih spremenljivk, saj na grafu 8 opazimo, da rdeča krivulja doseže najvišjo točko in s tem najboljše razmerje med senzitivnostjo in 1 – specifičnostjo.. 32.

(42) Graf 9: Površina pod krivuljo v odvisnosti od števila dreves za nediagnosticiran diabetes. Graf 9 predstavlja enako kot Graf 4, vendar za model 2. Ta model smo v prvi fazi testiranja testirali na enakih parametrih kot model 1, razlikovali so se samo vhodni parametri (celotna baza) in porazdelitev odločitvenega razreda (razred diabetes). Ugotovili smo, da so vrednosti povprečne AUC med 200 in 300 drevesi v ansamblu na globini 10 najvišje. Model 2 smo zato testirali na intervalu [1, 300] s korakom po 20 na globinah 10, 13, 15. Globine smo izbrali naključno in samo tri, zaradi računske zahtevnosti testiranja parametrov. Iz grafa 9 je razvidna višja stopnja variance v primerjavi z grafom 4. Najboljša parametra modela 2 sta: •. 220 dreves v ansamblu in. •. globina drevesa 13.. 33.

(43) Tabela 5: Klasifikacijske metrike za najboljša parametra modela 2 Mera (povprečje). Vrednost. AUC. 0,715. Točnost. 0,715. F-mera. 0,618. Grafu 9 za izbrana najboljša parametra pripadajo metrike v tabeli 5. Za 220 dreves v ansamblu in globino 13 smo dobili povprečni AUC in točnost enako 0,715 ter povprečno F-mero 0,618.. 34.

(44) Graf 10: Relativni prispevek spremenljivke za model 2. V ranžirni vrsti spremenljivk z največjim prispevkom imamo: •. sistolični tlak,. •. diastolični tlak,. •. ITM,. •. telesna teža,. •. obseg pasu,. •. LDL,. •. V4,. •. starost,. •. telesna višina,. •. HDL.. Spremenljivke padejo v dve skupini, in sicer na FINDRISK (V4, starost, obseg pasu, ITM) in klinične podatke (vse ostale). Opazimo tudi, da so vse spremenljivke, razen V4, ki je kategoričnega, numeričnega tipa.. 35.

(45) Graf 11: »Receiver operating characteristic (ROC)« krivulja modela 2. Graf 11 predstavlja enako kot graf 8 modela 1. Krivulje so bolj ostre v primerjavi z grafom 8. Število spremenljivk v modelu 2, ki nam da največjo površino pod krivuljo, je 7 oz. zelena krivulja. V primerjavi z vrednostmi povprečne AUC v tabeli 5 smo povprečni AUC pri zmanjšanem številu spremenljivk v ansamblu povečali iz 0,715 na 0,749. Število spremenljivk, ki sledi najboljši izbiri po povprečni AUC vrednosti, je najboljših 8 (AUC 0,733), 9 in 10 (0,723), 6 (0,705) in 5 (0,700). Enako kot v modelu 1 je najslabši povprečni AUC pripadel najboljšim 5 spremenljivkam. Vrednosti se razlikujejo na 2. decimalnem mestu in tako lažje določimo najboljšo vrednost v primerjavi z grafom 8.. 36.

(46) Graf 12: Primerjava klasifikacijskih metrik za končna modela. Graf 12 predstavlja primerjavo metrik uspešnosti klasifikatorja za najboljša modela 1 in 2. Na podlagi rezultatov, prikazanih z grafi 7 in 8 ter 10 in 11, smo naučili končna modela. Model 1 smo naučili s 6 najbolje rangiranih spremenljivk, model 2 pa na 7 najboljših spremenljivk. V model 1 smo vključili spremenljivke: V4, ITM, V47, telesna teža, starost in V48, v model 2 pa v končni model nismo vključili spremenljivk: starost, telesna višina in HDL holesterol. Iz grafa je razviden večji standardni odklon od povprečne vrednosti v modelu 2, v primerjavi z modelom 1.. 37.

(47) Tabela 6: Klasifikacijske metrike za končna modela 1 in 2 Model. Primerki s povečanim tveganjem. Mera (povprečje). Vrednost. AUC. 0,823 ± 0,008. Točnost. 0,824 ± 0,008. F-mera. 0,804 ± 0,012. AUC. 0,749 ± 0,022. Nediagnosticiran diabetes Točnost. 0,749 ± 0,022. F-mera. 0,654 ± 0,025. Tabela 6 predstavlja povprečne vrednosti klasifikacijskih metrik s pripadajočim standardnim odklonom (SD) za končna modela 1 in 2. Vrednosti SD modela 1 so manjše od vrednosti v modelu 2, kar kaže na manjšo variabilnost napovedne uspešnosti modela 1. V obeh modelih je največji SD v F-meri.. 38.

(48) Graf 13: Porazdelitev vrednosti AUC za 100 ansambelskih modelov. Graf 14: Okvir z ročaji za vrednosti povprečne AUC z in brez skrajnih vrednosti. 39.

(49) Graf 13 predstavlja porazdelitev 100 vrednosti povprečne AUC. Povprečno AUC smo dobili z učenjem modela 1. Izračunali smo vrednosti za število dreves v ansamblu za interval [5, 500] s korakom po 5. Dobili smo 100 vrednosti povprečne AUC, od katerih so vrednosti števila dreves 5 (AUC 0,808), 10 (0,813), 15 (0,831), 20 (0,833), 35 (0,835) in 40 (0,832) kazale nato, da predstavljajo skrajne vrednosti (graf 14). V podatkih nimamo skrajnih vrednosti, saj smo pri nižjem številu dreves v ansamblu pričakovali slabšo napovedno uspešnost. Zaradi normalne porazdelitve podatkov smo korelacijo med povprečnim AUC in številom dreves v ansamblu testirali s Pearsonovim korelacijskim testom.. 40.

(50) Graf 15: Korelacija med številom dreves in AUC. Korelacijo smo prikazali s pomočjo razsevnega grafikona na grafu 15. Med povprečnim AUC in številom dreves ni linearne povezave. Pearsonov koeficient korelacije je 0,371, kar pomeni šibko povezanost med spremenljivkama. Podatki so statistično značilni (p = 0,00015).. 41.

(51) 6. INTERPRETACIJA IN RAZPRAVA. Diabetes mellitus ali diabetes tipa 2 je najpogostejši tip sladkorne bolezni. 95 % bolnikov s sladkorno boleznijo ima tip 2. Na razvoj bolezni vplivata življenjski slog in genetska preddispozicija. Bolezen spremljajo sekundarni zapleti z okvarami srca in ožilja, odpovedjo ledvic, slepoto in težavami z udi. Z zgodnjim odkritjem nediagnosticirane sladkorne bolezni, kot tudi preddiabetesa, zmanjšamo nastanek sekundarnih zapletov in znižamo stroške zdravljenja ali, v primeru preddiabetesa, preiskovanca osvestimo o zdravem, pravilnem načinu življenjskega sloga in s tem preprečimo nastanek bolezni. V večini primerov bolezen odkrijemo v poznih fazah, ki zahtevajo zdravljenje z zdravili. Bolezen predstavlja veliko ekonomsko breme za družbo, ne samo iz vidika zdravstva, saj sladkorna bolezen poslabša kvaliteto življenja in storilnost posameznika. Odkrivanje bolezni v zgodnji fazi razvoja je zato zelo pomembno (Jahani & Mahdavi, 2016). V raziskavi je sodelovalo 736 zdravih oseb, ki predstavljajo delovno populacijo iz SV Slovenije. Skupino posameznikov z visokim tveganjem so predstavljali preddiabetiki in posamezniki z nediagnosticirano sladkorno boleznijo tipa 2. Po prečiščenju baze podatkov smo na grafu 1 prikazali, da 67 oseb predstavlja skupino z visokim tveganjem, od katerih je 14 takih z neodkrito sladkorno boleznijo. V študiji Khalilia et al. (2011) so pokazali, da ansambelski model »Random Forest« s pomočjo metod uravnoteženja razreda doseže višje vrednosti klasifikacijskih metrik in s tem splošno napovedno uspešnost klasifikacije. Primerjali so 8 kroničnih bolezni, med njimi tudi diabetes z zapleti in brez njih, in 4 modele strojnega učenja. V primeru sladkorne bolezni brez zapletov so z uravnoteženjem razreda (ni podatka o deležu pozitivnih primerkov) zvišali vrednost povprečnega AUC iz 0,8567 na 0,8791, za sladkorno bolezen z zapleti (4,7 % pozitivnih primerkov) pa iz 0,9084 na 0,9432. »Random Forest« klasifikator se je najbolje izkazal na 7 izmed 8 modelov, vključujoč modela za sladkorno bolezen. Skupna točka študij je dokaz, da z uravnoženjem odločitvenega razreda zvišamo AUC. Obe študiji uporabljata enak klasifikacijski model. V naši študiji so primerljivi rezultati populacije s povečanim tveganjem, kjer smo z uravnoženjem razreda dosegli povprečni AUC 0,823 za izbranih 6 spremenljivk z največjim vplivom na odločitveni razred, kar je bilo najbližje rezultatom sladkorne 42.

(52) bolezni brez zapletov. Na grafih 4 in 5 smo pokazali, da z uravnoteženjem razredov zvišamo povprečni AUC. V modelu 1 smo povprečni AUC zvišali za 0,263, točnost za 0,014 in F-mero za 0,554. V modelu 2 smo povprečni AUC zvišali za 0,215, točnost znižali za 0,260 in F-mero za 0,618. Rezultati modela 1 so boljši od rezultatov modela 2, kar lahko pripišemo večji neuravnoteženosti podatkov v modelu 2 in s tem zahtevnejšim učenjem modela. Z uravnoteženjem odločitvenega razreda smo s pomočjo metrike F-mere pokazali, da se uspešnost klasifikacije pozitivnih primerkov poveča. Na grafu 5 vidimo, da klasifikator na neuravnoteženem razredu nobenega pozitivnega primerka ne klasificira pravilno (F-mera = 0,000). Točnost klasifikacije je bila kar 0,975, kar je lep primer »over-fittinga« modela za večinski razred. Z uravnoteženjem odločitvenega razreda modela 2 smo povečali uspešnost klasifikacije pozitivnih primerkov in tako odpravili »over-fitting« (točnost modela smo znižali iz 0,975 na 0,715). Študiji pa se razlikujeta v kar nekaj točkah, ki so povzete v tabeli 6. Tabela 7: Primerjava študij Vidik. Khalilia et al. (2011). Velikost baze podatkov. 8 milijonov. Nabor spremenljivk. Specifičen kronično. Naša študija 736. za. vsako 85. bolezen. (18. spremenljivk iz nabora 262 spremenljivk) Manjkajoče vrednosti. Ni podatka. Nadomeščanje. s. povprečjem in mediano Programsko okolje. R. Python. Napovedni spremenljivki. Diabetes brez zapletov. Populacija. Diabetes z zapleti. tveganjem. z. visokim. Nediagnosticiran diabetes. Študija Khalilia et al. (2011) ima reprezentativnejši vzorec od naše študije, saj je bilo v bazi podatkov zajetih 90 % bolnišnic v Združenih državah Amerike. Model učijo na. 43.

(53) bolj specifičnem naboru spremenljivk, medtem ko smo mi učili na večjem naboru spremenljivk in iskali tiste z največjim prispevkom k napovedni uspešnosti. Ne poročajo o manjkajočih vrednostih, zato teh parametrov ne moremo primerjati. Programsko okolje R je dlje v uporabi in bolj standardizirano (več programskih knjižnic) na področju strojnega učenja kot Python. Prednost Pythona je bolj vsestranska uporaba, enostavnost sintakse, hkrati pa je primernejša za izdelavo spletne aplikacije kot R. Vsekakor na izbiro programskega okolja vplivajo tudi vrsta, namen in cilji raziskovalnega dela. Tako smo odgovorili na raziskovalno vprašanje 1, ki sprašuje, ali je Python primerno orodje za implemetacijo spletnega napovednega modela. V ameriški bazi odločitveni razred vsebuje diabetike in zdrave ljudi, mi pa smo iskali osebe z visokim tveganjem, ki so predstavljale osebe s preddiabetesom in nediagnosticiranim diabetesom v populaciji zdravih ljudi. Collins et al. (2011) so v meta analizi primerjali napovedne modele za napoved sladkorne bolezni tipa 2, objavljene do leta 2011. S sistematičnim iskanjem po bazah PubMed in EMBASE so odkrili 39 člankov, ki opisujejo 43 napovednih modelov. V meta analizi so primerjali število spremenljivk, velikost vzorca, obdelavo kategoričnih napovednih spremenljivk in manjkajočih vrednosti, gradnjo, validacijo, predstavitev in uspešnost modela ali modelov. Pokazali so, da najpogosteje v končnem modelu nastopajo spremenljivke: •. starost,. •. družinska anamneza sladkorne bolezni,. •. ITM,. •. krvni tlak,. •. obseg pasu in. •. spol.. Druge spremenljivke z nižjim odstotkom uporabe so bile: rasa, koncentracija glukoze v krvi, kadilski status in fizična aktivnost. V 21 % študij so uporabili manj kot 10 spremenljivk za napoved vrednosti odločitvenega razreda. Na grafih 7 in 11 smo predstavili najboljšo izbiro spremenljivk klasifikatorja za model 1 in model 2. V modelu 1 prevladujejo kategorične spremenljivke (od 6 od 10), v modelu 2 pa numerične spremenljivke (od 9 od 10). Skupne spremenljivke obeh. 44.

(54) modelov predstavljajo: starost, telesna teža, obseg pasu, ITM in V4. Štiri od petih skupnih spremenljivk so bile tudi najpogosteje izbrane v končni model na podlagi meta analize Collins et al. (2011). V obeh modelih smo dobili najboljše klasifikacijske metrike za število spremenljivk, ki je manjše od trenutno uporabljenih 8 spremenljivk v FINDRISK vprašalniku. V modelu 1 imamo boljši izbor spremenljivk, saj si lahko uporabnik sam izmeri vse parametre, medtem ko si v modelu 2 uporabnik običajno ne more izmeriti koncentracije HDL in LDL holesterola. Neizmerljivi podatki s strani uporabnika predstavljajo težavo pri vgradnji modela v spletno aplikacijo. Za hiter presejalni test populacije potrebujemo spremenljivke, katerih vrednosti so lahko merljive s strani uporabnika in tako tudi poenostavimo uporabo spletne aplikacije. Naiarun, & Moungmai (2015) sta pokazala vgradnjo »Random Forest« modela v spletno aplikacijo s pomočjo 11 statistično značilnih spremenljivk v povezavi z diabetesom. Izmed 11 spremenljivk so uporabili 6 numeričnih (ITM, starost, telesna teža, obseg pasu, sistolični in diastolični tlak) in 5 kategoričnih spremenljivk (družinska anamneza za diabetes in visok krvni tlak, uživanje alkohola, kajenje in spol). Slika 1: Spletna aplikacija. VIR: Nai-arun et al. (2015) Študija Štiglic et al. (2016) je pokazala razliko v dovzetnosti za sladkorno bolezen med moškimi in ženskami na podlagi FINDRISK vrednosti, zato smo pričakovali, da bo spol med 10 najvplivnejšimi spremenljivkami. V nobenem modelu se spol ni uvrstil med 10 najvišje rangiranih spremenljivk.. 45.

(55) Kandhasamy, & Balamurali (2015) sta primerjala 4 modele strojnega učenja (J48 odločitvena drevesa, metodo podpornih vektorjev, K-najbližjih sosedov in Random Forest) za napoved sladkorne bolezni tipa 2 na prečiščenih in neprečiščenih podatkih ter 18 napovednih spremenljivkah. Na neprečiščenih podatkih je Random Forest zasedel zadnje mesto v klasifikacijski uspešnosti (točnost = 0,7174) in prvo mesto na prečiščeni bazi podatkov (točnost = 1,0000). Perveen, Shahbaz, Guergachi, & Keshavjee (2016) so primerjali klasifikacijsko uspešnost ansambelskih odločitvenih dreves (»adaboost« in »bagging«) s samostojnimi odločitvenimi drevesi na bazi podatkov z 8 spremenljivkami in 1 odločitvenim razredom. V ansamblu in samostojno so uporabili J48 odločitvena drevesa. Dokazali so, da so ansambelska odločitvena drevesa uspešnejša od samostojnih dreves v klasifikacijski uspešnosti. Nai-arun et al. (2015) so primerjali 13 modelov strojnega učenja za napoved diabetes mellitus. Osnovne modele so predstavljali odločitvena drevesa, nevronske mreže, logistična regresija in naivni Bayes. Za vsak osnovni model so izvedli še »Bagging« in »Boosting«. Rezultate so primerjali z Random Forestom. Od vseh modelov je Random Forest dosegel najvišje vrednosti v metrikah AUC (0,912) in točnost (0,855) ter se tako izkazal za najboljši ansambelski model za napovedovanje sladkorne bolezni tipa 2. V model so vključili 11 statistično značilnih spremenljivk v povezavi z diabetesom. S pomočjo znanstvene literature smo pokazali pravilno izbiro klasifikacijskega modela, saj v vseh primerih ansambelska metoda Random Forest poda najvišje vrednosti metrik AUC in točnost. Model 1 s 6 spremenljivkami je dosegel 82,3 % AUC, 82,4 % točnost in 80,4 % F-mero. Model 2 s 7 spremenljivkami je dosegel 74,9 % AUC in točnost ter 65,4 % F-mero. Splošno smo zadovoljni z napovedno uspešnostjo obeh modelov. Rezultate AUC in izbire spremenljivk modela 1 lahko primerjamo z rezultati študije Yu, Liu, Valdez, Gwinn, & Khoury (2010). V študiji so uporabili metodo podpornih vektorjev. V modelu so napovedovali odločitveni razred s pomočjo 10 spremenljivk (družinska anamneza sladkorne bolezni, starost, rasa, telesna teža in višina, obseg pasu, ITM, hipertenzija, spol in telesna aktivnost) z najvišjim vplivom na odločitveni razred. Pozitivne primerke so predstavljale osebe z nediagnostirano sladkorno. 46.

(56) boleznijo in preddiabetesom. Izbira spremenljivk se ujema v štirih spremenljivkah od desetih, in sicer se ujemajo: starost, ITM, obseg pasu, telesna teža. V študiji so s pomočjo 10-kratne navkrižne validacije dosegli AUC 0,7357, kar je nižja vrednost v primerjavi z našo, ki je 0,823. Rezultate AUC, točnosti in izbiro spremenljivk modela 2 lahko primerjamo z rezultati študije Choi, Kim, Yoo, Park, Chung, Lee, & Kim (2014). V študiji so uporabili 12 napovednih spremenljivk (starost, spol, družinska anamneza diabetes, kadilski status, dnevna količina zaužitega alkohola, fizična aktivnost, ITM, obseg pasu, povišan krvni sladkor, sistolični in diastolični krvni tlak in hipertenzija). V primerjavi z našim končnim modelom so uporabili pet spremenljivk več. Od naših sedmih izbranih spremenljivk se kar štiri ujemajo s spremenljivkami v študiji, in sicer: diastolični in sistolični krvni sladkor, V4, ITM in obseg pasu. V študiji so s pomočjo točkovnega presejalnega testa dosegli AUC 0,751 in točnost 0,646. Če primerjamo s končnim rezultatom modela 2, ugotovimo, da so dosegli višji rezultat AUC (0,749) metrike in nižji rezultat točnosti (0,749). Hipotezo 1 smo testirali s pomočjo Pearsonovega korelacijskega testa. Grafa 13 in 14 prikazujeta porazdelitev povprečne AUC in okvir z ročaji za vrednosti povprečne AUC. Podatki so normalno porazdeljeni. S pomočjo korelacijskega testa in razsevnega diagrama trdimo, da je statistična povezava med vrednostjo povprečne AUC in številom dreves ter tako potrdimo hipotezo 1, ki trdi, da napovedna uspešnost klasifikatorja Random Forest ne korelira s številom uporabljenih odločitvenih dreves (p = 0,00015). Pearsonov koeficient korelacije (0,371) kaže na šibko povezanost. Dodamo lahko, da pri višjih vrednostih odločitvenih dreves v ansamblu hipoteza 1 ne velja več in je tako odvisna od intervala testiranja.. 47.

(57) 7. SKLEP. Metode strojnega učenja so vse bolj prisotne v zdravstvenem sistemu. Omogočajo, da iz velike količine zbranih kliničnih podatkov pridobimo koristno znanje o tarčni populaciji ali bolezni in s tem zmanjšamo čas postavitve diagnoze ter stroške zdravljenja. Tako pomembno vplivamo na kvaliteto življenja posameznika. Z razvojem svetovnega spleta in vsesplošne uporabe pametnih elektronskih naprav, predvsem prenosnih telefonov in tabličnih računalnikov, se je pojavila povečana potreba po vgradnji napovednih modelov za diagnosticiranje kroničnih bolezni v obliki spletnih in mobilnih aplikacij. S tem bi nadomestili dosedanje papirnate presejalne teste, ki so se izvajajo v zdravstvenih ustanovah in omogočili uporabo širši javnosti. Obenem bi poenostavljen elektronski sistem omogočil hitrejše pridobivanje rezultatov, lažjo uporabo in zmanjšal stroške uporabe papirja. »Random Forest« predstavlja najbolj uporabljen model za napovedovanje kroničnih bolezni z visoko stopnjo pravilno uvrščenih primerkov. Primeren je tudi za vgradnjo v obliki spletne aplikacije. V splošnem smo zadovoljni z izbiro spremenljivk modela, saj je večina izbranih spremenljivk predstavljala spremenljivke, ki se omenjajo v znanstveni literaturi v povezavi s sladkorno boleznijo. Pokazali smo tudi vpliv neuravnoteženosti podatkov na klasifikacijsko natančnost. Z uporabo metod uravnoteženja odločitvenega razreda povečamo klasifikacijsko uspešnost modela. Iz primerjave klasifikacijskih metrik modela 1 in 2 smo ugotovili, da je baza podatkov primernejša za napoved populacije s povečanim tveganjem za nastanek bolezni, saj so bile vse 3 uporabljene metrike višje od metrik modela 2. Hkrati ugotavljamo tudi, da klasifikacijska uspešnost ne korelira s številom uporabljenih dreves.. 48.

(58) LITERATURA 1. Al Jarullah, A. A. (2011, April). Decision tree discovery for the diagnosis of type II diabetes. In Innovations in Information Technology (IIT), 2011 International Conference on (pp. 303-307). IEEE. 2.. Batista, G. E., Bazzan, A. L., & Monard, M. C. (2003, December). Balancing Training Data for Automated Annotation of Keywords: a Case Study. In WOB(pp. 10-18).. 3. Choi, S. B., Kim, W. J., Yoo, T. K., Park, J. S., Chung, J. W., Lee, Y. H., ... & Kim, D. W. (2014). Screening for prediabetes using machine learning models.Computational and mathematical methods in medicine, 2014. 4. Collins, G. S., Mallett, S., Omar, O., & Yu, L. M. (2011). Developing risk prediction models for type 2 diabetes: a systematic review of methodology and reporting. BMC medicine, 9(1), 103. 5. Django (Verzija 1.7) [Računalniški program], (2015). Prevzeto 19. januar 2016 po: https://www.djangoproject.com 6. Han, J., Kamber, M., & Pei, J. (2011). Data mining: concepts and techniques. Elsevier. 7. He, Y. (2006). Missing data imputation for tree-based models (Doctoral dissertation, University OF California Los Angeles). 8. Jahani, M., & Mahdavi, M. (2016). Comparison of Predictive Models for the Early Diagnosis of Diabetes. Healthcare informatics research, 22(2), 95-100. 9. Janež, A. (2013, april). Sladkorna bolezen tipa 2 – bolezen sodobnega življenja. V skrbi za vaše zdravje, 29, 6 – 8. 10. Kandhasamy, J. P., & Balamurali, S. (2015). Performance analysis of classifier models to predict diabetes mellitus. Procedia Computer Science, 47, 45-51. 11. Khalilia, M., Chakraborty, S., & Popescu, M. (2011). Predicting disease risks from highly imbalanced data using random forest. BMC medical informatics and decision making, 11(1), 51. 12. Kmecl, A. (2013, april). Epidemija sladkorne bolezni. V skrbi za vaše zdravje, 29, 4-5.. 49.

(59) 13. Liu, X. Y., Wu, J., & Zhou, Z. H. (2009). Exploratory undersampling for classimbalance learning. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 39(2), 539-550. 14. Lončarič, N., Silovšek, M., Pajnkihar, M., Mlinar Reljić, N., Kegl, B., Štiglic, G. et. al. (2015). Sladkorna bolezen - pregled sodobne literature : elaborat v okviru projekta Optimizacija ocene tveganja za nastanek sladkorne bolezni tipa 2 - OptimiST2 [elaborat]. Maribor : Univerza v Mariboru, Fakulteta za zdravstvene vede. 15. McKinney, W., & PyData D. T., (21. november 2015). pandas: powerful Python. data. analysis. toolkit.. Prevzeto. 19.. januar. 2016. po:. http://pandas.pydata.org/pandas-docs/version/0.17.1/pandas.pdf 16. Nacionalni program za obvladovanje sladkorne bolezni, Strategija razvoja 2010. –. 2020,. 2010.. Prevzeto. 19.. januarja. 2016. iz:. http://www.mz.gov.si/fileadmin/mz.gov.si/pageuploads/mz_dokumenti/zakon odaja/NP_diabetes/Nacionalni_program_obvladovanja_sladkorne_bolezni_2 10410.pdf 17. Nai-arun, N., & Moungmai, R. (2015). Comparison of Classifiers for the Risk of Diabetes Prediction. Procedia Computer Science, 69, 132-142. 18. NumPy [Računalniški program], (2013). Prevzeto 19. janurja 2016 po: http://www.numpy.org/ 19. Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O. et al. (2011). Scikit-learn: Machine learning in Python. The Journal of Machine Learning Research, 12, 2825-2830. 20. Perveen, S., Shahbaz, M., Guergachi, A., & Keshavjee, K. (2016). Performance Analysis of Data Mining Classification Techniques to Predict Diabetes. Procedia Computer Science, 82, 115-121. 21. Šatej, N., Zaletel , J., & Bulc, M. (2014). Obvladovanje sladkorne bolezni tip 2 v družinski medicini. Prevzeto 19. januarja 2016 iz: http://www.mf.unilj.si/dokumenti/946b05cb354603f8fa542ed8d71a46c0.pdf 22. Štiglic, G., Fijačko, N., Stožer, A., Sheikh, A., Pajnkihar, M. (2016). Validation of the Finnish diabetes risk score (FINDRISC) questionnaire for. 50.

(60) undiagnosed type 2 diabetes screening in the Slovenian working population. Diabetes research and clinical practice, 23. Stiglic, G., & Pajnkihar, M. (2015). Evaluation of Major Online Diabetes Risk Calculators and Computerized Predictive Models. PloS one, 10(11), e0142827. 24. Theuwissen, M. (2015). R vs Python for data science: The winner is… KDnuggets.. Prevzeto. 19.. januar. 2016. po:. http://www.kdnuggets.com/2015/05/r-vs-python-data-science.html 25. Yu, W., Liu, T., Valdez, R., Gwinn, M., & Khoury, M. J. (2010). Application of support vector machine modeling for prediction of common diseases: the case of diabetes and pre-diabetes. BMC Medical Informatics and Decision Making,10(1), 1.. 51.

(61) PRILOGE Priloga 1: Potrdilo o lektoriranju Priloga 2: Izjava študenta o avtorskem delu Priloga 3: Izjava o ustreznosti zaključenega dela.

(62)

No results found