• No results found

Predicting readmission risk for patients with multiple sclerosis

N/A
N/A
Protected

Academic year: 2021

Share "Predicting readmission risk for patients with multiple sclerosis"

Copied!
64
0
0

Loading.... (view fulltext now)

Full text

(1)UNIVERZA V MARIBORU FAKULTETA ZA ZDRAVSTVENE VEDE. NAPOVEDOVANJE REHOSPITALIZACIJ ZA PACIENTE Z MULTIPLO SKLEROZO (Magistrsko delo). Maribor, 2016. Sanja Rikanović.

(2) UNIVERZA V MARIBORU FAKULTETA ZA ZDRAVSTVENE VEDE. Mentorica: doc. dr. Petra Povalej Bržan Somentor: pred. Dušan Flisar.

(3) ZAHVALA Iskreno se zahvaljujem mentorici doc. dr. Petri Povalej Bržan za strokovno pomoč, nasvete in vzpodbudo v času nastajanja magistrskega dela. Prav tako se zahvaljujem somentorju, prim. Dušanu Flisarju, za vse predloge in popravke. Posebna zahvala gre staršema, ki me brezpogojno podpirata na študijski poti in mi stojita ob strani pri premagovanju vseh življenjskih ovir. Nikoli se vama ne bom mogla dovolj zahvaliti za vse, kar sta storila zame..

(4) Napovedovanje rehospitalizacij za paciente z multiplo sklerozo POVZETEK V magistrskem delu smo raziskovali nenačrtovane ponovne sprejeme pri pacientih z multiplo sklerozo (MS). Cilj našega raziskovalnega dela je bil sestaviti model, ki bo pri napovedovanju nenačrtovanih ponovnih sprejemov uspešnejši od modelov, ki niso vezani na posamezno diagnozo. Pri pisanju teoretičnega dela naloge smo se opirali na strokovno literaturo o multipli sklerozi ter na raziskave o modelih za napovedovanje nenačrtovanih ponovnih sprejemov. Za empirični del naloge smo uporabili podatke iz podatkovne baze SID (State Inpatient Database) za Kalifornijo, ki je del skupine podatkovnih baz, razvitih v okviru projekta HCUP (Healthcare Cost and Utilization Project). Specializiran napovedni model, zgrajen na osnovi podatkov o pacientih z multiplo sklerozo, se je pri napovedovanju ponovnega sprejema bolnikov z MS v manj kot 30 dneh izkazal kot uspešnejši od globalnega modela, ki je bil zgrajen na osnovi podatkov o vseh pacientih ne glede na diagnozo. Povprečna AUC-vrednost specializiranega modela je znašala 0,708, kar je za 0,042 višje od povprečne AUC-vrednosti globalnega modela (AUC = 0,666). Prav tako smo pri specializiranem modelu zaznali višje povprečne vrednosti diagnostične natančnosti, senzitivnosti, specifičnosti in NPV. Dodaten prispevek specializiranega modela v primerjavi z globalnim modelom se kaže tudi v nižji Brierjevi oceni ter v manjšem številu uporabljenih vhodnih spremenljivk in posledično v manj kompleksnem modelu. Vse našteto govori v prid specializiranemu napovednemu modelu za paciente z MS, zato smo v naslednjem koraku temu modelu dodali še podatke o predhodnih hospitalizacijah in ugotovili, da vključitev zgodovinskih podatkov o hospitalizacijah prav tako pozitivno vpliva na napovedovanje nenačrtovanih ponovnih sprejemov. Za napovedovanje nenačrtovanih ponovnih sprejemov pri pacientih z MS je bolje uporabiti specializiran model kot splošnega. Rezultati magistrskega dela so primerni za nadaljnje proučevanje rehospitalizacij pri pacientih z MS.. ii.

(5) Ključne besede: multipla skleroza, rehospitalizacija, bolnišnična odpustna pisma, napovedni model, Lasso regresija, ansambelske metode, odločitvena drevesa.. iii.

(6) Predicting readmission risk for patients with multiple sclerosis ABSTRACT In this master's thesis we were investigating unplanned readmissions of patients with multiple sclerosis (MS). The aim of our research work was to build a prediciton model for unplanned readmissions that would perform better than models that do not depend on specific diagnosis. When writing the theorethical part of the thesis we relied on the scientific literature on multiple sclerosis and the researches of models for predicting unplanned readmission. For the empirical part of the paper we used data from SID (State Inpatient Database) California, which is part of the databases developed within the HCUP (Healthcare Cost and Utilization Project). Specialized predictive model, that was built on the data of patients with multiple sclerosis (MS), has proved to be more successfull at predicting readmission of patients with MS in less than 30 days than the global model, which was built on the basis of all patients irrespective of diagnosis. The average AUC value of a specialized model was 0.708, which is 0.042 higher than the average AUC of a global model (AUC = 0.666). We have also detected higher average values of accuracy, sensitivity, specificity and NPV of a specialized model. An additional contribution of a specialized model in comparison with the global model was also reflected in a lower Brier score and a smaller number of the input variables and, consequently, less complex model. All of this argues in favor of specialized predictive model for patients with MS, that is why we went further and added information about previous hospitalizations and found that the inclusion of historical data on hospitalizations also has a positive impact on the prediction of unplanned readmissions. For predicting unplanned readmissions for patients with MS is preferable to use a specialized model, rather than general model. The results of the master thesis are suitable for further study of readmissions in patients with MS.. Keywords: multiple sclerosis, readmission, electronic health records, prediction model, Lasso regression, ensemble methods, decision trees. iv.

(7) KAZALO. 1. UVOD ................................................................................................................... 1. 2. NAMEN IN CILJI NALOGE ............................................................................... 3. 3. MULTIPLA SKLEROZA ................................................................................... 4. 3.1. Vzroki MS ......................................................................................................... 5. 3.2. Patogeneza bolezni ............................................................................................ 6. 3.3. Simptomi MS .................................................................................................... 7. 3.4. Postavitev diagnoze ........................................................................................... 7. 3.5. Zdravljenje ........................................................................................................ 9. 4. NAPOVEDOVANJE REHOSPITALIZACIJ NA OSNOVI ELEKTRONSKIH. BOLNIŠNIČNIH ZAPISOV ..................................................................................... 10 5. PODATKOVNO RUDARJENJE ....................................................................... 13. 5.1. Lasso regresija ................................................................................................. 13. 5.2. Odločitvena drevesa ........................................................................................ 15. 5.3. Ansambelske metode ...................................................................................... 16. 5.3.1 5.4. Ocenjevanje modelov ...................................................................................... 18. 5.4.1 6. Naključni gozdovi ....................................................................................... 16. Mere diagnostične natančnosti .................................................................... 18. EMPIRIČNI DEL ............................................................................................... 21. 6.1. Hipoteza .......................................................................................................... 21. 6.2. Metodologija ................................................................................................... 21. 6.2.1. Raziskovalne metode ................................................................................... 21. 6.2.2. Raziskovalni vzorec .................................................................................... 25. 7 7.1. REZULTATI ...................................................................................................... 27 Rezultati Lasso regresije ................................................................................. 27 v.

(8) 7.2. Rezultati odločitvenih dreves .......................................................................... 34. 7.3. Rezultati naključnih gozdov............................................................................ 35. 8. INTERPRETACIJA IN RAZPRAVA ................................................................ 39. 9. SKLEP ................................................................................................................ 43. LITERATURA ........................................................................................................... 44 PRILOGE ...................................................................................................................... .. vi.

(9) SEZNAM TABEL Tabela 1: Postavitev diagnoze MS po McDonaldovih kriterijih .................................. 8 Tabela 2: Tabela za izračun senzitivnosti, specifičnosti, PPV in NPV...................... 19 Tabela 3: Vrednosti AUC in njihova diagnostična natančnost .................................. 20 Tabela 4: Primerjava povprečnih vrednosti dveh napovednih modelov (Lasso) ....... 28 Tabela 5: Spremenljivke, ki so najpogosteje vključene v napovedni model (Lasso) 33. vii.

(10) SEZNAM GRAFIKONOV Grafikon 1: Povprečne vrednosti AUC in 95 % interval zaupanja v odvisnosti od št. hospitalizacij (Lasso regresijski model) ............................................................. 29 Grafikon 2: Povprečno št. izbranih atributov in 95 % interval zaupanja v odvisnosti od št. hospitalizacij (Lasso regresijski model) ........................................................ 30 Grafikon 3: Povprečne vrednosti senzitivnosti in 95 % interval zaupanja v odvisnosti od št. hospitalizacij (Lasso regresijski model) ................................................... 31 Grafikon 4: Povprečne vrednosti specifičnosti in 95 % interval zaupanja v odvisnosti od št. hospitalizacij (Lasso regresijski model) ................................................... 32 Grafikon 5: Povprečne vrednosti AUC in 95 % interval zaupanja v odvisnosti od št. hospitalizacij (odločitvena drevesa) ................................................................... 34 Grafikon 6: Povprečne vrednosti AUC in 95 % interval zaupanja v odvisnosti od št. hospitalizacij (naključni gozdovi) ...................................................................... 36 Grafikon 7: Povprečno št. izbranih atributov in 95 % interval zaupanja v odvisnosti od št. hospitalizacij (naključni gozdovi) ................................................................. 36 Grafikon 8: Povprečne vrednosti specifičnosti in 95 % interval zaupanja v odvisnosti od št. hospitalizacij (naključni gozdovi) ............................................................ 37 Grafikon 9: Povprečne vrednosti senzitivnosti v odvisnosti od št. hospitalizacij (naključni gozdovi) ............................................................................................ 38. viii.

(11) 1 UVOD Multipla skleroza (v nadaljevanju MS) je kronična, vnetna, progresivna avtoimunska bolezen. Vnetje poškoduje mielinsko ovojnico, kar povzroči motnjo v prenosu živčnih signalov v možganih in hrbtenjači (Ho, Ghosh, & Unnikrishnan, 2013). Na svetu je približno 2,5 milijona ljudi, obolelih za MS, ki je pogost vzrok težke fizične invalidnosti mladih odraslih, predvsem žensk. Gre za bolezen, ki predstavlja veliko osebno in tudi socioekonomsko breme. Povprečna starost ob začetku bolezni je 30 let – obdobje, ki je ključno za delo in načrtovanje družine (Dendrou, Fugger, & Friese, 2015). MS je bolezen, ki se lahko kaže na različne načine: vključuje lahko senzorične, motorične simptome in motnje vida, utrujenost, bolečine in kognitivne motnje. Raznolikost klinične manifestacije bolezni je povezana s prostorskim in časovnim pojavljanjem lezij v centralnem živčnem sistemu (v nadaljevanju CŽS). Lezije so glavna značilnost MS, ki jo povzroča infiltracija imunskih celic skozi krvnomožgansko pregrado, ki pospešuje vnetje, demielinizacijo, gliozo in nevroaksonsko degeneracijo, kar vodi v okvaro signalizacije med nevroni (Dendrou et al., 2015). Slovenija sodi na področje visokega tveganja za to bolezen, ki je brez ustreznega zdravljenja najpogostejši vzrok invalidnosti mladih odraslih. V Združenju multiple skleroze Slovenije (Združenje multiple skleroze Slovenije [ZMSS], n. d.) ocenjujejo, da je v Sloveniji več kot 3.500 obolelih za MS. Zdravila, ki bi bolezen pozdravilo, zaenkrat še ne poznamo, obstajajo pa zdravila, ki pomagajo nadzorovati simptome, upočasnijo potek bolezni in izboljšajo kakovost življenja bolnikov (Ho et al., 2013). Podatki o ponovnih sprejemih v bolnišnice v ZDA za leto 2010 kažejo, da je bilo od 21.708 oseb z MS rehospitaliziranih 2.529 oseb (11,6 %) (Elixhauser, & Steiner, 2013). Rehospitalizacije so nenačrtovani ponovni sprejemi v bolnišnico v kratkem časovnem obdobju (običajno v 30 dneh) od odpusta. Predstavljajo veliko finančno breme in nakazujejo na slabšo kakovost zdravstvenih storitev (Wang et al., 2014). 1.

(12) Nenačrtovani ponovni sprejemi predstavljajo problem tudi v Sloveniji. V Finančnem načrtu Zavoda za zdravstveno zavarovanje Slovenije (ZZZS, 2015, str. 20) lahko vidimo, da je ZZZS predlagal spremljanje dodatnih kazalnikov, med katere sodijo tudi »nenačrtovani ponovni sprejemi v obdobju 30 dni po odpustu zaradi iste diagnoze v isti ali drugi bolnišnici po bolnišnicah«.. 2.

(13) 2 NAMEN IN CILJI NALOGE Z napovedovanjem tveganja za rehospitalizacije so se ukvarjale mnoge raziskave, ki so proučevale vpliv bolezenskega stanja na tveganje za nenačrtovani ponovni sprejem. V študije so največkrat vključeni pacienti z boleznimi srca (Dharmarajan et al., 2013; Philbin, & DiSalvo, 1999), pacienti s pljučnimi boleznimi, kot sta astma in kronična obstruktivna pljučna bolezen (Demir, 2014), in pacienti po prestani operaciji (Kassin et al., 2012). Kljub velikemu številu raziskav o rehospitalizacijah nismo uspeli zasledili študije, ki bi se ukvarjala s proučevanjem nenačrtovanih ponovnih sprejemov pri pacientih z MS. Namen našega magistrskega dela je preveriti, ali obstajajo indikatorji, s katerimi lahko napovemo tveganje za rehospitalizacijo pri osebah, ki imajo postavljeno diagnozo MS. Da bi odkrili odgovor na naše vprašanje, smo najprej uporabili metodo analize virov in proučili literaturo o značilnosti MS in dejavnikih, ki vplivajo na hospitalizacijo bolnikov z MS. Prav tako smo proučili literaturo, ki se navezuje na rehospitalizacije in negativne posledice teh za pacienta kot tudi za bolnišnico. Nadalje smo pregledali literaturo, ki zajema napovedovanje rehospitalizacij na osnovi elektronskih bolnišničnih zapisov o hospitalizacijah, ter proučili metode, ki so jih uporabili drugi raziskovalci. Nato smo se lotili statistične analize na podatkovni bazi SID (State inpatient databases) za Kalifornijo, ki vsebuje podatke o demografskih karakteristikah, podatke o sprejemih in odpustih, diagnozah in preiskavah itd., ki smo jo izvedli s programskim jezikom R v programskem okolju R Studio. Za izdelavo napovednih modelov smo uporabili Lasso regresijo, odločitvena drevesa in ansambelske metode. Uspešnosti napovednih modelov smo ocenili na osnovi naslednjih mer: področja pod ROC (angl. Receiver Operating Characteristic) krivuljo (AUC), splošne natančnosti, senzitivnosti in specifičnosti, negativne prediktivne vrednosti (NPV), pozitivne prediktivne vrednosti (PPV), Brierjeve ocene ter števila izbranih atributov. Iz podatkov o hospitalizacijah, ki so zbrani v podatkovni bazi SID za Kalifornijo, smo poskušali ugotoviti, katere so najpogostejše bolezni, ki se pojavljajo v komorbidnosti z MS, ter poiskati najpogostejše dejavnike tveganja za rehospitalizacijo bolnikov s to diagnozo. 3.

(14) 3 MULTIPLA SKLEROZA MS je najpogostejša kronična avtoimunska vnetna bolezen, za katero sta značilna demielinizacija in propad aksonov. Bolezen najpogosteje prizadene mlade ženske med 20. in 40. letom starosti (Garg, & Smith, 2015). Moški zbolijo redkeje, vendar pri moških pacientih obstaja večja verjetnost, da bo bolezen potekala bolj agresivno (Stauffer, 2006). Bolezen je pogosta v Evropi, ZDA, Kanadi, Novi Zelandiji in deloma v Avstraliji, manj pogosta pa je v Aziji in tropskih državah (Murray, 2011). V ZDA je MS eden glavnih vzrokov za invalidnost mladih odraslih (Garg, & Smith, 2015). Prevalenca MS v svetu je med 100 in 130 primerov na 100.000 prebivalcev (Stauffer, 2006). Najvišja prevalenca bolezni je v severni Škotski in znaša 270/100.000 (Murray, 2011). Evropske države, kjer je prevalenca bolezni najvišja, so: Madžarska (176/100.000), Slovenija (150/100.000) in Nemčija (149/100.000) (World Health Organization, 2008). Incidenca bolezni je višja pri osebah, ki imajo sorodnika, obolelega za MS, v primerjavi s splošno populacijo, kar nakazuje na pomembno vlogo genetske komponente pri nastanku bolezni. Za nekoga v splošni populaciji je verjetnost za nastanek bolezni ocenjena na 1:1.000, medtem ko je pri posameznikih, ki imajo enojajčnega dvojčka z diagnozo MS, to tveganje kar 1:3 (in 1:20−30 pri dvojajčnih dvojčkih). Pri otrocih, katerih je vsaj eden od staršev obolel za MS, se verjetnost nastanka bolezni poveča na 1:40 (Stauffer, 2006). Povprečna starost pacientov z MS je 45 let. Bolniki živijo vse do 70. leta in dlje, saj je življenjska doba le za 5−7 let krajša od povprečne, za kar je v največji meri zaslužna sodobna zdravstvena oskrba (Stauffer, 2006).. 4.

(15) 3.1 Vzroki MS Raziskovalci ugotavljajo, da se MS pojavlja pri genetsko dovzetnejših posameznikih, naključni dogodki in okoljski dejavniki pa vplivajo na penetranco bolezni. Genetske variacije so odgovorne za približno 30 % celotnega tveganja za nastanek bolezni. Zahvaljujoč študijam celotnega genoma (GWA študije) je bilo odkritih več kot 100 različnih genetskih regij, ki so povezane z MS. Kljub dejstvu, da negenetski dejavniki prispevajo veliko več k nastanku bolezni kot genetski, je na področju raziskovanja okoljskih determinant bolezni veliko neznank (Dendrou et al., 2015). Geni, ki pomembno vplivajo na dovzetnost za nastanek MS, sodijo v HLA (angl. human leukocyte antigen) kompleks. HLA-proteini sprožijo vnetje tako, da aktivirajo T-celice, ki napadejo in uničijo obolele celice v bližini. Ta vnetni imunski odziv izloči iz telesa tuje substance, kot so bakterije in virusi, vendar lahko poškoduje tudi lastna tkiva. Pri avtoimunih obolenjih je bolnikovo tkivo hkrati sprožilec in tarča napada, kar povzroči raznolike simptome (Stauffer, 2006). Incidenca bolezni se veča z zemljepisno širino. Najmanjša incidenca bolezni je ob ekvatorju. Za nastanek MS je torej potrebno delovanje številnih genov, ki vplivajo na dovzetnost za nastanek bolezni, ter okoljski dejavniki, ki sprožijo bolezenski proces (Stauffer, 2006). Okoljski dejavniki, ki lahko sprožijo avtoreaktivne T-celice, ki so vključene v potek bolezni, so domnevno virusne ali mikrobne narave in učinkujejo prek molekularne mimikrije (Dendrou et al., 2015). Do danes ni bil odkrit noben patogen dejavnik, ki bi ga dosledno povezovali z nastankom bolezni. Kljub temu pa epidemiološke raziskave kažejo, da imajo okužbe zgornjih dihalnih pomembno poti vlogo pri zagonih bolezni. Tako različni infekcijski agensi sprožijo avtoimunski odziv proti mielinu pri genetsko dovzetnih posameznikih (Kira, 2007).. 5.

(16) 3.2 Patogeneza bolezni Patogeneza MS vključuje imunski odziv proti antigenom CŽS, ki ga posredujejo aktivirane CD4+ mielin-reaktivne celice s pomočjo B-celic. Imunopatogeneza MS vključuje tudi aktivacijo avtoreaktivnih T-celic v periferni krvi. Ko so enkrat aktivirane, lahko mielin-reaktivne T-celice migrirajo skozi krvno-možgansko pregrado. Omenjena migracija vključuje interakcijo med beljakovino VLA-4, ki je prisotna na T-limfocitih in VCAM-1, ki je izražena na kapilarnih endotelinih celicah. Ta proces je olajšan z ekspresijo različnih adhezijskih molekul, kemokinov in MMPjev (matriksnih metaloproteinaz). Ko vstopijo v CŽS, se lahko avtoreaktivne periferne T-celice reaktivirajo ob srečanju z avtoantigenskimi peptidi, kar privede do sproščanja citokinov in kemokinov, aktivacije dodatnih vnetnih celic (vključno s T-celicami, monociti in B-celicami) in persistentne aktivacije mikroglijskih celic in makrofagov, kar povzroči okvaro mielina (Garg, & Smith, 2015). Natančen mehanizem (ali mehanizmi) poškodbe mielina kot tudi aksonov še ni povsem pojasnjen, vendar vključuje neposredno poškodbo mielina, oligodendrocitov in aksonov (s strani CD4+ in CD8+ T-limfocitov, aktiviranih mikroglijskih celic/makrofagov in/ali protiteles) kot tudi posredne učinke provnetnih citokinov (IL1 beta, TNF-α, dušikov oksid in MMPjev) (Garg, & Smith, 2015). Izraz multipla skleroza pomeni »veliko ran«, saj vnetne epizode povzročijo vidne poškodbe v CŽS v obliki lezij (Stauffer, 2006). MS-lezije lahko klasificiramo kot aktivne, kronične in remielinizirane. Aktivne lezije so pogoste pri recidivno remitentni MS, zanje pa je značilna razgradnja mielina z relativno ohranjenimi aksoni. Kronične ali neaktivne lezije so povezane z obširnejšo demielinizacijo, običajno z izrazitim tanjšanjem aksonov, izgubo oligodendrocitov in odsotnostjo aktivnega vnetja. Remielinizirane lezije lahko vidimo v ali ob robovih aktivnih lezij; vsebujejo tanko mielinizirane aksone in pogosto večje število oligodendrocitnih prekurzorskih celic (Garg, & Smith, 2015).. 6.

(17) 3.3 Simptomi MS Med najpogostejše simptome MS sodijo kognitivni in psihiatrični simptomi (tesnoba, depresija, motnje spominja …), utrujenost, motnje spanja, nemirne okončine, bolečine, motnje vida, tremor, krči, šibkost in spolne disfunkcije (Shah, 2015). Kadar se pri pacientu pojavi nov nevrološki znak ali simptom, ki je značilen za MS in traja več kot 24 ur, govorimo o zagonu (Shah, 2015). Potek bolezni se razlikuje od bolnika do bolnika; lahko se pojavi nenadoma ali postopno, z enim ali več nevrološkimi simptomi hkrati. Simptomi se pojavijo v različnih in nepredvidenih časovnih obdobjih poslabšanja bolezni (zagoni), ki jim sledijo obdobja izboljšanja (t. i. remisije). Ta izboljšanja so na začetku lahko popolna, kasneje pa zaradi kopičenja lezij ni več možnosti popolnega okrevanja (Končan Vračko, 2008).. 3.4 Postavitev diagnoze Zaenkrat ne poznamo enega samega diagnostičnega testa, s katerim bi zanesljivo postavili diagnozo MS ali jo zanesljivo izključili. Pri diagnosticiranju MS uporabljamo McDonaldove kriterije, ki vključujejo klinično sliko, laboratorijsko diagnostiko in MR. Diagnozo postavimo glede na število zagonov in lezij v možganih in hrbtenjači. Za dokončno potrditev diagnoze morata biti izpolnjena naslednja kriterija: najmanj dva akutna zagona bolezni na najmanj dveh različnih ravneh centralnega živčevja v dveh različnih časovnih obdobjih ter izključitev drugega nevrološkega obolenja (Jakl, 2012).. 7.

(18) Tabela 1: Postavitev diagnoze MS po McDonaldovih kriterijih Št. zagonov 2 ali več. 2 ali več. Št. lezij Objektivni klinični dokaz najmanj dveh lezij ali klinični dokaz vsaj ene lezije, vključno z zgodovinskim dokazilom predhodnega zagona Objektivni klinični dokaz vsaj ene lezije. 1. Objektivni klinični dokaz najmanj dveh lezij. 1. Objektivni klinični dokaz ene lezije. 0 (napredovanje od pojava). Dodatni kriteriji za postavitev diagnoze Jih ni. Klinični dokazi zadostujejo za postavitev diagnoze.. Razširitev v prostoru, ki se kaže kot: - več kot ena T2-lezija na vsaj dveh tipičnih regijah CŽS ALI - počakati na naslednji klinični zagon na drugi strani CŽS. Razširitev v času, ki se kaže kot: - sočasna pojavitev lezije, obarvane s kontrastnim sredstvom in neobarvane lezije v kateremkoli trenutku; ALI - nova T2 in/ali s kontrastom obarvana lezija (lezije) na naslednjem MR-slikanju, ne glede na čas; ALI - počakati na naslednji klinični zagon. Razširitev v prostoru, ki se kaže kot: - več kot ena T2-lezija na vsaj dveh mestih na CŽS, ki so tipična za MS; ALI - počakati na naslednji klinični zagon na drugem mestu CŽS; IN Razširitev v času, ki se kaže kot : - sočasna pojavitev s KS obarvane in neobarvane lezije v kateremkoli trenutku ALI - nova T2-lezija in/ali s kontrastom obarvana lezija (lezije) na naslednjem MR -slikanju, ne glede na čas; ALI - počakati na naslednji klinični zagon . Eno leto napredovanja bolezni IN vsaj dva od treh kriterijev: - razširitev v prostoru v možganih: več kot ena T2-lezija v CŽS-regiji, ki je tipična za MS, - razširitev v prostoru v hrbtenjači: več kot dve T2-leziji, ALI - pozitiven izvid analize cerebrospinalne tekočine.. Vir: National Multiple Sclerosis Society, n. d. 8.

(19) Ena najpomembnejših lestvic za oceno invalidnosti pri pacientih z MS je Kurtzkejeva lestvica ali EDSS (angl. Expanded Disability Status Scale). S pomočjo EDSS ocenjujemo disfunkcijo osmih nevroloških sistemov: piramidnega, možganskega, senzoričnega, vidnega, sistema možganskega debla, sistema malih možganov, sistema črevesja in mehurja ter ostalo (Christensen, 2014). Gre za splošno sprejeto 10točkovno klinično lestvico, ki se uporablja za spremljanje poteka bolezni pri pacientih z MS, in sicer tako, da določi oceno pacientovega kliničnega statusa, ki rangira od 0 (normalen nevrološki status) do 10 (smrt zaradi MS). Nižje vrednosti EDSS merijo okvare glede na nevrološki pregled, višje vrednosti (višje od EDSS 6) pa merijo funkcionalne omejitve pacientov z MS. EDSS med 4 in 6 je močno odvisna od različnih vidikov zmožnosti hoje (Meyer-Moock, Feng, Maeurer, Dippel, & Kohlmann, 2014).. 3.5 Zdravljenje Obvladovanje MS vključuje zdravljenje z imunomodulatornimi zdravili, ki pomagajo upočasniti potek bolezni, in simptomatsko zdravljenje, ki se osredotoča na lajšanje specifičnih simptomov (utrujenosti, krčev, bolečine itd.). Za zdravljenje akutnih zagonov in pospešitev okrevanja se običajno uporabljajo kortikosteroidi in adrenokortikotropni hormon (ACTH) (Garg, & Smith, 2015). Največji napredek na področju zdravljenja MS v zadnjih dveh desetletjih je bil razvoj imunomodulatorne terapije (IMT). Od leta 1993, ko je bilo predstavljeno prvo imunomodulatorno zdravilo (interferon beta-1b), je bilo razvitih veliko novih zdravil, ki imajo različne mehanizme delovanja, ter različne načine in pogostost apliciranja. Trenutno je odobrenih 12 zdravil za zdravljenje MS; od tega jih je šest namenjenih za samoinjiciranje, tri so v obliki infuzij ter tri so oralna zdravila (Garg, & Smith, 2015). Mehanizem delovanja IMT temelji na zaviranju imunskega odziva, ki ga posredujejo avtoreaktivni limfociti. Cilj IMT je zmanjšati pogostost zagonov in lezij ter tako upočasniti napredovanje invalidnosti (Garg, & Smith, 2015).. 9.

(20) 4 NAPOVEDOVANJE. REHOSPITALIZACIJ. NA. OSNOVI. ELEKTRONSKIH BOLNIŠNIČNIH ZAPISOV Rehospitalizacija je nenačrtovani ponovni sprejem v bolnišnico v kratkem časovnem obdobju od odpusta. Gre za velik javnozdravstveni problem, saj nenačrtovani ponovni sprejemi predstavljajo finančno breme, hkrati pa lahko nakazujejo na slabšo kakovost zdravstvenih storitev (Wang et al., 2014). Široko gledano, so lahko rehospitalizacije posledica dejavnikov zdravstvenega varstva (neoptimalno zdravstveno in socialno varstvo v bolnišnici ali strukturah socialnega varstva), pacientovih dejavnikov (npr. slabo upoštevanje navodil glede zdravljenja), bolezenskih dejavnikov (npr. naravno napredovanje bolezni) ali kombinacija vseh naštetih dejavnikov. Rehospitalizacije, ki so posledica dejavnikov zdravstvenega varstva ter pacientovih dejavnikov, so tiste, ki bi se jim potencialno lahko izognili (Lyratzopoulos, Havely, Gemmell, & Cook, 2005). V zadnjem času se vse več študij ukvarja s proučevanjem vzroka rehospitalizacij in izgradnjo napovednih modelov, ki bi bili dovolj uspešni, da bi število teh zmanjšali na minimum. Hasan et al. (2009) so s pomočjo logistične regresije izdelali napovedni model za 30-dnevno rehospitalizacijo; njihova podatkovna baza je vključevala 10.946 pacientov, ki so jih odpustili v domačo oskrbo iz šestih medicinskih centrov. Z vključitvijo sedmih spremenljivk so uspeli izdelati napovedni model, s katerim je bilo mogoče identificirati 5 % bolnikov, ki imajo 30 % tveganje za rehospitalizacijo v 30 dneh od odpusta iz bolnišnice (AUC = 0,65 za derivacijsko oz. 0,61 za validacijsko kohorto). Lee (2012) je za napovedovanje tveganja za nenačrtovane ponovne sprejeme v bolnišnico uporabil klasifikacijska drevesa, ki so se izkazala za boljšo metodo od logistične regresije in nevronskih mrež (najmanjša alfa standardna napaka, najnižja stopnja napačnega razvrščanja, najboljša ROC-krivulja). Zbirka podatkov, ki jo je uporabil, je obsegala 11.951 pacientov. Kot pomembna spremenljivka za napovedovanje tveganja za rehospitalizacijo se je izkazal LOS (angl. Lenght of Stay oz. dolžina bolnišničnega zdravljenja). Tveganje je 64,9 %, če je LOS krajši od dveh dni. Odpust 24 ali 36 ur po hospitalizaciji povečuje tveganje za rehospitalizacijo pri 10.

(21) različnih starostnih skupinah in boleznih, saj zmanjšuje možnost odkrivanja komorbidnosti in komplikacij. Pri podaljševanju dolžine bolnišničnega zdravljenja (LOS) in njenega vpliva na tveganje za nenačrtovani ponovni sprejem gre za idejo, da lahko en sam dodaten dan v bolnišnici zagotovi določene prednosti, kot npr. omogoči pacientu večjo stopnjo stabilnosti in mu hkrati omogoči, da se bolje poduči o ravnanju po odpustu. Vse to pa se odraža v zmanjšanju stopnje tveganja za nenačrtovani ponovni sprejem v bolnišnico (Bartel, Chan, & Kim, 2014). Raziskava o nenačrtovanih ponovnih sprejemih, ki sta jo izvedla Dobrzanska, & Newell (2006), se sklada s temi ugotovitvami. Od 1.235 pacientov, ki sta jih vključila v raziskavo, jih je bilo rehospitaliziranih 109 (8,8 %); od teh jih je 20 umrlo (18,34 %). Med pacienti, katerih dolžina bolnišničnega zdravljenja (LOS) ni presegala 72 ur, je bil povprečen interval od bolnišničnega odpusta do nenačrtovanega ponovnega sprejema 10,84 (± 8,35) dneva, za paciente, katerih LOS je bil med 4 in 59 dnevi, pa 14,61 (±8,65) dneva. Rezultat je bil signifikanten (t = 2,537, p < 0,05). Pacienti s krajšo dolžino bolnišničnega zdravljenja (manj kot 72 ur) so imeli povečano tveganje za zgodnejši ponovni sprejem. Do podobnih zaključkov so prišli tudi Eapen et al. (2012), ki so proučevali povezavo med dolžino bolnišničnega bivanja in rehospitalizacijo v 30 dneh od odpusta. Ugotovili so, da imajo države z daljšim bolnišničnim bivanjem (pri pacientih, hospitaliziranih zaradi odpovedi srca) signifikantno nižjo stopnjo tveganja za rehospitalizacijo. Billings, Dixon, Mijanovich, & Wennberg (2006) so z uporabo statističnih podatkov bolnišnic za obdobje od leta 1999/2000 do 2003/2004 za napovedovanje rehospitalizacij razvili algoritem PARR (angl. Patients at Risk of Readmission). Značilnost algoritma je, da se osredotoča na referenčno bolezensko stanje (oz. stanja), katerega izboljšan nadzor lahko pripomore k preprečevanju ponovnih sprejemov. Območje pod krivuljo (AUC) je 0,685, kar nakazuje na 68,5 % verjetnost, da bo naključno izbrani pacient, ki bo v naslednjih 12 mesecih rehospitaliziran, imel višjo oceno tveganja kot pacient, ki v tem času ne bo rehospitaliziran. Študija, ki so jo leta izvedli Bradley, Yakusheva, Horwitz, Sipsma, & Fletcher (2013), je proučevala povezavo med rehospitalizacijo (v 30 dneh od odpusta) in Rothmanovim 11.

(22) indeksom RI (sestavljenim merilom pacientovega stanja), ki predstavlja podatke o zdravstveni oceni in je samodejno ustvarjen iz bolnišničnih elektronskih zapisov. Njihova hipoteza je bila, da je slabo zdravstveno stanje pacienta na dan odpusta in slabšanje stanja v zadnjih 48 urah hospitalizacije signifikantno povezano s 30-dnevno rehospitalizacijo. Rezultati so dokazali, da je zdravstveno stanje pacienta na dan odpusta močno povezano z rehospitalizacijo: 21 % pacientov, ki so jih kategorizirali kot tiste z najvišjim tveganjem, je bilo rehospitaliziranih v 30 dneh od odpusta, v primerjavi z 10 % tistih, ki so bili kategorizirani kot pacienti z najnižjim tveganjem. Pacienti, katerih RI je bil manjši od 70 (najvišje tveganje), so imeli 2,65-krat večjo verjetnost za rehospitalizacijo kot tisti, ki so imeli RI večji ali enak 90 (najnižje tveganje). Ta povezava je bila statistično značilna in močna ne glede na diagnozo in druge posebnosti. Izdelan pa je bil še en napovedni model za nenačrtovane ponovne sprejeme, ki vključuje 7 dejavnikov, ki vplivajo na tveganje za 30-dnevno rehospitalizacijo. Dejavniki so točkovani z različnim številom točk; nizka raven hemoglobina ob odpustu (manj kot 12 g/dL) – 1 točka, odpust z onkologije – 2 točki, nizka raven natrija ob odpustu (manj kot 135 mEg/L) – 1 točka, postopki v času bolnišničnega bivanja (katerikoli ICD-9-CM postopek) – 1 točka, število bolnišničnih sprejemov prejšnje leto (od 1 do 5 sprejemov – 2 točki, več kot 5 sprejemov – 5 točk), neselektivni tip sprejema – 1 točka, dolžina bolnišničnega bivanja (več kot 5 dni) – 2 točki. Maksimalni seštevek vseh točk je 13 točk, s katerimi razdelimo paciente v tri kategorije tveganja za rehospitalizacijo: nizko (0−4 točke), srednje (5−6 točk) in visoko (več kot 7 točk) (Donzé, Aujesky, Williams, & Schnipper, 2013).. 12.

(23) 5 PODATKOVNO RUDARJENJE Zbrani podatki običajno niso koristni sami po sebi; prava vrednost zbranih podatkov je odvisna od naše sposobnosti, da iz njih izločimo pomembne informacije. Proces odkrivanja znanja iz velike količine podatkov imenujemo podatkovno rudarjenje. Podatkovno rudarjenje (angl. Data mining) se je v kratkem obdobju razvilo v samostojno vedo, ki jo uporabljamo na različnih področjih. V medicini se najpogosteje uporablja za napovedovanje razvoja bolezni in diagnoze. Izdelavo modela, ki napove vrednost napovedne spremenljivke kot funkcijo neodvisnih spremenljivk, imenujemo napovedno modeliranje (Marn, 2010). Podatkovno rudarjenje se deli na dve kategoriji (Marn, 2010): -. napovedovalne naloge (cilj je napovedati vrednost izbranega atributa na osnovi drugih (znanih) atributov),. -. opisovalne naloge (cilj je najti in opisati vzorce v množicah podatkov).. Med metode podatkovnega rudarjenja spadajo odločitvena drevesa, Bayesov klasifikator, metoda podpornih vektorjev, nevronske mreže, tehnika najbližjega soseda, linearna regresija, razvrščanje v skupine itd. (Marn, 2010).. Za testiranje naše hipoteze smo uporabili Lasso regresijo, ansambelske metode in odločitvena drevesa.. 5.1 Lasso regresija Tibshirani (1996) je predstavil novo metodo za ocenjevanje v linearnih modelih. Gre za regresijsko metodo Lasso, ki minimizira vsoto kvadratov za ostanek (RSS – angl. residual sum of squares) na vsoto absolutne vrednosti koeficientov. Zaradi narave te omejitve običajno proizvaja nekatere koeficiente z vrednostjo 0 ter posledično daje interpretativne modele. Operator najmanjšega absolutnega krčenja in selekcije oz. Lasso (angl. Least absolute shrinkage and selection operator) je regresijska metoda analize, ki izboljša napovedno 13.

(24) natančnost in interpretativnost statističnega modela z regularizacijo in izborom spremenljivk. Gre za pristop s pomočjo kaznovanja, ki ga je razvil Tibshirani z namenom, da bi izboljšal izbor spremenljivk (D'Angelo, Rao, & Gu, 2009). Metoda najmanjših kvadratov (OLS – angl. ordinary least squares) običajno ne daje zadovoljivih ocen zaradi dveh razlogov: prvi je napovedna natančnost (ocene OLS imajo običajno nizko pristranskost in veliko varianco), ki jo lahko včasih izboljšamo tako, da skrčimo nekatere koeficiente ali jih nastavimo na 0. S tem žrtvujemo malo pristranskosti, da znižamo varianco prediktivnih vrednosti in posledično izboljšamo celotno napovedno natančnost. Drugi razlog pa je interpretativnost; z velikim številom prediktorjev bi običajno radi določili manjšo podmnožico, ki izkazuje najmočnejše vplive. Ker imata obe standardni tehniki za izboljšanje ocen OLS (tj. regularizacija L2 in izbor podmnožic) slabosti, se predlaga uporaba metode Lasso, ki skrči nekatere koeficiente, ostalim pa dodeli vrednost 0 ter tako obdrži dobre lastnosti tako regularizacije L2 kot tudi izbora podmnožic (Tibrishani, 1995). Lasso ustvari stabilen in interpretativen model. Obstaja tudi nelinearna razširitev te metode, tj. kadar imamo opravka z modeliranjem binarnega izida (D'Angelo et al., 2009). Izvorno je bil Lasso namenjen za linearno regresijo, vendar ga je Lockhorst razširil tudi na generaliziran linearni model (GLM). Algoritmi Lasso in GLM se kombinirajo z namenom zagotovitve generaliziranega Lasso algoritma, ki oceni Lasso koeficiente (D'Angelo et al., 2009). Lasso regresijo smo izvedli v programskem okolju R s pomočjo paketa Glmnet v programskem okolju R studio. Glmnet prilagaja generalizirani linearni model prek sankcioniranja maksimalne verjetnosti. Gre za izjemno hiter algoritem, ki deluje na linearnih, logističnih in multinominalnih, Poissonovih in Coxovih regresijskih modelih. Paket vključuje tudi metode za napovedovanje in izrisovanje ter funkcijo, ki izvaja K-kratno navzkrižno preverjanje (Hastie, & Qian, 2014).. 14.

(25) 5.2 Odločitvena drevesa Odločitvena drevesa so enostaven in učinkovit način analize več spremenljivk, ki nam omogoča razlago in hkrati tudi vrednotenje in klasificiranje posameznih primerkov (Bošnjak, 2014). Odločitveno drevo je sestavljeno iz vozlišč, ki tvorijo ukoreninjeno drevo, ki ima vozlišče (koren), ki nima nikakršnih vhodnih robov (povezav). Vsa ostala vozlišča imajo natanko eno vhodno povezavo. Vozlišče z izhodno povezavo se imenuje notranje vozlišče, tista brez izhodne povezave pa se imenujejo listi (končna oz. odločitvena vozlišča). V odločitvenem drevesu vsako notranje vozlišče razcepi prostor primerka v dva ali več podprostorov glede na določeno diskretno funkcijo vhodnih spremenljivk. Vsak list se nato dodeli razredu, ki predstavlja najprimernejšo tarčno vrednost. Primerke klasificiramo tako, da jih usmerjamo od korena drevesa do lista glede na izid testov na poti (Rokach, & Maimon, 2005). »Na področju operacijskih raziskav se tako na primer odločitvena drevesa nanašajo na hierarhični model, ki prikazuje možne dogodke oziroma razmere, predlagane odločitve na osnovi teh dogodkov ter končne izide glede na izbrane kombinacije dogodkov in odločitev. Vsakemu dogodku je dodeljena vrednost, da se zgodi, za končne izide pa so podane vrednosti, ki jih na ustrezen način ovrednotijo. Na podlagi verjetnosti dogodkov in verjetnosti izidov lahko odločevalec hitro identificira najustreznejšo odločitev, ki ga bo z določeno stopnjo gotovosti privedla do želenega rezultata« (Bošnjak, 2014, str. 4). Na točnost (angl. accuracy) drevesa bistveno vpliva njegova kompleksnost, ki jo eksplicitno kontroliramo z zaustavitvenim kriterijem in metodami klestenja. Običajno se kompleksnost drevesa meri z eno od naslednjih meritev: skupno število vozlišč, skupno število listov, globina drevesa in število uporabljenih atributov (Rokach, & Maimon, 2005). Drevesa predstavljajo napovedni model, ki ga lahko uporabimo v okviru problemov klasifikacije in regresije; regresijska drevesa imajo za odločitveni razred zvezno spremenljivko, klasifikacijska pa diskretno (Bošnjak, 2014).. 15.

(26) 5.3 Ansambelske metode Ansambelske metode so algoritmi, ki za modeliranje podatkov združujejo različne metode. V ozadju teh metod leži ideja, da je pri razlagi nekega pojava treba upoštevati vse možne razlage (Kosič, 2012). »Ansambel klasifikatorjev je množica klasifikatorjev, katerih napovedi na nek način (običajno z glasovanjem) združimo v eno samo napoved« (Ženko, 2003, str. 4). Glede na način gradnje osnovnih klasifikatorjev, ki jih nato kombiniramo, lahko ansambelske metode razdelimo v dve skupini: v prvi so metode, ki za gradnjo uporabljajo en učni algoritem, v drugi pa so takšne, ki kombinirajo klasifikatorje, zgrajene z različnimi učnimi algoritmi (Ženko, 2003). Da bo skupina klasifikatorjev dobro delovala, moramo zagotoviti, da so člani ansambla dovolj točni in dovolj različni (klasifikatorja sta različna, če imata na novih učnih primerih različne napake) (Kosič, 2012).. 5.3.1 Naključni gozdovi Med metode za kombiniranje klasifikatorjev sodijo tudi naključni gozdovi, ki so zgrajeni z enim učnim algoritmom (tj. algoritmom za gradnjo odločitvenih dreves) (Kosič, 2012). Pri naključnih gozdovih gre za nadgradnjo metode bagging, pri kateri z uporabo postopka bootstrap iz osnovne učne množice naredimo izbrano število novih učnih množic in nad vsako učno množico zgradimo odločitveno drevo. Atribut, na osnovi katerega razcepimo vozlišče v drevesu, je vsakič izbran izmed določenega števila naključno izbranih atributov (Ženko, 2003, str. 8). Naključni gozd je leta 2001 razvil Breiman in ga sestavlja skupek (ansambel) preprostih dreves. Poleg tega, da naključni gozdovi zgradijo vsako drevo na različnih bootstrap vzorcih iz množice podatkov, spreminjajo tudi način izgradnje klasifikacijskih ali regresijskih dreves. Pri standardnih drevesih je vsako vozlišče razcepljeno glede na najboljši razcep med vsemi spremenljivkami. Pri naključnih gozdovih pa se vozlišče razcepi glede na najboljši razcep med podmnožico prediktorjev, ki jih algoritem naključno izbere v tistem vozlišču. Ta strategija se je izkazala za zelo uspešno v primerjavi z ostalimi klasifikatorji (npr. diskriminantno 16.

(27) analizo, nevronskimi mrežami …), prav tako pa je zelo robustna glede prezasičenosti. Dodatna prednost naključnih gozdov je, da gre za uporabniku prijazen algoritem, ki ima le dva parametra: število spremenljivk v naključni podmnožici, ki jih bomo uporabili pri vsakem vozlišču, ter število dreves v gozdu. Algoritem prav tako ni preveč občutljiv na vrednost teh dveh parametrov (Liaw, & Wiener, 2002). Algoritem naključnih gozdov poteka v naslednjih korakih (ki so isti za klasifikacijo in regresijo): -. izris n-dreves na bootstrap vzorcih iz izvornih podatkov,. -. za vsak bootstrap vzorec je potreben izris neoklestenega (klasifikacijskega ali regresijskega) drevesa tako, da pri vsakem vozlišču naključno izberemo podmnožico prediktorjev in najboljšo cepitev med temi spremenljivkami,. -. nove podatke napovemo s pomočjo glasovanja oziroma združevanja napovedi n-dreves (npr. večina glasov pri klasifikaciji in povprečje pri regresiji).. Približno stopnjo napake lahko dobimo s pomočjo učne množice tako, da (Liaw, & Wiener, 2002): -. pri vsaki bootstrap iteaciji napovemo podatke, ki jih ni v bootstrap vzorcu (OOB – angl. out-of-bag), in sicer tako, da uporabimo drevo, zgrajeno z bootstrap vzorcem,. -. združimo OOB-napovedi iz prejšnjega koraka, izračunamo stopnjo napake in jo poimenujemo OOB-ocena stopnje napake.. Število dreves za dobro izvedbo algoritma raste s številom prediktorjev. Najboljši način za določanje optimalnega števila dreves v gozdu je primerjava napovedi gozda z napovedjo podmnožice gozdov. Kadar je podmnožica enako uspešna kot celoten gozd, pomeni, da imamo dovolj dreves (Liaw, & Wiener, 2002). Predlaga se večje število dreves (>1.000), saj se z večanjem števila dreves klasifikacijska napaka ustali (Kosič, 2012).. 17.

(28) 5.4 Ocenjevanje modelov Pri izgradnji modela pogosto uporabimo omejen nabor podatkov, zato se pojavi problem pri izgradnji modela; pri ocenjevanju merila uspešnosti namreč ne smemo uporabljati rezultatov na učnem delu podatkov. Ker nas zanima, kako se model odreže na novih podatkih, ki niso povezani z učnimi, potrebujemo nove (testne) podatke. V idealnem primeru (ko bi imeli na voljo veliko podatkov), bi lahko imeli ustrezno velik del podatkov za učenje in dovolj velik del drugih podatkov za testiranje. V realni situaciji pa pogosto potrebujemo metode, ki iz relativno majhnega nabora podatkov pridobijo učni in testni nabor podatkov. Na voljo imamo različne metode: razdelitev (angl. holdout), prepleteno vzorčenje (angl. bootstrap sampling) ter metodo križnega preverjanja (angl. cross-validation) (Plevčak, 2012). Z metodo križnega preverjanja uporabljamo nekaj izsekov podatkov za učenje in nekaj za testiranje. Pri izbiri vzorca za učenje in testiranje moramo zagotoviti reprezentativen vzorec, kar dosežemo z uporabo stratifikacije. Stratifikacija sama po sebi ni dovolj, zato postopek izvajamo tako, da večkrat ponovimo učenje in testiranje, vsakič na novih (naključno izbranih) vzorcih (Plevčak, 2012). Pri križnem preverjanju podatke razdelimo na n-delov (približno enake velikosti), nato se izmenično učenje in testiranje izvede n-krat. N-1 delov se uporabi za učenje ter en del za testiranje. Tako se vsak del enkrat uporabi za testiranje. Večinoma se uporablja 10-kratno križno preverjanje, saj daje dobro predvidevanje napak (Plevčak, 2012)... 5.4.1 Mere diagnostične natančnosti Vrednosti nad mejo v idealnem modelu zmeraj nakazujejo prisotnost nekega stanja (npr. bolezni ali v našem primeru rehospitalizacije), vrednosti pod mejo pa njegovo odsotnost. V realnih modelih pa vrednosti nad mejo niso vedno pokazatelj prisotnosti bolezni, saj imajo lahko tudi drugi subjekti zvišane vrednosti. Te zvišane vrednosti določenega pomembnega parametra imenujemo lažno pozitivne (FP – angl. false positive) vrednosti. Prav tako se lahko pod mejo znajdejo subjekti, pri katerih je stanje, ki ga proučujemo, prisotno. Gre za lažno negativne (FN – angl. false negative) vrednosti (Šimundić, n. d.).. 18.

(29) Tako se populacija preiskovanih subjektov razdeli v štiri podskupine (Šimundić, n. d.): -. resnično pozitivni (TP – angl. true positive) subjekti z boleznijo in vrednostjo parametra nad mejo,. -. lažno pozitivni (FP) subjekti brez bolezni in z vrednostjo parametra nad mejo,. -. resnično negativni (TN – angl. true negative) subjekti brez bolezni, z vrednostjo parametra pod mejo,. -. lažno negativni (FN) subjekti z boleznijo in vrednostjo parametra pod mejo.. Tabela 2: Tabela za izračun senzitivnosti, specifičnosti, PPV in NPV Dejansko stanje Pozitivni. Negativni. Napovedano. Pozitivni. TP. FP. PPV. stanje. Negativni. FN. TN. NPV. Senzitivnost. Specifičnost. Vir: Šimundič, n.d. Senzitivnost označuje delež resnično pozitivnih subjektov v skupini vseh subjektov z boleznijo (TP/TP + FN) in nam pokaže, v kolikšni meri lahko določen test prepozna subjekte z boleznijo. Specifičnost pa je definirana kot delež subjektov brez bolezni ter z negativnim rezultatom (pod mejo) v skupini vseh subjektov brez bolezni (TN/TN + FP). S specifičnostjo izvemo sposobnost testa, da napove negativen rezultat pri subjektih, ki nimajo bolezni (Šimundić, n. d.). Pozitivna napovedna vrednost (PPV) definira verjetnost prisotnosti stanja/bolezni pri subjektu s pozitivnim rezultatom. PPV predstavlja delež pacientov s pozitivnim rezultatom v skupini vseh pozitivnih subjektov (TP/TP + FP). Negativna napovedna vrednost (NPV) pa definira verjetnost odsotnosti bolezni pri subjektih z negativnim rezultatom testa. NPV je delež subjektov brez bolezni z negativnim rezultatom testa v skupini vseh negativnih subjektov (TN/TN + FN). Za razliko od senzitivnosti in specifičnosti na napovedne vrednosti v veliki meri vpliva prevalenca bolezni v ciljni populaciji (Šimundić, n. d.). Izjemno pomembna je tudi diagnostična natančnost (oz. točnost), ki nam pove delež pravilno klasificiranih subjektov (TP + TN) med vsemi subjekti (TP + TN + FP + FN). 19.

(30) Na njo vpliva prevalenca bolezni; natančnost testa naraste, če se prevalenca bolezni zniža (Šimundić, n. d.). Za izgradnjo ROC-grafa napišemo vrednosti specifičnosti na X-os ter senzitivnosti na Y-os. Oblika ROC-krivulje in prostor pod krivuljo (AUC) nam pomagata oceniti, kakšna je diskriminacijska moč modela. Bolj kot se krivulja približuje zgornjemu levemu kotu in večji kot je prostor pod krivuljo, boljši je test pri razlikovanju med subjekti z boleznijo in brez nje. AUC ima lahko vrednosti med 0 in 1, splošna povezava med vrednostjo AUC in diagnostično natančnostjo testa je opisana v tabeli 3 (Šimundić, n. d.). Tabela 3: Vrednosti AUC in njihova diagnostična natančnost AUC. DIAGNOSTIČNA NATANČNOST. 0,9–1,0. Odlična. 0,8−0,9. Zelo dobra. 0,7−0,8. Dobra. 0,6−0,7. Zadostna. 0,5−0,6. Slaba. <0,5 test. Neuporabna. Vir: Šimundić, n. d. AUC je splošna mera diagnostične natančnosti, ki nam ne pove nič o individualnih parametrih (senzitivnost, specifičnost, PPV, NPV). S primerjavo območij pod dvema ROC-krivuljama lahko ocenimo, kateri od dveh modelov je bolj primeren za razlikovanje med bolnimi in zdravimi oziroma med tistimi, ki so bili rehospitalizirani, in tistimi, ki niso bili (Šimundić, n. d.). Pri ocenjevanju napovednih modelov nas običajno zanima še Brierjeva ocena (angl. Brier score). Z njo računamo kvadratno razliko med binarnim izidom Y in napovedjo p. Brierjeva ocena za napovedni model je v razponu od 0 (za popoln model) do 0,25 za neinformativni model, kjer je možnost za izid 50 % (Steyerberg et al., 2010). Pri oceni našega napovednega modela bomo poleg AUC, senzitivnosti, specifičnosti, diagnostične natančnosti, PPV in NPV ter Brierjeve ocene upoštevali še število atributov, ki so bili uporabljeni pri izgradnji modela za napovedovanje rehospitalizacij. 20.

(31) 6 EMPIRIČNI DEL V empiričnem delu naloge smo se lotili izgradnje napovednih modelov s pomočjo prej opisanih metod (Lasso regresije, odločitvenih dreves in naključnih gozdov). Vsak model smo evalvirali s pomočjo mer diagnostične natančnosti (AUC, senzitivnosti, specifičnosti, natančnosti, NPV, PPV in Brierjeve ocene ter števila izbranih atributov).. 6.1 Hipoteza Z uporabo podatkov o hospitalizacijah, zbranih v elektronskih bolnišničnih zapisih, lahko izdelamo model za napovedovanje tveganja za nenačrtovano ponovno hospitalizacijo pri pacientih z MS, ki bo uspešnejši od modelov, ki niso vezani na posamezno diagnozo.. 6.2 Metodologija 6.2.1 Raziskovalne metode Priprava in obdelava podatkov sta potekali v naslednjih korakih: -. Na začetku smo iz celotne baze pacientov (SID), ki so bili hospitalizirani med letoma 2009 in 2011, izbrali tiste, ki so bili hospitalizirani najmanj petkrat (kompleksni pacienti). V to osnovno bazo kompleksnih pacientov so vključeni vsi pacienti, neodvisno od njihove diagnoze. Za analizo smo uporabili podatke o zadnjih šestih hospitalizacijah, ostale smo izločili. Prav tako smo izločili tiste paciente, pri katerih je bila zadnja (šesta) hospitalizacija načrtovana.. -. Nadalje smo iz osnovne baze kompleksnih pacientov izbrali tiste, pri katerih se pojavlja diagnoza MS (koda ICD 340). Ponovno smo izbrali podatke o zadnjih šestih hospitalizacijah in upoštevali pogoj, da mora biti zadnja hospitalizacija nenačrtovana.. -. Iz baze kompleksnih pacientov z MS smo izračunali, katere diagnoze in preiskave se najpogosteje pojavljajo; kot filter smo uporabili le diagnoze in preiskave iz leta 2009; s tem smo minimizirali možnost, da bi se izbrane diagnoze in preiskave pojavile v testni množici. 21.

(32) -. V naslednjem koraku smo diagnoze in preiskave shranili v obliki matrike: v stolpcih imamo kode ICD 9 za vsako diagnozo in preiskavo, vrednosti teh novih spremenljivk so binarne (0,1) in nam povedo, ali je izbrani pacient v trenutni hospitalizaciji imel postavljeno neko diagnozo oz. opravljeno preiskavo (vrednost 1) ali ne (vrednost 0).. -. Zaradi lažje obdelave podatkov smo izbrali 10 % najpogostejših diagnoz (180) in preiskav (43), ostale smo izključili iz baz. V naslednjem koraku smo najpogostejših 30 % teh vključenih diagnoz in preiskav tudi prešteli in jih shranili v spremenljivke, katerih ime se začne z Nu (primer: Nu_ICD_340, kar pomeni število diagnoz MS v predhodnih in trenutni hospitalizaciji skupaj). Tako smo dobili 55 preštetih diagnoz in 14 preštetih preiskav.. -. Pred gradnjo napovednega modela smo nominalne spremenljivke spremenili v slamnate.. -. Gradnjo napovednega modela smo najprej izvedli na bazi kompleksnih pacientov z MS; izvedli smo Lasso regresijo v programskem okolju R (s pomočjo paketa Glmnet). Naredili smo 10-kratno prečno preverjanje in izračunali povprečne vrednosti za AUC, Brierjevo oceno, diagnostično natančnost, senzitivnost, specifičnost, NPV in PPV ter število izbranih atributov. Za namene naše naloge smo 10-kratno prečno preverjanje ponovili 100-krat ter izračunali še povprečne vrednosti vseh zgoraj omenjenih mer za ocenjevanje diagnostične natančnosti.. -. Nato smo Lasso regresijo po enakem postopku izvedli tudi na osnovni bazi kompleksnih pacientov (pacienti z različnimi diagnozami). Modele smo učili na učnih množicah vseh kompleksnih pacientov z izjemo pacientov, ki so bili v prvi fazi uporabljeni za testiranje modela. Tako smo zagotovili primerljivost rezultatov posameznih modelov. Splošen model v i-ti ponovitvi je bil namreč testiran na identični testni množici kot specializiran model v i-ti ponovitvi. Učna množica za gradnjo splošnega modela v i-ti ponovitvi pa je bila razširjena učna množica, uporabljena za gradnjo specializiranega modela v i-ti ponovitvi za vse kompleksne paciente, ki niso imeli diagnoze MS. 22.

(33) Dobljeni rezultati so zadoščali za ovrednotenje postavljene hipoteze. Kljub temu smo želeli še dodatno izboljšati napovedovanje ponovnih bolnišničnih sprejemov bolnikov z MS. Zato smo k podatkom o trenutnem bolnišničnem sprejemu za posameznega bolnika dodali še zgodovinske podatke o ostalih sprejemih. Zanimalo nas je, koliko zgodovinski podatki o bolnišničnih sprejemih vplivajo na napovedno moč modela.. -. V naslednjem koraku smo iz baze kompleksnih pacientov z MS izdelali tri nove baze: o v prvo bazo smo shranili podatke vseh šestih hospitalizacij (v tej bazi bomo iz vseh predhodnih hospitalizacij (od prve do vključno pete) napovedovali zadnjo (šesto) hospitalizacijo). o V drugi bazi hranimo podatke zadnjih štirih hospitalizacij (zadnjo hospitalizacijo (šesto) napovedujemo iz podatkov o treh predhodnih hospitalizacijah ). o V tretjo bazo shranimo podatke zadnjih dveh hospitalizacij (zadnjo hospitalizacijo napovedujemo samo iz predhodne hospitalizacije).. -. Na vseh treh bazah smo izračunali naslednje agregirane spremenljivke: o skupno število bolnišničnih dni za vse hospitalizacije. o povprečje in vsoto vseh kroničnih bolezni (NCHRONIC), preiskav (NPR) in dolžine bolnišničnega bivanja (LOS) za vse hospitalizacije ter o število hospitalizacij, kroničnih bolezni, preiskav in dolžine bolnišničnega bivanja v 30, 60, 90, 180, 365 in 730 dneh.. -. Iz naših treh baz smo oblikovali še dve novi bazi: o V prvi bazi so zbrani le agregirani podatki o vseh hospitalizacijah (CurrDX&PR=No). o V drugi bazi imamo agregirane podatke o hospitalizacijah in tudi podatke. (diagnoze. in. preiskave). o. trenutni. hospitalizaciji. (CurrDX&PR=Yes). -. Vseh šest baz smo nato testirali s 100-krat ponovljenim 10-kratnim prečnim preverjanjem v programskem okolju R studio z uporabo naslednjih metod:. 23.

(34) o Lasso regresije z uporabo funkcije glmnet (alpha=1) v knjižnici Glmnet. o Odločitvenih dreves (funkcija rpart v knjižnici caret), kjer smo drevesa z vrednostjo AUC nad 0,7 tudi izrisali v PDF-datoteko. o Naključnih gozdov (metoda random.forest v knjižnici randomForest). Število dreves v gozdu smo nastavili na 100. -. Dobljene rezultate smo s pomočjo Excela grafično in tabelarično predstavili.. -. Na koncu smo v programu SPSS izvedli Wilcoxonov test z rangi z namenom ugotoviti, ali obstajajo statistično značilne razlike med vrednostmi AUC, senzitivnostjo, specifičnostjo in številom izbranim atributov med bazami z različnim številom predhodnih hospitalizacij. Wilcoxonov test z rangi sodi med neparametrične statistične teste, s katerimi preizkušamo domneve o tipu porazdelitvenega zakona ene ali več slučajnih spremenljivk. Prednosti teh testov so: neobčutljivost za obliko porazdelitve populacije, hitro in preprosto računanje in analiza nekvantitativnih spremenljivk (za rangiranje spremenljivk zadostuje, da so te ordinalne). V primerjavi s parametričnimi statističnimi testi imajo manjšo moč, kar je njihova glavna pomanjkljivost (Mauko, 2010). Wilcoxonov test z rangi je neparametrični ekvivalent t-testu odvisnih vzorcev. Ker ne predpostavlja normalne porazdelitve spremenljivke, ga lahko uporabljamo tudi, ko temu pogoju ni zadoščeno. Uporabljamo ga za primerjavo dveh nizov rezultatov, ki prihajajo od istih udeležencev. To se zgodi, ko želimo proučiti kakršnokoli spremembo v rezultatih od ene časovne točke do druge ali kadar so udeleženci podvrženi več različnim pogojem (Dalgaard, 2008).. Rezultati bodo predstavljeni v obliki povprečne vrednosti in 95 % intervala zaupanja. Kot statistično značilno vrednost bomo uporabili vrednost, manjšo od 0,0167.. 24.

(35) 6.2.2 Raziskovalni vzorec SID je del skupine podatkovnih baz in programskih orodij, razvitih v okviru projekta HCUP (angl. Healthcare Cost and Utilization Project), ki predstavlja največjo zbirko longitudinalnih podatkov o bolnišnični oskrbi v ZDA. Podatkovne baze HCUP so pridobljene iz administrativnih podatkov in vključujejo klinične in neklinične informacije, vse diagnoze in preiskave, status odpusta iz bolnišnice, demografske podatke pacientov ter stroške za vse paciente ne glede na plačnika storitev (npr. Medicare, Medicaid, zasebno zavarovanje, nezavarovani). Začetek zbiranja teh podatkov sega v leto 1988. Te podatkovne baze omogočajo raziskovanje širokega spektra zdravstvenih problemov, vključno s stroški in kakovostjo zdravstvenih storitev, z vzorci medicinskih praks, dostop do programov zdravstvene oskrbe in rezultatov zdravljenj, na nacionalni, državni in lokalni ravni (Agency for Healthcare Research and Quality, 2014a). Zbirko podatkov SID sestavljajo individualne podatkovne datoteke iz podatkovnih organizacij v 47 sodelujočih državah ZDA. Poleg podatkov o odpustih iz bolnišnic vključuje tudi demografske podatke (spol, starost), podatke o bolnišnični oskrbi (primarne in sekundarne diagnoze, primarne in sekundarne preiskave, dolžina bivanja v bolnišnici) ter podatke o stroških te oskrbe (Agency for Healthcare Research and Quality, 2014b). Naš raziskovalni vzorec predstavljata dve bazi, ki sta del podatkovne baze SID med letoma 2009 in 2011. Prva je splošna baza kompleksnih pacientov, ki smo jo dobili tako, da smo iz celotne baze SID izbrali paciente z več kot petimi hospitalizacijami; uporabili smo podatke o zadnjih šestih hospitalizacijah in postavili pogoj, da mora biti zadnja hospitalizacija nenačrtovana. Tako smo dobili bazo s 173.442 pacienti; od tega je 47,4 % moških in 51,8 % žensk; pri ostalih pacientih nimamo podatka o spolu. Njihova povprečna starost je 61,8 (±17,9) let. Delež rehospitalizacij je 39,6 %. Druga baza predstavlja podmnožico splošne baze kompleksnih pacientov, saj vključuje le paciente, ki imajo v katerikoli hospitalizaciji postavljeno diagnozo MS. Ta podatek smo dobili s pomočjo kode ICD 9 (koda za MS je ICD 340), in sicer tako, da smo preverili, ali se koda pojavi v katerikoli zabeleženi hospitalizaciji nekega pacienta. Postavili smo enake pogoje kot pri splošni bazi kompleksnih pacientov (izbor 25.

(36) podatkov o zadnjih šestih hospitalizacijah in nenačrtovanost zadnje (šeste) hospitalizacije). Baza kompleksnih pacientov z MS vsebuje podatke o 7.188 hospitalizacijah. Gre za 1.198 pacientov; 796 je žensk (66,4 %), 397 moških (33,1) in 5 posameznikov, katerih spol ni zabeležen. Povprečna starost pacientov je 54,6 (± 13,5) let. Delež rehospitalizacij v tej bazi je 33 %.. 26.

(37) 7 REZULTATI V nadaljevanju bomo opisali rezultate, ki smo jih dobili z gradnjo napovednih modelov za napovedovanje ponovne hospitalizacije bolnikov z MS na osnovi opisanih metod.. 7.1 Rezultati Lasso regresije Najprej smo primerjali povprečne vrednosti splošnega in MS specializiranega napovednega modela, dobljene s stotimi ponovitvami 10-kratnega prečnega preverjanja. Povprečne vrednosti mer za ocenjevanje uspešnosti napovednih modelov smo izračunali tako, da smo za vsako ponovitev 10-kratne križne validacije posebej izračunali povprečno vrednost (tako smo dobili sto povprečij), nato pa smo izračunali še povprečje teh stotih povprečij. V tabeli 4 lahko vidimo povprečne vrednosti obeh modelov; prvi je zgrajen na bazi vseh pacientov (splošni model), drugi pa na bazi pacientov, ki imajo postavljeno diagnozo MS (specializiran model). Pri obeh modelih smo testirali napovedovanje zadnje (šeste) hospitalizacije, z uporabo administrativnih podatkov iz predhodne (pete) hospitalizacije. Povprečna vrednost AUC je za 0,042 višja pri MS specializiranem modelu, v primerjavi z AUC vrednostjo splošnega modela. Prav tako so višje tudi diagnostična natančnost (za 0,06), senzitivnost (za 0,035) in specifičnost (za 0,073) kot tudi PPV (za 0,025) in NPV (za 0,067). Število izbranih atributov je pri specializiranem modelu veliko manjše (za 96,43) kot pri splošnem modelu, nižja pa je tudi Brierjeva ocena (za 0,014). Rezultate smo primerjali z Wilcoxonovim testom z rangi, ki je v vseh metrikah za oceno napovedne vrednosti modela razen pri PPV pokazal statistično značilno razliko med splošnim in specializiranim modelom. Specializiran model je bil v vsaki iteraciji boljši od splošnega modela, razen v metriki PPV, kjer je bil rezultat specializiranega modela boljši v več kot 60 % primerov.. 27.

(38) Tabela 4: Primerjava povprečnih vrednosti dveh napovednih modelov (Lasso) Splošni model AUC. 0,666. Specializiran model 0,708. Z. p. Brierjeva ocena. 0,210. 0,196. -3,516. <0,001. Diagnostična natančnost Senzitivnost. 0,628. 0,688. -3,516. <0,001. 0,631. 0,666. -3,516. <0,001. Specifičnost. 0,626. 0,699. -3,516. <0,001. PPV. 0,499. 0,524. -1,034. 0,301. NPV. 0,744. 0,811. -3,516. <0,001. Št. izbranih atributov. 124,544. 28,114. -3,516. <0,001. -3,516. <0,001. Nadalje smo proučili vpliv poznavanja podatkov iz predhodnih hospitalizacij na napovedovanje rehospitalizacije bolnikov z MS. V Prilogi 1 so predstavljene povprečne vrednosti (s 95 % intervalom zaupanja) AUC, Brierjeve ocene, diagnostične natančnosti, senzitivnosti, specifičnosti, PPV, NPV in števila izbranih atributov za zgrajene specializirane modele modela, ki smo jih dobili s 100-kratno ponovitvijo 10-kratnega križnega preverjanja z metodo Lasso regresije. Podatki so razdeljeni glede na število predhodnih hospitalizacij (1, 3 ali 5) in glede na vključitev podatkov o trenutni hospitalizaciji (diagnoze in postopki, ki so zabeleženi v hospitalizaciji, iz katere napovedujemo rehospitalizacijo). V nadaljevanju si bomo s pomočjo grafične predstavitve ogledali rezultate za AUC, senzitivnost, specifičnost in število izbranih atributov.. 28.

(39) 0,72 0,715 0,71 0,705 0,7 0,695 0,69 0. 1. 2. 3. 4. 5. 6. Grafikon 1: Povprečne vrednosti AUC in 95 % interval zaupanja v odvisnosti od št. hospitalizacij (Lasso regresijski model) Z modro barvo na grafikonu so označeni rezultati na bazah podatkov, ki poleg agregiranih podatkov o hospitalizacijah vključujejo tudi. podatke o trenutni. hospitalizaciji (tj. ali se neka diagnoza oz. postopek pojavita v trenutni hospitalizaciji ali ne). Z rdečo barvo so označeni rezultati na bazah podatkov, ki ne vsebujejo ločeno podatka o diagnozah in preiskavah v trenutni hospitalizaciji, temveč samo agregirane podatke za vse predhodne hospitalizacije, vključno s trenutno hospitalizacijo. Baze bomo za lažje razumevanje poimenovali na naslednji način: -. Baza1 – baza podatkov, ki vsebuje le podatke o trenutni hospitalizaciji,. -. Baza3 – baza podatkov, ki vsebuje podatke o zadnjih treh hospitalizacijah,. -. Baza5 – baza podatkov, ki vsebuje podatke o zadnjih petih hospitalizacijah.. Iz grafikona 1 lahko vidimo višanje vrednosti AUC ob dodajanju podatkov o predhodnih hospitalizacijah. Baze, ki ne vsebujejo podatkov o diagnozah in preiskavah v trenutni hospitalizaciji (označene z rdečo), izkazujejo višji AUC, kadar je število predhodnih hospitalizacij večje. Povprečna vrednost AUC pri prvi bazi je 0,696, pri tretji je 0,701, pri zadnji pa 0,714. Temu trendu ne sledita Baza1 in Baza3, ki vsebujeta podatke o predhodnih in trenutni hospitalizaciji (označeni z modro barvo). Iz grafikona je razvidno, da je njuna vrednost AUC približno enaka. 29.

(40) Rezultati Wilcoxonovega testa z rangi razkrivajo, da obstajajo statistično značilne razlike med vrednostmi AUC za vse tri baze, ki ne vsebujejo podatkov o trenutni hospitalizaciji (p = 0,005). Pri bazah, ki vključujejo podatke o trenutni hospitalizaciji, ne obstaja statistično značilna razlika med Bazo1 in Bazo3 (p = 0,386), vendar obstajajo statistično značilne razlike med Bazo3 in Bazo5 kot tudi med Bazo1 in Bazo5 (p = 0,005) (Priloga 4).. 50 45 40 35 30 25 20 15 10 5 0 0. 1. 2. 3. 4. 5. 6. Grafikon 2: Povprečno št. izbranih atributov in 95 % interval zaupanja v odvisnosti od št. hospitalizacij (Lasso regresijski model) Število izbranih atributov je neodvisno od števila hospitalizacij ter se giblje med 30 in 45 atributi (grafikon 2). Slednje kaže na bistveno manjšo kompleksnost in boljšo interpretabilnost specifičnih modelov v primerjavi z globalnim modelom. Opazimo lahko tudi, da se število vključenih atributov v končni model kljub večjemu naboru vhodnih atributov v primeru uporabe baz podatkov, ki poleg agregiranih zgodovinskih podatkov vsebujejo ločeno tudi podatke o trenutni hospitalizaciji (modra oznaka na grafikonu), ne poveča bistveno v primerjavi z modeli, ki smo jih zgradili le na agregiranih podatkih iz zgodovinskih hospitalizacij.. 30.

(41) 0,7 0,695 0,69 0,685 0,68 0,675 0,67 0,665 0,66 0,655 0,65 0. 1. 2. 3. 4. 5. 6. Grafikon 3: Povprečne vrednosti senzitivnosti in 95 % interval zaupanja v odvisnosti od št. hospitalizacij (Lasso regresijski model) Tako kot AUC se tudi senzitivnost viša s številom hospitalizacij. Iz grafikona 3 opazimo, da obstajajo razlike v senzitivnosti med bazami, ki vključujejo podatke o diagnozah in postopkih trenutne hospitalizacije ter predhodnih hospitalizacijah (označene z modro barvo). Povprečna vrednost senzitivnosti pri bazi, ki vsebuje podatke o eni hospitalizaciji, znaša 0,659, pri bazi s podatki o zadnjih treh hospitalizacijah se vrednost poviša za 0,01, še višja (za 0,021) od prvotne vrednosti pa je povprečna senzitivnost na bazi, ki vsebuje podatke o petih hospitalizacijah. Wilcoxonov test z rangi potrjuje našo domnevo o statistično značilnih razlikah med vrednostmi senzitivnosti pri bazah, ki vsebujejo podatke o trenutni hospitalizaciji (p = 0,005 za vse baze) (Priloga 4). Pri bazah, ki ne vsebujejo podatka o trenutni hospitalizaciji, pa ni statistično značilne razlike med Bazo1 in Bazo3 (p = 0,386); med ostalimi pari (Baza1-Baza3 ter Baza1−Baza5) je p = 0,005, kar nakazuje, da obstajajo statistično značilne razlike med njimi.. 31.

(42) 0,705 0,7 0,695 0,69 0,685 0,68 0,675 0,67 0,665 0,66 0. 1. 2. 3. 4. 5. 6. Grafikon 4: Povprečne vrednosti specifičnosti in 95 % interval zaupanja v odvisnosti od št. hospitalizacij (Lasso regresijski model) Specifičnost se viša s številom hospitalizacij le za baze, ki ne vključujejo podatkov o trenutni hospitalizaciji (rdeča barva). Čeprav vrednosti naraščajo v manjših intervalih (za približno 0,01), sklepamo, da so razlike statistično značilne. Wilcoxonov test potrjuje naše domneve, da obstajajo statistične razlike med vsemi tremi pari baz (Baza3−Baza1, p = 0,007; Baza5−Baza3, p = 0,009; Baza5−Baza1, p = 0,005) (Priloga 4). Za ostale baze, ki vključujejo tudi podatke o trenutni hospitalizaciji (modra barva), pa specifičnost celo pada, ko se poveča število hospitalizacij (grafikon 4).. Zanimalo nas je tudi, katere spremenljivke so bile uporabljene pri izgradnji našega modela. Za vsako bazo smo dobili različen nabor spremenljivk, zato smo izbrali 20 najpogostejših, ki so se največkrat pojavljale v bazah, ki vključujejo podatke o trenutni hospitalizaciji ter agregirane zgodovinske podatke o hospitalizacijah. Spremenljivke smo združili v tabelo (Tabela 5), kjer je poleg imena spremenljivke in njenega opisa tudi predznak, ki nam pove, kako je spremenljivka povezana z rehospitalizacijo.. 32.

(43) Tabela 5: Spremenljivke, ki so najpogosteje vključene v napovedni model (Lasso) Spremenljivka. Vpliv. Opis. LOS. -. Dolžina bolnišničnega bivanja. ASCHED. -. Načrtovan sprejem. Dispuniform2. +. Odpust v negovalno bolnišnico. ICD V58.66. +. Dolgotrajna uporaba aspirina. ICD 276.0. +. Hiperosmolarnost in/ali hipernatremija. ICD 345. 90. -. Epilepsija. AMONTH. +. Mesec sprejema. DMONTH. +. Mesec odpusta. DQTR. +. Četrtletje odpusta. Hospitalunit1. +. Bolnišnična enota – akutna nega. ICD 348. 30. -. Encefalopatija. Nu. ICD 584.9. +. Akutna odpoved ledvic. ICD 96.71. +. Kontinuirana invazivna mehanska ventilacija (manj kot 96 zaporednih ur). ICD 294.8. -. Duševne motnje. ICD V45.11. +. Dializa. ICD 041.04. -. Streptokokna infekcija (skupine D). NuHosp90. +. Število hospitalizacij v 90 dneh. NuHosp30. +. Število hospitalizacij v 30 dneh. Nu. ICD 345.90. Nu. ICD 96.71. Vir: Podatkovna baza SID V Tabeli 5 lahko vidimo različne spremenljivke, ki vplivajo na rehospitalizacijo. Vsaka spremenljivka ima svoj predznak (pozitiven ali negativen), ki nakazuje smer vpliva na rehospitalizacijo. Spremenljivke z negativnim vplivom so: dolžina bolnišničnega bivanja, načrtovan sprejem, epilepsija (pojavitev diagnoze v zadnji hospitalizaciji ter število pojavitve diagnoze) ter pojavitev naslednjih diagnoz v zadnji hospitalizaciji: encefalopacija, duševne motnje in streptokokna infekcija skupine D. 33.

(44) Pozitiven vpliv na rehospitalizacijo pa imajo: mesec sprejema in odpusta, četrtletje odpusta, odpust v negovalno bolnišnico, vrsta bolnišnične enote (akutna nega) ter število hospitalizacij v 30 in 90 dneh. Pojavitev naslednjih diagnoz in preiskav v zadnji hospitalizaciji ima prav tako pozitiven vpliv na rehospitalizacijo: dolgotrajna uporaba aspirina, hiperosmolarnost ali hipernatremija, dializa in kontinuirana invazivna mehanska ventilacija (manj kot 96 zaporednih ur) ter skupno število pojavitev diagnoze akutne odpovedi ledvic.. 7.2 Rezultati odločitvenih dreves Podobno kot v prejšnjem poglavju smo izračunali tudi povprečne vrednosti mer za ocenjevanje kakovosti modelov, zgrajenih z metodo odločitvenih dreves. Uporabili smo funkcijo rpart iz knjižnice caret (programski jezik R). Ponovno smo uporabili 10-kratno križno preverjanje, ki smo ga izvedli stokrat, ter izračunali povprečno vrednost in 95 % interval zaupanja. Dobljene podatke o povprečnih vrednostih in 95 % intervalih zaupanja za AUC, Brierjevi oceni, diagnostični natančnosti, senzitivnosti, specifičnosti, PPV in NPV ter številu izbranih atributov smo zbrali v Prilogi 2. Tudi pri odločitvenih drevesih so podatki razdeljeni glede na število predhodnih hospitalizacij (1, 3 ali 5) ter glede na vključitev podatkov o trenutni hospitalizaciji. 0,66 0,65 0,64 0,63 0,62 0,61 0,6 0,59 0. 1. 2. 3. 4. 5. 6. Grafikon 5: Povprečne vrednosti AUC in 95 % interval zaupanja v odvisnosti od št. hospitalizacij (odločitvena drevesa) 34.

(45) Za odločitvena drevesa smo izrisali grafikon, ki prikazujejo povprečno vrednost AUC, v odvisnosti od števila hospitalizacij. Modra barva označuje baze, ki vključujejo agregirane podatke o predhodnih hospitalizacijah in dodatno še podatke o trenutni hospitalizaciji, rdeča pa tiste, ki vsebujejo le agregirane podatke o vseh predhodnih hospitalizacijah (v katere so vključeni tudi podatki o trenutni hospitalizaciji) vključno s trenutno hospitalizacijo. Iz grafikona 5 lahko vidimo, da vrednost AUC najprej rahlo narašča za vse baze (na osnovi grafikona sklepamo, da ne gre za statistično značilne razlike), nato pa upade, kadar imamo podatke o 5 predhodnih hospitalizacijah. Z dodajanjem podatkov o zgodovini hospitalizacij pa pada tudi specifičnost, kar lahko razberemo iz tabele v Prilogi 2, kjer so zapisane povprečne vrednosti s 95 % intervalom zaupanja za AUC, Brierjevo oceno, senzitivnost, specifičnost, PPV, NPV ter število izbranih atributov. Iz iste tabele lahko razberemo tudi, da se pri odločitvenih drevesih z večjim številom zgodovinskih podatkov veča tudi število atributov, kar kaže na slabšo interpretabilnost modela z večjim naborom informacij.. 7.3 Rezultati naključnih gozdov Enak postopek kot pri prejšnjih metodah smo ponovili tudi na naključnih gozdovih. V Prilogi 3 imamo zbrane povprečne vrednosti AUC, Brierjeve ocene, senzitivnosti, specifičnosti, PPV, NPV ter števila izbranih atributov, dobljene z metodo naključnih gozdov. V grafikonih so z modro barvo označene baze, ki vključujejo agregirane podatke o hospitalizacijah, kot tudi podatke o trenutni hospitalizaciji, z rdečo pa tiste, ki vsebujejo samo agregirane podatke o hospitalizacijah. Poleg povprečnih vrednosti smo izračunali tudi 95 % interval zaupanja.. 35.

(46) 0,7 0,695 0,69 0,685 0,68 0,675 0,67 0,665 0. 1. 2. 3. 4. 5. 6. Grafikon 6: Povprečne vrednosti AUC in 95 % interval zaupanja v odvisnosti od št. hospitalizacij (naključni gozdovi) Iz grafikona 6 lahko vidimo, da povprečne vrednosti AUC naraščajo s številom hospitalizacij (tako za baze s podatki o trenutni hospitalizaciji kot za baze, ki teh podatkov ne vključujejo). Na osnovi Wilcoxonovega testa z rangi smo ugotovili, da obstajajo statistično značilne razlike med vsemi bazami (p = 0,005), razen med Bazo1 in Bazo3, ki vsebujeta podatke o trenutni hospitalizaciji (p = 0,139) (Priloga 5).. 160 140 120 100 80 60 40 20 0 0. 1. 2. 3. 4. 5. 6. Grafikon 7: Povprečno št. izbranih atributov in 95 % interval zaupanja v odvisnosti od št. hospitalizacij (naključni gozdovi) 36.

References

Related documents

In the specialised area of medical high-tech products, our range includes technical services such as maintenance and re- pair, as well as expert consultation in the sector

Moreover, some control schemes such as the computed torque controller rely directly on the dynamics model to predict the desired actuator force to be used in a feedforward

Green practices are based on the evaluation of perceived relative advantage and complexity as antecedents of innovation characteristics in the attitude of the entrepreneurs,

In this work, we propose a novel smart algorithm (SA) that: i) removes organs presented with high signal inten- sity on WB-DWI (spleen, kidneys, spinal cord, bladder and testis)

While introducing the measure ν through counting considerations in Section 2, we first interpreted the given formula using the bounded semantics described in Section 2.2,

Recall the results on total spending (Figure 3) showed an asymmetry in the spending response before and after the income shock; total spending dropped roughly by 2 days of

The LivingLab approach was utilised in the project (cf. Luotonen, Marttila, Hyyppä et al. 2011) alongside userdriven methods, which meant that different actors were actively