• No results found

Autoregressive integrated moving average models for forecasting electricity consumption

N/A
N/A
Protected

Academic year: 2021

Share "Autoregressive integrated moving average models for forecasting electricity consumption"

Copied!
113
0
0

Loading.... (view fulltext now)

Full text

(1)UNIVERZA V MARIBORU FAKULTETA ZA NARAVOSLOVJE IN MATEMATIKO Oddelek za matematiko in ra£unalni²tvo. MAGISTRSKO DELO Matic Tajnik. Maribor 2016.

(2)

(3) UNIVERZA V MARIBORU FAKULTETA ZA NARAVOSLOVJE IN MATEMATIKO Oddelek za matematiko in ra£unalni²tvo. Magistrsko delo. INTEGRIRANI AVTOREGRESIJSKI MODELI S PREMIKAJOƒIMI SREDINAMI ZA NAPOVEDOVANJE PORABE ELEKTRIƒNE ENERGIJE na ²tudijskem programu 2. stopnje Matematika. Mentor:. Kandidat:. Drago Bokal. Matic Tajnik. Somentorica: Tanja Gologranc. Maribor 2016.

(4) ZAHVALA. Mathematics, rightly viewed, possesses not only truth, but supreme beauty... (Bertrand Russeli).. Zahvaljujem se mentorju izr. prof. dr. Dragu Bokalu za njegov trud, pomo£ in strokovno vodenje pri izdelavi magistrskega dela. Prav tako se zahvaljujem somentorici doc. dr. Tanji Gologranc za strokovne nasvete. Zahvaljujem se tudi vsem prijateljem in so²olcem, ki so mi kakorkoli pomagali in me vzpodbujali pri ²tudiju. Iskreno se zahvaljujem star²em, ki so me v £asu ²tudija podpirali, mi pomagali in me vzpodbujali.. Vsem iskreno hvala..

(5) UNIVERZA V MARIBORU FAKULTETA ZA NARAVOSLOVJE IN MATEMATIKO. IZJAVA. Podpisani Matic Tajnik, rojen 8. februarja 1988, ²tudent Fakultete za naravoslovje in matematiko Univerze v Mariboru, ²tudijskega programa 2. stopnje Matematika, izjavljam, da je magistrsko delo z naslovom INTEGRIRANI AVTOREGRESIJSKI MODELI S PREMIKAJOƒIMI SREDINAMI ZA NAPOVEDOVANJE PORABE ELEKTRIƒNE ENERGIJE pri mentorju izr. prof. dr. Dragu Bokalu in somentorici doc. dr. Tanji Gologranc avtorsko delo. V magistrskem delu so uporabljeni viri in literatura korektno navedeni; teksti niso uporabljeni brez navedbe avtorjev.. Maribor, december 2016. Matic Tajnik.

(6) Integrirani avtoregresijski modeli s premikajo£imi sredinami za napovedovanje porabe elektri£ne energije program magistrskega dela. V magistrskem delu bodo pregledani pristopi k modeliranju porabe elektri£ne energije na razli£nih modelih napovedovanja. Podrobno bo predstavljena Box-Jenkins metodologija analize £asovnih vrst in prou£eni sezonski in ne-sezonski AR/I/MA modeli (avtoregresijski integrirani modeli s premikajo£imi sredinami). Pridobljeni bodo podatki za vsaj eno £asovno vrsto porabe elektri£ne energije (skupna poraba v Sloveniji), ki bo uporabljena kot osnova za primerjavo kakovosti raznih modelov. Izdelane modele se primerja z obstoje£imi modeli iz literature (multipla linearna regresija, metoda podpornih vektorjev) po ve£ razli£nih kriterijih, ki bodo prav tako predstavljeni v magisteriju. S primerjavo kakovosti bo nadgrajena taksonomija, razvita v ’migoc, 2016. Pri izbranih obravnavanih modelih bo analiziran vpliv dolºine in odmika u£nega obdobja na natan£nost modelov. Z uporabo pridobljenih podatkov bo izdelan model za oceno smiselnega intervala posodabljanja modelov za napovedovanje porabe elektri£ne energije. Z razli£nimi tehnikami bodo izdelani in primerjani modeli za 12-urno napovedovanje porabe elektri£ne energije. Osnovni viri: 1. Rafal Weron: Modeling and forecasting electricity loads and prices (2006). 2. George E. P. Box, Gwilym M. Jenkins, Gregory C. Reinsel: Time series analysis, forecasting and control (1994). 3. M. Jarvinen: Developing network loss forecasting for a distribution system operator, Master of Science Thesis (2013). 4. S.’migoc: Primerjava pristopov k napovedovanju porabe elektri£ne energije, Magistrska naloga (2016), FNM UM. 5. Robert I. Kabaco: R in action, Data analysis and graphics with R (2011).. izr. prof. dr. Drago Bokal. doc. dr. Tanja Gologranc.

(7) TAJNIK, M.: Integrirani avtoregresijski modeli s premikajo£imi sredinami za napovedovanje porabe elektri£ne energije Magistrsko delo, Univerza v Mariboru, Fakulteta za naravoslovje in matematiko, Oddelek za matematiko in ra£unalni²tvo, 2016.. IZVLEƒEK. Magistrsko delo obravnava primerjavo pristopov razli£nih tehnik k napovedovanju porabe elektri£ne energije. Delo je razdeljeno na pet poglavij. V prvem poglavju so predstavljene tehnike modeliranja, ki so potrebne za razumevanje opravljenih analiz in nadaljnih primerjav, to so: ve£stopenjska linearna regresija, metoda podpornih vektorjev, naklju£ni gozd in mehka logika. Pregledu metod modeliranja sledi poglavje, kjer so predstavljeni indeksi kakovosti modelov. Razdeljeni so v pet podpoglavij: napake, determinacijski koecient, popravljen determinacijski koecient, statisti£ni F-test in informacijski kriteriji. V tretjem poglavju so podrobno predstavljeni in raz£lenjeni integrirani avtoregresijski modeli premikajo£e sredine (ARIMA). Naprej je predstavljena avtokorelacija in njene funkcije, sledi denicija stacionarnosti in diferenciranja £asovne vrste, predstavljeni so sezonski ARIMA modeli, na koncu sledijo koraki Box-Jenkins metodologije za izgradnjo ARIMA modelov. V £etrtem poglavju je povzeta uporaba taksonomije, izdelana je raz²iritev taksonomije napovedovanja v elektrogospodarstvu, predstavljena je obdelana literatura in prikaz taksonomskih enot, ki so bile vsebovane v njej. Poleg taksonomskih enot so za obravnavano literaturo predstavljeni gra primerjav tehnik modeliranja. V zadnjem poglavju so predstavljeni izra£uni in primerjava rezultatov natan£nosti modelov za napovedovanje. Najprej je predstavljena lastna £asovna vrsta, sledi konstrukcija ARIMA modela po Box-Jenkins metodologiji in kasneje ²e modelov AutoARIMA (funkcija, ki samostojno dolo£i parametre modela), multiple linearne regresije (MLR) in metode podpornih vektorjev (SVM). Na koncu poglavja so prikazane analize primerjav med modeli glede na dolºino in odmik u£nega obdobja. Primerjani so tudi modeli za 12 urno napovedovanje..

(8) Klju£ne besede:. napovedovanje, linearna regresija, naklju£ni gozd, podporni vektorji, ARIMA modeli, taksonomija, mehka logika, informacijski kriteriji.. Math. Subj. Class. (2010):. 62-07 analiza podatkov, 62J02 splo²na nelinearna regresija, 62M10 £asovne vrste, avtokorelacija, regresija, itd., 62M20 napovedovanje, ltriranje..

(9) TAJNIK, M.: Autoregressive integrated moving average models for forecasting electricity consumption. Master Thesis, University of Maribor, Faculty of Natural Sciences and Mathematics, Department of Mathematics and Computer Science, 2016.. ABSTRACT. This master thesis investigates the comparison of approaches to forecasting electricity consumption. The thesis is divided into ve chapters. In the rst chapter, we present the modelling techniques which are necessary for understanding the analyses and further comparisons, these are: multiple linear regression, support vector machines, random forest and fuzzy logic model. Review of the modelling methods is followed by a section which presents the indices of quality. They are divided into ve sub-sections: errors, coecient of determination, adjusted coecient of determination, statistical F-test and information criteria. In the third chapter, the autoregressive integrated moving average (ARIMA) models are presented in detail. Next, autocorrelation and other functions are presented, denition and dierentiation of stationarity of the time series, seasonal ARIMA models are discussed, and lastly, the steps of Box-Jenkins methodology building ARIMA models are listed. The fourth chapter summarizes the use of taxonomies, the extension of taxonomy prediction in the electricity sector is made, the literature is presented and the taxonomic units, which were contained in it, are shown. In addition to the taxonomic units, the graphs that show the comparison of the modelling techniques are presented. In the last chapter, calculations and the comparison of results of the precision of forecasting models are made. First, time series is presented, followed by the construction of the ARIMA model and later on, the models AutoARIMA, multiple linear regression (MLR) and support vector machines (SVM). At the end of the chapter there is the analysis of comparisons between models depending on the length of the learning period and delay. A comparison is also made between models for 12-hour prediction.. Keywords:. forecasting, multiple linear regression, random forest, support vector machine, ARIMA models, taxonomy, fuzzy logic, information criteria..

(10) Math. Subj. Class. (2010):. 62-07 data analysis, 62J02 general nonlinear regression, 62M10 time series, auto-correlation, regression, etc., 62M20 prediction, ltering..

(11) Kazalo Uvod. 1. 1 Predstavitev tehnik modeliranja. 3. 1.1. Enostavna in multipla linearna regresija . . . . . . . . . . . . . . . . . . . . .. 3. 1.2. Metoda podpornih vektorjev . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 1.3. Naklju£ni gozd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 1.4. Mehka logika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 2 Indeksi kakovosti modelov. 10. 2.1. Napake. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11. 2.2. Testiranje na podlagi determinacijskega koecienta . . . . . . . . . . . . . . . 12. 2.3. Informacijski kriteriji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14. 3 Integrirani avtoregresijski modeli s premikajo£imi sredinami 3.1. 3.2. 16. Avtokorelacija in njene funkcije . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.1.1. Korelacija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16. 3.1.2. Avtokorelacija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17. 3.1.3. Avtokorelacijska funkcija (ACF) . . . . . . . . . . . . . . . . . . . . . . 19. 3.1.4. Delna avtokorelacijska funkcija (PACF) . . . . . . . . . . . . . . . . . 21. 3.1.5. Beli ²um . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22. Stacionarnost in diferenciranje £asovne vrste . . . . . . . . . . . . . . . . . . . 23 3.2.1. Stacionarnost £asovne vrste . . . . . . . . . . . . . . . . . . . . . . . . 23. xi.

(12) 3.3. 3.4. 3.5. 3.2.2. Transformacija £asovne vrste . . . . . . . . . . . . . . . . . . . . . . . 25. 3.2.3. Uporaba ACF in statisti£nih testov za preverjanje stacionarnosti . . . 26. 3.2.4. Notacija in zapis stopenj diferenciranja . . . . . . . . . . . . . . . . . . 28. Avtoregresijski model in model premikajo£e sredine 3.3.1. Avtoregresijski model (AR) . . . . . . . . . . . . . . . . . . . . . . . . 30. 3.3.2. Model premikajo£e sredine (MA) . . . . . . . . . . . . . . . . . . . . . 30. ARIMA modeli in sezonski ARIMA modeli . . . . . . . . . . . . . . . . . . . 31 3.4.1. ARIMA modeli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31. 3.4.2. Sezonski ARIMA modeli . . . . . . . . . . . . . . . . . . . . . . . . . . 33. Box-Jenkins metodologija za izgradnjo ARIMA modela . . . . . . . . . . . . . 34 3.5.1. Identikacija modela . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35. 3.5.2. Ocenjevanje parametrov modela . . . . . . . . . . . . . . . . . . . . . . 36. 3.5.3. Verikacija modela . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36. 3.5.4. Napovedovanje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37. 4 Taksonomija 4.1. . . . . . . . . . . . . . . 29. 38. Opis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.1.1. Kontekst modeliranja. . . . . . . . . . . . . . . . . . . . . . . . . . . . 38. 4.1.2. Pristop k modeliranju . . . . . . . . . . . . . . . . . . . . . . . . . . . 39. 4.1.3. Kriteriji primerjave pristopov . . . . . . . . . . . . . . . . . . . . . . . 41. 4.2. Tabela raz²iritve taksonomije z gra primerjav predelane literature . . . . . . 41. 4.3. Primeri razvrstitve literature . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.3.1. Napovedovanje proizvodnje elektri£ne energije . . . . . . . . . . . . . . 46. 4.3.2. Hibridne metodologije za napovedovanje . . . . . . . . . . . . . . . . . 47. 4.3.3. Kratkoro£no napovedovanje za posameznike . . . . . . . . . . . . . . . 55.

(13) 5 Izra£uni in primerjava rezultatov natan£nosti modelov za napovedovanje 58 5.1. 5.2. 5.3. 5.4. Predstavitev £asovne vrste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 5.1.1. Pridobitev podatkov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58. 5.1.2. Osnovna statistika £asovne vrste PORABA elektri£ne energije. . . . . 60. Konstruiranje ARIMA modela po Box-Jenkins metodologiji . . . . . . . . . . 62 5.2.1. Identikacija modela . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63. 5.2.2. Ocenjevanje parametrov modela . . . . . . . . . . . . . . . . . . . . . . 66. 5.2.3. Verikacija modela . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67. 5.2.4. Napovedovanje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68. Konstruiranje MLR, SVM in AutoARIMA modelov . . . . . . . . . . . . . . . 69 5.3.1. Primerjava modelov glede na dolºino u£nega obdobja . . . . . . . . . . 69. 5.3.2. Primerjava modelov glede na odmik u£nega obdobja . . . . . . . . . . 76. Primerjava modelov za 12 urno napovedovanje . . . . . . . . . . . . . . . . . . 81. 6 Zaklju£ek. 91. Literatura. 93.

(14) Slike 1.1. Graf regresijske premice enostavne linearne regresije z eno pojasnjevalno spremenljivko. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 1.2. Graf regresijske premice linearne regresije in primer napake . (Vir: [26]) . . .. 5. 1.3. Optimalna hiperravnina metode podpornih vektorjev. (Vir: [25]) . . . . . . .. 6. 1.4. Gra£ni prikaz postopka tehnike naklju£nih gozdov. (Vir: [24]) . . . . . . . .. 7. 3.1. Gra razli£nih jakosti pozitivne in negativne korelacije. (Vir: [19]) . . . . . . 17. 3.2. Gra avtokorelacije za vsakega od 9 odlogov. (Vir: [19]) . . . . . . . . . . . . 18. 3.3. Korelogram £asovne vrste proizvodnje elektri£ne energije. (Vir: [19]) . . . . . 19. 3.4. Graf £asovne vrste imenovane beli ²um. (Vir: [19]) . . . . . . . . . . . . . . . 22. 3.5. Korelogram £asovne vrste imenovane beli ²um. (Vir: [19]) . . . . . . . . . . . 23. 3.6. ƒasovna vrsta, ki vsebuje komponento trenda in sezonskosti. (Vir: [7]) . . . . 24. 3.7. Primer sezonskega in navadnega diferenciranja £asovne vrste. (Vir: [19]) . . . 27. 3.8. Korelogram £asovne vrste kadar vsebuje trend ali sezonsko gibanje. (Vir: [7]). 3.9. Gra£ni prikaz Box-Jenkins metodologije. . . . . . . . . . . . . . . . . . . . . 37. 4.1. Gra primerjav ºe uvr²£ene literature v taksonomijo [18].. 4.2. Graf primerjav tehnik iz obravnavane literature [8].. 4.3. Graf primerjav tehnik za Terrassa Library [17]. . . . . . . . . . . . . . . . . . 51. 4.4. Graf dodanih primerjav tehnik za Sant Cugar Bar [17]. . . . . . . . . . . . . . 53. 4.5. Graf dodanih primerjav tehnik za Building C6 [17]. . . . . . . . . . . . . . . . 55. 4.6. Kon£na oblika grafov primerjav izbrane literature dodanih v taksonomijo. . . 57. xiv. 28. . . . . . . . . . . . 42. . . . . . . . . . . . . . . 47.

(15) 5.1. Izbrane vremenske spremenljivke . . . . . . . . . . . . . . . . . . . . . . . . . 59. 5.2. Povpre£na poraba elektri£ne energije posameznega dne v letu.. 5.3. Povpre£na poraba posameznega dne za celotno obdobje, z obarvanimi pra-. . . . . . . . . 60. zniki in za£etkom ter koncem gospodarske krize v Evropi. . . . . . . . . . . . 61 5.4. Povpre£na poraba elektri£ne energije za vsako uro v dnevu. . . . . . . . . . . 62. 5.5. Graf ACF in PACF £asovne vrste PORABA elektri£ne energije.. 5.6. Graf ACF in PACF diferencirane £asovne vrste PORABA elektri£ne energije.. 5.7. Graf ACF in PACF ostankov ARIMA modela.. 5.8. Napoved z ARIMA modelom za 24 ur.. 5.9. Graf napake AutoARIMA modelov glede na dolºino u£nega obdobja.. . . . . . . . 63 64. . . . . . . . . . . . . . . . . . 67. . . . . . . . . . . . . . . . . . . . . . 68 . . . . 70. 5.10 Graf napake MLR modelov glede na dolºino u£nega obdobja. . . . . . . . . . 71 5.11 Graf napake SVM modelov glede na dolºino u£nega obdobja. . . . . . . . . . 73 5.12 Primerjava med modeli glede na razli£no dolºino u£nega obdobja. . . . . . . . 74 5.13 Graf povpre£ne MAPE napake modelov glede na dolºino u£nega obdobja. . . 75 5.14 Graf primerjav tehnik glede na dolºino u£nega obdobja. . . . . . . . . . . . . 75 5.15 Graf napake AutoARIMA modelov glede na odmik u£nega obdobja. . . . . . 77 5.16 Graf napake MLR modelov glede na odmik u£nega obdobja. . . . . . . . . . . 78 5.17 Graf napake SVM modelov glede na odmik u£nega obdobja. 5.18 Primerjava med modeli glede na odmik u£nega obdobja.. . . . . . . . . . 80. . . . . . . . . . . . 81. 5.19 Graf napak ARIMA modela za 12-urno napovedovanje. . . . . . . . . . . . . . 83 5.20 Graf napak MLR modelov za 12 urno napovedovanje. . . . . . . . . . . . . . . 84 5.21 Graf napak SVM modelov za 12 urno napovedovanje. . . . . . . . . . . . . . . 86 5.22 Primerjava med modeli za 12 urno napovedovanje. . . . . . . . . . . . . . . . 88 5.23 Gra primerjav modelov za 12 urno napovedovanje. . . . . . . . . . . . . . . . 89 5.24 Kon£na oblika grafov primerjav zgornjih raziskav dodanih v taksonomijo. . . . 90.

(16) Tabele 3.1. Tabela avtokorelacijskih koecientov. . . . . . . . . . . . . . . . . . . . . . . . 18. 3.2. Tabela vzorcev ACF in PACF funkcije. . . . . . . . . . . . . . . . . . . . . . . 35. 4.1. Tabela raz²irjene taksonomije s poudarjenimi dodanimi taksonomskimi enotami. 44. 4.2. Tabela izdelane taksonomije za napovedovanje elektri£ne energije [8]. . . . . . 47. 4.3. Tabela vne²ene taksonomije za hibridne metodologije [17]. . . . . . . . . . . . 49. 4.4. Tabela primerjav tehnik za Terrassa Library [17]. . . . . . . . . . . . . . . . . 50. 4.5. Tabela primerjav tehnik za Sant Cugar Bar [17]. . . . . . . . . . . . . . . . . 52. 4.6. Tabela primerjav tehnik za Building C6 [17]. . . . . . . . . . . . . . . . . . . . 54. 4.7. Tabela izdelane taksonomije za kratkoro£no napovedovanje posameznikov. . . 56. 5.1. Izbira najbol²ega modela po AIC kriteriju. . . . . . . . . . . . . . . . . . . . . 66. 5.2. Kocienti ARIMA modela. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66. 5.3. Tabela vrednosti AutoARIMA modelov glede na dolºino u£nega obdobja. . . 70. 5.4. Tabela vrednosti MLR modelov glede na dolºino u£nega obdobja. . . . . . . . 72. 5.5. Tabela vrednosti SVM modelov glede na dolºino u£nega obdobja. . . . . . . . 72. 5.6. Tabela vrednosti povpre£ne MAPE napake AvtoARIMA, SVM in MLR modelov glede na dolºino u£nega obdobja. . . . . . . . . . . . . . . . . . . . . . . 73. 5.7. Taksonomska uvrstitev modelov glede na dolºino u£nega obdobja. . . . . . . . 76. 5.8. Tabela vrednosti AutoARIMA modelov glede na odmik u£nega obdobja. . . . 77. 5.9. Tabela vrednosti MLR modelov glede na odmik u£nega obdobja. . . . . . . . 79. 5.10 Tabela vrednosti napake SVM modelov glede na odmik u£nega obdobja. . . . 79. xvi.

(17) 5.11 Tabela napak ARIMA modela za 12 urno napovedovanje. . . . . . . . . . . . 83 5.12 Tabela napak MLR modelov za 12 urno napovedovanje. . . . . . . . . . . . . 85 5.13 Tabela napak SVM modelov za 12 urno napovedovanje. . . . . . . . . . . . . 85 5.14 Tabela vrednosti povpre£ne MAPE napake modelov za 1rno napovedovanje. . 87 5.15 Taksonomska uvrstitev modelov za 12-urno napovedovanje. . . . . . . . . . . 89.

(18)

(19) Uvod Pomembna naloga energetskih podjetij je napovedovanje porabe elektri£ne energije za posamezne mnoºice uporabnikov, kar pripomore k ugotavljanju maksimalnih/minimalnih nihajev v omreºju in odlo£anju o nakupu ali prodaji elektri£ne energije. S stali²£a analize podatkov je ta problem odvisen od velikega ²tevila vhodnih spremenljivk, generiranje podatkov je izredno hitro, zato lahko problem uvrstimo v izrazito dinami£no okolje. Standardne tehnike napovedovanja v teh okoli²£inah odpovejo, potrebni so bolj dinami£ni modeli, ki imajo mo£ prilagajajanja terminom razli£ne rabe elektri£ne energije kot so: vikendi, prazniki ipd. Poleg modelov za napovedovanja porabe je pomembna tudi teoreti£na razlaga posameznega modela in njegova ocena zanesljivosti napovedi, saj se lahko z upo²tevanjem teh lastnosti uporabnik laºje odlo£i o energetskih in nan£nih ukrepih. V magistrskem delu so obravnavane in med seboj primerjane tehnike, ki se uporabljajo za napovedovanje porabe elektri£ne energije. Podatki so obdelani z naprednimi algoritmi za analizo £asovnih vrst in njihovo napovedovanje.. Cilj magistrskega dela je izdelati ARIMA model po korakih Box-Jenkins metodologije, modelirati porabo ²e z drugimi razli£nimi pristopi, te pristope med seboj primerjati po razli£nih kriterijih, preu£iti vpliv dolºine in zamika u£nega obdobja na kakovost modelov in nenazadnje uvrstiti razvite modele v izdelano taksonomijo, ter raz²iriti graf primerjav in tabelo taksonomskih enot.. Namen magistrskega dela je seznanitev z razli£nimi pristopi k modeliranju ter s temi pristopi razviti najbolj²e modele napovedovanja za naslednjih 12 ur. Uporabili bomo urne podatke obdobja devetih let za porabo elektri£ne energije v Sloveniji. ƒasovno vrsto porabe elektri£ne energije v Sloveniji jemljemo kot abstraktno £asovno vrsto z ozadjem elektrogospodarske vsebine. Na podlagi predhodnih analiz u£nega obdobja bomo sku²ali razviti modele z najbol²imi spremenljivkami in najnatan£nej²im napovedovanjem porabe elektri£ne energije za 12 ur.. 1.

(20) 2 Delo je organizirano v pet poglavij. V prvem poglavju se osredoto£imo na predstavitev tehnik modeliranja, ki so nujno potrebne za razumevanje nadaljnje notacije in analiz. Najprej si pogledamo denicijo enostavne in multiple linearne regresije, metodo podpornih vektorjev, naklju£ni gozd in mehko logiko. Sledi predstavitev indeksov kakovosti modelov. V tem delu predstavimo kriterije, po katerih lahko ocenimo natan£nost napovedovanja na²ih modelov. Predstavimo deset kriterijev, razvr²£enih v pet sklopov: napake, determinacijski koecient, popravljeni determinacijski koecient, statisti£ni F-test in informacijski kriteriji. V tretjem poglavju se posvetimo pregledu in analizi ARIMA modelov. Najprej predstavimo pojme korelacije in avtokorelacije, sledi prikaz avtokorelacijske funkcije, delne avtokorelacijske funkcije in denicija belega ²uma. V nadaljevanju opi²emo pojem stacionarnosti £asovne vrste in njene transformacije. Predstavimo uporabo avtokorelacijske funkcije, statisti£nih testov in notacijo zapisa stopenj diferenciranja. Sledi analiza avtoregresijskega dela in dela premikajo£e sredine ARIMA modela, sezonskih ARIMA modelov in na koncu korakov BoxJenkins metodologije. V metodologiji si pogledamo podrobno analizo izgradnje ARIMA modela po naslednjih korakih: identikacija modela, ocenjevanje parametrov, verikacija modela in napovedovanje. V £etrtem poglavju spoznamo koncept taksonomije, raz²irimo tabelo taksonomskih enot, ter predstavimo obravnavano literaturo podro£ja napovedovanja porabe elektri£ne energije. Primerjave med tehnikami napovedovanja iz literature uvrstimo v izdelano taksonomijo ter raz²irimo grafe primerjav. V zadnjem poglavju prikaºemo izra£une in primerjave rezultatov natan£nosti modelov za napovedovanje. Najprej je predstavljena £asovna vrsta, ki jo napovedujemo in pristop pridobitve podatkov. Sledi podroben prikaz korakov izgradnje ARIMA modela z uporabo Box-Jenkins metodologije. V nadaljevanju je predstavljena konstrukcija ostalih tehnik modeliranja, AutoARIMA, MLR, SVM in njihova primerjava glede na dolºino in zamik u£nega obdobja. Na koncu so predstavljeni modeli za 12 urno napovedovanje in primerjava med njimi. Rezultate izdelanih modelov predstavimo v skupni tabeli in na koncu prikaºemo nadgradnjo grafa primerjav tehnik napovedovanja.. Za razvoj modelov in korelacijsko analizo uporabimo odprtokodni programski jezik R in RStudio, ki je integrirano razvojno okolje za R..

(21) Poglavje 1 Predstavitev tehnik modeliranja V poglavju so predstavljene tehnike modeliranja, ki bodo uporabljene nad £asovno vrsto porabe elektri£ne energije v Sloveniji in tehnike, ki jih bomo obravnavali v poglavju 4, kjer bo predstavljena nadgradnja obstoje£e taksonomije. Rezultati tehnik modeliranja, uporabljenih nad na²o £asovno vrsto, bodo v zadnjem poglavju primerjani s tako imenovanimi ARIMA modeli. Razumevanje predstavljenih tehnik je nujno potrebno za nadalnje razumevanje poglavij in rezultatov implementiranih modelov.. 1.1 Enostavna in multipla linearna regresija Regresija prou£uje odnos med odvisno spremenljivko Y in eno ali ve£ neodvisnimi (pojasnjevalnimi) spremenljivkami X . Ta odnos preu£uje s pomo£jo uporabe regresijskega modela, ki s pomo£jo vrednosti ene ali ve£ih neodvisnih spremenljivk napove vrednosti odvisne spremenljivke. O enostavni linearni regresiji govorimo, kadar imamo eno samo pojasnjevalno spremeljivko, o multipli ali ve£kratni linearni regresiji (kraj²e MLR) pa, ko nastopa ve£ kot ena pojasnjevalna spremenljivka. Z x1 , ..., xn ozna£imo pripadajo£e vrednosti spremenljivke. X , y1 , ..., yn pa so njihove realne vrednosti, ki pripadajo odvisni spremenljivki Y . Mnoºico parov merjenja lahko predstavimo z razsevnim diagramom v ravnini, ki ga dolo£ajo to£ke. (x1 , y1 ), . . . , (xn , yn ). ƒe to£ke aproksimirajo premico, je ustrezen model enostavne linearne regresije oblike:. y = β0 + β1 x + ε. Primer enostavne linearne regresije nam prikazuje slika 1.1, ki smo jo ustvarili na lastnih podatkih v programskem okolju R.. 3.

(22) 1.2 Metoda podpornih vektorjev. 4. Multipla linearna regresija uporablja ve£dimenzionalni model v obliki linearne funkcije:. y = β0 + β1 x1 + β2 x2 + · · · + βk xk + ε, kjer je  napaka modela in β vektor koecientov regresije, izbran tako, da model β·X najmanj odstopa od podatkov. Koecienti so izbrani s pomo£jo metode najmanj²ih kvadratov, ki minimizira vsoto kvadratnih napak  .. Slika 1.1: Graf regresijske premice enostavne linearne regresije z eno pojasnjevalno spremenljivko. Na sliki 1.2 si lahko pogledamo linearno premico, dolo£eno z regresijo, in primer napake  za posamezne to£ke xi . Ve£ o metodi multiple linearne regresije je dostopno v virih [18, 26].. 1.2 Metoda podpornih vektorjev Metoda podpornih vektorjev (kraj²e SVM) je relativno mlada razvr²£evalna metoda, ki se zelo dobro obnese v problemih, kjer nastopa ogromno ²tevilo atributov. Pozitivna lastnost metode je izogibanje pretiranemu prilagajanju, slabe lastnosti pa so: zapletenost, £asovna zahtevnost blizu kvadratne in zmanj²ana interpretabilnost pridobljenih modelov. Metoda SVM uporablja vektorsko predstavitev u£nih predmetov, kar pomeni, da vsak predmet oz. njegova vektorska predstavitev predstavlja to£ko v n-dimenzionalnem prostoru, kjer.

(23) 1.2 Metoda podpornih vektorjev. 5. Slika 1.2: Graf regresijske premice linearne regresije in primer napake . (Vir: [26]) n predstavlja mnoºico vseh razli£nih razredov. U£enje postane optimizacijski problem, v katerem i²£emo hiperravnino, ki med razredi razmejuje to£ke tako, da leºijo na pravi strani ravnine. To£ke, ki so najmanj oddaljene od hiperravnine, imenujemo podporni vektorji; ti dolo£ajo razmejitveno hiperravnino. Nek predmet a klasiciramo v drug razred b, £e se njegova vektorska predstavitev nahaja na b strani razmejitvene ravnine. Ker obi£ajno hiperravnina ne omogo£a £iste lo£itve razredov, si pomagamo s transformacijo vektorjev v vi²je dimenzije. Matemati£ni opis metode podpornih vektorjev je mnoºica u£nih primerov:. {(x1 , y1 ), . . . , (xm , ym )}, xi ∈ X, yi ∈ {−1, 1}. Razreda sta lo£ena med sabo tako, da je najmanj²a razdalja do hiperravnine, ki ji z drugimi besedami re£emo tudi rob, maksimalna za primerke obeh razredov. S tem doseºemo bolj²o generalizacijo razvr²£anja. Yi je pripadnost razredu za u£ni primerek xi , algoritem vrne hiperravnino, ki u£ne primerke obeh razredov lo£i kolikor je najbolj mogo£e. Kasneje se ta hiperravnina uporabi kot odlo£itvena funkcija, podana z normalnim vektorjem w in pragom. b, u£nemu vzorcu xi pa se priredi predznak odlo£itvene funkcije: yi = sgn(hw, xi i + b),.

(24) 1.3 Naklju£ni gozd. 6. kjer oznaka sgn predstavlja signum funkcijo, denirano kot. sgn(x) =.     −1 za x < 0, 0    1. za x = 0, za x > 0.. Pozitiven rezultat pomeni, da se primerek nahaja nad hiperravnino, negativen pa pod hiperravnino. ƒe je rezultat enak ni£, primerek ni ne nad in ne pod hiperravnino, zato mu re£emo mejni primerek. Ve£ o lastnostih in interpretaciji metode najdemo v literaturi [18, 25]. Na sliki 1.3 vidimo, katere to£ke so podporni vektorji glede na pripadajo£o hiperravnino.. Slika 1.3: Optimalna hiperravnina metode podpornih vektorjev. (Vir: [25]). 1.3 Naklju£ni gozd Naklju£ni gozd (ang. random forest, RF) je mnoºica klasikacijskih in regresijskih dreves. To metodo lahko interpretiramo kot kombinacijo napovedovalnih dreves, kjer je vsako drevo odvisno od vrednosti naklju£nega vektorja, ki je za posamezno drevo neodvisno vzor£en z enako porazdelitvijo za celoten gozd. Z ve£anjem ²tevila dreves v gozdu poskrbimo, da napaka naklju£nega gozda konvergira k limiti. Temeljno bazo ustvarimo z algoritmom samostojnega zdruºevanja z uporabo za£etnega vzorca. Ideja temelji na konstrukciji naklju£nih gozdov, kateri naloga je prepoznati razliko med opazovanimi in izmerjenimi podatki. Naklju£ni gozd daje primerljive rezultate z drugimi tehnikami, kot so MLR in SVM, hkrati.

(25) 1.3 Naklju£ni gozd. 7. pa ne spreminja za£etnega vzorca podatkov. Napoved naklju£nih dreves temelji na individualnih napovedih dreves in korelacijah med njimi. Naklju£ne gozdove uporabimo, kadar ºelimo na naraven na£in dolo£iti pomembnost spremenljivk v regresijskem ali klasikacijskem problemu. Prvi korak v merjenju pomembnosti spremenljivk je prilagoditev naklju£nega gozda za dane podatke in izra£un povpre£ne napake gozda. Za dobro dolo£itev pomembnosti spremenljivk uporabimo permutacije, ki izra£unajo povpre£no razliko in napako za vsa drevesa. Rezultat metode naklju£nega gozda je povpre£je vseh B dreves. Za£etni vzorec ima N podatkov in ²tevilo spremenljivk P . Vhodni podatek je vektor v = (x1 , ..., xP ) ∈ RP , izhodni podatek pa povpre£je dreves, ki ga ozna£imo s C . Velikost vzorca Z∗ je lahko zelo mala, zelo majhen je lahko tudi celotni za£etni vzorec. Pri velikih za£etnih vzorcih lahko velikost N znatno vpliva na hitrost metode. Prav tako je potrebno dolo£iti velikost vzorca N , kadar napovedujemo porabo ali proizvodnjo za ve£je koli£ine podatkov. Najpogosteje uporabljena zaklju£itvena kriterija sta: dokler ne doseºemo ²tevila vozli²£ nmin ali dokler ne doseºemo globine drevesa. Na sliki 1.4 si poglejmo gra£en prikaz tehnike naklju£nih gozdov. Ve£ o naklju£nih gozdovih. Slika 1.4: Gra£ni prikaz postopka tehnike naklju£nih gozdov. (Vir: [24]) si lahko preberemo v literaturi [24] in v £lanku [17]..

(26) 1.4 Mehka logika. 8. 1.4 Mehka logika Mehka logika je klju£na za razvoj umetne ineligence in aplikacij, ki jo uporabljajo. Metodi, ki uporabljata podobni pristop, sta nevronske mreºe in ekspertni sistemi. Ta pristop ºeli zagotoviti ve£ stopenj resnice, ne le, ali je podatek resni£en ali neresni£en, kot to lahko naredimo v Boolovi algebri. Ideja temelji na tem, da algoritem podobno kot to naredijo £love²ki moºgani, dolo£i jakost resni£nosti nekega podatka. S to metodo zelo dobro poi²£emo podobnosti v ogromnih koli£inah podatkov. Podobnost v vhodnem podatku (L−i − L0 ) lahko dolo£imo z razlikami prvega reda (Vk ) in razlikami drugega reda (Ak ):. Vk =. (Lk − Lk−1 ) (Vk − Vk−1 ) , Ak = , T T. kjer T predstavlja dolºino £asovne vrste. Napovedovanje z metodo mehke logike izvedemo v dveh korakih: u£no obdobje in testno napovedovanje. V £asu u£enja uporabimo izmerjene podatke iz preteklosti  vhodni podatki, ko prete£e u£no obdobje, pa se metoda uporabi za aktivno napovedovanje. Vzorec, kjer se napovedani podatki najbolj ujemajo z izmerjenimi, generiramo kot izhodni vzorec ali izhodni podatek.. Mehko induktivno sklepanje Mehko induktivno sklepanje (ang. fuzzy inductive reasoning (FIR)) je metoda modeliranja, s katero lahko opi²emo zapletene sisteme. Ta tehnika je kvalitativni neparametri£ni model, ki temelji na mehki logiki. Model je sestavljen iz dveh delov: strukture modela (maske) in baze vzorcev. Struktura modela vsebuje potrebne lastnosti, da lahko opi²emo vzor£ne odnose med vhodnimi in izhodnimi podatki. Vsak negativni element v maski vpliva na izhodni podatek do dolo£ene meje. Proces zagotovi najbolj²o masko za sistem, saj preveri vse moºne maske in izbere najbolj²o. Vsako od moºnih mask primerja z ostalimi in preveri pomembnost. Ocena kvalitete maske Qm je denirana kot produkt negotove redukcijske mere Hr in opazovanega razmerja Or . Opazovano razmerje Or meri ²tevilo pojavljanj za vsak vhodni vzorec.. Qm = Hr · Or , kjer je. Hr = 1 −. Hm , Hmax. Hm je skupna entropija mask, Hmax pa najve£ja moºna entropija. Vrednost Hr je realno ²tevilo med 0.0 in 1.0, kjer vi²je vrednosti pomenijo izbolj²ano napovedovanje. Maske z naj-.

(27) 1.4 Mehka logika. 9. vi²jo vrednostjo redukcijske entropije generirajo najmanj²e koli£ine negotovosti. Najvi²ja vrednost entropije je doseºena, kadar so vse verjetnosti enake. Pri popolnoma determenisti£nem razmerju doseºemo ni£elno entropijo. Skupno entropijo izra£unamo na naslednji na£in. Hm = −. X. p(i)Hi ,. ∀i. kjer je p(i) verjetnost, da se zgodi izhodni vzorec i. Hi je Shannonova entropija, ki je relativna za i-ti vhodni vzorec. Izra£unamo jo po naslednji ena£bi. Hi =. X. p(o|i) · log2 p(o|i),. ∀o. kjer je p(o|i) pogojna verjetnost, da se izhodni vzorec o pojavi, ko ºe imamo vhodni vzorec. i. Izraz verjetnost je uporabljen v statisti£nem smislu. Pove nam kvocient med opaºeno frekvenco posameznega vzorca in najvi²jo moºno frekvenco tega vzorca med vsemi vzor£enji. Baza je mnoºica relacij med vhodnimi in izhodnimi podatki, denirana z if-then pravili. Ko imamo najbolj²o masko, jo uporabimo za pridobitev matrike vedenja kot pravilo vzorca. Vsako pravilo temelji na procesiranju skozi negativne vrednosti maske. Ko sestavimo matriko vedenja, lahko pridobimo napoved za prihodnost. Ta proces se imenuje kvalitativna simulacija. Mehko napovedovanje poteka tako: nov vhodni vzorec primerjamo z vsemi ºe znanimi vhodnimi vzorci. Za ta namen se izra£una normalizacijska funkcija za vsak element novega vhodnega vzorca, uporabi se formula za evklidsko razdaljo, s pomo£jo katere se izberejo vzorci z najmanj²o razdaljo, ki so uporabljeni za napoved. FIR metoda je orodje za modeliranje in simulacijo, ki zlahka in hitro razbere model sistema. Je dobra metoda za napovedovanje v realnem £asu, zmoºna pa je delati tudi z bazami, ki vsebujejo manjkajo£e podatke. U£inkovitost in ²tevilo ra£unskih operacij se pove£uje z globino in kompleksnostjo problema..

(28) Poglavje 2 Indeksi kakovosti modelov V prej²njem poglavju smo spoznali tehnike, s katerimi bomo konstruirali razli£ne modele nad na²o £asovno vrsto porabe elektri£ne enrgije v Sloveniji. Po konstrukciji modela se pojavi pomembno vpra²anje, in sicer, kako natan£no zna model napovedovati. Za odgovor na to vpra²anje se v statistiki za merjenje kakovosti in natan£nosti modelov uporabljajo razli£ne vrste indeksov. V poglavju je predstavljenih in opisanih 10 indeksov: srednja kvadratna napaka (MSE), standardni odklon (RMSE), srednja absolutna napaka (MAE), srednja relativna napaka (MAPE), determinacijski koecient (R2 ), popravljen determinacijski koecient ˆ 2 ), testiranje statisti£ne zna£ilnosti regresijskega modela (F-test) in informacijski kriteriji (R (AIC, BIC, HQC). Ve£ o napakah, koecientih in informacijskih kriterijih si lahko pogledate v naslednjih virih [18, 15, 20, 14], po katerih je povzeto poglavje. Za razumevanje nadalnje notacije in formulacije smo denirali naslednje oznake:. • yi  £asovna vrsta izmerjenih vrednosti, • yˆi  £asovna vrsta napovedanih vrednosti, • n  ²tevilo podatkov v £asovni vrsti, • k  ²tevilo parametrov modela, s katerim je bila izvedena napoved.. 10.

(29) 2.1 Napake. 11. 2.1 Napake Srednja kvadratna napaka Srednja kvadratna napaka je denirana kot povpre£je kvadratov med izmerjenimi vrednostmi. yi in napovedanimi vrednostmi yˆi . n. 1X (yi − yˆi )2 . n. M SE =. i=1. Korenjena srednja kvadratna napaka Koren srednje kvadratne napake je koli£ina, ki jo izra£unamo kot kvadratni koren srednje kvadratne napake, uporablja se pogosteje kot MSE, saj pri tej napaki dobimo rezultat v prvotnih enotah.. v u n u1 X (yi − yˆi )2 . RM SE = t n i=1. Srednja absolutna napaka Srednja absolutna napaka je denirana kot povpre£je absolutnih razlik med izmerjenimi vrednostmi yi in napovedanimi vrednostmi yˆi . n. M AE =. 1X | yi − yˆi | . n i=1. Srednja absolutna relativna napaka v odstotkih Srednja absolutna napaka v odstotkih je odstotkovno izraºena vrednost povpre£ja absolutnih vrednosti razlik med izmerjenimi vrednostmi yi in napovedanimi vrednostmi yˆi ..

(30) n

(31) 1 X

(32)

(33) yi − yˆi

(34)

(35) M AP E =

(36) yi

(37) . n i=1. Slabost zgoraj opisanih napak MSE, RMSE in MAE je, da so izra£unane vrednosti odvisne od nabora podatkov in med seboj niso primerljive, £e so izra£unane na podatkih z razli£nimi merskimi lestvicami. Zato se najve£krat osredoto£amo na napako MAPE, ki to slabost.

(38) 2.2 Testiranje na podlagi determinacijskega koecienta. 12. odpravlja. Skupna lastnost vseh zgoraj na²tetih napak je, da manj²a kot je vrednost napake, natan£nej²i in uspe²nej²i je model.. 2.2 Testiranje na podlagi determinacijskega koecienta Determinacijski koecient R2 Determinacijski koecient je koecient, s katerim merimo linearno povezavo med neodvisno spremenljivko X in odvisno spremenljivko Y . Celotna variabilnost spremenljivke Y je se²tevek vsote kvadratov regresije in vsote kvadratov napak: n X. 2. (yi − y¯) =. i=1. n X. 2. (yˆi − y¯) +. i=1. n X. (yˆi − yi )2 .. i=1. Vrednost koli£nika med vsoto kvadratov regresije in celotno variabilnostjo spremenljivke je determinacijski koecient, ki pove, kolik²en del celotne variabilnosti spremenljivke je pojasnjen z linearnim regresijskim modelom, na podlagi katerega je izra£unan. n P. R2 =. (yˆi − y¯)2. i=1 n P. .. (yi − y¯)2. i=1. Za vrednost determinacijskega koecienta velja:. 0 ≤ R2 ≤ 1, in v primeru, ko je R2 = 1, je napaka modela enaka 0, kar pomeni, da je med spremenljivkama X in Y popolna linearna povezanost. V nasprotnem primeru, R2 = 0, pa med spremenljivkama ni linearne povezanosti. Ve£ji kot je R2 , bolj se linearna funkcija prilega podatkom in natan£nej²i je model. Determinacijski koecient je najpogosteje uporabljena mera primernosti oziroma zanesljivosti regresijskega modela. Je mera, ki pove, kako dobro se ocenjeni model prilega vzor£nim podatkom. Slaba lastnost determinacijskega koecienta je njegova ob£utljivost na ²tevilo pojasnjevalnih spremenljivk v modelu. Vsaka dodatna vklju£itev pojasnjevalne spremenljivke v model ne bo nikoli zmanj²ala vrednosti koecienta, saj ne more manj kot ni£ prispevati k.

(39) 2.2 Testiranje na podlagi determinacijskega koecienta. 13. varianci odvisne spremenljivke. Da to slabost odpravimo, izra£unamo popravljeni determinacijski koecient.. Popravljeni determinacijski koecient Rˆ 2 Popravljeni determinacijski koecient je primernej²a mera zanesljivosti regresijskega modela, kadar izbiramo med ve£ modeli, ki vklju£ujejo razli£no ²tevilo pojasnjevalnih spremenljivk. Izra£unamo ga s spodnjo formulo, kjer je n ²tevilo vrstic oz. meritev v podatkovni datoteki,. k pa ²tevilo neodvisnih spremenljivk v modelu. ˆ 2 = 1 − (1 − R2 ) n − 1 . R n−k V splo²nem je vrednost popravljenega determinacijskega koecienta manj²a od prvotnega, razen v izjemi, ko ima model samo eno neodvisno spremenljivko (k = 1) in sta obe vrednosti enaki. Vi²ja vrednost koecienta pomeni, da je izbrani model natan£nej²i. Kljub temu nam visoka vrednost koecienta ne zagotavlja, da so v modelu vklju£ene prave pojasnjevalne spremenljivke, prav tako nizka vrednost ne pomeni, da v modelu ni pravih spremenljivk. Prevelika ali premajhna vrednost koecienta je lahko rezultat napa£ne funkcijske oblike povezave med spremenljivkami ali pa je napa£na njihova denicija. Po vsem tem je o£itno, da o primernosti regresijskega modela ni dobro odlo£ati samo na podlagi determinacijskega koecienta oziroma popravljenega determinacijskega koecienta. Zato se vse ve£ji poudarek daje presoji na podlagi vnaprej²njih pri£akovanj vrednosti ocenjenih regresijskih koecientov, njihovih standardnih napak in razli£nih statistik.. Testiranje statisti£ne zna£ilnosti regresijskega modela (F-test) Pri determinacijskem koecientu smo pokazali, kako lahko raz£lenimo varianco odvisne spremenljivke na dva dela, in sicer s pojasnjenim regresijskim modelom in preostalim nepojasnjenim delom. Razmerje med oceno pojasnjene in nepojasnjene variance regresijskega modela je porazdeljeno z F-porazdelitvijo. F-statistiko izra£unamo s spodnjo formulo, kjer upo²tevamo ²tevilo stopenj prostosti, sodelujo£ih pri izra£unu posameznih varianc. R2 k−1 1−R2 n−k. ∼ F (k − 1, n − k). Z izra£unano F statistiko lahko preverjamo domneve primernosti regresijskega modela s ˆ 2 . Pomagali si bomo s kriti£nimi vrednostmi pomo£jo zgoraj deniranih koecientov R2 in R F-porazdelitve pri ustreznih stopnjah prostosti, s katerimi bomo odlo£ali o tem, ali smo do.

(40) 2.3 Informacijski kriteriji. 14. vrednosti determinacijskega koecienta pri²li po naklju£ju ali pa v resnici v regresijskem modelu obstaja povezava med neodvisnimi parametri.. 2.3 Informacijski kriteriji Informacijski kriteriji so statisti£ni parametri, ki vrednotijo, koliko ima model koristi in koliko stro²kov oz. kazni ob vklju£itvi dodatne spremenljivke. Vedno, ko modelu dodamo neodvisno spremenljivko, se prileganje podatkom oz. natan£nost modela izbolj²a, vendar pa dodajanje povzro£i tudi kazen, ki nastane zaradi zapletenosti modela. šelimo si enostaven model, ki ni prenasi£en s pojasnjevalnimi spremenljivkami, saj lahko povzro£ijo slabo napovedno mo£ modela. Poznamo ve£ vrst informacijskih kriterijev, najpogosteje uporabljeni so Aikaikejev (AIC), Bayesov (BIC) in Hannan-Quinnov (HQC) kriterij. Njihove vrednosti izra£unamo po naslednjih formulah, kjer je n ²tevilo vrstic, k pa ²tevilo neodvisnih spremenljivk v modelu.. AIC = n ln. BIC = n ln. n 1 X. n.  (yi − yˆi )2 + 2k,. i=1. n  1 X (yi − yˆi )2 + k ln n, n i=1. HQC = n ln. n 1 X. n.  (yi − yˆi )2 + k ln(ln n).. i=1. Prvi £len v zgornjih ena£bah predstavlja oceno variance ostankov (residualov) in meri prilagajanje modela podatkom. Vsaka pojasnjevalna spremenljivka prispeva en regresijski koecient in ve£ kot imamo vklju£enih spremenljivk v model, ve£ koecientov imamo na razpolago, da model najbolje prilagodimo podatkom. V primeru, ko dodatna spremenljivka ni£ ve£ ne prispeva k izbol²anju modela, njen koecient dobi vrednost 0, kar ne spremeni variance ostankov. V ve£ini primerov pa se ob vsaki dodani spremenljivki varianca ostankov zmanj²uje, zato zmotno mislimo, da se na² model izbolj²uje. Drugi £len ena£b deluje tako, da kaznuje vsako vklju£itev dodatne spremenljivke v model. Ve£je kot je ²tevilo spremenljivk vklju£enih v na² napovedni model, ve£ja je kazen. Informacijski kriteriji nam torej povedo ali je dodatna vklju£ena spremenljivka res toliko izbolj²ala napoved modela, da se jo spla£a vklju£iti..

(41) 2.3 Informacijski kriteriji. 15. Skupna lastnost zgornjih informacijskih kriterijev je, da so modeli z niºjo vrednostjo informacijskega kriterija uspe²nej²i in natan£nej²i od modelov z vi²jo vrednostjo. Vrednost informacijskega kriterija za poljuben model sama po sebi ne pove ni£, uporabljamo jo zgolj za primerjavo med modeli in izbiro najbolj²ega. Informacijski kriteriji se uporabljajo zgolj kot dodatna pomo£ pri izbiri modela, poleg njih se opremo ²e na avtokorelacijske funkcije, standardne teste statisti£nih zna£ilnosti in analizo ostankov..

(42) Poglavje 3 Integrirani avtoregresijski modeli s premikajo£imi sredinami V poglavju so podrobno raz£lenjeni in predstavljeni integrirani avtoregresijski modeli s premikajo£imi sredinami (ARIMA modeli). Najprej sta predstavljeni avtokorelacijska in delna avtokorelacijska funkcija ter njun pomen in uporaba pri modeliranju z ARIMA modeli. V nadaljevanju so denirane stacionarne in nestacionarne £asovne vrste ter njihovo diferenciranje I(d), predstavljeni so posamezi deli AR/I/MA modela: avtoregresijski model (AR) in model premikajo£e sredine (MA). Predstavljena je tudi kombinacija ARMA modelov in nesezonski in sezonski ARIMA modeli (SARIMA). Na koncu podrobno razdelamo ²e BoxJenkinsov pristop k modeliranju in dolo£itvi parametrov (p, d, q) v ARIMA modelih. Pristopi k analizi in razumevanju ARIMA modelov in ostalih pripadajo£ih poglavij, so podrobneje opisani v virih: [15, 6, 19, 4, 21, 22].. 3.1. Avtokorelacija in njene funkcije. V poglavju predstavimo osnovne pojme, ki so nujno potrebni za razumevanje naslednjih podpoglavij ARIMA modelov. Predstavimo pojem korelacije, vpeljemo avtokorelacijo, avtokorelacijsko funkcijo, njen graf  korelogram in na koncu ²e denicijo belega ²uma.. 3.1.1 Korelacija Korelacija je povezava ali razmerje dveh spremenljivk med sabo. Kako mo£no sta spremenljivki povezani med sabo, nam pove korelacijski koecient r, ki ga izra£unamo po naslednji formuli:. 16.

(43) 3.1 Avtokorelacija in njene funkcije. 17. P (xi − x ¯)(yi − y¯) pP r = pP , (xi − x ¯)2 (yi − y¯)2 kjer x ozna£uje prvo, y pa drugo spremenljivko. Korelacijski kocient meri zgolj mo£ linearne povezanosti, zato je moºno, da sta spremenljivki mo£no nelinearno povezani, njun koecient korelacije pa je zelo nizek. Vrednost korelacijskega koecienta leºi na intervalu [−1, 1], kjer negativne vrednosti kaºejo na negativno povezanost (obratno sorazmernost), pozitivne pa predstavljajo pozitivno korelacijo med spremenljivkama. Primer razli£nih jakosti pozitivne ali negativne korelacije ±(0.99, 0.75, 0.5, 0.25) je prikazan na sliki 3.1.. Slika 3.1: Gra razli£nih jakosti pozitivne in negativne korelacije. (Vir: [19]). 3.1.2 Avtokorelacija ƒe je korelacija merila linearno povezanost med dvema spremenljivkama, potem avtokorelacija meri povezanost med zapoznelimi (odloºenimi) vrednostmi £asovne vrste. Na primer,. r1 meri povezanost med yt in yt−1 vrednostjo £asovne vrste, r2 meri povezanost med yt in yt−2 vrednostjo. Splo²no formulo avtokorelacijskega koecienta med prvo vrednostjo in vrednostjo k -tega odloga £asovne vrste lahko zapi²emo kot:.

(44) 3.1 Avtokorelacija in njene funkcije T P. rk =. 18. (yt − y¯)(yt−k − y¯). t=k+1 T P. , (yt −. y¯)2. t=1. kjer je T dolºina £asovne vrste. Slika 3.2 prikazuje graf avtokorelacije za 9 odlogov £asovne vrste proizvodnje elektri£ne energije.. Slika 3.2: Gra avtokorelacije za vsakega od 9 odlogov. (Vir: [19]) Avtokorelacijski koecienti zgornjih odlogov prikazanih na sliki 3.2 so zapisani v tabeli 3.1.. r1. -0.126. r2. -0.650. r3. -0.094. r4. 0.863. r5. -0.099. r6. -0.642. r7. -0.098. r8. 0.834. r9. -0.116. Tabela 3.1: Tabela avtokorelacijskih koecientov. Za laºje analiziranje povezanosti £asovne vrste same s sabo za razli£ne odloge bomo vrednosti avtokorelacijskih koecientov, prikazanih v tabeli 3.1, predstavili z grafom..

(45) 3.1 Avtokorelacija in njene funkcije. 19. ƒe spremenljivki avtokorelacijski koecient (y) in odlog (x) zdruºimo, dobimo naslednjo funkcijsko obliko: f (x) = y , ki ji pravimo. avtokorelacijska funkcija ali kraj²e (ACF).. Graf avtokorelacijske funkcije, ki ima na y -osi odvisno spremenljivko (avtokorelacijske koeciente), na x-osi pa neodvisno spremenljivko (odloge), imenujemo. korelogram.. Primer grafa avtokorelacijske funkcije za koeciente iz tabele 3.1 si poglejmo na sliki 3.3.. Slika 3.3: Korelogram £asovne vrste proizvodnje elektri£ne energije. (Vir: [19]) Denirali smo avtokorelacijsko funkcijo in njen graf korelogram, v nadaljevanju pa si poglejmo ²e njeno matemati£no ozadje.. 3.1.3 Avtokorelacijska funkcija (ACF) Za podrobno matemati£no razlago avtokorelacijske funkcije si bomo pomagali s formulo avtoregresijskega modela, kjer so napovedane vrednosti odvisne od svojih predhodnih vrednosti (avtoregresijski modeli (AR) so podrobno opisani v poglavju 3.3). Formula avtoregresijskega modela prvega odloga je oblike:. yt = δ + φ1 yt−1 + wt , kjer je δ konstantna vrednost in φ koecient vrednosti prvega odloga yt−1 spremenljivke 2 ) in predstavlja napako modela, ki je y . Zadnji £len modela je deniran kot wt ∼ N (0, σw.

(46) 3.1 Avtokorelacija in njene funkcije. 20. porazdeljena z normalno porazdelitvijo s povpre£jem, enakim 0, in s konstantno varianco.. Za nadalnje razumevanje bomo najprej denirali srednjo vrednost in varianco zgornjega avtoregresijskega modela:. E(yt ) = E(δ + φ1 yt−1 + wt ) = E(δ) + E(φ1 yt−1 ) + E(wt ) = δ + φ1 E(yt−1 ) + 0. 2 Var(yt ) = Var(δ) + Var(φ1 yt−1 ) + Var(wt ) = φ21 Var(yt−1 ) + σw .. Poleg zgoraj deniranih vrednosti bomo za nadaljno analizo predpostavili ²e nekatere vrednosti izrazov. Za povpre£no vrednost podatkov (E(y)) bomo predpostavili, da je enaka 0, kar posledi£no povzro£i, da je tudi δ enaka 0, zato na² avtoregresijski model dobi naslednjo obliko: yt = φ1 yt−1 +wt . V praksi to ni potrebno, vendar nam poenostavi obravnavo modela, saj so vrednosti variance, kovariance in korelacije neodvisne od povpre£ne vrednosti. Avtokorelacijski kocient med dvema zaporednima opazovanjema zapi²emo kot r1 in ga izra£unamo z naslednjo formulo, kjer γ1 predstavlja Cov(yt , yt+1 ): Cov(yt , yt+1 ) = E((yt − E(yt ))(yt+1 − E(yt+1 ))), uporabimo predpostavko o ni£elnem povpre£ju in dobimo naslednjo enakost:. = E((yt − 0)(yt+1 − 0)) = E(yt yt+1 ) = E(yt (φ1 yt + wt+1 )) = E(φ1 yt2 + yt wt+1 ) = E(φ1 yt2 ) + E(yt wt+1 ) = φ1 E(yt2 ) + E(yt )E(wt+1 ) = φ1 E(yt2 ) = φ1 Var(yt ). Zadnja enakost, da je matemati£no upanje E(yt2 ) enako varianci Var(yt ), velja zaradi predpostavke o ni£elnem povpre£ju: Var(yt ) = E((yt − 0)(yt − 0)). = E((yt2 ). Iz zgornjih izpeljav ena£b potegnimo povezavo med njimi,. γ1 = Cov(yt , yt+1 ) = φ1 E(yt2 ) = φ1 Var(yt ), kar nam pojasni kon£no ena£bo avtokorelacijske funkcije med dvema zaporednima opazova-.

(47) 3.1 Avtokorelacija in njene funkcije. 21. njema, ki ima naslednjo obliko:. r1 =. γ1 φ1 Var(yt ) = = φ1 . Var(yt ) Var(yt ). V splo²nem avtokorelacijski koecient h-tega odloga rh izra£unamo po naslednjih formulah. Najprej poi²£emo kovarianco γh :. yt = φ1 yt−1 + wt yt−h yt = φ1 yt−h yt−1 + yt−h wt E(yt−h yt ) = E(φ1 yt−h yt−1 ) + E(yt−h wt ) γh = φ1 γh−1 Iz tega razvidimo, da je γh = φh1 γ0 in po deniciji, γ0 = Var(yt ) velja, da je γh = φh1 Var(yt ). Avtokorelacijski koecient h-tega odloga zapi²emo kot:. ρh =. φh Var(yt ) γh = 1 = φh1 . Var(yt ) Var(yt ). Poleg ACF denirajmo ²e delno ali parcialno avtokorelacijsko funkcijo (PACF).. 3.1.4 Delna avtokorelacijska funkcija (PACF) Na splo²no lahko delni korelaciji re£emo tudi pogojna korelacija, saj preu£uje povezanost med dvema spremenljivkama ob predpostavki, da poznamo in upo²tevamo tudi spremenljivke med njima. Parcialna avtokorelacijska funkcija je na nek na£in dodatek avtokorelacije, kjer se med odlogi delno odstranijo vsi elementi, ki nastopajo med njimi. Delna avtokorelacija nam omogo£a natan£nej²o analizo zaporednih povezanosti posameznih odlogov. Na primer: obravnavamo regresijski kontekst, v katerem je yt odvisna spremenljivka, yt−1 ,. yt−2 , yt−3 pa vrednosti njenih odlogov. Delna avtokorelacija med odlogoma yt in yt−3 je povezanost, ki se izra£una ob upo²tevanju povezanosti yt in yt−3 z yt−1 in yt−2 . Za £asovne vrste je delna avtokorelacija med yt in yt−h denirana kot pogojna korelacija med. yt in yt−h odvisna od niza opazovanj yt−h+1 , ..., yt−1 , ki se dolo£ijo med £asovnimi to£kami t in t − h. Vrednost koecienta prvega odloga PACF je enaka vrednosti ACF. Vrednost drugega odloga PACF pa izra£unamo s pomo£jo formule: Cov(yt , yt−2 |yt−1 ) r2 = p . Var(yt |yt−1 )Var(yt−2 |yt−1 ).

(48) 3.1 Avtokorelacija in njene funkcije. 22. V splo²nem je koecient h-tega odloga delne avtokorelacijske funkcije enak: Cov(yt , yt−h |yt−1 , ..., yt−h+1 ) p . Var(yt |yt−1 , ..., yt−h+1 )Var(yt−h |yt−1 , ..., yt−h+1 ). 3.1.5 Beli ²um ƒasovnim vrstam, ki ne kaºejo avtokorelacije re£emo "beli ²um". To pomeni, da se vsi avtokorelacijski koecienti £asovne vrste gibljejo okoli vrednosti 0 (zaradi naklju£nih nihanj popolnoma enaki ni£ ne morejo biti). ƒasovno vrsto imenujemo beli ²um, kadar vsaj 95 odstotkov vrednosti avtokorelacijskih √ koecientov oziroma konic na korelogramu leºi znotraj mej intervala ±2/ T , kjer T predstavlja dolºino £asovne vrste. Meje so prikazane na korelogramu avtokorelacijske funkcije. ƒe ima korelogram eno ali ve£ izstopajo£ih konic, oziroma 5 odstotkov vseh konic izven zgoraj dolo£ene meje, potem £asovna vrsta ni beli ²um. Na sliki 3.4 imamo prikaz grafa £asovne vrste imenovane beli ²um, slika 3.5 pa je njen korelogram, kjer je lepo razvidno, da vse vrednosti avtokorelacijskih koecientov leºijo pod zgoraj denirano mejo.. Slika 3.4: Graf £asovne vrste imenovane beli ²um. (Vir: [19]) Z analizo korelogramov ACF in PACF si bomo v naslednjih podpoglavjih ARIMA modelov pomagali pri odkrivanju stacionarnosti £asovnih vrst, linearnega trenda, sezonskega gibanja ter pri dolo£itvi reda avtoregresijskih modelov in modelov premikajo£e sredine..

(49) 3.2 Stacionarnost in diferenciranje £asovne vrste. 23. Slika 3.5: Korelogram £asovne vrste imenovane beli ²um. (Vir: [19]). 3.2 Stacionarnost in diferenciranje £asovne vrste V poglavju najprej predstavimo pojem £asovne vrste in denicijo, kdaj je £asovna vrsta stacionarna. V nadaljevanju podrobno pregledamo pristop diferenciranja £asovne vrste, predstavimo najpogostej²e teste za preverjanje stacionarnosti in na koncu deniramo zapis redov diferenciranja £asovne vrste s pomo£jo operatorja odlogov.. 3.2.1 Stacionarnost £asovne vrste ƒasovna vrsta je niz podatkov y1 , y2 . . ., izmerjenih v zaporednih £asovnih trenutkih, med katerimi so £asovni razmiki konstantni. Z analizo £asovnih vrst posku²amo ugotoviti, kako in zakaj se je neka vrednost spreminjala skozi £as, kar pripomore k napovedi gibanja £asovne vrste v prihodnje. Stacionarno stanje je stanje, pri katerem so koli£ine in spremenljivke, ki ga opisujejo, neodvisne od £asa. Torej stacionarna £asovna vrsta je vrsta, v kateri njene vrednosti niso odvisne od £asa, v katerem so bile izmerjene, njena sredina (povpre£na vrednost) in razpr²enost (varianca) pa sta konstantni neglede na £asovno obdobje. Matemati£na denicija: £asovna vrsta Y1 , Y2 , . . . je strogo stacionarna, £e sta za pojubne. t1 , . . . , tk vektorja (Yt1 , . . . , Ytk ) in (Yt1 +h , . . . , Ytk +h ) enako porazdeljena, za poljuben h, pri katerem sta denirana. ƒasovno vrsto lahko zapi²emo kot vsoto ve£ komponent, kjer ima vsaka komponenta svoj tip obna²anja. Najpogostej²i komponenti sta trend in sezonsko gibanje. Trend je linarna ali.

(50) 3.2 Stacionarnost in diferenciranje £asovne vrste. 24. nelinarna komponenta, odvisna od £asa, ki se v £asovni vrsti ne pojavlja periodi£no, sezonsko gibanje pa prepoznamo po ponavljajo£em se vzorcu v dolo£enih £asovnih intervalih. ƒasovnim vrstam (Yt ), ki vsebujejo komponento trenda, sezonskega gibanja ali obojega, pravimo nestacionarne £asovne vrste. Zapi²emo jih kot:. Yt = Tt + St + t , kjer je Tt komponenta trenda, St sezonska komponenta in t ²um, ki predstavlja edino stacionarno komponento v £asovni vrsti. Poglejmo si primer na sliki 3.6, kjer £asovna vrsta vsebuje obe komponenti, trend in sezonsko gibanje.. Slika 3.6: ƒasovna vrsta, ki vsebuje komponento trenda in sezonskosti. (Vir: [7]) Da lahko nad £asovno vrsto uporabimo ARIMA modele (podrobneje o ARIMA modelih v poglavju 3.4), jo moramo s pomo£jo diferenciranja preoblikovati v stacionarno, da niha konstantno okoli svoje sredine. V ekonomiji, energetiki in gospodarstvu na stacionarne £asovne vrste zelo redko naletimo, saj ve£inoma vsebujejo trende in sezonska (periodi£na) gibanja. Metodologijo, kako iz nestacionarne vrste odstraniti trend in sezonsko gibanje ter jo pretvoriti v stacionarno, sta razvila Box in Jenkins ter jo opisala v svoji knjigi [6]. Njun pristop transformacije nestacionarne £asovne vrste v stacionarno podrobno opisuje naslednji razdelek..

(51) 3.2 Stacionarnost in diferenciranje £asovne vrste. 25. 3.2.2 Transformacija £asovne vrste Navadna transformacija ali diferenciranje Ugotovili smo, da je nad nestacionarno £asovno vrsto potrebno izvesti transformacijo, da postane stacionarna. To storimo s pomo£jo izra£una razlike zaporednih opazovanj, kar imenujemo diferenciranje ali odvod £asovne vrste. Diferenciranje nam pomaga stabilizirati srednjo vrednost £asovne vrste in iz nje odpravi trend in sezonsko gibanje. Nova vrednost £asovne vrste po diferenciranju prvega reda je sprememba med dvema zaporednima meritvama in jo zapi²emo kot:. yt0 = yt − yt−1 . Dobljena £asovna vrsta dolºine T ima po diferenciranju T − 1 vrednosti, saj razlike za prvo vrednost y10 ni mogo£e izra£unati. ƒe £asovna vrsta po diferenciranju prvega reda postane stacionarna, pravimo, da je prvotna £asovna vrsta yt integrirana reda 1, kar s simboli zapi²emo kot I(1). ƒe vrsta po diferenciranju prvega reda ²e vedno ni stacionarna, jo ponovno transformiramo s pomo£jo diferenc oziroma izvedemo diferenciranje drugega reda. 0 yt00 = yt0 − yt−1. = (yt − yt−1 ) − (yt−1 − yt−2 ) = yt − 2yt−1 + yt−2 . Po diferenciranju drugega reda £asovna vrsta zopet izgubi prvo vrednost, ostane ²e T − 2 vrednosti prvotne vrste. ƒe postane vrsta stacionarna, re£emo, da je prvotna vrsta integrirana reda 2 in pi²emo I(2). Stopnje diferenciranja ponavljamo, dokler vrsta ne postane stacionarna. V praksi drugega reda diferenc skoraj nikoli ne preseºemo.. Sezonska transformacija ali sezonsko diferenciranje ƒe v £asovni vrsti zaznamo prisotnost sezonske komponente, jo transformiramo s pomo£jo sezonskega diferenciranja. Nova vrednost £asovne vrste po sezonskem diferenciranju je razlika med opazovano vrednostjo in vrednostjo iz prej²nje sezone:. yt0 = yt − yt−m ,.

(52) 3.2 Stacionarnost in diferenciranje £asovne vrste. 26. kjer m predstavlja ²tevilo podatkov v ponavljajo£i sezoni. Takemu diferenciranju £asovne vrste pravimo tudi diferenciranje z m-tim odlogom. Diferencirana vrsta ima T −m vrednosti. ƒe £asovna vrsta po sezonskem diferenciranju prvega reda ²e vedno ni stacionarna, izvedemo ²e dodatno navadno diferenciranje : 0 yt00 = yt0 − yt−1. = (yt − yt−m ) − (yt−1 − yt−m−1 ) = yt − yt−1 − yt−m + yt−m−1 . Nestacionarno £asovno vrsto lahko diferenciramo s kombinirano uporabo sezonskega in navadnega diferenciranja, dokler ne postane stacionarna. Kadar nad £asovno vrsto izvajamo sezonsko in navadno diferenciranje, ni pomembno, v kak²nem vrstnem redu ju izvedemo, saj je rezultat enak. V primeru izrazito sezonskih podatkov pa je vseeno priporo£ljivo najprej uporabiti sezonsko diferenciranje, saj lahko vrsta postane stacionarna in navadno diferenciranje ni potrebno.. Primer diferenciranja £asovne vrste: Slika 3.7 prikazuje £asovno vrsto mese£ne proizvodnje elektri£ne energije v milijardah kWh za ZDA od leta 1970 naprej. ƒasovna vrsta je nestacionarna, zato smo jo postopoma spreminjali z zgoraj na²tetimi tehnikami, dokler ni postala stacionarna. Najprej smo nad njo izvedli sezonsko diferenciranje prvega reda, nato pa smo jo dvakrat ²e navadno diferencirali.. 3.2.3 Uporaba ACF in statisti£nih testov za preverjanje stacionarnosti Ali je vrsta nestacionarna in potrebuje diferenciranje, lahko ugotovimo s pomo£jo korelograma avtokorelacijske funkcije. ƒe vrednosti kocientov na korelogramu po£asi padajo in po p-tem odlogu ²e vedno ne konvergirajo (se pribliºujejo) k ni£li, potem £asovna vrsta vsebuje trend. ƒe pa vrednosti koecientov na korelogramu periodi£no nihajo, oziroma se na korelogramu na vsakih k zamikov pojavljajo izstopajo£e konice, takrat govorimo, da vrsta vsebuje sezonsko komponento s. k elementi. Kadar s pomo£jo korelograma £asovne vrste ne moremo razbrati stacionarnosti, se osredoto£imo na uporabo statisti£nih testov stacionarnosti. Primera korelogramov, kjer vrsta vsebuje trend ali sezonsko gibanje, sta prikazana na sliki 3.8. Eden od na£inov za bolj objektivno presojo potrebe po diferenciranju £asovne vrste je uporaba testov enotske re²itve korena (unit root tests). Na voljo imamo ²tevilne teste enotske.

(53) 3.2 Stacionarnost in diferenciranje £asovne vrste. 27. Slika 3.7: Primer sezonskega in navadnega diferenciranja £asovne vrste. (Vir: [19]) re²itve korena, ki temeljijo na razli£nih predpostavkah in vodijo do razli£nih rezultatov. Eden najpopularnej²ih in uporabljenih testov je. Dickey-Fuller (ADF). Test ocenjuje na-. slednji regresijski model: 0 0 0 , yt0 = φyt−1 + β1 yt−1 + β2 yt−2 + · · · + βk yt−k. kjer yt0 predstavlja diferenciranje prvega reda, yt0 = yt −yt−1 , k pa ²tevilo zamikov, vklju£enih v regresijo.. • kadar prvotna vrsta yt potrebuje diferenciranje, se koecient φ giblje okoli 0. • kadar je yt stacionarna, pa je koecient φ <0. Ni£elna hipoteza za ADF test predstavlja nestacionarnost £asovne vrste (p-vrednost ve£ja od 0,05), alternativna hipoteza pa, da je vrsta stacionarna (p-vrednost manj²a od 0,05). Uporablja se tudi. Kwiatkowski-Phillips-Schmidt-Shin (KPSS) test za stacionarnost,. kjer ni£elna hipoteza predpostavlja, da je vrsta stacionarna..

(54) 3.2 Stacionarnost in diferenciranje £asovne vrste. 28. Slika 3.8: Korelogram £asovne vrste kadar vsebuje trend ali sezonsko gibanje. (Vir: [7]). 3.2.4 Notacija in zapis stopenj diferenciranja Za analiziranje in zapisovanje diferenciranja £asovne vrste v ARIMA modelih v naslednjih podpoglavjih bomo s pomo£jo operatorja odloga B , stopnje diferenciranja zapisovali na enostavnej²i in hitrej²i na£in. Vpliv operatorja odloga B na poljubno £asovno vrsto predstavlja pomik vrste za eno £asovno enoto nazaj. Na spodnjih primerih si lahko pogledamo vpliv operatorja odloga nad £asovno vrsto yt .. Byt = yt−1 . Dvojna uporaba predstavlja pomik za dve enoti nazaj.. B(Byt ) = B 2 yt = yt−2 . Za dnevni zamik urnih podatkov dobimo naslednji zapis.. B 24 yt = yt−24 ..

(55) 3.3 Avtoregresijski model in model premikajo£e sredine. 29. Kadar ºelimo diferenciranje prvega ali drugega reda zapisati z operatorjem odloga, dobimo formule naslednje oblike:. yt0 = yt − yt−1 = yt − Byt = (1 − B)yt . yt00 = yt − 2yt−1 + yt−2 = (1 − 2B + B 2 )yt = (1 − B)2 yt . Za diferenciranje d-tega reda dobimo naslednjo formulo, ki jo po Box-Jenkinsovi metodologiji (ve£ v poglavju 3.5) v ARIMA modelih kraj²e zapi²emo s pomo£jo znaka ∇ :. (1 − B)d yt = ∇d yt . Kadar zapisujemo sezonsko diferenciranje prvega, drugega ali d-tega reda dobimo naslednje ena£be:. yt0 = yt − yt−m = yt − B m yt = (1 − B m )yt . yt00 = yt − 2yt−m + yt−2m = (1 − 2B m + B 2m )yt = (1 − B m )2 yt . (1 − B m )d yt = ∇dm yt . Ta notacija je zelo koristna, saj lahko razli£ne izraze, ki vsebujejo operator odloga B zdruºujemo in mnoºimo med sabo po obi£ajnih algebrskih pravilih. Na primer, sezonsko diferenciranje prvega reda, ki sledi navadnemu diferenciranju prvega reda, lahko zapi²emo kot:. (1 − B)(1 − B m )yt = (1 − B − B m + B m+1 )yt = yt − yt−1 − yt−m + yt−m−1 . Pogledali smo si diferenciranje £asovne vrste in zapisovanje stopenj diferenciranja s pomo£jo operatorja odloga. V naslednjem poglavju pa spoznajmo ²e preostale koncepte, s pomo£jo katerih lahko sestavimo tako imenovani AR/I/MA model.. 3.3 Avtoregresijski model in model premikajo£e sredine V prej²njem podpoglavju smo denirali in predstavili sredinski del AR/I/MA modela, sedaj bomo podrobneje raz£lenili ²e avtoregresijski del in del premikajo£e sredine..

(56) 3.3 Avtoregresijski model in model premikajo£e sredine. 30. 3.3.1 Avtoregresijski model (AR) V multiplem regresijskem modelu napovedujemo vrednost spremenljivke s pomo£jo linearne kombinacije odvisnih spremenljivk. Znan rek pravi: "Pri napovedovanju prihodnosti je najbolje za£eti kar v bliºnji preteklosti". Na ta rek pa se navezuje avtoregresijski model, saj pri£akovano vrednost napove z linearno kombinacijo preteklih vrednosti spremenljivke. Z drugimi besedami, avtoregresijski model pri£akovano vrednost spremenljivke pojasni s svojimi preteklimi vrednostmi. Pojem avtoregresije si lahko razlagamo kot regresijo spremenljivke same po sebi. Kadar je v avtoregresijskem modelu vrednost y v nekem £asu t odvisna od vrednosti svojega prvega odloga, dobimo naslednji model, ki ga zapi²emo kot AR(1).. yt = c + φ1 yt−1 + et , avtoregresijski model reda p zapi²emo kot:. yt = c + φ1 yt−1 + φ2 yt−2 + · · · + φp yt−p + et , kjer c predstavlja konstanto, et pa ²um oziroma odklon pri£akovane vrednosti od dejanske. Model je podoben modelu multiple regresije, le spremenljivke so zamaknjene vrednosti yt , imenujemo jih odlogi ali prediktorji. Avtoregresijski model s p odlogi zapi²emo kot. AR(p).. S pomo£jo avtoregresijskega operatorja reda p, deniranega kot:. φp (B) = 1 − φ1 B − φ2 B 2 − ... − φp B p , lahko zgornji zapis avroregresijskega modela strnemo in zapi²emo na naslednji na£in:. φp (B)yt = et + c. Avtoregresijsi modeli so izredno prilagodljivi pri ravnanju s ²iroko paleto razli£nih vzorcev £asovnih vrst.. 3.3.2 Model premikajo£e sredine (MA) Model premikajo£e sredine je zasnovan na podobnem principu kot avtoregresijski model. Razlika med njima je, da smo pri avtoregresijskem modelu pri£akovano vrednost napovedovali z linearno kombinacijo preteklih vrednosti spremenljivke, pri modelu premikajo£e sredine pa to vrednost napovemo z linarno kombinacijo preteklih napak napovedi spremenljivke..

(57) 3.4 ARIMA modeli in sezonski ARIMA modeli. 31. Proces premikajo£e sredine lahko z drugimi besedami opi²emo tudi kot ²tevilo izrazov, s katerimi med opazovanji iz enega na drugega opi²emo prisotnost naklju£nega vpliva, kar imenujemo napaka. Kadar je v modelu premikajo£e sredine vrednost yt odvisna od vrednosti napake napovedi prej²nje vrednosti, model zapi²emo kot MA(1):. yt = c + et + θ1 et−1 . Model premikajo£e sredine q -tega odloga ozna£imo z MA(q ), njegova formula pa ima naslednjo obliko:. yt = c + et + θ1 et−1 + θ2 et−2 + · · · + θq et−q . Z denicijo operatorja premikajo£e sredine, ki nam kot linearno kombinacijo reda q predhodnih napak e, podaja odstopanja y  ov:. θq (B) = 1 − θ1 B − θ2 B 2 − ... − θq B q , gornji zapis strnemo in zapi²emo na kraj²i na£in:. θq (B)et + c = yt . Avtoregresijski model je pri£akovano vrednost vrste yt pojasnil z njenimi odloºenimi vrednostmi. Pri modelu premikajo£e sredine pa imamo nekoliko druga£en pristop. Vrednosti napake v £asu t, si lahko predstavljamo kot prihod novega podatka v na² model, ki je bil v £asu t − 1 ²e nepoznan in bo v £asu t + 1 uporabljen za novo napoved. Z drugimi besedami, sprotne vrednosti v modelu premikajo£e sredine pridobivamo rekurzivno. S tem podpoglavjem smo spoznali in denirali ²e preostala dela, AR in MA, tako imenovanih ARIMA modelov. V naslednjem poglavju si poglejmo, kaj se zgodi, ko te dele kombiniramo vklu£no z diferenciranjem I (£e je potrebno).. 3.4 ARIMA modeli in sezonski ARIMA modeli 3.4.1 ARIMA modeli V prej²njem poglavju smo spoznali matemati£ni zapis in notacijo avtoregresijskega modela AR in modela premikajo£e sredine MA. Sedaj si poglejmo model, ki zgoraj opisana modela kombinira. Ob prepodstavki, da je opazovana £asovna vrsta stacionarna, dobimo za prvi.

(58) 3.4 ARIMA modeli in sezonski ARIMA modeli. 32. odlog model naslednje oblike, ki ga kraj²e lahko zapi²emo kot ARMA(1,1):. yt = c + φ1 yt−1 + θ1 et−1 + et . Model s p avtoregresijskimi odlogi in q odlogi premikajo£e sredine pa v splo²nem zapi²emo kot ARMA(p, q ) in je oblike:. yt = c + φ1 yt−1 + · · · + φp yt−p + θ1 et−1 + · · · + θq et−q + et . Ena£bo lahko z operatorji odloga zapi²emo tudi kot:. (1 − θ1 B − θ2 B 2 − ... − θq B q )et + c = (1 − φ1 B − φ2 B 2 − ... − φp B p )yt θq (B)et + c = φp (B)yt . ARMA modeli so ºe od nekdaj zelo uporabni, z njimi so napovedovali in modelirali ºe v 40 letih 20. stoletja, ko jih je deniral Wold. Kadar so modelirali £asovno vrsto, ki je bila stacionarna, torej je bila njena srednja vrednost ter varianca ne glede na £asovno obdobje konstantna, so dobili dobre modele z majhno napako. Ker pa so ve£ine £asovnih vrst v gospodarstvu, energetiki, ekonomiji vsebovale trend, sezonsko gibanje ali oboje (kar £asovno vrsto spremeni v nestacionarno) so napovedi z ARMA modeli imele ogromna odstopanja in modeli niso bili uporabni. Kako napovedovati v primeru, ko £asovna vrsta vsebuje trend ali sezonsko gibanje sta, v 70ih letih 20. stoletja podrobno raziskala in utemeljila George Box in Gwilyn Jenkins [6]. Vpeljala sta pojem diferenciranja £asovne vrste, s katerim spremenimo nestacionarno £asovno vrsto v stacionarno (ve£ o tem je bilo podrobno razloºeno v podglavju 3.2). ƒe k ARMA modelom dodamo ²e stopnjo diferenciranja I(d), dobimo tako imenovani. integrirani model premikajo£e sredine.. avtoregresijski. Model zapi²emo kot ARIMA(p, d, q ), kjer:. • p predstavlja stopnjo avtoregresije (AR), • d predstavlja stopnjo diferenciranja (I), • q predstavlja stopnjo premikajo£e sredine (MA). Matemati£ni zapis modela je enak: 0 0 yt0 = c + φ1 yt−1 + · · · + φp yt−p + θ1 et−1 + · · · + θq et−q + et ,.

References

Related documents

The heavy metal concentration is higher near the roadside soil and gradually decreases as the distance increases.. The possible accumulations of the roadside soil occur due

Due to the thermodynamic properties of carbon dioxide, particularly its high saturation pressures for the temperatures levels used in refrigeration, the temperature

COMMENT #3: One provider expressed concern that the reimbursement rate for home and community based waiver services is less than the Medicaid rate for community first choice

To further illustrate the importance of analyzing historical CDS trading patterns as opposed to merely looking at the recent or spot CDS spreads, we enhance our previous study

With the passage in 2009 of Bill 133, which amended both the Family Law Act (FLA) and the Pension Benefits Act (PBA), and the promulgation of new Regulations in 2011 under

In the previous sections, we dis- cuss the expectation that a neural network exploiting the fractional convolution should perform slightly worse than a pure binary (1-bit weights

Customer to pay any amount within ten (10) days after the amount is due and payable, b) abuse of the System or the equipment, c) dissolution, termination, discontinuance,

Pricing does not include transition services to a subsequent service provider. ARRA funds will not be utilized to fund this