Ökonometria Jegyzet BME Mester 2013

132 

Loading.... (view fulltext now)

Loading....

Loading....

Loading....

Loading....

Full text

(1)

BUDAPESTI MŰSZAKI ÉS GAZDASÁGTUDOMÁNYI EGYETEM

Gazdaság- és Társadalomtudományi Kar

Üzleti Tudományok Intézet

Dr. Hajdu Ottó

Ökonometria

oktatási segédanyag

(2)

TARTALOM

1 A sokaság ... 5

1.1 Az adatbázis ... 6

1.2 Műveletek sokaságokkal ... 7

1.3 Centrális tendencia és variancia ... 8

1.4 A sokaság eloszlása ... 10

1.4.1 Normális eloszlás ... 11

1.4.2 Gamma-eloszlás ... 12

1.4.3 Chi-négyzet eloszlás ... 12

1.4.4 Exponenciális eloszlás ... 12

1.4.5 Weibull eloszlás ... 13

1.4.6 Béta-eloszlás ... 13

1.4.7 Student-eloszlás ... 13

1.4.8 F-eloszlás ... 13

1.4.9 Binomiális eloszlás ... 14

1.4.10 Poisson-eloszlás ... 14

1.4.11 Probability plot ... 14

2 Sokaság és minta ... 16

2.1 Statisztikai becslések ... 16

2.1.1 Becslési kritériumok és módszerek ... 16

2.1.2 Intervallumbecslés ... 18

2.2 Statisztikai hipotézisek tesztelése ... 19

3 Minta-likelihood-sokaság ... 22

3.1 Likelihoodelméleti fogalmak ... 22

3.1.1 A maximum likelihood becslés ... 23

3.1.2 A „score” függvény tulajdonságai ... 24

3.1.3 A Cramer-Rao egyenlőtlenség ... 24

3.1.4 A maximum likelihood normálegyenletek ... 25

3.1.5 Maximált likelihood normalitás esetén ... 27

3.2 Hipotézisek likelihood alapú tesztelése ... 28

3.2.1 A likelihood-arány teszt ... 28

3.2.2 A Lagrange-multiplikátor elv ... 30

3.2.3 A Wald elv ... 30

3.3 Gyakorló feladatok... 31

4 A szóródás többváltozós jellemzése ... 32

4.1 A variancia többváltozós általánosításai ... 32

4.1.1 A kovariancia fogalma és tulajdonságai ... 32

4.1.1.1 Kovariancia algebra ... 32

4.1.1.2 A várható érték konfidencia tartománya ... 34

4.1.1.3 Lineáris korreláció ... 36

4.1.2 Az általánosított variancia ... 36

4.1.2.1 A spektrális felbontás ... 37

4.1.2.2 A szóródási mátrix... 39

(3)

5 Lineáris regressziószámítás ... 41

5.1 Speciális magyarázó változók kezelése ... 41

5.2 Paraméterbecslés ... 42

5.3 A modell magyarázó ereje ... 43

5.4 A háromváltozós modell kétváltozós blokkjai ... 45

5.4.1 A parciális kovariancia ... 45

5.4.2 Útelemzés ... 46

5.4.3 A parciális determináció ... 46

5.5 Valószínűségi következtetések ... 49

5.5.1 Pont- és intervallumbecslések ... 49

5.5.2 Egymásba ágyazott modellek szelektálása ... 51

5.5.3 Releváns magyarázó változó elhagyása ... 51

5.6 A multikollinearitás ... 51

5.6.1 A változók szelektálása ... 52

5.6.1.1 Stepwise algoritmusok ... 52

5.6.1.2 Részmodellek szelektálása ... 52

5.7 Rangsorolás preferált párosok alapján ... 53

5.7.1 Legkisebb négyzetek megoldás ... 54

5.7.2 Maximum likelihood megközelítés ... 54

6 Főkomponens változók elemzése ... 58

6.1.1 Adatredukció és veszteség ... 61

6.1.2 Az egyszerű struktúra igénye ... 62

6.1.3 A kanonikus variancia ... 64

6.1.4 Főkomponensregresszió ... 64

7 Klaszteranalízis ... 68

7.1 A megfigyelési egységek klaszterezése ... 68

7.1.1 Agglomeratív klaszterformálás: láncmódszer ... 69

7.1.2 Ügyfélkör esettanulmány ... 74

7.1.3 Divizív jellegű módszerek ... 75

7.2 K-középpontú klaszterezés ... 76

7.3 A változók klaszterezése ... 79

8 Kanonikus korreláció ... 81

8.1 Modellfogalmak ... 81

8.2 Szakágazati esettanulmány ... 84

9 Szóródás csoportosított sokaságban ... 86

9.1 A kovariancia csoportközi struktúrája ... 86

9.2 Diszkriminancia változók ... 87

9.2.1 A Mahalanobis távolság ... 89

9.2.2 Diszkrimináló dimenziók feltárása ... 91

10 Bayes - klasszifikáció ... 92

10.1 Normalitás alapú kvadratikus és lineáris klasszifikáció ... 93

10.2 Mintavételi vonatkozások ... 98

10.2.1 Homogenitásvizsgálat ... 99

10.2.2 A diszkriminátor változók szelektálása ... 99

(4)

10.2.4 Diszkrimináló dimenziók ... 100

10.2.5 Jackknife klasszifikáció ... 101

10.3 Tőzsdetag brókercégek kvadratikus és lineáris klasszifikálása ... 106

10.3.1 Stepwise lineáris diszkriminancia analízis ... 108

11 Logisztikus regresszió ... 110

11.1 Dichotom logisztikus regresszió ... 110

11.1.1 Paraméterbecslés ... 112

11.1.2 Nominális magyarázó változók és interakciók ... 112

11.1.3 Konfidencia intervallumok ... 113

11.1.4 Hipotézisek tesztelése ... 113

11.2 Polichotom logisztikus regresszió ... 117

11.2.1 Nominális kategóriák logitjai ... 117

11.2.2 Ordinális kategóriák kumulatív logitjai ... 118

11.3 Az {1,0} csődmodell ... 120

12 A diszkrét kiválasztási modell... 122

12.1 A polichotom logit modell esete ... 122

12.2 A feltételes logit modell esete ... 124

12.3 A „vegyes” modell alkalmazása ... 126

12.3.1 A vegyes modell globális paraméterezése ... 127

12.3.2 A Cox- regresszió: “proportional hazards” ... 128

(5)

1 A SOKASÁG

A statisztika feladata a valóság jelenségeinek tömör, számértékekkel való jellemzése. Ennek során minél kevesebb adat-hordozóba sűrítjük a rendelkezésre álló információ minél nagyobb hányadát, hogy a vizsgált jelenség áttekinthetővé, ke-zelhetőbbé váljon. Ha az információ tömörítése csekély veszteséggel jár, akkor a jelenségben rejlő tendenciákra megbízha-tóan tudunk következtetni. A tömörség, az egyértelműség és az összehasonlíthatóság alapját a számértékek teremtik meg. A statisztikai elemzés első mozzanata tehát a valóság számokra való leképezése, amit operacionalizálásnak nevezünk. A számszerű jellemzés kiindulópontja az információ megszerzése. Ezt megfigyelés és mérés útján érjük el, melyek két kérdést vetnek fel. Egyrészt, hogy kikre vonatkozik a vizsgálat, másrészt, hogy mely tulajdonságaik érdekesek számunkra. Azon egyedeket akikre megfigyelésünk irányul, megfigyelési egységeknek, azokat a vizsgálati szempontokat pedig, amelyek tekintetében a megfigyelési egységek más-más sajátossággal, változattal bírnak, változóknak, másképpen ismérveknek ne-vezzük.

A megfigyelési egységek összessége statisztikai sokaságot alkot. A megfigyelés eredményeképpen derül ki, hogy egy kérdé-ses egyed az adott szempont szerint milyen konkrét sajátosságot mutat. Ezt a megfigyelés kimenetelének nevezzük. Az ismérv tehát azon lehetséges kimenetelek együttese, amelyek valamelyike (és csak egyike) a kérdéses szempont tekinteté-ben adott egyedhez egyértelműen hozzárendelhető.

Az ismérv lehetséges változatainak rendezett felsorolását az ismérv skálájának nevezzük. Ha az ismérvváltozatok egymás-utániságának tárgyi tartalma van (pl. időbeli, vagy ordinális), akkor az ennek megfelelő elrendezésük kézenfekvő. A skála lehet adottság, de magunk is definiálhatunk skálákat.

Statisztikai értelemben a mérés nem jelent mást, mint egy megfigyelési egységhez hozzárendelni a kérdéses ismérv skálá-jának a megfelelő elemét. Jelölje a továbbiakban x az érdeklődésünk homlokterében álló változót. Ekkor x tekintetében az “i” egyedre vonatkozó mérés eredményét xi azonosítja. Mennyiségi jellegű ismérv skáláját ismérvértékek, nem

mennyi-ségi jellegű változó skáláját pedig kategóriák alkotják. Mennyimennyi-ségi változók között megkülönböztetünk folytonos, és diszk-rét változókat. A folytonos változók a számegyenes egy meghatározott intervallumán bármely értéket fölvehetnek, míg a diszkrét változók lehetséges kimenetelei fölsorolhatók. Természetesen folytonos mennyiségi változók kimenetelei szeg-mentálhatók, és diszkrét mennyiségi ismérvek változatai is definiálhatnak kategóriákat.

A statisztikai ismérvek egy speciális esetét az ún. alternatív, binomiális ismérvek képezik, amelyeknek két, és csak két ki-menetele lehetséges. Ilyen pl. a nem szerinti hovatartozás, mely szerint valaki vagy férfi, vagy nő. Az alternatív ismérv fogalmához nevezetes, a csak 0 és 1 értékekből álló mérési skála kötődik: ha ugyanis az alternatív ismérv egyik kimenetelét 0 azonosítja, akkor a másik kimenetelt az 1 egyértelműen meghatározza. A (0,1) értékű bináris változókat dummy, máskép-pen indikátor változóknak nevezzük.

Attól függően, hogy egy mérési skála a sokaság milyen mélységű elemzését teszi lehetővé, a mérési skálák az alábbiak sze-rint osztályozhatók, hierarchizálhatók.

• Nominális skála: nem mennyiségi kategóriákból álló skála, ahol a kategóriák egymáshoz való helyzetének a meg-változtatása nincs hatással a sokaság jellemzőire. A megyéket pl. bármilyen sorrendben felsorolhatjuk, ezért ké-zenfekvő a semleges, de a keresést meggyorsító betűrendi sorrend alkalmazása.

• Ordinális skála: olyan mérési skála, amelynek lehetséges változatai a skálán fölsorolt sokaságot nem csupán tagol-ják, hanem az egyes részekhez való tartozástól függően rangsorolják is. Az ordinális skála változatainak a sor-rendisége kötött. Egy futballmérkőzés lehetséges kimenetelei – vereség, döntetlen, győzelem - ordinális skálát alkotnak.

• Intervallum skála: mennyiségi skála, amelynek a zéruspontja nem rögzített, és így csak az egyes ismérvértékek egymástól való távolsága informatív. Ilyenek pl. a hőmérséklet mérésére szolgáló skálák.

• Arány skála: a legmagasabb szintű mennyiségi skála, amelynek már a zéruspontja rögzített, tehát az egyes ismérv-értékek egymáshoz való arányának is információtartalma van. Arányskálán mérjük pl. a gazdasági vállalkozások értékesítésből származó nettó árbevételét, tárgyi eszközeik értékét, adófizetési kötelezettségüket, vagy a kifizetett osztalék mértékét.

Annál magasabb szintű egy mérési skála a hierarchiában, minél több elemzési lehetőséget rejt magában. A magasabb szin-tű skálák tartalmazzák az alacsonyabb szinszin-tűek által nyújtott elemzési lehetőségeket. Így az intervallum és arányskála eleve ordinalitást hordoz magában, s így a sokaságot nem csupán tagolja, hanem egyben rangsorolja is.

A mérési skála a sokaságot egymást át nem fedő, diszjunkt részekre bontja. E részsokaságok valamely számszerű jellem-zőinek a skála mentén történő fölsorolása statisztikai sort alkot. A statisztikai sorok típusai a skála jellegéhez kötődnek. Beszélhetünk területi, időbeli, mennyiségi és egyéb nominális sorokól. A nominális sorok valamilyen kategóriához való tartozást fejeznek ki.

(6)

1.1 AZ ADATBÁZIS

Az adatbázis a vizsgált jelenségről rendelkezésre álló információk, mérési eredmények összessége, adott formátumú felso-rolása, azok elengedhetetlen azonosító, és megkülönböztető jegyeivel egyetemben. Az adatbázis alapvetően keresztmetszeti, vagy idősoros lehet. Valamely sokaság valamennyi megfigyelési egységét ugyanazon változók tekintetében jellemző, ugyanar-ra az időszakugyanar-ra (eszmei időpontugyanar-ra) vonatkozó mérési eredmények keresztmetszeti adatbázist alkotnak. Ezzel szemben az idősoros adatbázis egy kiragadott megfigyelési egység jellemzésére szolgáló változóknak, a vizsgált egyedet különböző időpontokban jellemző értékeinek az időrendi felsorolása. Az olyan adatállományt, mely mind keresztmetszeti, mind idő-rendi felsorolást tartalmaz, panel típusú, vagy longitudinális adatállománynak nevezzük. A többváltozós statisztikai módsze-rek tipikus adatállománya keresztmetszeti jellegű, melyre egy példát az alábbi tábla közöl.

1.1 tábla APEH vizsgálathoz kiválasztott 995 vállalkozás néhány, 200#. évi mérleg- és eredményadatai

Cég Tárgyi eszközök Nettó árbevétel Adózott eredmény Fizetett osztalék Fizetett adó Kiszabott bírság Alk. létszám

ezer forint fő C1 200600 3512894 -18276 0 0 0 140 C2 23500 198770 -8022 0 0 0 5 C3 44020 2983555 32670 12000 7171 800 220 C4 862944 12540820 146885 50000 32243 300 670 C5 13582 332100 3291 500 722 10 10 C991 776 564636 20100 10000 4412 0 8 C992 14772 820240 -9613 0 0 0 26 C993 142500 376998 15400 0 3380 30 50 C994 22400 548600 -32800 0 0 10 12 C995 18400 712560 50312 20000 11044 140 7

Nem mennyiségi jellegű változók is kifejezhetők számértékekkel, ún. dummy változók megfelelő rendszerének a segítségé-vel, a következők szerint. A kategóriák egyikét ún. referencia csoportként rögzítjük, az összes többi kategóriát pedig olyan dummy változókként kezeljük, melyek megfigyelési egységenként attól függően veszik fel az 1 vagy 0 értéket, hogy az adott megfigyelési egység esetében az illető kategória bekövetkezett-e a mérés során, vagy nem. Például, ha gazdasági tár-saságok a működési formájuk szerint a betéti társaság (Bt), korlátolt felelősségű társaság (Kft) és részvénytársaság (Rt) formák valamelyikéhez tartoznak, miközben a „Bt” a referencia csoport, akkor két – nevezetesen a Kft és az Rt dummy változók 0 vagy 1 értékei egyértelműen meghatározzák a társasági formához való tartozást:

1.2 tábla Társasági formák kategóriái

Társasági forma Kft Rt

Betéti társaság 0 0

Korlátolt felelősségű társaság 1 0

Részvénytársaság 0 1

Az egyes kategóriák együttes bekövetkezésének gyakoriságát közlő adatbázist jelent a dummy változók egy speciális rend-szere, az indikátor mátrix. Az indikátor mátrix sorait az egyes megfigyelési egységek, oszlopait pedig valamennyi változó valamennyi lehetséges kimenetelei alkotják. A mátrixban 1 jelzi, hogy az adott sor megfigyelési egysége adott változó me-lyik (és csak egy) változatához tartozik, egyébként a mátrix 0 elemeket tartalmaz. A mátrix sorösszegei tehát egyenlők egymással és a változók számával, oszlopösszegei pedig az egyes kategóriák előfordulási gyakoriságaival.

A társasági forma mellett bevezetve a nyereséges (1) vagy veszteséges (0) megkülönböztetést is, az indikátor mátrix struk-túrája az alábbi:

1.3 tábla Gazdasági társaságok indikátor mátrixa

Cég Bt Kft Rt Nyereséges Veszteséges C1 0 1 0 0 1 C2 0 1 0 0 1 C3 0 0 1 1 0 C4 0 0 1 1 0 C5 1 0 0 1 0 C991 0 1 0 1 0 C992 1 0 0 1 C993 0 1 1 0 C994 0 0 1 1 C995 0 1 0 1 0

(7)

Információ tömörítésre nyílik lehetőségünk, ha lemondunk a kategóriák cégekhez kötéséről, és csak a kategóriák együttes bekövetkezésének a gyakoriságát vizsgáljuk. Ezt az információt a gyakorisági, vagy másképpen kontingencia tábla tartalmaz-za. A gazdasági társaságok kontingencia táblája az következő:

1.4 tábla Gazdasági társaságok kontingencia táblája

Eredméy Társasági forma Összesen Bt Kft Rt Nyereséges 350 50 70 470 Veszteséges 350 150 25 525 Összesen 700 200 95 995

Ha a kontingencia táblát valódi kategóriák alapján képezzük, akkor az információ tömörítése során föllépő veszteség for-rása csupán a megfigyelési egységek anonimmá válása, hiszen ilyenkor az adott kategória minden vonatkozó egyede egy-forma. Ha a kategóriák mennyiségi változók intervallumai, akkor azt az információt is elveszítjük, hogy intervallumon belül mennyire különböztek az egyedek. Nyilvánvaló, hogy az indikátor mátrix mindig tömöríthető kontingencia táblába, és a kontingencia tábla is indikátor mátrixszá formálható.

1.2 MŰVELETEK SOKASÁGOKKAL

A sokaságot mindenekelőtt mérete jellemzi. A sokaság mérete alatt érthetjük egyrészt elemeinek N számosságát, másrészt az egyedeire összessített valamely mennyiségi jellemzőt.1 A sokaság méretének az ismeretében - további tulajdonságai

feltárásában az alábbi műveletek segítenek. A megfigyelési egységek rangsorolása

Egyetlen változó esetében a rangsorolás nem ütközik nehézségbe. Városok poros voltát összehasonlítandó, a szálló por fajlagos tartalma és az ülepedő por fajlagos tartalma tekintetében külön-külön rangsorolva azonban már különböznek a rangsorok. Ha tehát a városokat általában a portartalom szerint kívánjuk rangsorolni, akkor ez a feladat már nem egyér-telmű. A rangsorolás végeredménye mindig egy speciális statisztikai sor, a rangsor.

A sokaság csoportosítása

Ha az x változó tekintetében heterogén sokaságon belül homogén csoportok, részsokaságok vannak, illetve sejthetők, akkor érdemes a sokaságon belül e részeket egymástól elkülöníteni. A csoportosítással szemben az alábbi követelményeket tá-masztjuk.

• Átfedésmentesség: egy megfigyelési egység x tekintetében csak egyetlen csoporthoz tartozzon.

• Teljesség, egyértelműség: a sokaságnak minden egyes eleme egyértelműen besorolható legyen az előre defi-niált csoportok valamelyikébe.

• Homogenitás: a kialakult csoportok x tekintetében legyenek minél homogénebbek, a csoportok viszont mi-nél markánsabban különbözzenek egymástól.

A csoportosítás egyszerre szolgálja a sokaság struktúrájának a kirajzolódását, és adatredukciós igényünket. Minél homo-génebbek ugyanis a csoportok, annál kisebb veszteséget szenvedünk el azáltal, hogy az egyedi adatok felsorolása helyett csupán az egyes csoportok jellegzetességeit, és a megfelelő csoporthoz tartozás tényét közöljük. Kategória változatok esetén adott kategória a saját szempontjából természetszerűleg homogén csoportokat definiál. Nem ez a helyzet akkor, ha a csoportosító ismérv folytonos mennyiségi, vagy nagyon sokféle kimenetellel bíró diszkrét mennyiségi változó. Ez eset-ben a csoportok definiálása ugyanis a skála megfelelő intervallumokra, osztályokra bontását jelenti, ami szubjektív. Rövid osztályok homogén, hosszú osztályok várhatóan heterogén csoportokat eredményeznek. A túl rövid intervallumok kiala-kítása a csoportok számát növeli, és így a sokaság áttekinthetővé tételét nem szolgálja. Osztályközök képzése esetén x kategóriáit az osztályközök jelentik.

A csoportok mellett a számosságukat felsorolva gyakorisági sort hozunk létre. A sokaságot egyidejűleg kettő, vagy kettőnél több ismérv alapján csoportosítva, majd a különféle kategóriák együttes bekövetkezési gyakoriságait táblába foglalva ju-tunk el a gyakorisági (kontingencia) táblához, melyet a korábbiakban már tárgyalju-tunk.

Sokaságok összehasonlítása.

Sokaságok számszerű jellemzőinek az összehasonlítása abszolút és relatív módon történhet. Az A és B jellemzők abszolút jellegű összehasonlítása az A-B különbségük, relatív jellegű összevetésük pedig az A/B arányuk képzésén alapul, ha ezek-nek van tárgyi értelme.2 A V=A/B hányadost viszonyszámnak nevezzük, amelyben A a viszonyítandó, B pedig a

1

Például a hazai benzinkutak teljes éves forgalma akár literben, akár forintban.

(8)

nyítás alapjának a szerepét tölti be. A viszonyszámok között - az elemzési cél tekintetében - szokás megkülönböztetni a sokaság strukturáját leíró (a résznek az egészhez való viszonyát kifejező) megoszlási viszonyszámot, a sokaságok időbeli összehasonlítását szolgáló dinamikus viszonyszámot, és az intenzitási viszonyszámot. Ez utóbbi azt mutatja meg, hogy valamely sokaság egy egyedére egy másik sokaságból hány egyed jut.

Mintavétel a sokaságból.

Amennyiben a sokaság egészét nem tudjuk, vagy nem akarjuk megfigyelni, de az egészére szeretnénk valamilyen követ-keztetést levonni, úgy kénytelenek vagyunk ezt a sokaságnak egy alkalmasan kiválasztott része, az ún. minta alapján meg-tenni. A mintavétel végrehajtása lehet véletlenszerű és nem véletlenszerű, visszatevéses, vagy visszatevés nélküli. A minta-vételt akkor tekintjük véletlen jellegűnek, ha még a mintaminta-vételt megelőzően rögzítjük az egyes sokasági egyedek mintába kerülésének a valószínűségét. Visszatevéses mintavételkor valamely sokasági érték nem csak egyszer, hanem többször is kiválasztásra kerülhet, s így súlyozottan szerepelhet a mintában.

A sokaság csonkolása, nyesése

Ha a sokaság valamely egyedei a vizsgált változó(k) tekintetében extrém (kiugróan alacsony vagy magas) értékkel bírnak, úgy ezek az értékek a sokaság egészéről kialakított általános képet torzítják, így elhagyásuk az elemzésből kézenfekvő. Előrejelzés

A sokaság egyedeinek az értékét - előrejelzési, vagy adatredukciós céllal - helyettesíthetjük is. Ha már ismert, realizálódott értéket cserélünk ki egy másikra, akkor “ex post” előrejelzésről, ha pedig még nem ismert értéket rendelünk egy egyedhez, akkor “ex ante” előrejelzésről, másképpen prognózisról beszélünk.

1.3

C

ENTRÁLIS TENDENCIA ÉS VARIANCIA

Reprezentálja a sokaság “i” sorszámú (i=1,2,...,N) egyedét az x változóban realizálódott megfigyelés xi értéke. A sokaság

egyedei a kérdéses ismérvben különböznek egymástól, másszóval szóródnak. Feladatunk a szóródásban rejlő tendenciák, és az azokat kiváltó okok feltárása. Kérdés, hogy az egyedek mint pontok milyen centrum körül, milyen mértékben, és milyen típusú valószínűségi (gyakorisági) eloszlás mentén szóródnak.

A szóródás tényét az egyedeknek egymástól, vagy egy kitüntetett egyedtől mért távolságában, illetve hasonlóságában ra-gadhatjuk meg. A szóródás centrumát a centrális tendencia alakítja, miszerint az egyedek túlnyomó többsége egy tipikus egyed körül tömörül. A szóródás e centrumát centroidnak nevezzük, melyet valamely középérték definiál. Kétféle középér-téket különböztetünk meg: helyzeti középérközépér-téket, és átlagot. Míg az előbbiek a rangsorolt sokaságon belül elfoglalt helyük alapján közepesek, addig az átlagok számított értéke az ismérv skáláján alkot középpontot.

A helyzeti középértékek a medián, és a módusz. A mediánt azon egyed kimenetele reprezentálja az x ordinális változó tekin-tetében, amely két, közel egyenlő részarányú alsó és felső szegmensre bontja a sokaságot. Folytonos mennyiségi változó esetében ezt az értéket az x(0.5) rendű kvantilis közelíti. A módusz ezzel szemben az ismérv skáláján a leggyakrabban

elő-forduló kimenetel. A módusz tehát nominális skálán is értelmezett, de nem mindig létezik, nem mindig egyértelmű, és inkább kategóriaként mintsem pontszerű értékként van statisztikai tartalma.

Az x változó számtani átlaga az N elemű sokaságban az az x szám, amellyel a sokaság valamennyi egyedének az értékét helyettesítve, azok összege nem változik meg:

1 1 N i i x x N = =

.

A továbbiakban az átlagos megfigyelési egység reprezentálja a sokaság centroidját. A számtani átlagtól vett di =xix

elté-réseket képezve, azok algebrai összege zérus. Az átlagtól mért eltéelté-réseket tartalmazó, és ezáltal zérus átlagúvá transzfor-mált di változót centrált változónak nevezzük. Ha a és b megfigyelésről megfigyelésre nem szóródó konstansok, akkor az

yi=a+bxi transzformált változó átlaga: y a bx= + .

Az egyedi értékek r. hatványának a számtani átlaga az r-ed rendű (vagy r-edik) momentumot eredményezi:

1 1 N r i r i x M N = =

ahol r=1,2,… Speciálisan, a másodrendű momentum jelölése:3 2 1 1 1 N 1 N i i x i i x q q N = N = = =

.

(9)

Az átlag körüli szóródás alapvető, egyváltozós mértéke a variancia, mely a centrált változó másodrendű momentuma:4 2 2 1 1 ( ) ( ) N x i i Var x x x N = = σ =

− .

Kihasználva, hogy a számtani átlagtól vett eltérések algebrai összege zéró, a variancia a másodrendű momentumnak, és a számtani átlag négyzetének a különbsége:5

1 1 1 1 ( ) ( )( ) ( ) N N i i i i i i Var x x x x x x x x N = N = =

− − =

− = 2 1 1 1 N 1 N i i i x x x N = N = =

(1.1) 2 q x = − .

A (1.1) azonosság a variancia momentum felbontását eredményezi. E tételre a továbbiakban mint a VMD szabályra hivat-kozunk.6

A variancia sohasem negatív, és csak akkor zérus, ha a sokaság minden egyede ugyanakkora értéket vesz fel az x változó-ban. A variancia invariáns az egyedi értékek ugyanazon konstanssal való növelésére (csökkentésére), viszont érzékeny azok konstanssal való szorzására. Tetszőleges a tengelymetszet és b meredekség mellett az yi=a+bxi megfigyelések

varian-ciája:

2

( ) ( ) ( )

Var y =Var a bx+ =b Var x .

A variancia pozitív négyzetgyöke a szórás (az angol nyelvű terminológiában „standard deviation”):

( ) x Var x

σ = .

A zérus átlagúvá, és egységnyi varianciájúvá transzformált

x

x x x= −

σ

 (1.2)

változót standardizált változónak nevezzük.

Dummy változót illetően, ha az N elemű sokaságban K számú “1” és (N-K) számú “0” egyed van, akkor az “1” elemek részaránya P=K/N, és ez a dummy változó P⋅1+(1-P)⋅0=P átlaga, és a második momentum is egyben. A VMD szabály alapján tehát a dummy változó varianciája

2

(0,1) (1 )

Var =P P− =PP .

Nemzéró értékösszeg mellett a variancia akkor maximális, ha a sokaság egyetlen tagja birtokolja a teljes értékösszeget, miközben minden más egyed értéke zérus. A VMD szabály alapján a variancia általában:

2 2 2 2 2 2 2 2 2 2 1 2 1 2 1 ... ... x x x xN x Nx Z Z ZN x N    σ = + + + − = + + + − aholx ≠0, 0 i 1 i x Z Nx

≤ = ≤ az i. egyed relatív részesedése a teljes értékösszegből, és

iN=1Zi =1. Mivel e relatív

része-sedések négyzetösszege legfeljebb 1 lehet, ezért a variancia feltételesen maximált értéke

2 2 2 2 2 2

max Nx 1 0 ... 0  x

σ = + + + − (1.3)

hiszen ez konstans x átlag mellett csökkenne, ha az egységnyi értékösszegből való relatív részesedések között mind ki-sebb lenne, mint 1.7 Zéró átlagos érték mellett a variancia végtelen nagy lehet.

Mértékegységtől független szóródási mutató a relatív szórás (coefficient of variation), mely a szórást a számtani átlag száza-lékában fejezi ki, ha az nem nulla.

Ha a sokaságból n elemű mintát veszünk és a mintabeli szórás értékéből következtetni akarunk a sokaság egyébként isme-retlen szórására, akkor a torzítatlan következtetés érdekében ún. korrigált szórást számolunk, az alábbi módon:

4 A Var(x) és 2

x

σ jelöléseket ekvivalens módon használjuk, megválasztásuk a formulák könnyebb áttekintését szolgálja.

5 Figyeljük meg, hogy

1( ) 0 N i i x x x = − =

. 6

A Variancia Momentum Dekompozíciója.

(10)

2 1 1 ( ) 1 n i i s x x n = = − −

(1.4)

ahol s a korrigált szórás konvencionális jelölése.8 A nevezőbeni (n-1) korrekció csak kicsiny mintaelemszám mellett okoz

jelentős számszaki eltérést.

1.4 A SOKASÁG ELOSZLÁSA

A végtelen sokaság egyedei értelemszerűen nem sorolhatók fel teljeskörűen, ezért valamely x jellemzőjének kimenetelei megfigyelésről megfigyelésre bővülnek, véletlenszerűen alakulnak. Végtelen sok megfigyelést végezhetünk adott típusú izzó teljes élettartamát, vagy biztonsági övek be-, illetve be nem kapcsolt voltát vizsgálva. Az ilyen esetekben x véletlen változó, és valószínűségeloszlását annak megfelelően definiáljuk, hogy folytonos, vagy diszkrét jellegű.9

A folytonos véletlen változót az eloszlásfüggvényével definiáljuk, ami azon esemény valószínűségét mondja meg, hogy a vál-tozó realizálódott értéke kisebb lesz egy előre rögzített x0 értéknél:

F(x0) = Pr(x<x0)

ahol F(.) monoton, 0≤F(.)≤1, F(-∞)=0 és F(∞)=1. Az eloszlásfüggvényt általánosságban az 1.1. ábra szemlélteti. 1.1 ábra Az eloszlásfüggvény

F(x)

x

0

1

Az eloszlásfüggvény x szerinti deriváltja az ún. sűrűségfüggvényt nyújtja, melynek jelölése: f(x)=F’(x). Definíciójából adódó-an: 0 0 ( ) ( ) x F x f x dx −∞ =

.

Geometriai inerpretációt illetően az eloszlásfüggvény értéke a sűrűségfüggvény alatti megfelelő területet jelenti. A sűrű-ségfüggvény alatti teljes terület egységnyi:

( ) 1 f x dx ∞ −∞ =

.

Legyen most az x változó diszkrét kimenetelű, vagyis x=k, ahol k=0,1,2,...integer. Ekkor x eloszlását a Pr(x=k) valószínű-séggel definiáljuk. Követelményünk szerint

0 Pr( ) 1 k x k ∞ = = =

.

Végtelen sokaság esetén az átlagos érték megfelelője a várható érték, mely definíció szerint

( ) ( ) E x x f x dx ∞ −∞ =

⋅ folytonos esetben, és

8 A torzítatlanság fogalmát, és általában a mintából történő következtetés elméletét lásd Hunyadi(2001). 9

Jelen könyv a valószínűségelméleti fogalmakat csak olyan mélységben és terjedelemben tárgyalja, ami egyéb témakörök megértéséhez elenged-hetetlen.

(11)

0 ( ) Pr( ) k E xk x k = =

⋅ =

diszkrét x változó esetén.

A variancia ennek megfelelően a várható értéktől vett eltérések négyzeteinek a várható értéke. Folytonos esetben például:

(

)

2 ( ) ( ) ( ) Var x x E x f x dx ∞ −∞ =

− .

A diszkrét eset ennek analógiája. Végtelen sokaság esetén a momentum is várható értékként, mégpedig a változó xr

hat-ványának E(xr) várható értékeként értelmezendő.

A gyakorisági (valószínűségi) eloszlás tendenciájának árnyalt jellemzését szolgálják az x változó kitüntetett értékei, a kvantilisek. Tekintsük a diszkrét x változó x1≺x2≺...≺xr ≺...≺xK ordinális skáláját, melyen az xr referencia kategória

a skálát két -egy alsó, és egy felső - szegmensre bontja úgy, hogy megállapodás szerint a referencia kategóriát is az alsó szegmenshez soroljuk. Ekkor a skála a sokaságot magát is egy alsó és egy felső szegmensre hasítja szét aszerint, hogy ki tartozik az alsó, és ki a felső szegmens kategóriáihoz: xaxf. Jelölje az alsó szegmens részarányát a sokaságon belül p

(0<p<1), a felsőét pedig (1-p). Ekkor a referencia kategória xr értékét p-ed rendű kvantilisnek nevezzük, mert a rendezett

sokaságot p:(1-p) arányban bontja ketté, és amelynek jelölése ezért: x(p).

A folytonos mennyiségi ismérvek skáláján kitüntetett rendű kvantilis értékeket keresünk azért, hogy a mérési skálán érte-lemszerűen sorbarendezett sokaságot nevezetes arányban bontsuk két részre. Nevezetes rendű kvantiliseket az 1/p = 2, 3, 4, 5, 10, 100 esetekben kapunk. Ezek nevei rendre: medián, tercilis, kvartilis, kvintilis, decilis, percentilis. Például x(0.95) a

95. percentilis, amelyre teljesül, hogy sokaság 95 százaléka az alsó, a maradék 5% pedig a felső szegmens eleme.

Míg a diszkrét sokaság valamely egyedének x értékéről mindig meg tudjuk mondani, hogy milyen rendű kvantilisnek felel meg, addig egy előre rögzített p rendhez nem mindig rendelhető hozzá a sokaság valamelyik konkrét egyedének az értéke. Látható tehát, hogy ha a kérdéses kvantilis értékének a meghatározásakor egy, az elemeinek a felsorolásával megadott sokaságra kell hagyatkoznunk, akkor a kvantilis meghatározása nem egyértelmű.

A kvantilisek paraméteres matematikai eloszlások fontos jellemzői, mert értékük rögzített eloszlástípus mellett numerikus integrálással egyértelműen meghatározható. A valószínűségelmélet számos nevezetes eloszlástípust ismer. Ezek közül most csak azokat definiáljuk, melyeket a későbbiekben használunk, vagy amelyek más eloszlások származtatásának az alapjául szolgálnak. Az alábbiakban tárgyalt folytonos eloszlások kiragadott kvantilis értékeit a könyv végén közölt táblá-zatok tartalmazzák.

1.4.1 NORMÁLIS ELOSZLÁS

A normális eloszlás az ún. exponenciális eloszláscsalád tagja. Sűrűségfüggvénye: 2 1 2 1 ( ) 2 x f x e −µ   −   σ   = πσ (1.5)

ahol µ és σ2 az eloszlás paraméterei, és ahol (-∞<x<∞), (-∞<µ<∞) és σ>0. A sűrűségfüggvény alakját, vagyis az x

sokasá-got e két paraméter egyértelműen meghatározza. A későbbiekben, ha x normális eloszlású µ és σ2 paraméterekkel, akkor

erre a tényre az

(

, 2

)

xN µ σ

formában hivatkozunk. Látható, hogy adott paraméterek mellett az x pontban a sűrűségfüggvény f(x) értéke kalkulálható, de f(x)≠[Pr(x)=0]. Folytonos véletlen változó konkrét értékének a bekövetkezése nem lehetetlen esemény, de a valószínűsé-ge zéró. Mivel azonban az f(x) értékek érzékeltetik, hogy különböző x értékek különböző eséllyel (relatív gyakorisággal) fordulnak elő, a sűrűségfüggvény f(x) értékét jelen könyvben az x pont egyedi likelihoodjának (esélyességének) nevezzük.

Az

(

2

)

,

xN µ σ normális eloszlású változó várható, átlagos értékeE x = µ( ) , varianciája pedigVar x = σ( ) 2. Ezért a

(

)

z= x− µ σ változó standardizált, zéró átlagú, és 1 varianciájú változó, tehát eloszlása z~N(0,1) standard normális,

sűrűségfüggvénye pedig értelemszerűen:

2 2 1 ( ) 2 z f z = e− π . (1.6)

(12)

2 2 1 ( ) 2 z t z e dtp −∞ Φ = = π

.

Az a z(p) érték, melyre Φ(z(p))=p teljesül, a standard normális eloszlás p-rendű kvantilisét képezi. A standard normális

el-oszlású változó kvantiliseinek meghatározása p ismeretében már nem igényli semmilyen paraméter ismeretét, ezért tetsző-leges részletességgel táblába foglalható (lásd a .táblát).

A 1

( )p zp

Φ = értéket a p valószínűség probitjának nevezzük:

( )

1

( ) p

probit pp z

= Φ = .

1.4.2 GAMMA-ELOSZLÁS

Az x≥0 nemnegatív véletlen változó gamma eloszlású α,θ>0 pozitív paraméterekkel, ha sűrűségfüggvénye:

1 1 ( ) ( ) x f x x eα − −θ α = θ Γ α (1.7) ahol

( )

1 0 a x a x e dx ∞ − − Γ =

a teljes gamma-függvény. Ha a egész, akkor Γ( )a =(a−1)! és az eloszlás neve ekkor Erlang eloszlás. A gamma eloszlás nevezetes momentumai az alábbiak:

( )

( ),

( )

,

( )

2 2 ( 1), ( )

( )

2 2

( )

2 ( ) r r r E x = θ Γ α + E x = θα E x = θ α α + Var x =E xE x = θ α Γ α .

1.4.3 CHI-NÉGYZET ELOSZLÁS

A gamma eloszlás speciális esete θ=2, és α=ν/2 paraméterezéssel a chi-négyzet (χ2) eloszlás, melynek sűrűségfüggvénye 1 2 2 2 1 ( ) 2 2 x f x x e ν − − ν = ν   Γ     (1.8)

ahol Γ(1/ 2)= π ha ν páratlan. A ν paramétert (mely nem kötelezően integer) az eloszlás szabadsági fokának nevezzük. Lévén gamma eloszlás θ=2, és α=ν/2 paraméterezéssel, nevezetes momentumai a szabadsági fok függvényében:

( )

( )

2

, 4 1 ( 2), ( ) 2

2 2

E x = ν E x = ν ν + = ν ν + Var x = ν

  .

A chi-négyzet eloszlás szorosan kötődik a normális eloszláshoz, mert definíció szerint egymástól független, z N

( )

0,1

standard normális eloszlású változók négyzetösszege chi-négyzet eloszlást követ ν=n szabadsági fokkal, ahol n az össze-adandók száma:

2 2 2 2 2

1 2 ... n1 n n

z +z + +z− +z ∼χ . (1.9)

Innen egyenesen következik, hogy

2 2 2

1

nn z

χ = χ − . (1.10)

1.4.4 EXPONENCIÁLIS ELOSZLÁS

A gamma eloszlás másik speciális eseteként α=1 választással a (negatív) exponenciális eloszlás adódik, 1

( )

x

f x = e−θ

θ (1.11)

sűrűségfüggvénnyel, melynek várható értéke és varianciája

( )

,

( )

2 2 2, ( ) 2 E x = θ E x = θ Var x = θ .

(13)

1.4.5 WEIBULL ELOSZLÁS

Az x≥0 nemnegatív véletlen változó Weibull eloszlású α,θ>0 pozitív paraméterekkel, ha sűrűségfüggvénye:

1 ( ) x f x x e α   −  α−  θ α α = θ . (1.12)

Látható, hogy a negatív exponenciális eloszlás a Weibull eloszlásnak is speciális esete, α=1 helyettesítéssel. Egy másik speciális esetként a Rayleigh eloszlát nyerjük, az α=2, és θ = 2β paraméterezéssel:

2 1 2 2 ( ) x f x xe   −   β −   = β .

1.4.6 BÉTA-ELOSZLÁS

Az 0≤x≤1 véletlen változó béta eloszlást követ a,b>0 pozitív paraméterekkel, ha sűrűségfüggvénye

1 1 1 ( ) (1 ) ( , ) a b f x x x B a b − − = − (1.13)

ahol B(a,b) a teljes béta-függvényt jelöli:

( ) ( )

(

)

( , ) a b B a b a b Γ Γ = Γ + .

1.4.7

S

TUDENT

-

ELOSZLÁS

A Sudent féle t-eloszlást az alábbi sűrűségfüggvény definiálja:

1 2 2 1 ( ) 1 1 , 2 2 x f x B ν + −   =  +  ν ν    ν     (1.14)

ahol a ν>0 paraméterre, mint szabadsági fokra hivatkozunk, és az x változó tetszőleges értéket felvehet. A t-eloszlás zéró várható értékű, és szimmetrikus a várható értékre.

Egy standard normális, és egy korrigált (szabadsági fokkal osztott) chi-négyzet eloszlás hányadosa Sudent t-eloszlást kö-vet, ha a változók egymástól függetlenek, az alábbi transzformáció szerint:

2 n n z t n χ ∼ . (1.15)

1.4.8 F-ELOSZLÁS

Az F-eloszlás sűrűségfüggvénye kétparaméteres, és csak nemnegatív x értékekre van értelmezve: 1 1 1 2 2 1 1 2 2 2 1 2 1 2 ( ) , 1 2 2 f x x B ν ν − ν +ν ν    ν   =   ν ν ν   +     ν     (1.16)

ahol a ν1,ν2>0 paramétereket szabadsági fokoknak nevezzük. Az F-eloszlás eredete szintén a normális eloszlás, mert két

független, korrigált chi-négyzet eloszlású változó hányadosa F-eloszlást követ az alábbi paraméterekkel:

2 , 2 n n m m n F m χ χ ∼ (1.17)

ahol n a számláló, m pedig a nevező szabadsági foka.

A fenti eloszlások között a χ2, a t- és az F-eloszlás elsősorban a véletlen módon kiválasztott mintából történő

(14)

1.4.9 BINOMIÁLIS ELOSZLÁS

Legyen megfigyelésünk eredménye csak kétféle kimenetel („1” vagy „0” tulajdonság) valamelyike, rendre P és (1-P) való-színűséggel, ahol 0<P<1. Tekintsünk n számú, független megfigyelést, melyek között az „1” kimenetelek k száma bino-miális eloszlású véletlen változó, és valószínűségi eloszlása (a k pont egyedi likelihoodja P és n paraméterekkel)

(

)

Pr(x k) n Pk 1 P n k k −   = =  −   (1.18) 1 exp ln ln ln 1 1 n P k n k P P      =  − +   − −      (1.19)

ahol k=0,1,2,...,n egész. Ha n=1 elemű mintát veszünk, akkor k={0,1}. A P/(1-P) arányt odds aránynak nevezzük, mely-nek logaritmusa az ún. logit:

( )

logit ln 1 P P P = = θ − E kanonikus paraméterrel: logit logit odds 1 odds 1 e P e = = + + .

A várható érték E(x)=P, és a variancia Var(x)=P(1-P). A egyedek k száma a mintában binomiális eloszlású, p=k/n rész-aránya pedig egyben a mintaátlag is, mely nagy minták esetén – a centrális határeloszlás tétele értelmében- aszimptotikusan normális: 1 1 (1 ) , n d i i k P P x p N P n = n n −   = = →  

.

1.4.10 POISSON-ELOSZLÁS

Adott eseménynek egységnyi időszak alatti x gyakorisága (árvizek száma évente) Poisson eloszlású λ pozitív paraméterrel, és a valószínűségeloszlás (likelihood) függvénye:

{

}

Pr( ) exp ln ln( !) ! ke x k k k k −λ λ = = = λ − λ − (1.20)

ahol k=0,1,2,...A Poisson eloszlásnak mind a várható értéke, mind a varianciája a λ paraméterrel egyezik meg.

1.4.11

P

ROBABILITY PLOT

Azon kérdés eldöntését segítendő, hogy a sokaság az x változó tekintetében kielégítően leírható-e valamely formalizált valószínűségi eloszlással az alábbiakban egy grafikus eljárást, a “probability plot” módszerét ismertetjük.Legyen a vizsgált x változó eloszlásfüggvénye feltevésünk szerint F(x), standardizált z változatának eloszlásfüggvénye pedig G(z), melyekre teljesül az F(x)=G(z) azonosság. Ekkor a standardizált z változó értéke egyrészt egy egyenes szerint alakul x függvényé-ben, másrészt a G(.) függvény inverzének az értéke F(.) függvényéfüggvényé-ben, az alábbiak szerint:

(

)

1 ( ) x x z GF x = − + = σ σ

Ha x nem egzaktan az F(.) eloszlásból származik, akkor közös koordináta rendszerben ábrázolva z e kétféle értéke nem esik egybe. Minél közelebb fekszenek a G-1(x) pontok a referencia egyeneshez, annál jobban leírható a sokaság x

tekinte-tében az F(.) eloszlással.

A normalitás vizsgálata „normal probability plot” szerkesztését igényli, ahol G-1 szerepét speciálisan a standard normális

eloszlás eloszlásfüggvénye tölti be, amely inverzének egyféle empirikus közelítése a

1 1/ 3 1/ 3 i N −  −  Φ   +  

módon történik, ahol i=1,...,N a nemcsökkenő módon rendezett sokaság egyedeinek a sorszámát jelenti. Lényegében a referencia egyenes zi pontjai által reprezentált tényleges sokaságot a Gi-1 pontdiagram által reprezentált normális eloszlású

sokasággal vetjük össze.

(15)

szolgáló „normal probability plot” az 1.2 ábrán látható.

1.2 ábra A kátránytartalom eloszlásának „normál probability” ábrája

(16)

2 SOKASÁG ÉS MINTA

Tekintsünk egy véges x1,...,xN, vagy egy végtelen, az f(x|θ1,...,θq)=f(x|θ) sűrűségfüggvénnyel definiált sokaságot, melyben

az x változó valamely θ jellemzője (paramétere) ismeretlen, de döntésünk ennek vélt ismeretén alapszik. Ekkor a végtelen sokaság teljes megfigyelése lehetetlen, a véges sokaság teljeskörű megfigyelése pedig esetenként ésszerűtlen: például költ-séges, vagy egy termék megsemmisülésével jár. Ilyenkor a sokaságból mintát veszünk, és a minta alapján következtetünk a sokaság egészére.

A mintából történő következtetés exploratív formája a becslés, konfirmatív formája pedig a hipotézisek tesztelése. A becslést akkor alkalmazzuk, mikor semmilyen ismeretünk nincs a sokaság jellemzőjéről, ezért a minta ismeretében közelítjük an-nak értékét. A hipotézisben viszont valamilyen előzetes elképzelésünk fogalmazódik meg a sokaság adott jellemzőjével kapcsolatban, és ilyenkor a mintát szembesítjük az elképzelésünkkel. A minta alapján csupán döntést hozunk, de meg nem bizonyosodhatunk.

Mintának nevezzük a sokaság azon kitüntetett egységeit, melyekre a megfigyelésünk kiterjed. A minta mindig véges, elem-száma n, és elemei rendre:

x1,x2,...,xn.

A mintavétel részlegessége (nem teljes körű volta) miatt a következtetések mintevételi hibát hordoznak. Ha a hibázás való-színűségét kontrollálni akarjuk, akkor a mintát véletlen módon kell kiválasztanunk. Véletlen jellegű a mintavétel, ha a soka-ság bármely egyede ismert valószínűséggel kerülhet be a mintába. Ekkor az xi mintaelem (i=1,2,...,n) mintavételi

ingado-zásnak van kitéve, vagyis mintavételi véletlen változó. Ha a mintaelemeket egymástól függetlenül választjuk ki, akkor a mintaelemek független véletlen változók, és valószínűségi eloszlásuk megegyezik a sokaság eloszlásával. Az ilyen típusú mintát független, azonos eloszlású (FAE) mintának nevezzük. Ha például a sokaság normális eloszlású µ várható értékkel, és σ2 varianciával, vagyis x~N(µ,σ2), és x1,x

2,...,xn. FAE minta, akkor valamennyi mintaelem ugyanilyen normális

eloszlá-sú: xi~N(µ,σ2), ahol i=1,...,n.

A θ paraméterre vonatkozó mintából történő következtetés eszköze mindenkor a mintaelemek valamely

1 2

ˆ( , ,.., ) ˆ ˆ

n n

x x x

θ = θ = θ

transzformációja, amely leképezést statisztikának nevezzük. Ilyen statisztikák például a mintabeli átlag, variancia, részarány, vagy egyéb más, komplikáltabb formulák. A mintavételi hiba nagyságának behatárolása érdekében a statisztikák mintavé-teli eloszlásának jellemzőit (típusát, várható értékét, és varianciáját) ismernünk kell.

Mintavételi eloszlás alatt a kérdéses θˆ statisztikának minden létező mintán szóródó eloszlását értjük. A mintavételi

várha-tó érték jelöléseE θ

( )

ˆ , a mintavételi varianciájé pedigVar θ

( )

ˆ . A mintavételi variancia pozitív gyökét, a mintavételi

szó-rást standard hibának (Standard Error) nevezzük, melynek jelölése SE θ

( )

ˆ .

2.1 STATISZTIKAI BECSLÉSEK

Valamely ismeretlen θ sokasági paraméter értékének közelítő meghatározását becslésnek nevezzük. Ennek eszköze a becs-lőfüggvény, mely egy alkalmasan megválasztottθˆstatisztika. A becslőfüggvény mintavételi változó, mely pontbecslést nyújt az

ismeretlen paraméterre. A becslés megbízhatósága azon múlik, hogy mintavételről mintavételre haladva a becslőfüggvény milyen centrum körül, és milyen mértékben szóródik. Intuitíve is látható, hogy ez nagymértékben függ a minta elemszá-mától, továbbá attól is, hogy a sokaság maga milyen centrum körül, és mennyire szóródik.

2.1.1 BECSLÉSI KRITÉRIUMOK ÉS MÓDSZEREK

Alapvető követelmény, hogy a becslőfüggvény mintavételi varianciája a lehető legkisebb legyen. Nézzük, hogy milyen tényezők befolyásolják ezt a varianciát. Jelölje ε = θ − θˆ a pontbecslés eltérését a paraméter valódi értékétől (tehát a

hi-bát), Q=ε2 pedig a hiba négyzetét. Ekkor a pontbecslés mintavételi varianciája megegyezik a hiba varianciájával, mely a

variancia momentum felbontása alapján az alábbi formában is írható:10

2 2

ˆ ˆ ˆ ˆ

( ) ( ) ( ) ( ) ( )

Varθ =Varθ − θ =Var ε = − ε =q MSE θ −Bias θ

ahol MSE (mean square error) az átlagos négyzetes hiba, Bias pedig az átlagos hiba, melynek előjeles értéke a becslés torzí-tásának a mértékét és irányát mutatja.

A fentiek fényében a becslőfüggvény (ceteris paribus):

(17)

1. Torzítatlan, ha a torzítás mértéke zéró: ekkor az átlagos hiba zéró, a becslőfüggvény várható értéke pedig meg-egyezik a paraméterrel, és a mintavételi variancia megmeg-egyezik az átlagos négyzetes hibával,

2. Aszimptotikusan torzítatlan, ha a mintaelemszám növelésével a torzítás mértéke zérushoz tart, 3. Konzisztens, ha a mintaelemszám növelésével a MSE zérushoz tart,

4. Leghatásosabb, ha torzítatlan becslőfüggvények körében legkisebb a varianciája.

Torzított becslőfüggvények között nem mindig készíthető egyértelmű hatásossági rangsor a MSE alapján, mivel az átla-gos négyzetes hiba függvénye lehet az ismeretlen, becsülendő paraméternek is.

Adott θ paraméter pontbecslésére több, különféle tulajdonságú becslőfüggvény is szóba jöhet. A variancia pontbecslésére használhatjuk például a klasszikus (nem korrigált) mintabeli varianciát is. Közülük azt preferáljuk, amelyik leginkább ele-get tesz a pontbecsléssel szemben támasztható ésszerű követelményeknek, becslési kritériumoknak. A becslőfüggvény formulája némely esetben intuitív módon kínálkozik. Ha a becsülendő paraméter tárgyi (statisztikai) tartalommal bír, ak-kor kézenfekvő a mintabeli analógiáját használni pontbecslésként. Az analógia módszerére példa a mintaátlag, vagy a min-tabeli variancia. A becslőfüggvény formulájának a meghatározása azonban nem mindig kézenfekvő, ilyenkor valamilyen algoritmus szolgáltat becslőfüggvényt. Előre rögzítjük a becslőfüggvénnyel szembeni elvárásunkat, majd meghatározzuk azt a formulát mely eleget tesz ezen követelménynek. A becslőfüggvény meghatározására irányuló módszereket becslési módszereknek nevezzük. A sokaság θ1,θ2,...,θp paramétereinek a pontbecslésére szolgáló nevezetes becslési módszerek az

alábbiak.

Legkisebb négyzetek (LKN) módszere: a becslésből eredő, mintán belül tapasztalt hibák négyzetösszege minimális legyen:

(

)

2

(

)

2 1 2 1 1 ˆ ˆ ˆ ˆ ( , ,..., ) min n n i i p i i i x x Error = = − θ θ θ = →

.

Itt az ˆx függvény olyan előrejelzési szabály, mely nem föltétlenül igényli nevezetes eloszlás ismeretét.

Momentumok módszere: Adott típusú eloszlás becsült paramétereivel kalkulálva, valamely momentum egyezzen meg a mintán belüli megfelelő rendű empirikus momentum értékével:

1 2 1 1 ˆ ˆ ˆ ( , ,..., ) ( 1, 2,..., ) n r i r p i x m r p n = = θ θ θ =

ahol E(xr)=m

r(θ1,θ2,...,θp). Ez a módszer tehát ismert eloszlás paramétereinek a becslésére szolgál, és az mr függvény fejezi

ki az r. rendű momentum, és a sokasági paraméterek kapcsolatát. A becslés praktikusan egy egyenletrendszer megoldását jelenti, melynek annyi egyenlete van, ahány becsülendő paraméter.

Maximum likelihood (ML) módszer: Ha a minta együttes bekövetkezésének az esélyét (likelihoodját) a becslésünk értéke befo-lyásolja, akkor válasszuk azt a becslést, amely mellett a mintaelemek együttes realizációjának a likelihoodja maximális:

(

)

minta ˆ ˆ1, 2,...,ˆp max

L θ θ θ → . (2.1)

Ha az xi mintaelemek egymástól független véletlen változók, akkor az együttes minta likelihoodja a mintaelemek egyedi

likelihoodjainak a szorzataként áll elő:

(

)

(

)

minta 1 2 1 2 1 ˆ ˆ, ,...,ˆ n ,ˆ ˆ, ,...,ˆ max p i p i L L x = θ θ θ =

θ θ θ → . (2.2)

A maximum likelihood módszer eloszlásfüggő eljárás, hiszen a likelihood értékének a kalkulálása konkrét valószínűségi eloszlást igényel. A következő alfejezetek a likelihooddal kapcsolatos kategóriákat tovább tárgyalják.

2.1 Példa Határozzuk meg az x változó sokasági átlagának becslőfüggvényét az LKN módszerrel úgy, hogy a becslés négyzetes távolsága a mintaelemektől összességében (SS: sum of squares) minimális legyen:

(

)

2 1 ˆ min n i i SS x = =

− θ → . Deriválással:

(

)

1 ˆ 2 0 ˆ n i i SS x = ∂ = − − θ = ∂θ

amiből a számtani átlag definíciója szerint becslésként a mintaátlag adódik:ˆ n

x

θ = .

2.2 Példa Tekintsük az x~N(µ,σrögzített) normális eloszlás µ paraméterének becslését a ML módszerrel, és n=1 elemű

(18)

2 1 1 2 1 1 ( ) max 2 x L x e −µ   −   σ   = → πσ .

Ez nyilvánvalóan akkor maximális, ha az exponenciálisban szereplő kifejezés zéró, tehátµ =ˆ x1. Ha a mintavételt

kiter-jesztjük n eleműre, akkor a minta együttes likelihoodja (a maximálás szempontjából érdektelen konstans tag elhagyásával):

( )2 2 1 1 2 1 2 ( ) ( )... ( ) max n i i x n L x L x L x eσ ∑= −µ →  .

Ez pedig akkor maximális, ha az exponenciálisban szereplő négyzetösszeg minimális. Vagyis ebben az esetben a ML módszer a LKN módszerre vezethető. A négyzetösszeg pedig akkor minimális, mikor a µ paraméter becslése a mintaát-lag:µ =ˆ xn.

2.1.2

I

NTERVALLUMBECSLÉS

A becslés megbízhatóságának a javítása érdekében érdemes a pontszerű becslést egy minél szűkebb, de magas megbízha-tóságú ún konfidencia intervalummá bővíteni, mely adott 1-α megbízhatósággal lefedi az ismeretlen θ paramétert:

(

ˆ ˆ

)

Pr θ < θ < θa f = − α1 ahol ˆ a θ és ˆ f

θ a konfidencia intervallum alsó és felső határa, α (alacsony) értéke pedig az alulbecslés, illetve a fölülbecslés

kockázatának az (előzetesen rögzített) összege. Ez utóbbi két kockázatot (ha egyéb szempont mást nem indokol) egyenlő arányban osztjuk meg. A kockázatok rögzített értékének birtokában ismernünk kell a becslőfüggvény eloszlását, hogy kalkulálhassuk a megfelelő kvantiliseit:

(

ˆ( / 2) ˆ(1 / 2)

)

Pr θα < θ < θ −α = − α1 .

A θˆ( / 2)α és θˆ(1−α/ 2) kvantilisek numerikus integrálással határozandók meg. Az esetek többségében nem közvetlen a

becs-lőfüggvény, hanem valamely T( | )θ θ =ˆ Tˆ monoton transzformációjának az eloszlását ismerjük, melynek kvantilis értékei

esetleg táblázatos formában is rendelkezésre állnak. Ezért a numerikus integrálást megkönnyítendő, a

(

ˆ( / 2) ˆ ˆ(1 / 2)

)

Pr Tα <T T< −α = − α1 .

konfidencia tartomány határait keressük meg. Legyen ugyanakkor általában 1 ˆ ˆ

( | )

TT

θ = θ , és így az eredeti konfidencia tartomány alsó határát a 1 ˆ ˆ

( f | )

TT θ és 1 ˆ ˆ

( a| )

TT θ értékek közül a kisebbik, felső határát pedig a nagyobbik érték adja.

A konfidencia intervallum képzésének két nevezetes esete, mikor E θ = θ

( )

ˆ torzítatlan, normális eloszlású

becslőfügg-vényre képezzük úgy, hogy vagy ismert annak SE θ

( )

ˆ standard hibája, vagy kénytelenek vagyunk e standard hibát is a

mintából, se θ

( )

ˆ segítségével becsülni. Az ismert standard hibával standard normális eloszlásúvá transzformálva a

becslő-függvényt, az alábbi valószínűségi azonosságot tudjuk definiálni:

( )

/ 2 1 / 2 ˆ Pr 1 ˆ z z SE α −α   θ − θ  < <= − αθ    melyből a

( )

1 / 2 ˆ z SE ˆ −α θ = θ ± θ (2.3)

szimmetrikus konfidencia tartomány adódik.

Ha a standard hibát mintából kell becsülnünk, akkor a se(.) becsült standard hiba is mintavételi változó, melynek mintavé-teli eloszlása szükséges a konfidencia intervallum képzéséhez. Tegyük fel, hogy a becsült, és a valódi standard hiba között a k-szabadsági fokú CHI-négyzet eloszlás egyértelmű kapcsolatot teremt, a következők szerint:

( )

ˆ

( )

ˆ 2k

se SE k χ

θ = θ .

Ez esetben a t-eloszlás definíciója alapján

(

θ − θˆ

) ( )

/ se θˆ k szabadsági fokú t

k-eloszlású, és az alábbi valószínűségi

(19)

( )

( )

( )

( ) / 2 2 1 / 2 ˆ ˆ ˆ Pr 1 ˆ k k k SE t t se k α −α  θ − θ    θ  θ − θ  < = < = − α   θ χ         .

Innen a konfidencia intervallum:

( )

1 / 2

ˆ t se ˆ

−α

θ = θ ± θ . (2.4)

2.2 STATISZTIKAI HIPOTÉZISEK TESZTELÉSE

A statisztikai következtetések konfirmatív jellegű alkalmazása hipotézisek vizsgálatán alapul. Hipotéziseket fogalmazunk meg, mikor a sokaság jellemzői ismeretlenek, további döntéseink viszont vélt ismeretükön alapulnak. A hipotézis szubjek-tív képünket vetíti a sokaságra, ezt a képet átmenetileg érvényesnek fogadjuk el, majd mintára támaszkodva döntésünk eredménye az állítás fönntartása, vagy elvetése. A hipotézisvizsgálat fogalmi rendszere, és a döntéshozás menete az alábbi. A hipotézisnek egy véletlen mintavétel eredményével való szembesítését a hipotézis tesztelésének nevezzük. Mivel a sokaság a tesztelés során ismeretlen marad, ezért hozhatunk helyes, de helytelen döntést is. Hibát követünk el egyrészt a hipotézis helytelen elvetésekor, illetve a hipotézis helytelen elfogadásakor. Alapvető szempont a hibás döntés(ek) valószínűségének a minimálása.

A hipotézisben verbálisan foglalt állítás statisztikai vizsgálata annak formalizálását igényli. A hipotézisben foglalt állítások a gyakorlatban a sokaság eloszlásának a jellemzőire - paramétereire, vagy az eloszlás típusára – vonatkoznak.

Tartalmi szempontból az igaznak vélt, vagy remélt állítást kutatási hipotézisként kezeljük. A mintavétel célja annak alátá-masztása, hogy a kutatási hipotézis áll közelebb a valósághoz. A kutatási hipotézis elfogadását szigorítjuk úgy, hogy a ta-gadását jelentő állítást tekintjük kiindulásként érvényesnek, ettől az állítástól pedig csak akkor állunk el, ha ezt a konkrét mintánk markánsan indokolja. A kutatási hipotézis komplementerét teszt hipotézisnek nevezzük, mert ezt tekintjük átme-netileg érvényesnek s ennek fenntarthatóságát vagy elvetését teszteljük a próba során.

Értékkészletüket tekintve a statisztikailag tesztelhető hipotézisek lehetnek egyszerűek és összetettek. Egyszerűnek nevezzük a hipotézist, ha egyetlen rögzített számszerű értékre, és összetettnek, ha számértékeknek valamely tartományára vonatkozik. A hipotézisvizsgálat végrehajtásakor a teszt hipotézisben foglalt állítások halmazából csak a kutatási hipotézisnek legke-vésbé ellentmondót helyezzük szembe a kutatási hipotézissel, mert ha ezt sem tudjuk tovább fenntartani, akkor a méginkább ellentmondókat még kevésbé tarthatjuk fenn. Egyszerű teszt hipotézis triviálisan legkevésbé mond ellent a kutatási hipotézisnek. Összetett teszt hipotézis alkalmazásakor viszont úgy kell rögzíteni a kutatási hipotézist, hogy a teszt hipotézis állításai közül egyértelműen kiragadható legyen a kutatási hipotézisnek legkevésbé ellentmondó.

A kutatási hipotézis érvénytelen voltát jelentő, annak legkevésbé ellentmondó egyszerű állítást null hipotézisnek, az alter-natíváját képező kutatási hipotézist pedig alternatív hipotézisnek nevezzük. A nullhipotézist H0, az alternatív hipotézist

pedig H1 jelöli.

Összetett teszt hipotézis vizsgálatát mindenkor visszavezethetjük egyszerű teszt hipotézis tesztelésére úgy, hogy az alter-natív hipotézissel szemben a null hipotézis fenntartását, vagy elvetését teszteljük. Összetett teszt hipotézis vizsgálatakor a null hipotézis fenntartása egyben a teszt hipotézis fenntartását, elvetése pedig annak elvetését is magában foglalja. Mint már említettük, véletlen minta alapján téves döntést is hozhatunk. A kutatási hipotézis elfogadását szigorítandó, kicsiny esélyt adunk a helyes teszt hipotézis elutasításának. A tesztelés során mindig a null hipotézist teszteljük az alterna-tív hipotézis ellenében. Helyes null hipotézis elvetésekor az un. I. fajú hibát, helytelen nullhipotézis fenntartásakor pedig a II. fajú hibát követjük el, egyébként pedig helyes döntést hozunk. Az I. fajú hiba elkövetésének α valószínűségét

szignifikancia szintnek nevezzük, a II. fajú hiba elkövetésének a valószínűségét pedig β jelöli. A null hipotézis helyes

elveté-sének a valószínűségét a teszt erejének, míg a null hipotézis helyes fenntartásának a valószínűségét a teszt megbízhatósági szintjének nevezzük. A szignifikancia szintet még a mintavétel előtt, alkalmasan megválasztott alacsony, pl. 5%-os szinten előre rögzítjük. A szignifikancia szint változtatása lényegében a kutatási hipotézis elfogadásának a szigorítását, illetve lazí-tását teszi lehetővé.

A döntéshozás során állításunkat megerősítő, vagy annak ellentmondó információt a véletlen mintavétel nyújt. A lehetsé-ges n elemű véletlen minták halmazán a null hipotézis helyessége esetén bizonyos összetételű minták bekövetkezése való-színűbb és e minták ugyanakkor nem mondanak ellent a null hipotézisnek, míg másoké kevésbé valószínű és ellent is mondanak a null hipotézisnek. A mintatér egy szegmense tehát kritikus a nullhipotézis realitása szempontjából.

(20)

Adott hipotézis mellett egy x1,x2,...,xn véletlen minta realizálódásának az esélyét a minta együttes likelihoodja

számszerűsí-ti. A H0, vagy H1 feltétel melletti likelihood értékek azt mutatják, hogy az adott minta bekövetkezése a H0, vagy a H1

sze-rinti valóság esetén, hihetőbb-e. Egyszerű hipotézisek feltételezése esetén a két feltételes likelihood: L(x1,x2,...,xn|H0)

L(x1,x2,...,xn|H1).

Azon minták halmazát, melyek ellentmondanak a null hipotézisnek, és bekövetkezésük null hipotézis érvénye melletti L0

esélye alacsony, a mintatér kritikus, Kn tartományának nevezzük.

Hipotézisünk fönntartását, vagy elvetését egyszerűen arra alapozzuk, hogy a konkrét minta eleme-e ezen kritikus tarto-mánynak, vagy nem. A döntéshozás érdekében érdemes az n elemű minták terét - és így a kritikus tartományt is - egydi-menzióssá leképezni. A Tn=T(x1,x2,...,xn) leképezést úgy választjuk meg, hogy a mintán belüli tendenciája a vizsgált

hipo-tézis érvénye esetén értelemszerű, likelihoodja pedig kalkulálható legyen.11

A mintaelemeknek olyan Tn transzformációját, melynek mintavételi feltételes eloszlása a null hipotézis érvénye mellett

egyértelműen meghatározható, teszt statisztikának, másképpen próbafüggvénynek nevezzük. A teszt statisztika H0 feltétel

melletti eloszlását, melyet az L(Tn|H0) feltételes likelihood jellemez, null eloszlásnak nevezzük.

Az alternatív hipotézis jellegének a szempontjából egyoldali tesztet hajtunk végre akkor, ha vagy csak az extrém alacsony T, vagy csak az extrém magas T értékek mondanak ellent a H0 hipotézisnek. Az előbbi esetben baloldali, az utóbbi esetben

pedig jobboldali tesztről beszélünk. Kétoldali tesztet hajtunk végre ezzel szemben akkor, ha T nek mind az extrém ala-csony, mind az extrém magas értékei ellentmondanak a H0 hipotézisnek.

A döntés alapvető kérdése tehát, hogy a teszt statisztika értékkészletén elhatároljuk a null hipotézisnek ellentmondó, an-nak fenntartása szempontjából kritikus tartományt.

Kritikus tartománynak nevezzük a teszt statisztika értékeinek azon K tartományát, amely értékei a null hipotézis érvényes-sége esetén kicsiny valószínűséggel következnek be, leginkább ellentmondanak a null hipotézisnek, s ezért bekövetkezé-sük a null hipotézis elvetését támasztja alá. Baloldali teszt esetén a kritikus tartomány a null eloszlás baloldali alsó, jobbol-dali teszt esetén a felső szakaszán helyezkedik el, míg kétoljobbol-dali teszteléskor megosztva mindkét extrém szakaszon szerepel. A szignifikancia szint a teszt statisztika kritikus tartományba esésének a valószínűsége. Kétoldali teszt esetén, mikor a kritikus tartomány megosztásra kerül, értelemszerűen a szignifikancia szint is megosztásra kerül:

0

Pr(TnK|H )= α + α = αa f

ahol αa az alsó, αf pedig a felső kritikus tartományba kerülés kockázata. Ez a megosztás, ha egyéb szempont mást nem

diktál, egyenlő arányban történik: αa=αf =α/2. Baloldali teszteléskor αf =0, jobboldali teszteléskor pedig αa =0. A

kriti-kus tartomány határát képező értéket kritikriti-kus értéknek nevezzük. A kritikriti-kus érték az adott null eloszlású véletlen változó azon kvantilis értéke, mely az előre rögzített szignifikancia szint mellett a kritikus tartományt határolja. Az alsó kritikus érték jele: Ka, melyre definíció szerint Pr(Tn<Ka|H0)=αa teljesül, a felső érték pedig Kf melyre definíció szerint

Pr(Tn>Kf|H0)=αf teljesül. Kétoldali teszt mind alsó, mind felső kritikus érték kijelölését igényli. A szignifikancia szint

mértékének megválasztása a hipotézisvizsgálat szubjektív mozzanata, a döntéshozó feladata. Csökkentése (növelése) a kritikus tartomány terjedelmének szűkítését (tágítását), vagyis a teszt szigorítását (lazítását) teszi lehetővé. A fentiekből azonnal következik, hogy az α szignifikancia szint csökkentésével együtt szűkül a kritikus tartomány, és nő a II. fajú hiba

elkövetésének valószínűsége. E kétféle kockázat tehát csak egymás rovására változhat.

Mivel a teszt hipotézis kritikus tartománya a kutatási hipotézis elfogadását indokolja, ezért a szignifikancia szint megvá-lasztásakor ügyelni kell arra, hogy melyik típusú hibás döntés jár nagyobb kárral a döntéshozó szempontjából. Ennek az esélyét kell minél lejjebb szorítani. Ehhez szükségünk van a II. fajú hiba feltételes valószínűségére, mely csak valamely egyszerű alternatív hipotézis rögzítése mellett számítható. E valószínűség kalkulálása igényli ugyanis a teszt statisztika H1

érvénye melletti eloszlását. A másodfajú hiba elkövetésének feltételes valószínűsége:

1

Pr(TnK|H )= β.

Más szavakkal a másodfajú hiba annak a valószínűsége, hogy a tesztstatisztika mintából számított értéke az adott szignifikancia szint melletti kritikus tartományon kívül esik, miközben az alternatív hipotézis igaz. Ugyanakkor a

1

Pr(TnK|H)= − β1

valószínűséget a teszt H1 feltétel melletti erejének nevezzük. A teszt statisztika ereje az igaz kutatási hipotézis

elfogadásá-ban rejlik.

A szignifikancia szint és a másodfajú hiba elkövetésének, valamint a teszt erejének egymáshoz való viszonyát, továbbá a próba erejének grafikus meghatározását mutatja a 2.3 ábra ismert szórású normális eloszlás ismeretlen várható értékére vonatkozó jobboldali alternatív hipotézis esetén, rögzített egyszerű alternatív hipotézisek mellett.

11

A levegő szennyezettségére ügyelve, ha n mérés átlagos Tn eredménye meghaladja az egészségügyi határértéket, akkor ez a levegő minőségének a káros voltára utal.

Figure

Updating...

References

Updating...

Related subjects :