Fuzzy regression analysis with imprecise data : modeling and explanatory potential

(1)

Fuzzy-Regression bei Fehlern in

den Daten

Modellierung und Analysepotentiale

0000000

1111111

000

111

111 0000000

0000000

1111111

00

11

11 00000000

00000000

11111111

(2)

zur Erlangung des Doktorgrades

Fuzzy-Regression

bei Fehlern in den Daten

Modellierung und Analysepotentiale

Vorgelegt von

Dipl.math.oe. Dagmar Neubauer

2. Dezember 2009

Fahbereih Wirtshaftswissenshaften

der Johann Wolfgang Goethe-Universität

(3)

Zweitgutahter Prof. Dr. Uwe Hassler

(4)

Bei der Erstellung meiner Dissertation wurde ih von vielen Menshen unterstützt und

begleitet. Sie alle haben Anteil an der vorliegenden Arbeit und ih möhte mih dafür

ganz herzlih bedanken. Einigen Personen möhte ihbesonderen Dank aussprehen:

Bedanken möhteihmih zuallererst beimeinem Doktorvater, Herrn Prof.Dr.

Hein-rihRommelfanger, für dieverlässlihe Unterstützung während meinergesamten Zeitals

Doktorandin und für seine stete Bereitshaft sih auf neue und ungewöhnlihe

Herange-hensweisen einzulassen. Danken möhteihauÿerdem meinemZweitgutahter, Prof. Dr.

Uwe Hassler, für sein Gutahten und seinen Langmut. Dem Kreis der Teilnehmer/innen

an den Doktorand/innenkolloquien der Professur gilt Dank für das Feed Bak und den

kreativenAustaush,auhwenn ihEuhmanhmalmitmeinerTheorielastigkeitsehr

ge-plagthabe.NihtzuletztistdemVereinderFreundeundFördererderGoethe-Universität

für dieProjektförderung zur Erstellung des empirishen Teils der Arbeit zu danken.

Für ihren besonderen Beitrag zum Inhalt der Arbeit möhte ih mih bedanken bei

Prof.Dr.RenateNeubäumer(UniversitätKoblenz-Landau)fürvielepraktishe

Ratshlä-ge und für die Heranführung an die Datenungenauigkeiten in der Arbeitsmarktstatistik;

und ganz besonders bei PD Dr. VolkerKrätshmer (Weierstraÿ-Institut fürAngewandte

Analysis und Stohastik, Berlin) für die engagierten Streitgesprähe, die wesentlih zur

Trennshärfe des mathematishen Begrisapparates beigetragenhaben.

Zugleih mit der Erstellung meiner Promotion hatte ih fast über die ganze Zeit ein

zweites Standbein in der Gleihstellungspolitik. Das war nur mit Konzentration und

Beshränkungen inbeiden Arbeitsbereihen zu leisten und war nur möglih mitdem

so-lidarishen Rükhalt durh Kolleg/innen, Kooperationspartner/innen und Vorgesetzte.

Herzlihen Dank an das Team im Frauenbüro: ih vermisse vor allem die Zertizierung

meiner Outtsund diemütterlihen Ratshläge. Ganz ausdrüklih möhte ihmih bei

meiner Kollegin und Mit-Frauenbeauftragten, Prof. Dr. Ulla Wishermann, für die enge

Zusammenarbeit in guten und in shlehten Zeiten und für diefreundshaftlihe

Beglei-tung bedanken.

Für Lektorierungstätigkeiten in untershiedlihen Stadien der Arbeit herzlihen Dank

an Heidi für den anderen Blik, Nina für die Formulierungsvorshläge und insbesondere

Dietmar für seine klugen Anmerkungen und die intensive Auseinandersetzung mit der

(5)

Tapetenwehsel und die unkomplizierte Aufnahme; Henri für dieLösung der tehnishen

ProblemebeiderErstellung vonShwarz-Weiÿ-Graken; KarinfürFreundshaftund

Zu-spruh;VerafüreinoenesOhrbeiallenShreibkrisen;KikafürdieerholsameBetreuung

unddiekulinarishen Köstlihkeitenwährenddes Endspurts; SabineM.fürdie

Geshih-tenüberdas rasselnde Gespenst sowie Thomasundder gesamten Silvestergruppe fürden

letzten Anstoÿ. Auÿerdem danke ih meinemShiksal von Herzen dafür, dass mein PC

erst nah der Disputationkaputtgegangen ist.

(6)

1 Einleitung 10

1.1 Einführungund Zielsetzung . . . 10

1.2 Aufbauder Arbeit . . . 13

2 Theoretishe Grundlagen 15 2.1 Datenqualitätinder Wirtshafts- und Sozialstatistik . . . 16

2.2 Datenunshärfe bei einfaher, linearerRegression. . . 27

2.2.1 Grundmodellder linearenRegression . . . 30

2.2.2 Auswirkungen vonFehlern inden Daten . . . 38

2.3 Kritikamökonometrishen Fehlermodell. . . 44

2.4 Fuzzy-Mengen und Fuzzy-Vektoren . . . 49

2.4.1 Fuzzy-Mengen: Denitionen und Grundbegrie . . . 50

2.4.2 LineareStrukturen über

F

nob

coc

(

R

)

. . . 60

2.5 Von der Fehlershätzung zur Fehlerbewertung . . . 65

2.5.1 Modellierung vonFuzzy-Daten . . . 65

2.5.2 Fuzzy-Merkmalswerte alsAlternative . . . 71

3 Datenanalyse mit Fuzzy-Regression 76 3.1 Eigenshaften der Fuzzy-linearen Modellfunktionen . . . 78

3.1.1 Abbildungsharakteristika der Fuzzy-linearen Funktionen . . . 79

3.1.2 Fuzzy-lineares Bildauf der Parametermenge . . . 81

3.2 Methoden der Fuzzy-Regression . . . 84

3.2.1 Possibilistishe Regression . . . 86

3.2.2 KleinsteQuadrate Fuzzy-Regression . . . 95

3.2.3 Weitere Ansätze . . . 102

3.3 Empirishe Anwendung der Fuzzy-Regression ein kritisher Methoden-vergleih . . . 106

3.3.1 Defuzzizierter Ausgleih . . . 107

3.3.2 Approximation einer Fuzzy-Charakteristik . . . 110

3.3.3 Fuzzy-Shätzung . . . 115

4 Datenunshärfenin der Beshäftigtenstatistik 120 4.1 Eigenshaften der Beshäftigtenstatistik . . . 121

4.1.1 Meldeverfahren und Datenerfassung . . . 122

4.1.2 Fehlereinüsse in der Beshäftigtenstatistik. . . 127

4.2 Fuzzy-Modellierung vonMerkmalen . . . 130

4.2.1 Auswirkung fehlender Meldungen Individuelle F uzzy-Zugehö-rigkeitzum Beshäftigtenbestand . . . 131

(7)

4.2.3 GehaltoberhalbderBeitragsbemessungsgrenze F

uzzy-Informa-tionsergänzung . . . 140

4.2.4 Durhshnittlihes Bruttoentgelt Fuzzy repräsentativer Wert . . 141

4.2.5 Strukturbruh Bruttoentgelt Fuzzy-Angleihung . . . 143

4.2.6 Genauigkeitsshwelleund Relevanzshranke . . . 146

4.3 KonstruktionsprinzipienundallgemeineEigenshaftenderF uzzy-Merkmals-werte . . . 148

5 Regression mit Fuzzy-Fehlern in den Daten 152 5.1 Benhmarkingder Fuzzy-Regression . . . 154

5.1.1 SimulationvonDaten mitFuzzy-Fehlern . . . 155

5.1.2 Vergleihskriterien. . . 159

5.2 Benhmarkingder KleinsteQuadrate Fuzzy-Regression beiFuzzy-Fehlern. 163 5.2.1 Modellmitgenauen Inputs . . . 164

5.2.2 Modellmitgenauen Outputs . . . 172

5.2.3 Modellmitfehlerhaften In- und Outputs . . . 184

5.3 Ergebnisse und Interpretation . . . 196

6 Potentiale der Fuzzy-Regression 201 6.1 Verteilungsmodellefür dieFuzzy-Regression bei Fuzzy-Fehlern . . . 202

6.2 DatenanalysemitFuzzy-Regression . . . 211

6.3 Forshungsperspektiven . . . 215

A Anhang 218 A.1

δ

2

-Metrik und Steiner-Punkt . . . 218

A.2 Dokumentation der abgebildeten Datensätze . . . 223

A.2.1 Fallbeispielemitgenauen Inputs . . . 224

A.2.2 Fallbeispielemitgenauen Outputs . . . 226

A.2.3 FallbeispielemitFuzzy In-und Outputs . . . 228

Literaturverzeihnis 230

(8)

2.1 Interpretationsebenen und Unshärfequellen bei der Datengewinnung und

beider Modellanpassung . . . 25

2.2 Verzerrung der Parametershätzer bei klassishen, zufälligenFehlern . . . . 42

2.3 Auswirkungen eines sprunghaften Wehsels im deterministishen Fehler . . 46

2.4 Einigetypishe Beispiele für Fuzzy-Mengen . . . 52

2.5 Fuzzy-Mengen im

R

2

. . . 56

2.6 Fuzzy-BündelvonFunktionen . . . 59

2.7 Addition der

LR

-Fuzzy-Intervalle

A

̃

und

B

̃

. . . 60

2.8 Skalarmultiplikationder

LR

-Fuzzy-Zahl

A

̃

mit

λ

=

2

bzw.

λ

= −

2

. . . 60

2.9 Addition zweier stohastish unabhängigergleihverteilterZufallsvariablen 74 2.10 Addition von zweiFuzzy-Mengen . . . 74

3.1

f

[̃

U , a

]

mitbeliebigenFuzzy-Inputs

X

̃

1 ,

X

̃

2 ,

X

̃

3

undzugehörigenBildwerten

̃

Y

1 ,

Y

̃

2 ,

Y

̃

3

. . . 79

3.2

f

[

u,

A

̃

]

mitreellwertigemInput

x

und zugehörigem Bildwert

Y

̃

. . . 80

3.3 Inklusionsbedingung

[̃

Y

i

]

κ

⊂

[

_f

(

_x

i

,

A

̃

)]

κ

fürdas Anspruhsniveau

κ

. . . 86

3.4

κ

-Niveaudarstellung einer Possibilistishen Regression. . . 87

3.5 PossibilistisheRegressionmitsymmetrishenParameternvs.hybride Pos-sibilistishe Regression mitKleinste Quadrate Modalwertgerade. . . 90

3.6 Anpassung der Lageshwankungen bei

κ

1

vs. Anpassung der Datenunge-nauigkeit bei

κ

2

. . . 92

3.7 Berehnung von

D

i

alsFlähe der Mengendierenz

{(

y, µ

̃

Y

i

(

y

)) ∣

y

∈

R

}

△

{(

y, µ

_f

_{( ̃}

_X

_i

_,

_A

̃

₎

(

y

) ∣

y

∈

R

}

. . . 93

3.8 Kleinste Quadrate Fuzzy-Regression für trianguläre Fuzzy-Daten

(

x

i

,

Y

̃

i

)

mit

f

(

⋅

,

A

̃

)

. . . 96

3.9 KleinsteQuadrate Fuzzy-Regression fürFuzzy-Daten

( ̃

X

i

,

Y

̃

i

)

mit

f

(

⋅

,

a

)

. 96 3.10 Berehnung des

δ

2

-Abstands von

A

̃

und

B

̃

. . . 97

4.1 IndividuelleZugehörigkeitzum BestandbeifehlenderJahresmeldung in

y

1

und

y

2

. . . 134

4.2 Fuzzy-Beshäftigtenbestand am30.9.1984 in Mio.Beshäftigte . . . 137

4.3 KalibrierenvonFuzzy-Merkmalsdaten mitModizierungsfunktionen

m

. . 139

4.4 Erhöhung der Beitragsbemessungsgrenze von

G

nah

G

′

. . . 141

4.5 Repräsentatives Bruttoentgelt als Quartilsprol über Median,

1

4

- und

3

4

-Quartil . . . 142

4.6 Fuzzy-Angleihung für den Strukturbruh imBruttoentgelt . . . 145

4.7 Umgebung

Γ

für die Genauigkeitsshwelle des Messverfahrens und Rele-vanzshranke

ε

für dieFehlermodellierung . . . 147

4.8 RepräsentativerWert bei ungünstiger Datenlage . . . 148

(9)

5.1 Konstruktion von Fuzzy-Daten miteinfahen, systematishen Fehlern . . . 157

5.2 Konstruktion von Fuzzy-Daten mitkorrelierten Fehlern. . . 158

5.3 Berehnung des Abstandes inder gewihteten Metrik

δ

G

. . . 161

5.4 Untershiede zwishen den Fuzzy-Metriken

δ

2 , δ

H

, δ

G

. . . 162

5.5 Modellmitgenauen Inputs und einfahem systematishen Fehler . . . 166

5.6 Modellmitgenauen Inputs und korreliertem Fehler . . . 168

5.7 ModellmitgenauenInputsundkorreliertemFehlerVergleihvonF uzzy-Approximation und vereinfahter Fuzzy-Approximation. . . 170

5.8 Modellmitgenauen Outputs und einfahem systematishen Fehler . . . 175

5.9 Bildwerte der Fuzzy-Approximationund dieprojizierten virtuellen Fehler-umgebungen des Datenbeispiels mit einfahem systematishen Fehler . . . 178

5.10 Modellmitgenauen Outputs und korreliertem Fehler . . . 180

5.11 Modell mit genauen Outputs und korreliertem Fehler bei Überstrekung der Spannweiten um den Faktor 4. . . 182

5.12 ModellmitFuzzy-DatenundeinfahemsystematishenFehler:Benhmarking186 5.13 Modell mit Fuzzy-Daten und einfahem systematishen Fehler: Bildwerte der Fuzzy-ApproximationsfunktionmitFuzzy-Parameter

A

̃

0

. . . 187

5.14 Modell mit Fuzzy-Daten und einfahem systematishen Fehler: Vergleih mitdem defuzzizierten Modellund den Randapproximationen . . . 189

5.15 ModellmitFuzzy-Daten und korreliertem Fehler: Benhmarking . . . 191

5.16 Modell mit Fuzzy-Daten und korreliertem Fehler: Bildwerte der F uzzy-ApproximationsfunktionmitFuzzy-Parameter

A

̃

0

. . . 192

5.17 ModellmitFuzzy-Datenund korreliertemFehler:Vergleihmitdem defuz-ziziertenModellund den Randapproximationen. . . 194

(10)

1.1 Einführung und Zielsetzung

DieAussagekraft einerökonometrishen Analysehängt davonab, obdieempirishen

Da-ten,aufdenendieAnalyseaufbaut,tatsählihdiePhänomeneund Begrieabbilden, die

der Modellbildung zugrundeliegen. Die Frage der Datenqualitätist von zentraler

Bedeu-tung, weil die statistishe Erfassung von Daten zu ökonomishen Fragestellungen stark

von der Genauigkeit der sprahlihen Denitionen, von subjektiven Bewertungen sowie

vom reibungslosenAblauf der Messprozesse beeinusst wird. Das Messergebnis istsomit

sensibel für Störeinüsse. Besondere Probleme können dabei niht-zufällige

Störeinüs-se bereiten, da ihre Auswirkungen häug nur shwer beshrieben werden können. Trotz

der Bedeutung der Datenqualität werden diemöglihen Auswirkungen vonDatenfehlern

beiökonometrishen Analysenhäugvernahlässigt. Begründetwirddies damit,dass die

Fehler in den Daten niht hinreihend genau bekannt sind, um sie zu korrigieren. Daher

seiesletztlihbesser,mitdenverzerrtenDatenzuarbeiten,alsdieseaufgrundeiner

Berei-nigungmitfalshenVorannahmenmögliherweiseweiter zuverfälshen undsihüberdies

dem Vorwurf auszusetzen, dass dieDaten theoriegeleitetnahgesteuert wurden.

Die Fuzzy-Mengen-Theorie bietet eine Möglihkeit, vage und ungenaue Werte durh

graduellen Zugehörigkeiten zu einer Menge abzubilden. Daher wird vorgeshlagen, die

BehandlungfehlerhafterDateninderÖkonometrieaufeineandereBasiszustellen,indem

Einshränkungen in der Datenqualität mit Hilfe von Fuzzy-Mengen modelliert werden.

Eine zentrale Methode zur ökonometrishen Datenanalyse ist die lineare Regression. Im

Mittelpunkt dieser Arbeit steht deshalb die Frage, wie Fehler inden Merkmalswerten in

geeigneter Weise als Fuzzy-Menge modelliert werden können und welhe Konsequenzen

dies fürdieAnalysevonfunktionalenZusammenhängendurh eineRegressionsshätzung

hat.

Die ersten Arbeiten zur Erweiterung der Regressionsanalyse durh den Einsatz von

Fuzzy Mengen-Theorie wurden ab1985vorgelegt. 1

Dieseeröneten eine Phaseintensiver

1

Zu dengrundlegendenArbeitengehörenu.a.: [HeshmatyundKandel, 1985;Tanaka,1987;Diamond,

(11)

Forshungstätigkeiten zu den Möglihkeiten der Fuzzy-Regression bis etwa 1997, in der

eine Vielzahl von methodishen Weiterentwiklungen vorgestelltwurden, seitdemgibt es

nurnohvereinzelte Veröentlihungendazu. Der Shwerpunkt der Forshung lagbisher

überwiegendbeider tehnishen Weiterentwiklung derFuzzy-Regression,praktishe

Re-levanz haben die Methoden aber niht erreiht. Als Ursahe dafür ist zu sehen, dass es

trotzder MethodenfüllenurwenigeAnsätze gibt,indenen dieInterpretationder

Regres-sionsergebnisse systematish hergeleitet und motiviertwird.

Tatsählih gibt es in der Literatur keine einheitlihe Denition und Abgrenzung von

Fuzzy-Regression. Unter dem Begri der Fuzzy-Regression werden sehr untershiedlihe

Analysekonzepte diskutiert, die z.T. nur in einem sehr weiten Sinne als

Regressionsan-sätze aufgefasst werden können. Die Vielfalt der Methoden ist u.a. im Sammelband von

Kaprzyk und Fedrizzi [1992℄ vertreten. Die Bandbreite reiht hierbei von der

Approxi-mationeinesFuzzy-ReglersansharfeDaten, wiebeiderweihen Regression (engl.soft

regression) gemäÿ [Niskanen, 2001℄ über die Possibilistishe Regression gemäÿ [Tanaka

undIshibuhi,1992℄bishin zu induktivenAnsätzeneiner KleinstenQuadrate Regression

auf der Basis von Fuzzy-Zufallsvariablen, vgl. dazu [Körner und Näther, 1998; Näther,

2000; Krätshmer, 2006a℄.

Als Hauptproblem bei der Modellierung vonempirishenAnalysezielen für die

Metho-den der Fuzzy-Regression stellt sih dar, dass die Fuzzy-Daten stark kontextabhängig

modelliert werden, was seinerseits zu einer starken Kontextabhängigkeit der

Interpreta-tion führt und diese ershwert. Die Flexibilitätder Modellierung und Interpretation von

Fuzzy-Daten bringt Vorteile, aber auh Nahteile für die Datenanalyse. Dem Vorteil

ei-ner realistisheren Darstellung der Kenntnisse über die Daten und ihrer Qualität steht

der Nahteilgegenüber, dass im extremen Falljede Betrahtung als Einzelfall behandelt

werden und somit die Vergleihbarkeit der Daten erheblih eingeshränkt sein kann. Die

Modellierung vonFuzzy-Daten und derenInterpretation beziehen sih alsostarkauf den

konkretenUntersuhungsgegenstand.DieserinterpretatorisheKontextwurdebeider

Me-thodenentwiklung abernurunbefriedigendberüksihtigt,häugsogarvöllig

vernahläs-sigt.SowerdendieMethodenbishernuranhandsehrweniger,inderMehrzahlartizieller

Datenbeispielevorgeführt. 2

ZudembeklagenReddenundWoodall[1996℄imBezugaufdie

2

Insgesamt werden etwafünf Datenbeispiele immer wieder herangezogen. Gerne zitiert wird z.B.das

BeispielbeidemeineRegressionvonAusstattungsvariablenwieQualitätdesBaumaterials,Geshossähe

im1.und im2.StoksowieZahlder Räumeaufden KaufpreisjapanisherHäuseraufgestelltwird,vgl.

[Tanakau.a.,1995℄.DerDatensatzumfasst15Datensätze.DieFrage,obdieQualitätdesBaumaterialsals

kategorialeVariablemitdendreiQualitätsstufenniedrig,mittel,hohsinnvollindieRegressioneinbezogen

werden kann, wird niht erörtert. Ein anderes vielzitiertesBeispiel stammt auseiner tatsählih

durh-geführten Untersuhung überdie subjektiveBewertung der WiedergabequalitätvonVideobildshirmen,

die in [Changu.a., 1996℄ präsentiert wird. Es handelt sih dabeium einen bivariatenAnsatz mit sehs

Datenpunkten proBildshirmtyp.DieDatendienen vorallemdazu,dieLeistungsfähigkeitderjeweiligen

(12)

Possibilistishe Regression das Fehlen einer Interpretation für die Fuzzy

Regressionspa-rameter. Der Nutzen vonMethoden zur Fuzzy-Regression fürdie praktishe Anwendung

bleibt damitungeklärt.

Da bereits vielfältige Ansätze zur Fuzzy-Regression vorliegen, besteht das Ziel

die-ser Arbeitniht darin, weitere Regressionsansätze für Fuzzy-Daten zu entwikeln.

Statt-dessen ist es das Hauptanliegen der vorliegenden Untersuhung, die interpretatorishe

Lüke zwishen den Datenproblemen in empirishen Datensätzen, deren Modellierung

als Fuzzy-Daten und den Aussagen und Analysen zu shlieÿen, die auf der Basis einer

Fuzzy-Regressionüber dievorliegendenDaten getroenwerden können.Im Zentrum der

Überlegungen steht also niht dieKonstruktion der Fuzzy-Methoden als solhe, sondern

vielmehrdiefehlendeVorstellungüberdiemögliheBedeutung derFuzzy-Modellierungen

imkonkretenAnwendungsfall.DieArbeitistsoangelegt,dassdieeinzelnen

Arbeitsshrit-tevonder Konstruktion der Fuzzy-Daten biszur Interpretationder Fuzzy-Regression im

SinneeinerMahbarkeitsstudienahvollzogenwerden.DabeiwerdenfürjedenderShritte

exemplarishe Beispiele ausgewählt, um dieDenkweise der Fuzzy-Modellierung

auszuar-beiten und die Möglihkeiten und Grenzen der Methoden auszuloten. In einer

abshlie-ÿenden Auswertung werden dieeinzelnen Fallbeispieleunter dem Blikwinkel reektiert,

inwieweiteinzelneErgebnisseaufandereAnwendungsfälle übertragenwerdenkönnenund

verallgemeinerbar sind.Aufdiese Weise wirddieEinzelfallbetrahtungmitden F

ragestel-lungen der abstrakten Modellbildung verknüpft, und es können Anforderungen an die

Modell- und die Methodenentwiklung formuliert werden, die aus einem konkreten

An-wendungsbezug herausmotiviert sind.

Um ein möglihst vollständiges Bild über die Modellvorstellungen für den

Zusammen-hang zwishen den Fuzzy-Variablenzu erhalten,sollten bei derAufarbeitungder

Metho-denzur Fuzzy-RegressionmöglihstvieleFuzzy-Ansätzeeinbezogenwerden.Dabeiistdie

überwiegendeZahlvonFuzzy-RegressionsmethodennuraufeineexplorativeDatenanalyse

ausgerihtet. Auÿerdem bieteneinigeder Methoden einVerfahrenan, mitdemdie

Streu-ungderDatenumdenfunktionalenZusammenhangsubjektivbewertetwerdenkann.Dies

erfordert die Auseinandersetzung mit Ansätzen, die eine Auassung von

Häugkeitsver-teilungenabbilden, dienihtdurhklassishe Zufallsvariablebeshrieben werden können.

Esershien daherdringend geboten,striktzwishen zufallsinduziertenStörungen der

Da-ten, diealsZufallsvariableabgebildetwerden können,und niht-zufälligenStörungen der

Daten, die als Fuzzy-Mengen abgebildet werden können, zu untersheiden. Dies wurde

fürnotwendig erahtet, um ineinem erstenShritt zu analysieren,wie die

Datenunshär-fe, die mit Fuzzy-Daten abgebildet werden kann, sih bei der Funktionsapproximation

auswirktund welhe Bedeutung diesfürdieInterpretationderApproximationsergebnisse

(13)

niht-zufälligen Einüssen insbesondere für die Analyse von fehlerhaften Daten von zentraler

Bedeutung. Die Untersuhung konzentriert sih daherzunähst auf explorative

Regressi-onsmethodenundsomitaufMethodenzurApproximationvonlinearenModellfunktionen.

Erst auf der Basis der Begriihkeiten und Mehanismen, die sih als Rahmen für die

Interpretation der Analyse von Fuzzy-Daten mit einer explorativen Regression ergeben,

istdieEinbettungineinVerteilungsmodellund dieModellierung einesShätzmodellsfür

dieFuzzy-Regression bei Fehlernin den Daten sinnvollmöglih.

Als komplementäre Erweiterung zu den stohastishen Regressionsansätzen

interessie-renuns vorallemsolhe Ansätze,mitdenenStrukturen inden Datenidentiziertwerden

können. Wir beshränken uns daher im Folgen auf die Methoden zur Fuzzy-Regression,

bei denen eine Fuzzy-lineare Funktion an alleDatenpunkte zugleih anzupassen ist, d.h.

bei denendie Daten global miteiner parametrisierten Funktionapproximiert werden.

1.2 Aufbau der Arbeit

NaheinerEinführungindieallgemeinenQualitätsproblemebeider Erhebungvon

Wirt-shaftsdaten und den möglihen Verzerrungen von Regressionsparametern aufgrund von

Datenfehlern in Kapitel 2 werden in Kapitel 3 die vorliegenden Methoden zur F

uzzy-Regression kritish erörtert. Dabei werden einerseits die impliziten Annahmen an die

Daten herausgearbeitet, und andererseits wird untersuht, welhe Informationen in den

Daten durhdie Fuzzy-Regressionsfunktion verdihtet werden.

Umden BesonderheitendereinzelfallbezogenenModellierungvonFuzzy-Datengereht

zu werden, wird in Kapitel 4 die Konstruktion von empirishen Fuzzy-Merkmalswerten

anhandeiner empirishen Datenquelleder amtlihenStatistik alsFallbeispielvorgeführt.

Dazuwerdendie Messfehlerinden MerkmalenderBeshäftigtenstatistik analysiert.

Aus-gehend von den vorliegenden Messdaten werden dann prototypishe Modellierungen von

empirishen Fuzzy-Daten entwikelt. Die Modellierung erfolgt hierbei grundsätzlih ex

post. Die Wahlel auf dieBeshäftigtenstatistik, weil sieeine Totalstatistikist. Das hat

denVorteil,dassdieZufallsfehlerentfallen,diedurhdieVerteilungderStihprobeinder

Grundgesamtheit verursaht werden. AlsTeilstatistikimRahmender amtlihen

Arbeits-marktstatistikhatdieBeshäftigtenstatistikauÿerdemdenVorzug,dasseineausführlihe

und kontinuierlihe Dokumentation der Probleme bei der Datenerfassung und der

Da-tenqualitätbereitgestelltwird. Von zusätzlihem Interesse für dieFehlermodellierungist

die Tatsahe, dass amtlihe Statistiken häug eine groÿe Vielfalt von Unshärfequellen

aufweisen, etwa durh den Einuss administrativer Vorgaben auf Datenerhebung und

(14)

Um den Zusammenhang zwishen der Fehlermodellierung in den Fuzzy-Daten, dem

Approximationsmodellund dem Approximationsergebniszu verdeutlihen,wird in

Kapi-tel 5 ein Benhmarking zwishen vershiedenen Varianten der Kleinste Quadrate F

uzzy-Regression durhgeführt, die mit der klassishen Kleinste Quadrate-Anpassung in den

wahren unddenfehlerhaftenWerteninsVerhältnisgesetztwerden.Daesnormalerweise

niht möglih ist, die wahren Werte zu ermitteln, die hinter einem fehlerhaften

Mess-ergebnis verborgen sind, werden für das Benhmarking simulierte Fuzzy-Daten

verwen-det. Für die Simulationen werden die Koinzidenzen zwishen wahren und fehlerhaften

Werten sowie deren Abbildung als Fuzzy-Zahlmit Hilfe von Fehlerszenarien konstruktiv

(15)

Im Rahmen der Wirtshafts- und Sozialstatistik werden Messdaten zur Deskription des

realen Geshehens erhoben, bearbeitet und zur Verfügung gestellt. Die Qualität dieser

Daten kann allerdings nur relativ beurteilt werden, wie Morgenstern in seiner

grundle-genden Arbeitherausstellt:Esistklar,daÿ jeder, derMeÿergebnisseund Daten benützt,

wünsht, daÿdiese genauseien und(

. . .

)das Wesentlihe erfassen. (

. . .

)DieFrage, obein Meÿergebnis, eine Beobahtung, Beshreibung oder Zählung worum immer es sih im

konkreten Fall handeln mag genau und brauhbar ist, läÿt sih nur im Hinblik auf

denangestrebtenVerwendungszwek beantworten.MitanderenWorten:willmansinnvoll

überGenauigkeitdiskutieren, somuÿeine Statistik immer imHinblik auf eine wenn

auh noh sogrob formulierte Theorie oder einModelloder einen bestimmten Zwek

formuliert werden. 1

Eine absolute Messgenauigkeit von Daten ist also ausgeshlossen.

Der reale Zustand des Geshehens kann nur ungefährbeshrieben werden.

Grundsätzlih stellen Beobahtungen mit Hilfe unserer Sinnesorgane oder anderer

In-strumente zur Wahrnehmung und Beshreibung der Realität nur ein unvollkommenes

Abbild des realen Geshehens dar. Gründe dafür bestehen unter anderem in der

Kom-plexitätsreduktion, die unsere Wahrnehmung prägt, in der Unvollkommenheit unserer

Messinstrumente und darin, dass die Realität sih in ständiger Veränderung bendet.

In diesem Sinne beshreiben Beobahtungsdaten die Realität immer nur ungefähr. Die

Unvollkommenheit derDaten zur Beshreibung des realenGeshehens wird hierganz

all-gemein als Datenunshärfe bezeihnet. Es gibt eine Vielzahl von Strategien, mit dieser

UnshärfederDatenumzugehen.IndieserArbeitstehtdiequantitativeBeshreibungvon

Daten-unshärfen im Mittelpunkt. Die entsprehenden Modellierungen lassen

Zwishen-werte zu, die die Grenzsituation zwishen Existenz und Niht-Existenz bzw. zwishen

BeobahtungundNiht-Beobahtung abbilden.Wirwollendafürdiefolgende

Untershei-dungen treen 2

. Einvertrautes und ausgearbeitetesKonzeptvon Datenunshärfe ist das

der Unsiherheit. Unsiherheit über eine Merkmalsbeobahtung liegt vor, wenn wir den

Zustand des Merkmals bei einem zufällig ausgewählten Subjekt aus einer Grundmenge

messen, wobei der Merkmalszustand bei den Subjekten der Grundmenge in

untershied-1

Vgl.Morgenstern1965,S. 2.

2

(16)

lihen Ausprägungen vorliegt. Hier bewirkt der Einuss des Zufalls, dass wir unsiher

darübersind, wiebeiallenmöglihenbzw. beieinemweiterenzufälligausgewählten

Sub-jekt der Merkmalswert ausfallen würde. Unsiherheit kann mit Wahrsheinlihkeiten gut

beshriebenwerden,siekanndurhEinholenbessererInformationnihtverringertwerden.

Im Untershied zur Unsiherheit sprehen wir von Ungenauigkeit, wenn aufgrund von

Wissenseinshränkungen nurungefährangegeben werdenkann, welhesderreale Zustand

des Merkmals ist. Ungenauigkeit über den Merkmalswert liegt z.B. vor, wenn das

Mess-verfahren unzuverlässig oder verzerrt ist oder wenn die Beobahtungsmöglihkeiten aus

Kosten- oder tehnishen Gründen eingeshränkt sind.Ungenauigkeitkann durh

Einho-len von zusätzliher Information bzw. von Verbesserungen im Messverfahren verringert

werden.

Als einweiterer Unshärfeaspekt sollauÿerdem Vagheit eingeführt werden.Vagheitist

Ausdruk der Unvollkommenheit der sprahlihen Beshreibung der Realität und liegt

dann vor, wenn die quantitative Operationalisierung eines sprahlihen Begris nur in

FormeinermehrwertigenMenge möglihist,dieTeilzugehörigkeitenumfassen kann.Z.B.

kann niht eindeutig angegeben werden, welhe Farbwerte der Aussage entsprehen, dass

eine Tomate rot ist.Auh Vagheit kann durh Einholen zusätzliher Information niht

verringert werden, sieenthält aberoensihtlih keine Zufallseinüsse.

In Abshnitt 2.1 wird ein Überblik über die allgemeinen Qualitätsprobleme bei der

Erhebung von Wirtshaftsdaten gegeben. Am Beispiel des klassishen Fehlermodells als

einfahemFehlerstrukturmodellwerdendanninAbshnitt2.2diemöglihenVerzerrungen

des Regressionsergebnisses durh fehlerhafte Daten illustriert.Mit der Kritik am

ökono-metrishen FehlermodellinAbshnitt2.3 wirdder Perspektivwehsel vonden klassishen

ShätzmodellenbeiFehlernindenVariablenzuFuzzy-ModellenbeiFehlerninden Daten

eingeleitet. Abshnitt 2.4 gibt zunähst eine knappe Einführung in die Grundlagen der

Fuzzy-Mengen-Theorie. Shlieÿlih werden in Abshnitt 2.5 Fuzzy-Merkmalswerte

de-niert und alsKonzept zur Modellierung von fehlerhaftenDaten beshrieben.

2.1 Datenqualität in der Wirtshafts- und

Sozialstatistik

IndiesemAbshnittsollendiewesentlihenProblemederDatenqualitätinder

Wirtshafts-und Sozialstatistik rekapituliertund die Problemebeider Quantizierung von F

(17)

Die Wirtshafts- und Sozialstatistik ist dadurh gekennzeihnet, dass Daten nahezu

ausshlieÿlihals Auskunftsdaten erhoben werden. Die statistishen Begrie,dieden

Er-fassungsvorgängen zugrundeliegen, werden daher im Bezug auf gesellshaftlihe,

politi-she und wirtshaftlihe Anforderungen gebildet. Sie verkörpern oft Kompromisse, die

einezeitliheoder internationaleVergleihbarkeitsiherstellenodereinevielseitigere

Nut-zungder Daten 3

ermöglihensollen,diedamit gemessenwerden. FürdieKonzeption von

Statistiken bedeutet dies insgesamt, dass das, was beobahtet, erhoben werden kann,

(...) wesentlih von institutionellen Vorgaben ab[hängt℄. Die Wirtshaftsverfassung, die

SteuergesetzgebungundähnliheVorhaben prädeterminierendieDenitionvon

Merkma-len, bestimmen die Möglihkeiten der Abgrenzung von Erhebungsmassen, et. 4

. Hinzu

kommt, dass dieDatengewinnung häugin einemhoharbeitsteiligen Prozess erfolgt, in

dem die elementare Rezeption der Wirklihkeit(...) anjene dieRespondenten

de-legiert [wird℄, deren Tun auh Gegenstand der Beobahtung ist 5

. Die

Kommunikations-und Verständigungsprozesse bei der Erfassung der Rohdaten sind daher von essentieller

Bedeutung für dieDatenqualität.

Da für dieMessungnur begrenzte Ressouren zur Verfügung stehen, wird derRahmen

dessen, was faktish beobahtet werden kann, auÿerdem von Kosten-Nutzen-Aspekten

determiniert.Aus diesem Grund aberauh deshalb, um eine zu starke Belastung und

Übermüdung der Befragten zu vermeiden wird ein groÿer Anteil der Daten im Zuge

von administrativen Prozessen erhoben, z.B. derSteuer-oder Sozialverwaltung.Etwa die

Hälfte der amtlihen Statistiken in Deutshland sind solhe Sekundärstatistiken, die auf

Registerder öentlihen Verwaltung basieren. 6

DieseDaten spiegelnmeistensstärker die

gesetzlihenAnforderungenwiederalsdieZielgröÿenaus derwirtshaftwissenshaftlihen

Theoriebildung. Grilihes [1986℄harakterisiert solhe Daten daher alsfound data 7

.

Shlieÿlihkönnen wirtshaftsstatistishe Messungen nur bedingt unter unveränderten

Bedingungen wiederholt werden. Damit sind die Möglihkeiten stark eingeshränkt, mit

denen die Rihtigkeit der vorliegenden Daten überprüft und das Messverfahren justiert

werden kann. Insgesamt ist zu konstatieren, dass der Erfassungsvorgang typisherweise

weniger stabil als bei tehnishen Messverfahren und zugleihdie Abbildungvon

Daten-unshärfen deutlih ershwert ist. 8

3

Rihter[2002℄bezeihnetdiesalsmultipurpose-Charakterderstatistishen Begrie(S.14).

4

Vgl.Rihter2002,S.7.

5

Vgl.ebd.S. 7.

6

Vgl.StatistisheÄmterdesBundesundderLänder2006,S.22.

7

Vgl.ebd.S. 1466.

8

DieUntersuhungvonMorgenstern[1965℄zuMessfehlerninderWirtshafts-undSozialstatistikgiltals

grundlegendundwird weiterhingernezitiert.Als zentralfürdiedeutsheStatistikkönnenauÿerdemdie

ArbeitenvonStrekerundWiegertgelten,die u.a.ShätzverfahrenzurBerüksihtigungder

(18)

ImZuge derQualitätsentwiklung fürdieamtlihenStatistiken stellendiestatistishen

Ämter des Bundesund der LänderseitAnfang2006 QualitätsberihtefüralleStatistiken

als Servie für die Nutzer/innen zur Verfügung. Diese enthalten strukturierte

Informa-tionenüber dieQualitätder statistishen Ergebnisse sowie Angaben zu den verwendeten

Methoden und Denitionen, die eine sahgerehte Nutzung der Statistiken ermöglihen

sollen. Somit liegen nun systematishe Darstellungen der Fehlereinüsse vor, die trotz

aller Einshränkungen eine bessere Vergleihbarkeit zwishen den Datenungenauigkeiten

herstellen.

Den Qualitätsberihten werden einheitlihe Qualitätsstandards zugrundegelegt, die es

zulassen, die Aspekte der Datenunshärfe besser zu beshreiben. 9

Wir verwenden sie

da-her als Ausgangspunkt für die weiteren Untersuhungen. Die Qualitätsstandards

bezie-hen sih niht nur auf die Datenqualität der Statistiken im engeren Sinne sondern auh

auf den institutionellen Rahmen, z.B. fahlihe Unabhängigkeit, Neutralität,

Objekti-vität sowie den Datenshutz, und auf die Prozesse zur Erfassung und Auswertung der

Daten, z.B. Verwendung adäquater Verfahren und Methoden sowie vor allem auh die

Vermeidung einer übermäÿigen Belastung der Befragten. Insbesondere können dieF

ehle-reinüsse überwiegend lediglihqualitativbeshrieben werden. AlsQualitätskriterienfür

diestatistishen Produkte im engeren Sinne werden die folgendensehs Ziele deniert: 10

Relevanz, die sih darin ausdrükt, in welhem Maÿ die Daten den Anforderungen der

Nutzer/innenentsprehen. Genauigkeit, d.h.der Nähe des gemessenen Wertes zum

wah-ren, aber unbekannten Wert. Aktualität und Pünktlihkeit, d.h. die Veröentlihung der

Datensollmöglihstzeitnaherfolgen.DazusindVeröentlihungsterminefestzulegenund

bekanntzugeben, die eingehalten werden. Für wihtige Statistiken, bei denen die

Aktua-litäthöhste Prioritäthat, werdenvorläugeErgebnisse veröentliht.Verfügbarkeit und

Transparenz, d.h. neben der leihten Verfügbarkeit der Statistiken für die Nutzer/innen

müssendieErgebnisseauhhinsihtlihKonzeptundMethodenvollständigdokumentiert

sein. Vergleihbarkeit,d.h. dieErgebnisse sollen zeitlih, räumlihund fahlih

vergleih-bar sein. Insbesondere werden einheitlihe Standards in Bezug auf die Denitionen, die

Einheiten,dieMerkmale unddieKlassikationenverwendet,diemöglihstinternationale

Gültigkeit haben. Kohärenz soll in dem Sinne gewährleistet sein, dass untershiedlihe

Statistiken, diesihaufdiegleiheGrundgesamtheitbeziehen,möglihstwiderspruhsfrei

untereinander inBeziehung gesetzt werden, damit Statistiken aus vershiedenen Quellen

hinaus auh der leihtfertige Umgang mit der Theoriehaltigkeit von amtlihen Daten problematisiert,

hiervorallembeidervolkswirtshaftlihenGesamtrehnungsowiebei internationalenStatistiken.

Insbe-sondere Bereinigungen bzw. Glättungen von Daten werden in vielen Fällen mit Bezug auf theoretishe

Modelledurhgeführt. Zudiesem Problembereihvgl.[HolubundTappeiner,1995, 1997;Froeshl,1999;

Rihter,2002℄.

9

Vgl.[StatistisheÄmter desBundesundderLänder,2006℄.

10

(19)

kombiniert und gemeinsam verwendet werden können. 11

Die Statistiken sollen also als

Gesamtsystem entwikelt werden, in dem die Einzelstatistiken eine bestimmte Funktion

übernehmen.

Zwishen den Qualitätszielen gibt es Konkurrenzen. Häug besteht ein wesentliher

Gegensatz zwishen Genauigkeit und Aktualität, etwa wenn Wartezeiten bei der

Daten-sammlung zu berüksihtigen sind. 12

Umden Zielkonikten zu begegnen, müssen bei der

Gestaltung des Erhebungsverfahrens Prioritäten gesetzt werden, die je nah

Interessen-shwerpunkt des Anwenders selbst innerhalb der einzelnen Forshungsdisziplinen

unter-shiedlih ausfallen dürften 13

. Die Datenunshärfen sollen nun ausgehend von den

Qua-litätszielen der amtlihen Statistik genauer betrahtet werden.

Die Mehrzahl der Kriterien wie Relevanz, Aktualität, Vergleihbarkeit und Kohärenz

sindauf dieKonzeptualisierungder statistishen Einheiten undBegrieausgerihtet. Die

Operationalisierungderzu messendenMerkmalesowie desErhebungsverfahrens ineinem

Arbeitsmodell,indemversuhtwird,einemöglihsthoheÜbereinstimmungmitden

fah-wissenshaftlihen Zielgröÿendes Idealmodells sowie den darinenthaltenen theoretishen

Vorstellungenzu erreihen, wirdauhalsAdäquation bezeihnet. 14

Zielbeider

Adäquati-onistdieDenitionvoneindeutigenBegrien, sodass sowohldieMess-Subjekte bzw.die

statistishen Einheiten als auh deren Merkmalswerte konkret und zweifelsfrei bestimmt

werden können. 15

. Krätshmer shlägt vor, Datenunshärfen, die durh die Adäquation

induziert sind, als Vagheit der statistishen Begrie aufzufassen. In seiner

Habilitations-shriftstelltereinentsprehendesMessmodellfürFuzzy-Variablevor,inweiterenArbeiten

hat er weitreihende Ergebnisse zur Regressionsanalyse bei vagen Fuzzy-Konzepten

vor-gelegt. 16

In dieser Arbeit soll der Shwerpunkt demgegenüber auf den Datenunshärfen

liegen,die aufeine mangelndeGenauigkeitder Daten zurükgehen.

11

Dasbetrit nihtnur die Verwendung identisher Klassikationssystemesondernreiht auh soweit,

dassbeiBefragungenidentisheFrageformulierungeneingesetztwerden.

12

In [Statistishe Ämter des Bundes und der Länder, 2006℄ wird aber darauf hingewiesen, dass eine

Verbesserung der Aktualitätnihtzwangsläugmit einem Verlustan Genauigkeitverbundensein muss.

Aktualitätsgewinne können imRahmen einerEzienzsteigerungder Prozessebei derStatistikerstellung

ggf. auh bei gleihbleibender Genauigkeit erreiht werden. Dazu tragen neue Erhebungstehniken, die

Einführung exiblererAuswertungssoftware,ElektronisherDatenaustaushund dasInstrument der

Be-reitstellung vorläugerErgebnisse bei(S. 16).

13

Vgl.Löbbe1993,S.47.

14

Vgl.Streker1993,S. 26.ZudenDimensionenderDatenunshärfevgl.Diagramm2.1aufSeite25.

15

Allerdings kommtesvor,dassMerkmale nihtbei alleninteressierendenMess-Subjektender

Grund-gesamtheitbeobahtbarsind.Sokönnenz.B.AufwendungenbeiunselbständigenregionalenUnternehmen

ohneeigeneBuhführungundbeikleinenUnternehmen,dievonderBuhführungbefreitsind,nihterfasst

werden.UmdieVollständigkeitderDatenfürdiesesMerkmalzugewährleisten,werdenbeiderErhebung

desBetriebspanelsdaherplausibleErsatzdatenaufgenommen,dienaheinemvorabdeniertenVerfahren

zubestimmensind.

16

(20)

Ein Fehler 17

im Messergebnis liegt denitionsgemäÿ dann vor, wenn eine

Einzelbe-obahtung im Messergebnis vom wahren Wert bei einer fehlerfreien Durhführung des

Arbeitssystems abweiht. 18

Dabei ist das Messergebnis als Zusammenfassung aller bzw.

einer ausgewähltenReihe von Einzelmesswerten aufzufassen.Die allgemeine Abweihung

zwishen dem Erhebungsergebnis und dem unbekannten wahren Wert der

Grundge-samtheit wird als Gesamtfehler des Ergebnisses bezeihnet. Je gröÿer der Gesamtfehler

ist,destogeringerist dieGenauigkeitdes Messergebnisses. Als Maÿstabfür die

Genauig-keit des Messergebnisses wird eine Operationalisierungdes Gesamtfehlers verwendet, die

übliherweise durheine reellwertige Aggregation der Fehlereinüsse bestimmt wird.

InAbhängigkeitvonderArtderErhebungwerdendieFehlereinüssezunähstin

stih-probenbedingteFehler und niht-stih probenbedingteFehler untershieden. Diese

Unter-sheidungsollverdeutlihen,dassbeiStihprobenerhebungenbesondereFehlereinüssezu

berüksihtigen sind: Zum einen die Stihprobenzufallsfehler, die infolge der

Zufallsaus-wahleinerTeilmengevonIndividuenund aufgrundder daraufbasierenden

Hohrehnun-gen entstehen. Zum anderen die niht-zufälligenStihprobenfehler, dieaufsystematishe

Ursahen zurükzuführen sind, die nur bei Stihprobenerhebungen auftreten, wie z.B.

wenn Mängel hinsihtlih der Erhebungsgesamtheit oder Verzerrungen durh die

Aus-wahlmethode bestehen oder wenn das Hohrehnungsverfahren an sih fehlerhaft ist. 19

Niht-stihprobenbedingte Fehler treten sowohl bei Stihprobenerhebungen als auh bei

Vollerhebungen auf. Es handelt sih dabeihäug um systematishe Fehler, d.h. ihr

Auf-tretenkann zur Verzerrungen des Ergebnisses führen.

Sofern Aussagen über die Ungenauigkeit von Messwerten aufgrund von Fehlern

ge-mahtwerdenkönnen,istesüblih,eineReihevonEinzelmessungen 20

zusammenzufassen

undfürdiese denmittlerenquadratishen Gesamtfehler MSE(engl.meansquare error)

anzugeben. Es wird in der Regel angenommen, dass sih der mittlere quadratishe

Ge-samtfehler additivaus der Zufallskomponenteund der systematishen Fehlerkomponente

des Ereignisses zusammensetzt, d.h.

(

MSE

)

2 =

(

Standardfehler

)

2 ₊

(

Bias

)

2 _.

(2.1) 17

DieAbweihungdesMessergebnissesvomwahrenWertwirdallgemeinalsFehlerbezeihnet.Davon

sind die Messfehler als eine bestimmte Fehlerart zu untersheiden, die in der Datenerhebungsphase

auftreten.SiewerdenfolglihdurhdenFragebogen,dieInterviewer/innenoderdieBefragtenverursaht.

Vgl.dazuStatistisheÄmter desBundesundderLänder2006,S. 14undS. 87.

18

Vgl.Streker1993,S.26.TatsählihistauhdasimProzessderAdäquationfestgelegteArbeitssystem

nohnihteindeutigbestimmtundkonkretisiertsiherstbeidertatsählihenDurhführungderErhebung.

19

Vgl.Krug u.a.2001,S. 217.

20

(21)

DerStandardfehler isteinMaÿzur Beurteilungdes Stihprobenzufallsfehlersundgibt die

sog. Präzisiondes Ergebnisses wieder. 21

Unter der Annahme, dass diegemessenen

Merk-malswerteentsprehendderAuswahlwahrsheinlihkeitderStihprobefüralle

Merkmals-werte der Grundgesamtheit repräsentativ sind, kann daraus der Stihprobenzufallsfehler

geshätzt werden. Überdies können die zufälligen Stihprobenfehler durh Vergröÿerung

der Stihprobe kontrolliertund verringert werden. Der Stihprobenzufallsfehlerist somit

vergleihsweise einfah zu bestimmen. Für wihtigere Erhebungsergebnisse bei

Stihpro-benstatistiken werden dierenzierte Fehlerrehnungen durhgeführt, 22

so dass relevante

Stihprobenfehler alshinreihendgut dokumentiert geltenkönnen.

Hingegen isteine quantitative Beshreibung des systematishenFehlers,der alternativ

auh alsVerzerrung oder als Bias bezeihnet wird, und damit der anderen Komponente

des Gesamtfehlers häug nur tendenziell oder gar niht möglih. Zur Beshreibung des

Gesamtfehlers werdendaher auhalternativeKennzahlenherangezogen wie z.B.

Gröÿen-ordnungundVorzeihendesBiasbzw.dessenrelativesVerhältniszumStandardfehleroder

aberdiequalitativeBewertungdes GesamtfehlerssowiedieBeshreibungderFehlerarten,

diebei der Bewertung des Gesamtfehlers zu berüksihtigen sind. 23

Zur Bestimmung der

Gröÿenordnung des Gesamtfehlers eignet sih auh der Vergleih mit unabhängigen

Da-tenressouren. 24

Im Untershied zum Standardfehler kann die systematishe Verzerrung

im Gesamtfehler niht durh Vergröÿerung der Stihprobe verringert werden, sondern

ausshlieÿlihdurhVerbesserung des Messverfahrens.

Niht-stihprobenbedingteFehlertreteninallen PhasendesDatenerhebungs- und

Auf-bereitungsprozesses auf. Die niht-stihprobenbedingten Fehler können wie folgt

harak-terisiertwerden: 25

FehlerdurhdieErfassungsgrundlageliegenvor,wennz.B. statistishe

Einheiten der Grundgesamtheit niht erfasst werden, mehrfah erfasst werden oder aber

Einheiten fälshlih erfasst werden. Messfehler sind Fehler, die während der

Datenerhe-bungsphase auftreten, sie werden z.B. durh missverständlihe Fragen des Fragebogens,

durhFalshauskünfteseitensder Befragtenoder durhdieInterviewer/innenverursaht,

wenn diese durh ihr Auftreten das Antwortverhalten beeinussen. Aufbereitungsfehler

sind Fehler, diein der Phase der Aufbereitung der Daten entstehen, z.B. bei der

Daten-21

22

23

Vgl.ebd.S. 83f.

24

Vgl.beispielsweiseFederalCommittee onStatistialMethodology[2001℄,Kapitel8,S.3f. Indem

Ar-beitspapierdes FederalCommittee onStatistialMethodologyisteinesehrumfangreiheÜbersihtüber

denaktuellen StandderMethodenzurFehlerreduzierungundzurFehlershätzungsowiedasF

ehlerrepor-ting in den USAzusammengestellt. Allerdings können die Ergebnisse nur analogübertragenwerden,da

in denAnalysendieUngenauigkeitvonStihprobenstatistikenimZentrumsteht.

25

DieFehlersystematikistebenfallsStatistisheÄmterdesBundesundderLänder[2006℄entnommen(S.

79.). Dortwirdzuallen Fehlerartenauhangegeben,mit welhenAngabendie Relevanzderjeweiligen

(22)

erfassung,der Codierungoder beider logishen Bereinigungaufgrundvon

Plausibilitäts-prüfungen. 26

AuÿerdementstehenFehlerdurhAntwortausfälle,sog.nonresponse.Dabei

können ganze Einheiten entfallen, weilsie beider Zählungnihtangetroen werdenoder

dieTeilnahmeanderErhebung verweigern,sog. missingunits.Zudemkommteszu

feh-lendenMerkmalswerten, sog. missingitems,wenn eine Bestimmungdes Merkmalswerts

nihtmöglihist,wennkeineAntworterfolgtoderggf.auhwennbesondere

Datenshutz-vorgaben zu berüksihtigen sind. Die Fehlerwirkung von Antwortausfällen hängt davon

ab,obeinsystematisherZusammenhangzwishenantwortenden undniht-antwortenden

Einheiten besteht. 27

Im Hinblik aufdie Fuzzyzierung von Datenungenauigkeiten sollhier nohbesonders

auf die Bedeutung von Klassikationsfehlern hingewiesen werden. Klassikationsfehler

sind stark interdependent mitdem Adäquationsproblem, da Missklassikationen in dem

Maÿe zunehmen, wie Zuordnungen den Respondent/innen uneindeutig ersheinen. Ihre

Zahl steigtalsomitzunehmender Gliederungstiefebzw.mitwahsender Komplexitätder

Klassizierungsvorshrift tendenziell an. 28

Von Bedeutung für dieDatenanalyse sind vor

allem Missklassikationen, die zu systematishen Abweihungen bei den Zuordnungen

führen. Ein Ausweg besteht hauptsählih in der Vereinfahung des

Klassizierungssys-tems, insbesondere durh Beshränkung auf eine höhere Aggregationsstufe der

Klassi-kation. Dies erkauft man sih allerdings mit einer steigenden Inhomogenität bei den

Mess-Subjekten, die einer der entsprehenden Klassen zugeordnet sind. Die Verwendung

von Fuzzy-Klassikationenwürde hier dieMöglihkeitanbieten, dass

Ermessensentshei-dungen beiden Klassizierungsvorgängenebenfallsabgebildetwerdenkönnen,sodass

vermittelt überden Grad der Zugehörigkeitzu einer Klasse eine gröÿereHomogenität

inden Klassenerreiht werden könnte. Dennoh wird der Aspekt von

Klassikationsfeh-lern im Weiteren niht genauer betrahtet. Es wird auf die einshlägigen Arbeiten zur

Fuzzy-Clusteranalyse verwiesen. 29

Es ist hervorzuheben, dass das Konzept des Gesamtfehlers auf Aggregationsprozessen

inzweiDimensionenberuht.Zumeinen wirdder GesamtfehlerimBezug aufeine

Zusam-menfassung von Einzelmessungen bewertet. Zum anderen ist über alle vorkommenden

Fehlereinüsse zu aggregieren. Insbesondere hinsihtlih des sog. systematishen F

eh-lers ist auf eine Begrisverwirrung hinzuweisen, denn von einigen Autor/innen werden

auh niht-zufällige Fehlereinüsse als systematishe Fehler bezeihnet 30

, im

Zusam-26

DieDatenqualitätkannu.a.nahderQuotederaufgrundderPlausibilitätsprüfungkorrigiertenDaten

bewertetwerden.

27

ZufälligeDatenausfälleführenu.a.auhzueinerErhöhungdesStihprobenzufallsfehlers.

28 Vgl.Neubauer1993,S. 16f. 29 Soz.B.[Höppneru.a.,1997℄. 30 Soz.B.Krugu.a.2001,S.216f.

(23)

menhang mit dem Gesamtfehler ist als systematisher Fehler aber immer der mittlere

Fehlerzu verstehen, der niht aufden Stihprobenzufallsfehlerzurükzuführen ist.In der

Wirtshafts- und Sozialstatistik gelingt normalerweise weder eine quantitative

Beshrei-bung aller Fehlerarten noh ist hinreihend genau bekannt, inwieweit sih die Einüsse

der einzelnen Fehlerartenbeider Aggregation imGesamtfehler gegenseitigkompensieren

oder verstärken. Um die Messfehler in den Daten annähernd abzushätzen, sollte daher

zunähst geprüft werden, welhe Fehlerartenamstärksten zur Verzerrungder Daten

bei-tragen, um die Betrahtung dann darauf zu beshränken. Die Untersuhung [Brinner,

2003℄ zu den Erhebungsungenauigkeiten beim Übergang von der DDR-Statistik zur

ge-meinsamenbundesdeutshen Statistikbeider amtlihenMortalitätsmessungisteingutes

Beispielfür diesesVorgehen,stellt mitihrer AusführlihkeitabereinepositiveAusnahme

dar.

DieAusprägungdesGesamtfehlerskanndanahharakterisiertwerden,obinden

Merk-malswerten über eine Klasse von individuellen wirtshaftlihen Akteur/innen aggregiert

wird oder niht. Merkmalsbeobahtungen, die auf Individualebene vorliegen, werden als

Mikrodaten bezeihnet. Aggregierte Daten, beidenen Teilpopulationen zusammengefasst

betrahtet werden, werden Makrodaten genannt.

Ein Vorteil bei der Verwendung von Makrodaten besteht darin, dass die Messfehler

aus den Einzelbeobahtungen sih zum Teil gegenseitig kompensieren. Grundsätzlih ist

aberdieZusammenfassungundVerallgemeinerungderBeobahtungenindenMakrodaten

niht unproblematish,wenn dieAusprägungen der Merkmalswerte inhomogen ausfallen

undvonEinzelfällenüberformtwerden.Insbesondere könnenÄnderungender

Merkmals-werte,diedurheineveränderteZusammensetzunginnerhalbeinesAggregates entstehen,

damit niht analysiert werden. Häug werden Makrodaten als Analogon für ein ktives

repräsentativesIndividuum interpretiert.Allerdingsexistiert nihtnotwendig ein

Mess-Subjektmitdenrepräsentativen Eigenshaften,sodassdieAdäquationbeiMakrodaten

ershwertist.Insgesamtgilt,dassFehlerinMakrodatentypisherweise systematisheF

eh-lersind, die invielen Fällen zusätzlihüber dieZeit korreliertsind. 31

Um diedurh die Aggregation verursahten Adäquationsprobleme zu vermeiden,

wer-den inzwishen verstärkt Mikrodaten für die Analyse herangezogen. Dadurh wird aber

andererseits das Gewiht und die Auswirkungen von Messfehlern bei der Analyse

ver-shärftund derEinussvonfehlendenDatensteigt. 32

Zudemsind Inhomogenitätenunter

den klassizierten statistishen Einheiten von höherer Relevanz. 33 31 Vgl.Grilihes1986,S. 1476. 32 Vgl.ebd.S. 1469. 33

Vgl.Baltagi1998, S.105.DasProblem entstehtdann,wennderInhomogenität imRegressions-bzw.

Shätzmodell nihtRehnunggetragenwird.Überdiesistanzumerken,dassKlassizierungenbei

(24)

Aus der Perspektive der Datenanalyse betrahtet, treten zu den Ungenauigkeiten, die

beiDatengewinnung entstehen, nohweitere Ungenauigkeiten hinzu.Diesewerden durh

dieDatentransformationoderdurhEinshränkungenbeiderVergleihbarkeitsowiedurh

Unvereinbarkeiten zwishen den ökonometrishen Begrisbildungen und den verfügbaren

Daten induziert.VonbesondererBedeutung sind ausdieserPerspektivedie

synthetisier-tenDaten 34

,mitdenentheoretisheBegrieapproximiertwerden,fürdieeskeinedirekte

Entsprehung in der Realität gibt und diedurh Verknüpfung von Daten anderer

Merk-male konstruiert werden. Dies tritauf vielewirtshaftlihe Kennzahlenzu, wie z.B. den

Preisindex für die private Lebenshaltung oder das reale Bruttosozialprodukt. Aber auh

durhFortshreibungmittelsbekannterBewegungsmassenbestimmteBestandsmassen

so-wieVergleihszahlenwieRelationsquotientenoderDierenzenwerdendurhKombination

von primären Daten berehnet. Fehler in den Eingangsdaten werden dabei entsprehend

mittransformiert. Dies kann zur gegenseitigen Verstärkung oder zur gegenseitigen

Kom-pensationder Fehlerbestandteileinden abgeleitetenDaten führen.Beispielsweisekönnen

konstante, additive Fehleranteile durh die Verwendung von Dierenzen ausgeshaltet

werden, wohingegen sih der Gesamtfehler bei Fortshreibungen über die Perioden

ku-muliert. Bei der Verwendung von synthetisierten Daten ist in besonderer Weise darauf

zu ahten, welhe Theorieannahmen die Verknüpfungsoperationen motivieren. Überdies

kanndieDatensyntheseShwierigkeitenbeiderempirishenAnalysebereiten,wenndurh

dieTransformation verdekte, zusätzlihe Abhängigkeiten zwishen einzelnen

Merkmals-variablen entstehen. Das reale Bruttosozialprodukt wird z.B. durh Division mit einem

aggregierten Preisindex ermittelt. Es ist folglih niht möglih, die Messfehler auf dem

aggregiertenNiveau alsunabhängig von den im Preisindex enthaltenen Ungenauigkeiten

bei der Messung der Preise und Mengenverhältnisse zu betrahten. 35

Zusammenfassend sind die ausgeführten Interpretationsebenen für die Bewertung von

Datenunshärfen im Diagramm 2.1 gegenübergestellt. Da die Operationalisierungen im

Messprozess und beider Modellanpassungwidersprühlihe Anforderungen andie

statis-tishen Begrie und die Aussagekraft der Daten stellen können, werden hierbei dieSeite

der Datengewinnung und der Datenanalyse gegenübergestellt. Als Stufen, die zwishen

einem Erkenntnisinteresse bzw. einer Fragestellung und der Realität vermitteln sollen,

können die Ebenen des Idealmodells, des Arbeitsmodells sowie der Messung betrahtet

desLösungsraumszuUnstetigkeitenundUmshlagspunktenunddamit zueinergröÿerenSensitivität im

Optimumführenkönnen.

34

Vgl.Neubauer1993,S. 16f.

35

Vgl.Grilihes1986, S. 1473:Themajorserious problem(...) probablyours in themeasurementof

real` output, GNP or industry output in onstant pries` (...). Sine mostof the output measures are

derivedbydeviding(deating`)urrentvaluetotalsbysomeprieindex,thequalityofthesemeasuresis

intimately onnetedto the quality ofthe available prie data.Beause of this, it is impossibleto treat

(25)

Adäquation

Operationalisierung

Substituierung

Simplifizierung

Abstraktion

U m w e l t z u s t a n d

Messfehler

Richtigkeit der Adäquation

Zuverlässigkeit

Konsistenz

Vergleichbarkeit

Aggregationsebene

Vollständigkeit

Reichhaltigkeit

Genauigkeit

Bereinigung

Aggregation

Rekonziliation

Anpassungsgüte

Abstraktion

A p p r o x i m a t i o n

E r h e b u n g d e r R o h d a t e n

d u r c h f ü h r b a r e s A r b e i t s

-s y -s t e m

M o d e l l d e r Z i e l g r ö ß e n

M o d e l l ü b e r M e r k m a l s

-z u s a m m e n h ä n g e

b e r e c h e n b a r e s A r b e i t s

-m o d e l l

D a t e n a u f b e r e i t u n g

Arbeitsmodell

Messung

Idealmodell

D a t e n g e w i n n u n g

D a t e n a n a l y s e

Fragestellung

Realität

(EigeneDarstellung) 36

Abbildung2.1: Interpretationsebenen undUnshärfequellenbeider Datengewinnung und

beider Modellanpassung

werden. Zwishen den Abstraktionsebenen sind jeweilsspezishe Qualitätsmerkmalezu

verzeihnen, diedieUnshärfe der Daten ausmahen und beshreiben.

Auslösend für die datengestützte Beobahtung und deren Analyse ist eine allgemeine

Fragestellungbzw.einFragenkomplex.BeieinerAnalysederBeshäftigtenstrukturkönnte

beispielsweise dieAusgangsfrage formuliert werden:Welhes sind wihtige

Einussfakto-renaufdieEntwiklung derBeshäftigung?.DieseFragestellungwirdaufderEbeneeines

IdealmodellszunähstinquantitativeZielgröÿen

X

übertragen,diediehypothetishen Be-grierepräsentieren, bzw. auf der Seite der Datenanalyse inein quantizierbaresModell

F

übertragen, das funktionale Zusammenhänge zwishen Variablen von Analysegröÿen formuliert.DasquantizierbareModell

F

shlieÿt imFalleeinerinduktiven Analyse auh

36

DieModellierungszusammenhängesindfürdieSeitederDatengewinnunginAnlehnunganStrekerund

(26)

einVerteilungsmodellein, das dieVariabilitäten zwishen denAnalysevariablenund dem

Strukturmodellabbildet. 37

AufderEbenedesArbeitsmodellswerdendieZielmodelledannsooperationalisiert,dass

siefür dieAnwendung geeignet sind. Für dieDatengewinnung werden dieZielgröÿen

da-beiineinArbeitssystem umgesetzt,das einen durhführbaren Erhebungsplan darstellt. 38

HierzuwerdenzusammenmitdemErhebungsziel,derAdäquationderZielgröÿenundden

operablenMerkmalen der denierten Einheiten auh dieErhebungstehnik einshlieÿlih

des Tabellenprogramms, der Erhebungsart, der Organisation der Feldarbeit sowie der

Aufbereitung der erhobenen Daten deniert und festgelegt. 39

Durh das Arbeitssystem

wird einVektor der wahren Merkmalswerte

X

W

repräsentiert. Analogwird bei der Da-tenanalyse ein Arbeitsmodell

f

speziziert, in dem die Qualität und der Aussagewert der erhältlihen,d.h. der vorliegenden oder der beobahtbaren, Daten berüksihtigt ist.

BeimÜbergangvomIdealmodellzumberehenbarenArbeitsmodellmüssen

Analysevaria-blehäugdurheinodermehrereHilfsvariablesubstituiertwerden,dieoperationalisierbar

sind und beideneneine zufriedenstellende Datenqualitäterreihtwerden kann. Zur F

est-legung des berehenbaren Arbeitsmodellisteine passende Methode zur Bestimmung der

Relationen zwishen den Modellvariablenauszuwählen.

Die Ebeneder Messung stehtauf derSeite derDatengewinnungfür dieRealisationdes

Arbeitssystems, bei der ein Messwert

x

∗

gewonnen wird. Das Ergebnis

x

ˆ

der Datenauf-bereitung durhDatenbereinigung,Aggregation und ggf. auhRekonziliation

40

wird hier

bereits als Teil der Datenanalyse aufgefasst. Auÿerdem wird auh die Bildung von

ver-knüpftenKennzahlenzu diesemShrittgezählt.DieAufbereitung derDatenmittelseiner

Fuzzy-Modellierung,dieimLaufedieser Arbeitdiskutiert werdensoll,istsomit ebenfalls

auf dieserStufe der Datenanalyse einzuordnen.

Bemerkung 2.1 (Genauigkeitsshwelle) Durh die Bestimmung einer geeigneten

Mess-SkalafürdieFragestellungwirdauhfestgelegt,mitwelherSensitivitätdie

Messun-gen durhgeführt werden sollen. Also z.B. ob die Gröÿe eines Objekts in der Einheit m,

m oder km erfasst werden soll. In Abhängigkeit davon vershiebt sih auh die

Wahrneh-37

AuhbeiexplorativenStudienwirdhäugbereitseineVorauswahlrelevanterZielgröÿendurhgeführt.

Ebenso werdendie Parametereiner Approximations-bzw.Ausgleihsfunktion, die alsHinweisauf einen

proportionalen Zusammenhang gewertet werden können, durh die Qualität und Repräsentativität der

verwendetenDatenbeeinusst.

38

Dies ist eine Verkürzunggegenüber der Darstellungin [Streker und Wiegert, 1994℄.Sie setzen eine

Variabilität desArbeitssystems unddamit eineMengevondurhführbarenErhebungsplänen voraus, von

denen unter Kosten-Nutzen-Abwägungeneinerausgewähltwirdbzw. sih imZugederErhebung

konsti-tuiert.

39

Vgl.StrekerundWiegert1994,S. 103.

40

D.h.derGlättungvonDaten,damitdiesebestimmtenAnforderungengenügenwieetwaderIdentität

(27)

mungsgrenzefür unwesentliheVeränderungen.SowerdenwirbeiderMessunginkm eine

Abweihung von 1 m alszu vernahlässigenbetrahten, bei einerMessung imm hingegen

erst eine Abweihung im mm-Bereih. Zadeh bezeihnet dieses Phänomen als

granula-tion. 41

Die Wahl des Maÿstabes kann ein bewusst gewähltes Mittel zur

Komplexitätsre-duktionsein.Morgenstern [1965℄verweistallerdingsdarauf, dass beider Verwendungvon

sekundären Datenquellen, auf die man bei wirtshaftsstatistishen Analysen häug

ange-wiesen ist,besonders darauf zuahten ist,welheGenauigkeitsshwelleüberhauptfür alle

Merkmalsvariablen gewährleistet werden kann, um Sheingenauigkeitenzu vermeiden. 42

Grundsätzlih sind Messfehler daher erst dann relevant, wenn sie die modellimmanente

Genauigkeitsshwelleübershreiten.Essollallerdingsnihtvershwiegenwerden,dass

die-se Stabilität nur dann gilt, wenn keine komplexen Rükkopplungseekte bestehen. Solhe

Eekte sindz.B. Gegenstand der Chaostheorie.

Shlieÿlih erhalten wir aus der Anpassung des Arbeitsmodells anhand der passend

aufbereitetenDaten eineApproximation

ˆ

f

(

x

ˆ

)

,diefürdieInterpretationvonfunktionalen Zusammenhängenin den Merkmalswerten zur Verfügung steht.

AufderSeitederDatenanalysewerdenwirunsimFolgendenaufdieRegressionsanalyse

konzentrieren. Diese wird im folgenden Abshnitt kurz vorgestellt, wobei vor allem die

Ansätze zur Behandlung ungenauer Daten kritish beleuhtet werden sollen.

2.2 Datenunshärfe bei einfaher, linearer Regression

Ökonometrishe Analysen haben die Aufgabe, funktionale Beziehungen zwishen

ökono-mishen Variablen mitHilfe von statistishen Methoden zu identizieren und zu messen.

Dievonder Theorievorgeshlagenen funktionalenZusammenhängesollendabeimitHilfe

empirisherDaten statistishgeprüft werden.Dabeisollnihtnurdas Vorzeihendes

Zu-sammenhangs zwishen den ökonomishen Variablen bestätigt werden, sondern es sollen

nahMöglihkeit auh dessen quantitativeIntensitäten abgebildet werden. Da

Beziehun-gen im sozialen Raum kontinuierlihen Änderungsprozessen unterliegen, ist das Ziel der

Untersuhungen darauf ausgerihtet, relevante ökonomishe Beziehungen zu ermitteln,

diezumindestüber einengewissen Zeitraumstabil sind.Nihtzuletztsollen aus den

vor-liegenden Daten auh quantitative Prognosen ermittelt werden, für die im Rahmen der

Modellannahmeneine Abshätzung des Fehlerspielraums möglihist.

GrundsätzlihstelltdieRegressionsanalyse diezentrale Methodeder Ökonometrie dar,

mit der Modellparameter numerish speziziert werden können. Typishe Beispiele für

41

Vgl.[Zadeh, 1997℄.

42

(28)

solheParameter,diewesentlihe Zusammenhängezwishenden ökonomishen Variablen

kennzeihnen, sind Grenzneigungenoder Elastizitäten. 43

AmAnfangderÜberlegungenstehtdieFormulierungdesShätzproblems.Darinwerden

dietheoretishe Vorüberlegungenin einoder mehrere parametrisierte F

unktionsgleihun-gen übersetzt, so dass die Parameter anhand von empirishen Daten ermittelt werden

können. Im Shätzproblem istauÿerdem zu untersheiden, welhe Variable für den

funk-tionalen Zusammenhang als gegeben bzw. unabhängig ersheinen und welhe Variable

sihaus dem Zusammenhang ergeben und somit abhängigeVariablesind. In den

Begri-lihkeiten der Ökonometrie werden erstere als exogene Variable und zweitere als

endoge-ne Variable für den untersuhten Zusammenhang bezeihnet. Dabei wird angenommen,

dass Abweihungen vonder Modellfunktion dadurh entstehen, dass der funktionale

Zu-sammenhang von zufälligen Störungen überlagert ist 44

, die ebenfalls auf die abhängigen

Variablen und im einfahen Modellansatz nur auf diese einwirken.

Die Modellbildungndetinder Ökonometriemeistensunter ungünstigenBedingungen

statt.Häug istderfunktionaleZusammenhang imZeitablaufnurbeshränkt stabil.

Ins-besondere bei Mikrodaten können die Störeinüsse auf den Zusammenhang relativ groÿ

seinundstarkvariieren.ShlieÿlihsindbeiderallgemeinenInterdependenzökonomisher

BeziehungenRükkopplungseekte zwishen den beobahtbarenökonomishen Variablen

unddenStörvariablenzuerwarten.Esistdahersinnvoll,denökonometrishen

Zusammen-hang nurannähernd abzubilden, sodass nur diewesentlihen Zusammenhangsparameter

geshätzt werden können. Für die meisten Situationen ist eine Beshreibung mit Hilfe

von linearen Modellfunktionen hinreihend genau. Beispielsweise können auh

exponen-tielle Wahstumsentwiklungen durh Logarithmieren auf eine lineare

Zusammenhangs-gleihungtransformiertwerden.DieKleinsteQuadrate-Regressionistallerdingsnurdann

optimal, wenn die Störkomponente stohastish unabhängig von den Variablen der

Mo-dellgleihungist.AndernfallskanndieVerzerrungder Shätzparametererheblihsein,wie

anhanddeseinfahenklassishenFehlermodellsillustriertwerdenkann,dasdenEektvon

fehlerhaftenDaten aufdie Parameter der linearenRegression beshreibt.

BeiökonometrishenAnalysenkannkeinesfallsdavonausgegangenwerden,dassdie

Be-dingungen für die Optimalität der Kleinste Quadrate-Regression hinreihend gut erfüllt

sind.Eskommthäugvor,dassdieStörkomponenteinnereAbhängigkeiten

(Autokorrela-43

Vgl.Shneeweiÿ1990,S. 17.

44

InderLiteraturwirdandieserStelleübliherweisedieBezeihnungstohastisheStörungverwendet,

um deutlih zu mahen, dass die Störung mittels eines Verteilungsmodells beshrieben und durh eine

Zufallsvariable abgebildet werden kann. Da Stohastik aus dem Altgriehishen auh als zum Erraten

gehörende Kunst übersetzt werden kann, gehört die Fuzzy-Theorie in einem weiteren Sinne auh zu

den GebietenderStohastik.Vgl.Brokhaus,21.völligneubearbeiteteAuage,Online-Ausgabe;Zugri

überMunzinger-Onlineam25.November2009.Aus diesemGrundwird hierimmerderBegrizufällig

(29)

tionen) 45

aufweist oder durh Einussfaktoren induziertist,die nihtidentiziertwerden

können oder die niht messbar sind. Eine zutreende Messung von funktionalen

Bezie-hungenistdahernurdannmöglih,wenn das Zustandekommen derbeobahteten Daten

theoretish verstanden und modellmäÿigerfasst worden ist 46

.Für das hinter den Daten

stehende ökonometrishe Modell reiht es folglih niht aus, eine Funktion anzugeben,

diegewisseVariablesinnvollmiteinanderverknüpft,sondern es besteht dieumfassendere

Anforderung, dass auh die stohastishe Natur dieser Variablen anzugeben ist, wobei

die möglihen Interdependenzen der Störvariablen besonderes zu berüksihtigen sind.

Darüberhinaus sind alle Variablen imModellzu spezizieren, mitdenen mögliherweise

Interdependenzen vorhanden sind.

Insgesamt bewegt man sih alsobei der Spezikation des Shätzmodells in dem

Span-nungsfeld,dass das Modelleinerseits vollständiggenugsein soll,sodass allewesentlihen

EekteundAbhängigkeitenindieShätzungeinbezogenwerden,andererseitssolldieZahl

derVariablennihtzu groÿwerden,um denapproximativenAnsatz inder Modellbildung

zu wahren und niht einer Sheingenauigkeit zu unterliegen, die den Instabilitäten der

ökonomishen Zusammenhänge niht angemessen ist. Überdies können bei einer

wah-senden Zahl von Variablen aussagekräftige Shätzergebnisse nur noh erreiht werden,

wenn immer mehr Beobahtungen einbezogen werden. Auÿerdem steigt dieGefahr, dass

dieParameter niht mehridentiziertwerden können,d.h. dass das Shätzproblemkeine

oder keine eindeutige Lösung hat. Niht-Identizierbarkeit eines Strukturmodells kann

abergrundsätzlihauhin der Natur der Fragestellung selbst liegen,wenn diese

ungüns-tig gestellt ist. Von einer Fehlspezikation des Shätzmodells sprehen wir immer dann,

wenn wesentlihe Einussfaktoren oder Interdependenzen niht modelliert wurden.

Ei-ne Shätzung nah einem fehlspezizierten Modell führt denitionsgemäÿ zu verzerrten

Parametern oder unzutreenden Kondenzmengen 47

.

Die ökonometrishe Modellkonstruktion basiert auf der Grundannahme, dass die

Da-ten eindeutig und fehlerfrei beobahtet werden und somit auh die Merkmalsvariablen

eindeutigundfehlerfreisind.FehlerindenVariablenmüssendemzufolgeimShätzmodell

gesondert speziziert werden und die Verteilungsannahmen sind im Hinblik darauf zu

modizieren.Entsprehende Shätzmodellewerden häugunterder BezeihnungModelle

mit Fehlern in den Variablen 48

zusammengefasst. Als Ausgangspunkt für die weiteren

Untersuhungen wird in Abshnitt 2.2.1 zunähst die klassishe, lineare

Regressions-45

AutokorrelationensindhäugbeiZeitreihendatenfestzustellen.Zu denunbekanntenEinussfaktoren

sindu.a.auhBeobahtungsfehlerindenDatenzuzählen.

46

Vgl.Shneeweiÿ1990,S. 22.

47

Eine Verzerrungder Kondenzmengenist gleihbedeutenddamit, dassder (Ko-)Varianzshätzer

ver-zerrtist.Diesistz.B.beiHeteroskedastizitätderStörkomponente,d.h.einerveränderlihenStreuungder

ModellabweihungenzwishendenStihproben,derFall.

48