Fuzzy-Regression bei Fehlern in
den Daten
Modellierung und Analysepotentiale
0000000
0000000
0000000
0000000
0000000
0000000
0000000
0000000
0000000
0000000
0000000
1111111
1111111
1111111
1111111
1111111
1111111
1111111
1111111
1111111
1111111
1111111
000
000
000
000
000
000
000
000
111
111
111
111
111
111
111
111
0000000
0000000
0000000
0000000
0000000
0000000
0000000
0000000
0000000
1111111
1111111
1111111
1111111
1111111
1111111
1111111
1111111
1111111
00
00
00
00
00
00
00
00
00
11
11
11
11
11
11
11
11
11
00000000
00000000
00000000
00000000
00000000
00000000
00000000
00000000
00000000
11111111
11111111
11111111
11111111
11111111
11111111
11111111
11111111
11111111
zur Erlangung des Doktorgrades
Fuzzy-Regression
bei Fehlern in den Daten
Modellierung und Analysepotentiale
Vorgelegt von
Dipl.math.oe. Dagmar Neubauer
2. Dezember 2009
Fahbereih Wirtshaftswissenshaften
der Johann Wolfgang Goethe-Universität
Zweitgutahter Prof. Dr. Uwe Hassler
Bei der Erstellung meiner Dissertation wurde ih von vielen Menshen unterstützt und
begleitet. Sie alle haben Anteil an der vorliegenden Arbeit und ih möhte mih dafür
ganz herzlih bedanken. Einigen Personen möhte ihbesonderen Dank aussprehen:
Bedanken möhteihmih zuallererst beimeinem Doktorvater, Herrn Prof.Dr.
Hein-rihRommelfanger, für dieverlässlihe Unterstützung während meinergesamten Zeitals
Doktorandin und für seine stete Bereitshaft sih auf neue und ungewöhnlihe
Herange-hensweisen einzulassen. Danken möhteihauÿerdem meinemZweitgutahter, Prof. Dr.
Uwe Hassler, für sein Gutahten und seinen Langmut. Dem Kreis der Teilnehmer/innen
an den Doktorand/innenkolloquien der Professur gilt Dank für das Feed Bak und den
kreativenAustaush,auhwenn ihEuhmanhmalmitmeinerTheorielastigkeitsehr
ge-plagthabe.NihtzuletztistdemVereinderFreundeundFördererderGoethe-Universität
für dieProjektförderung zur Erstellung des empirishen Teils der Arbeit zu danken.
Für ihren besonderen Beitrag zum Inhalt der Arbeit möhte ih mih bedanken bei
Prof.Dr.RenateNeubäumer(UniversitätKoblenz-Landau)fürvielepraktishe
Ratshlä-ge und für die Heranführung an die Datenungenauigkeiten in der Arbeitsmarktstatistik;
und ganz besonders bei PD Dr. VolkerKrätshmer (Weierstraÿ-Institut fürAngewandte
Analysis und Stohastik, Berlin) für die engagierten Streitgesprähe, die wesentlih zur
Trennshärfe des mathematishen Begrisapparates beigetragenhaben.
Zugleih mit der Erstellung meiner Promotion hatte ih fast über die ganze Zeit ein
zweites Standbein in der Gleihstellungspolitik. Das war nur mit Konzentration und
Beshränkungen inbeiden Arbeitsbereihen zu leisten und war nur möglih mitdem
so-lidarishen Rükhalt durh Kolleg/innen, Kooperationspartner/innen und Vorgesetzte.
Herzlihen Dank an das Team im Frauenbüro: ih vermisse vor allem die Zertizierung
meiner Outtsund diemütterlihen Ratshläge. Ganz ausdrüklih möhte ihmih bei
meiner Kollegin und Mit-Frauenbeauftragten, Prof. Dr. Ulla Wishermann, für die enge
Zusammenarbeit in guten und in shlehten Zeiten und für diefreundshaftlihe
Beglei-tung bedanken.
Für Lektorierungstätigkeiten in untershiedlihen Stadien der Arbeit herzlihen Dank
an Heidi für den anderen Blik, Nina für die Formulierungsvorshläge und insbesondere
Dietmar für seine klugen Anmerkungen und die intensive Auseinandersetzung mit der
Tapetenwehsel und die unkomplizierte Aufnahme; Henri für dieLösung der tehnishen
ProblemebeiderErstellung vonShwarz-Weiÿ-Graken; KarinfürFreundshaftund
Zu-spruh;VerafüreinoenesOhrbeiallenShreibkrisen;KikafürdieerholsameBetreuung
unddiekulinarishen Köstlihkeitenwährenddes Endspurts; SabineM.fürdie
Geshih-tenüberdas rasselnde Gespenst sowie Thomasundder gesamten Silvestergruppe fürden
letzten Anstoÿ. Auÿerdem danke ih meinemShiksal von Herzen dafür, dass mein PC
erst nah der Disputationkaputtgegangen ist.
1 Einleitung 10
1.1 Einführungund Zielsetzung . . . 10
1.2 Aufbauder Arbeit . . . 13
2 Theoretishe Grundlagen 15 2.1 Datenqualitätinder Wirtshafts- und Sozialstatistik . . . 16
2.2 Datenunshärfe bei einfaher, linearerRegression. . . 27
2.2.1 Grundmodellder linearenRegression . . . 30
2.2.2 Auswirkungen vonFehlern inden Daten . . . 38
2.3 Kritikamökonometrishen Fehlermodell. . . 44
2.4 Fuzzy-Mengen und Fuzzy-Vektoren . . . 49
2.4.1 Fuzzy-Mengen: Denitionen und Grundbegrie . . . 50
2.4.2 LineareStrukturen über
F
nob
coc
(
R
)
. . . 602.5 Von der Fehlershätzung zur Fehlerbewertung . . . 65
2.5.1 Modellierung vonFuzzy-Daten . . . 65
2.5.2 Fuzzy-Merkmalswerte alsAlternative . . . 71
3 Datenanalyse mit Fuzzy-Regression 76 3.1 Eigenshaften der Fuzzy-linearen Modellfunktionen . . . 78
3.1.1 Abbildungsharakteristika der Fuzzy-linearen Funktionen . . . 79
3.1.2 Fuzzy-lineares Bildauf der Parametermenge . . . 81
3.2 Methoden der Fuzzy-Regression . . . 84
3.2.1 Possibilistishe Regression . . . 86
3.2.2 KleinsteQuadrate Fuzzy-Regression . . . 95
3.2.3 Weitere Ansätze . . . 102
3.3 Empirishe Anwendung der Fuzzy-Regression ein kritisher Methoden-vergleih . . . 106
3.3.1 Defuzzizierter Ausgleih . . . 107
3.3.2 Approximation einer Fuzzy-Charakteristik . . . 110
3.3.3 Fuzzy-Shätzung . . . 115
4 Datenunshärfenin der Beshäftigtenstatistik 120 4.1 Eigenshaften der Beshäftigtenstatistik . . . 121
4.1.1 Meldeverfahren und Datenerfassung . . . 122
4.1.2 Fehlereinüsse in der Beshäftigtenstatistik. . . 127
4.2 Fuzzy-Modellierung vonMerkmalen . . . 130
4.2.1 Auswirkung fehlender Meldungen Individuelle F uzzy-Zugehö-rigkeitzum Beshäftigtenbestand . . . 131
4.2.3 GehaltoberhalbderBeitragsbemessungsgrenze F
uzzy-Informa-tionsergänzung . . . 140
4.2.4 Durhshnittlihes Bruttoentgelt Fuzzy repräsentativer Wert . . 141
4.2.5 Strukturbruh Bruttoentgelt Fuzzy-Angleihung . . . 143
4.2.6 Genauigkeitsshwelleund Relevanzshranke . . . 146
4.3 KonstruktionsprinzipienundallgemeineEigenshaftenderF uzzy-Merkmals-werte . . . 148
5 Regression mit Fuzzy-Fehlern in den Daten 152 5.1 Benhmarkingder Fuzzy-Regression . . . 154
5.1.1 SimulationvonDaten mitFuzzy-Fehlern . . . 155
5.1.2 Vergleihskriterien. . . 159
5.2 Benhmarkingder KleinsteQuadrate Fuzzy-Regression beiFuzzy-Fehlern. 163 5.2.1 Modellmitgenauen Inputs . . . 164
5.2.2 Modellmitgenauen Outputs . . . 172
5.2.3 Modellmitfehlerhaften In- und Outputs . . . 184
5.3 Ergebnisse und Interpretation . . . 196
6 Potentiale der Fuzzy-Regression 201 6.1 Verteilungsmodellefür dieFuzzy-Regression bei Fuzzy-Fehlern . . . 202
6.2 DatenanalysemitFuzzy-Regression . . . 211
6.3 Forshungsperspektiven . . . 215
A Anhang 218 A.1
δ
2
-Metrik und Steiner-Punkt . . . 218A.2 Dokumentation der abgebildeten Datensätze . . . 223
A.2.1 Fallbeispielemitgenauen Inputs . . . 224
A.2.2 Fallbeispielemitgenauen Outputs . . . 226
A.2.3 FallbeispielemitFuzzy In-und Outputs . . . 228
Literaturverzeihnis 230
2.1 Interpretationsebenen und Unshärfequellen bei der Datengewinnung und
beider Modellanpassung . . . 25
2.2 Verzerrung der Parametershätzer bei klassishen, zufälligenFehlern . . . . 42
2.3 Auswirkungen eines sprunghaften Wehsels im deterministishen Fehler . . 46
2.4 Einigetypishe Beispiele für Fuzzy-Mengen . . . 52
2.5 Fuzzy-Mengen im
R
2
. . . 562.6 Fuzzy-BündelvonFunktionen . . . 59
2.7 Addition der
LR
-Fuzzy-IntervalleA
̃
undB
̃
. . . 602.8 Skalarmultiplikationder
LR
-Fuzzy-ZahlA
̃
mitλ
=
2
bzw.λ
= −
2
. . . 602.9 Addition zweier stohastish unabhängigergleihverteilterZufallsvariablen 74 2.10 Addition von zweiFuzzy-Mengen . . . 74
3.1
f
[̃
U , a
]
mitbeliebigenFuzzy-InputsX
̃
1
,
X
̃
2
,
X
̃
3
undzugehörigenBildwerteñ
Y
1
,
Y
̃
2
,
Y
̃
3
. . . 793.2
f
[
u,
A
̃
]
mitreellwertigemInputx
und zugehörigem BildwertY
̃
. . . 803.3 Inklusionsbedingung
[̃
Y
i
]
κ
⊂
[
f
(
x
i
,
A
̃
)]
κ
fürdas Anspruhsniveauκ
. . . 863.4
κ
-Niveaudarstellung einer Possibilistishen Regression. . . 873.5 PossibilistisheRegressionmitsymmetrishenParameternvs.hybride Pos-sibilistishe Regression mitKleinste Quadrate Modalwertgerade. . . 90
3.6 Anpassung der Lageshwankungen bei
κ
1
vs. Anpassung der Datenunge-nauigkeit beiκ
2
. . . 923.7 Berehnung von
D
i
alsFlähe der Mengendierenz{(
y, µ
̃
Y
i
(
y
)) ∣
y
∈
R
}
△
{(
y, µ
f
( ̃
X
i
,
A
̃
)
(
y
) ∣
y
∈
R
}
. . . 933.8 Kleinste Quadrate Fuzzy-Regression für trianguläre Fuzzy-Daten
(
x
i
,
Y
̃
i
)
mitf
(
⋅
,
A
̃
)
. . . 963.9 KleinsteQuadrate Fuzzy-Regression fürFuzzy-Daten
( ̃
X
i
,
Y
̃
i
)
mitf
(
⋅
,
a
)
. 96 3.10 Berehnung desδ
2
-Abstands vonA
̃
undB
̃
. . . 974.1 IndividuelleZugehörigkeitzum BestandbeifehlenderJahresmeldung in
y
1
undy
2
. . . 1344.2 Fuzzy-Beshäftigtenbestand am30.9.1984 in Mio.Beshäftigte . . . 137
4.3 KalibrierenvonFuzzy-Merkmalsdaten mitModizierungsfunktionen
m
. . 1394.4 Erhöhung der Beitragsbemessungsgrenze von
G
nahG
′
. . . 1414.5 Repräsentatives Bruttoentgelt als Quartilsprol über Median,
1
4
- und3
4
-Quartil . . . 1424.6 Fuzzy-Angleihung für den Strukturbruh imBruttoentgelt . . . 145
4.7 Umgebung
Γ
für die Genauigkeitsshwelle des Messverfahrens und Rele-vanzshrankeε
für dieFehlermodellierung . . . 1474.8 RepräsentativerWert bei ungünstiger Datenlage . . . 148
5.1 Konstruktion von Fuzzy-Daten miteinfahen, systematishen Fehlern . . . 157
5.2 Konstruktion von Fuzzy-Daten mitkorrelierten Fehlern. . . 158
5.3 Berehnung des Abstandes inder gewihteten Metrik
δ
G
. . . 1615.4 Untershiede zwishen den Fuzzy-Metriken
δ
2
, δ
H
, δ
G
. . . 1625.5 Modellmitgenauen Inputs und einfahem systematishen Fehler . . . 166
5.6 Modellmitgenauen Inputs und korreliertem Fehler . . . 168
5.7 ModellmitgenauenInputsundkorreliertemFehlerVergleihvonF uzzy-Approximation und vereinfahter Fuzzy-Approximation. . . 170
5.8 Modellmitgenauen Outputs und einfahem systematishen Fehler . . . 175
5.9 Bildwerte der Fuzzy-Approximationund dieprojizierten virtuellen Fehler-umgebungen des Datenbeispiels mit einfahem systematishen Fehler . . . 178
5.10 Modellmitgenauen Outputs und korreliertem Fehler . . . 180
5.11 Modell mit genauen Outputs und korreliertem Fehler bei Überstrekung der Spannweiten um den Faktor 4. . . 182
5.12 ModellmitFuzzy-DatenundeinfahemsystematishenFehler:Benhmarking186 5.13 Modell mit Fuzzy-Daten und einfahem systematishen Fehler: Bildwerte der Fuzzy-ApproximationsfunktionmitFuzzy-Parameter
A
̃
0
. . . 1875.14 Modell mit Fuzzy-Daten und einfahem systematishen Fehler: Vergleih mitdem defuzzizierten Modellund den Randapproximationen . . . 189
5.15 ModellmitFuzzy-Daten und korreliertem Fehler: Benhmarking . . . 191
5.16 Modell mit Fuzzy-Daten und korreliertem Fehler: Bildwerte der F uzzy-ApproximationsfunktionmitFuzzy-Parameter
A
̃
0
. . . 1925.17 ModellmitFuzzy-Datenund korreliertemFehler:Vergleihmitdem defuz-ziziertenModellund den Randapproximationen. . . 194
1.1 Einführung und Zielsetzung
DieAussagekraft einerökonometrishen Analysehängt davonab, obdieempirishen
Da-ten,aufdenendieAnalyseaufbaut,tatsählihdiePhänomeneund Begrieabbilden, die
der Modellbildung zugrundeliegen. Die Frage der Datenqualitätist von zentraler
Bedeu-tung, weil die statistishe Erfassung von Daten zu ökonomishen Fragestellungen stark
von der Genauigkeit der sprahlihen Denitionen, von subjektiven Bewertungen sowie
vom reibungslosenAblauf der Messprozesse beeinusst wird. Das Messergebnis istsomit
sensibel für Störeinüsse. Besondere Probleme können dabei niht-zufällige
Störeinüs-se bereiten, da ihre Auswirkungen häug nur shwer beshrieben werden können. Trotz
der Bedeutung der Datenqualität werden diemöglihen Auswirkungen vonDatenfehlern
beiökonometrishen Analysenhäugvernahlässigt. Begründetwirddies damit,dass die
Fehler in den Daten niht hinreihend genau bekannt sind, um sie zu korrigieren. Daher
seiesletztlihbesser,mitdenverzerrtenDatenzuarbeiten,alsdieseaufgrundeiner
Berei-nigungmitfalshenVorannahmenmögliherweiseweiter zuverfälshen undsihüberdies
dem Vorwurf auszusetzen, dass dieDaten theoriegeleitetnahgesteuert wurden.
Die Fuzzy-Mengen-Theorie bietet eine Möglihkeit, vage und ungenaue Werte durh
graduellen Zugehörigkeiten zu einer Menge abzubilden. Daher wird vorgeshlagen, die
BehandlungfehlerhafterDateninderÖkonometrieaufeineandereBasiszustellen,indem
Einshränkungen in der Datenqualität mit Hilfe von Fuzzy-Mengen modelliert werden.
Eine zentrale Methode zur ökonometrishen Datenanalyse ist die lineare Regression. Im
Mittelpunkt dieser Arbeit steht deshalb die Frage, wie Fehler inden Merkmalswerten in
geeigneter Weise als Fuzzy-Menge modelliert werden können und welhe Konsequenzen
dies fürdieAnalysevonfunktionalenZusammenhängendurh eineRegressionsshätzung
hat.
Die ersten Arbeiten zur Erweiterung der Regressionsanalyse durh den Einsatz von
Fuzzy Mengen-Theorie wurden ab1985vorgelegt. 1
Dieseeröneten eine Phaseintensiver
1
Zu dengrundlegendenArbeitengehörenu.a.: [HeshmatyundKandel, 1985;Tanaka,1987;Diamond,
Forshungstätigkeiten zu den Möglihkeiten der Fuzzy-Regression bis etwa 1997, in der
eine Vielzahl von methodishen Weiterentwiklungen vorgestelltwurden, seitdemgibt es
nurnohvereinzelte Veröentlihungendazu. Der Shwerpunkt der Forshung lagbisher
überwiegendbeider tehnishen Weiterentwiklung derFuzzy-Regression,praktishe
Re-levanz haben die Methoden aber niht erreiht. Als Ursahe dafür ist zu sehen, dass es
trotzder MethodenfüllenurwenigeAnsätze gibt,indenen dieInterpretationder
Regres-sionsergebnisse systematish hergeleitet und motiviertwird.
Tatsählih gibt es in der Literatur keine einheitlihe Denition und Abgrenzung von
Fuzzy-Regression. Unter dem Begri der Fuzzy-Regression werden sehr untershiedlihe
Analysekonzepte diskutiert, die z.T. nur in einem sehr weiten Sinne als
Regressionsan-sätze aufgefasst werden können. Die Vielfalt der Methoden ist u.a. im Sammelband von
Kaprzyk und Fedrizzi [1992℄ vertreten. Die Bandbreite reiht hierbei von der
Approxi-mationeinesFuzzy-ReglersansharfeDaten, wiebeiderweihen Regression (engl.soft
regression) gemäÿ [Niskanen, 2001℄ über die Possibilistishe Regression gemäÿ [Tanaka
undIshibuhi,1992℄bishin zu induktivenAnsätzeneiner KleinstenQuadrate Regression
auf der Basis von Fuzzy-Zufallsvariablen, vgl. dazu [Körner und Näther, 1998; Näther,
2000; Krätshmer, 2006a℄.
Als Hauptproblem bei der Modellierung vonempirishenAnalysezielen für die
Metho-den der Fuzzy-Regression stellt sih dar, dass die Fuzzy-Daten stark kontextabhängig
modelliert werden, was seinerseits zu einer starken Kontextabhängigkeit der
Interpreta-tion führt und diese ershwert. Die Flexibilitätder Modellierung und Interpretation von
Fuzzy-Daten bringt Vorteile, aber auh Nahteile für die Datenanalyse. Dem Vorteil
ei-ner realistisheren Darstellung der Kenntnisse über die Daten und ihrer Qualität steht
der Nahteilgegenüber, dass im extremen Falljede Betrahtung als Einzelfall behandelt
werden und somit die Vergleihbarkeit der Daten erheblih eingeshränkt sein kann. Die
Modellierung vonFuzzy-Daten und derenInterpretation beziehen sih alsostarkauf den
konkretenUntersuhungsgegenstand.DieserinterpretatorisheKontextwurdebeider
Me-thodenentwiklung abernurunbefriedigendberüksihtigt,häugsogarvöllig
vernahläs-sigt.SowerdendieMethodenbishernuranhandsehrweniger,inderMehrzahlartizieller
Datenbeispielevorgeführt. 2
ZudembeklagenReddenundWoodall[1996℄imBezugaufdie
2
Insgesamt werden etwafünf Datenbeispiele immer wieder herangezogen. Gerne zitiert wird z.B.das
BeispielbeidemeineRegressionvonAusstattungsvariablenwieQualitätdesBaumaterials,Geshossähe
im1.und im2.StoksowieZahlder Räumeaufden KaufpreisjapanisherHäuseraufgestelltwird,vgl.
[Tanakau.a.,1995℄.DerDatensatzumfasst15Datensätze.DieFrage,obdieQualitätdesBaumaterialsals
kategorialeVariablemitdendreiQualitätsstufenniedrig,mittel,hohsinnvollindieRegressioneinbezogen
werden kann, wird niht erörtert. Ein anderes vielzitiertesBeispiel stammt auseiner tatsählih
durh-geführten Untersuhung überdie subjektiveBewertung der WiedergabequalitätvonVideobildshirmen,
die in [Changu.a., 1996℄ präsentiert wird. Es handelt sih dabeium einen bivariatenAnsatz mit sehs
Datenpunkten proBildshirmtyp.DieDatendienen vorallemdazu,dieLeistungsfähigkeitderjeweiligen
Possibilistishe Regression das Fehlen einer Interpretation für die Fuzzy
Regressionspa-rameter. Der Nutzen vonMethoden zur Fuzzy-Regression fürdie praktishe Anwendung
bleibt damitungeklärt.
Da bereits vielfältige Ansätze zur Fuzzy-Regression vorliegen, besteht das Ziel
die-ser Arbeitniht darin, weitere Regressionsansätze für Fuzzy-Daten zu entwikeln.
Statt-dessen ist es das Hauptanliegen der vorliegenden Untersuhung, die interpretatorishe
Lüke zwishen den Datenproblemen in empirishen Datensätzen, deren Modellierung
als Fuzzy-Daten und den Aussagen und Analysen zu shlieÿen, die auf der Basis einer
Fuzzy-Regressionüber dievorliegendenDaten getroenwerden können.Im Zentrum der
Überlegungen steht also niht dieKonstruktion der Fuzzy-Methoden als solhe, sondern
vielmehrdiefehlendeVorstellungüberdiemögliheBedeutung derFuzzy-Modellierungen
imkonkretenAnwendungsfall.DieArbeitistsoangelegt,dassdieeinzelnen
Arbeitsshrit-tevonder Konstruktion der Fuzzy-Daten biszur Interpretationder Fuzzy-Regression im
SinneeinerMahbarkeitsstudienahvollzogenwerden.DabeiwerdenfürjedenderShritte
exemplarishe Beispiele ausgewählt, um dieDenkweise der Fuzzy-Modellierung
auszuar-beiten und die Möglihkeiten und Grenzen der Methoden auszuloten. In einer
abshlie-ÿenden Auswertung werden dieeinzelnen Fallbeispieleunter dem Blikwinkel reektiert,
inwieweiteinzelneErgebnisseaufandereAnwendungsfälle übertragenwerdenkönnenund
verallgemeinerbar sind.Aufdiese Weise wirddieEinzelfallbetrahtungmitden F
ragestel-lungen der abstrakten Modellbildung verknüpft, und es können Anforderungen an die
Modell- und die Methodenentwiklung formuliert werden, die aus einem konkreten
An-wendungsbezug herausmotiviert sind.
Um ein möglihst vollständiges Bild über die Modellvorstellungen für den
Zusammen-hang zwishen den Fuzzy-Variablenzu erhalten,sollten bei derAufarbeitungder
Metho-denzur Fuzzy-RegressionmöglihstvieleFuzzy-Ansätzeeinbezogenwerden.Dabeiistdie
überwiegendeZahlvonFuzzy-RegressionsmethodennuraufeineexplorativeDatenanalyse
ausgerihtet. Auÿerdem bieteneinigeder Methoden einVerfahrenan, mitdemdie
Streu-ungderDatenumdenfunktionalenZusammenhangsubjektivbewertetwerdenkann.Dies
erfordert die Auseinandersetzung mit Ansätzen, die eine Auassung von
Häugkeitsver-teilungenabbilden, dienihtdurhklassishe Zufallsvariablebeshrieben werden können.
Esershien daherdringend geboten,striktzwishen zufallsinduziertenStörungen der
Da-ten, diealsZufallsvariableabgebildetwerden können,und niht-zufälligenStörungen der
Daten, die als Fuzzy-Mengen abgebildet werden können, zu untersheiden. Dies wurde
fürnotwendig erahtet, um ineinem erstenShritt zu analysieren,wie die
Datenunshär-fe, die mit Fuzzy-Daten abgebildet werden kann, sih bei der Funktionsapproximation
auswirktund welhe Bedeutung diesfürdieInterpretationderApproximationsergebnisse
niht-zufälligen Einüssen insbesondere für die Analyse von fehlerhaften Daten von zentraler
Bedeutung. Die Untersuhung konzentriert sih daherzunähst auf explorative
Regressi-onsmethodenundsomitaufMethodenzurApproximationvonlinearenModellfunktionen.
Erst auf der Basis der Begriihkeiten und Mehanismen, die sih als Rahmen für die
Interpretation der Analyse von Fuzzy-Daten mit einer explorativen Regression ergeben,
istdieEinbettungineinVerteilungsmodellund dieModellierung einesShätzmodellsfür
dieFuzzy-Regression bei Fehlernin den Daten sinnvollmöglih.
Als komplementäre Erweiterung zu den stohastishen Regressionsansätzen
interessie-renuns vorallemsolhe Ansätze,mitdenenStrukturen inden Datenidentiziertwerden
können. Wir beshränken uns daher im Folgen auf die Methoden zur Fuzzy-Regression,
bei denen eine Fuzzy-lineare Funktion an alleDatenpunkte zugleih anzupassen ist, d.h.
bei denendie Daten global miteiner parametrisierten Funktionapproximiert werden.
1.2 Aufbau der Arbeit
NaheinerEinführungindieallgemeinenQualitätsproblemebeider Erhebungvon
Wirt-shaftsdaten und den möglihen Verzerrungen von Regressionsparametern aufgrund von
Datenfehlern in Kapitel 2 werden in Kapitel 3 die vorliegenden Methoden zur F
uzzy-Regression kritish erörtert. Dabei werden einerseits die impliziten Annahmen an die
Daten herausgearbeitet, und andererseits wird untersuht, welhe Informationen in den
Daten durhdie Fuzzy-Regressionsfunktion verdihtet werden.
Umden BesonderheitendereinzelfallbezogenenModellierungvonFuzzy-Datengereht
zu werden, wird in Kapitel 4 die Konstruktion von empirishen Fuzzy-Merkmalswerten
anhandeiner empirishen Datenquelleder amtlihenStatistik alsFallbeispielvorgeführt.
Dazuwerdendie Messfehlerinden MerkmalenderBeshäftigtenstatistik analysiert.
Aus-gehend von den vorliegenden Messdaten werden dann prototypishe Modellierungen von
empirishen Fuzzy-Daten entwikelt. Die Modellierung erfolgt hierbei grundsätzlih ex
post. Die Wahlel auf dieBeshäftigtenstatistik, weil sieeine Totalstatistikist. Das hat
denVorteil,dassdieZufallsfehlerentfallen,diedurhdieVerteilungderStihprobeinder
Grundgesamtheit verursaht werden. AlsTeilstatistikimRahmender amtlihen
Arbeits-marktstatistikhatdieBeshäftigtenstatistikauÿerdemdenVorzug,dasseineausführlihe
und kontinuierlihe Dokumentation der Probleme bei der Datenerfassung und der
Da-tenqualitätbereitgestelltwird. Von zusätzlihem Interesse für dieFehlermodellierungist
die Tatsahe, dass amtlihe Statistiken häug eine groÿe Vielfalt von Unshärfequellen
aufweisen, etwa durh den Einuss administrativer Vorgaben auf Datenerhebung und
Um den Zusammenhang zwishen der Fehlermodellierung in den Fuzzy-Daten, dem
Approximationsmodellund dem Approximationsergebniszu verdeutlihen,wird in
Kapi-tel 5 ein Benhmarking zwishen vershiedenen Varianten der Kleinste Quadrate F
uzzy-Regression durhgeführt, die mit der klassishen Kleinste Quadrate-Anpassung in den
wahren unddenfehlerhaftenWerteninsVerhältnisgesetztwerden.Daesnormalerweise
niht möglih ist, die wahren Werte zu ermitteln, die hinter einem fehlerhaften
Mess-ergebnis verborgen sind, werden für das Benhmarking simulierte Fuzzy-Daten
verwen-det. Für die Simulationen werden die Koinzidenzen zwishen wahren und fehlerhaften
Werten sowie deren Abbildung als Fuzzy-Zahlmit Hilfe von Fehlerszenarien konstruktiv
Im Rahmen der Wirtshafts- und Sozialstatistik werden Messdaten zur Deskription des
realen Geshehens erhoben, bearbeitet und zur Verfügung gestellt. Die Qualität dieser
Daten kann allerdings nur relativ beurteilt werden, wie Morgenstern in seiner
grundle-genden Arbeitherausstellt:Esistklar,daÿ jeder, derMeÿergebnisseund Daten benützt,
wünsht, daÿdiese genauseien und(
. . .
)das Wesentlihe erfassen. (. . .
)DieFrage, obein Meÿergebnis, eine Beobahtung, Beshreibung oder Zählung worum immer es sih imkonkreten Fall handeln mag genau und brauhbar ist, läÿt sih nur im Hinblik auf
denangestrebtenVerwendungszwek beantworten.MitanderenWorten:willmansinnvoll
überGenauigkeitdiskutieren, somuÿeine Statistik immer imHinblik auf eine wenn
auh noh sogrob formulierte Theorie oder einModelloder einen bestimmten Zwek
formuliert werden. 1
Eine absolute Messgenauigkeit von Daten ist also ausgeshlossen.
Der reale Zustand des Geshehens kann nur ungefährbeshrieben werden.
Grundsätzlih stellen Beobahtungen mit Hilfe unserer Sinnesorgane oder anderer
In-strumente zur Wahrnehmung und Beshreibung der Realität nur ein unvollkommenes
Abbild des realen Geshehens dar. Gründe dafür bestehen unter anderem in der
Kom-plexitätsreduktion, die unsere Wahrnehmung prägt, in der Unvollkommenheit unserer
Messinstrumente und darin, dass die Realität sih in ständiger Veränderung bendet.
In diesem Sinne beshreiben Beobahtungsdaten die Realität immer nur ungefähr. Die
Unvollkommenheit derDaten zur Beshreibung des realenGeshehens wird hierganz
all-gemein als Datenunshärfe bezeihnet. Es gibt eine Vielzahl von Strategien, mit dieser
UnshärfederDatenumzugehen.IndieserArbeitstehtdiequantitativeBeshreibungvon
Daten-unshärfen im Mittelpunkt. Die entsprehenden Modellierungen lassen
Zwishen-werte zu, die die Grenzsituation zwishen Existenz und Niht-Existenz bzw. zwishen
BeobahtungundNiht-Beobahtung abbilden.Wirwollendafürdiefolgende
Untershei-dungen treen 2
. Einvertrautes und ausgearbeitetesKonzeptvon Datenunshärfe ist das
der Unsiherheit. Unsiherheit über eine Merkmalsbeobahtung liegt vor, wenn wir den
Zustand des Merkmals bei einem zufällig ausgewählten Subjekt aus einer Grundmenge
messen, wobei der Merkmalszustand bei den Subjekten der Grundmenge in
untershied-1
Vgl.Morgenstern1965,S. 2.
2
lihen Ausprägungen vorliegt. Hier bewirkt der Einuss des Zufalls, dass wir unsiher
darübersind, wiebeiallenmöglihenbzw. beieinemweiterenzufälligausgewählten
Sub-jekt der Merkmalswert ausfallen würde. Unsiherheit kann mit Wahrsheinlihkeiten gut
beshriebenwerden,siekanndurhEinholenbessererInformationnihtverringertwerden.
Im Untershied zur Unsiherheit sprehen wir von Ungenauigkeit, wenn aufgrund von
Wissenseinshränkungen nurungefährangegeben werdenkann, welhesderreale Zustand
des Merkmals ist. Ungenauigkeit über den Merkmalswert liegt z.B. vor, wenn das
Mess-verfahren unzuverlässig oder verzerrt ist oder wenn die Beobahtungsmöglihkeiten aus
Kosten- oder tehnishen Gründen eingeshränkt sind.Ungenauigkeitkann durh
Einho-len von zusätzliher Information bzw. von Verbesserungen im Messverfahren verringert
werden.
Als einweiterer Unshärfeaspekt sollauÿerdem Vagheit eingeführt werden.Vagheitist
Ausdruk der Unvollkommenheit der sprahlihen Beshreibung der Realität und liegt
dann vor, wenn die quantitative Operationalisierung eines sprahlihen Begris nur in
FormeinermehrwertigenMenge möglihist,dieTeilzugehörigkeitenumfassen kann.Z.B.
kann niht eindeutig angegeben werden, welhe Farbwerte der Aussage entsprehen, dass
eine Tomate rot ist.Auh Vagheit kann durh Einholen zusätzliher Information niht
verringert werden, sieenthält aberoensihtlih keine Zufallseinüsse.
In Abshnitt 2.1 wird ein Überblik über die allgemeinen Qualitätsprobleme bei der
Erhebung von Wirtshaftsdaten gegeben. Am Beispiel des klassishen Fehlermodells als
einfahemFehlerstrukturmodellwerdendanninAbshnitt2.2diemöglihenVerzerrungen
des Regressionsergebnisses durh fehlerhafte Daten illustriert.Mit der Kritik am
ökono-metrishen FehlermodellinAbshnitt2.3 wirdder Perspektivwehsel vonden klassishen
ShätzmodellenbeiFehlernindenVariablenzuFuzzy-ModellenbeiFehlerninden Daten
eingeleitet. Abshnitt 2.4 gibt zunähst eine knappe Einführung in die Grundlagen der
Fuzzy-Mengen-Theorie. Shlieÿlih werden in Abshnitt 2.5 Fuzzy-Merkmalswerte
de-niert und alsKonzept zur Modellierung von fehlerhaftenDaten beshrieben.
2.1 Datenqualität in der Wirtshafts- und
Sozialstatistik
IndiesemAbshnittsollendiewesentlihenProblemederDatenqualitätinder
Wirtshafts-und Sozialstatistik rekapituliertund die Problemebeider Quantizierung von F
Die Wirtshafts- und Sozialstatistik ist dadurh gekennzeihnet, dass Daten nahezu
ausshlieÿlihals Auskunftsdaten erhoben werden. Die statistishen Begrie,dieden
Er-fassungsvorgängen zugrundeliegen, werden daher im Bezug auf gesellshaftlihe,
politi-she und wirtshaftlihe Anforderungen gebildet. Sie verkörpern oft Kompromisse, die
einezeitliheoder internationaleVergleihbarkeitsiherstellenodereinevielseitigere
Nut-zungder Daten 3
ermöglihensollen,diedamit gemessenwerden. FürdieKonzeption von
Statistiken bedeutet dies insgesamt, dass das, was beobahtet, erhoben werden kann,
(...) wesentlih von institutionellen Vorgaben ab[hängt℄. Die Wirtshaftsverfassung, die
SteuergesetzgebungundähnliheVorhaben prädeterminierendieDenitionvon
Merkma-len, bestimmen die Möglihkeiten der Abgrenzung von Erhebungsmassen, et. 4
. Hinzu
kommt, dass dieDatengewinnung häugin einemhoharbeitsteiligen Prozess erfolgt, in
dem die elementare Rezeption der Wirklihkeit(...) anjene dieRespondenten
de-legiert [wird℄, deren Tun auh Gegenstand der Beobahtung ist 5
. Die
Kommunikations-und Verständigungsprozesse bei der Erfassung der Rohdaten sind daher von essentieller
Bedeutung für dieDatenqualität.
Da für dieMessungnur begrenzte Ressouren zur Verfügung stehen, wird derRahmen
dessen, was faktish beobahtet werden kann, auÿerdem von Kosten-Nutzen-Aspekten
determiniert.Aus diesem Grund aberauh deshalb, um eine zu starke Belastung und
Übermüdung der Befragten zu vermeiden wird ein groÿer Anteil der Daten im Zuge
von administrativen Prozessen erhoben, z.B. derSteuer-oder Sozialverwaltung.Etwa die
Hälfte der amtlihen Statistiken in Deutshland sind solhe Sekundärstatistiken, die auf
Registerder öentlihen Verwaltung basieren. 6
DieseDaten spiegelnmeistensstärker die
gesetzlihenAnforderungenwiederalsdieZielgröÿenaus derwirtshaftwissenshaftlihen
Theoriebildung. Grilihes [1986℄harakterisiert solhe Daten daher alsfound data 7
.
Shlieÿlihkönnen wirtshaftsstatistishe Messungen nur bedingt unter unveränderten
Bedingungen wiederholt werden. Damit sind die Möglihkeiten stark eingeshränkt, mit
denen die Rihtigkeit der vorliegenden Daten überprüft und das Messverfahren justiert
werden kann. Insgesamt ist zu konstatieren, dass der Erfassungsvorgang typisherweise
weniger stabil als bei tehnishen Messverfahren und zugleihdie Abbildungvon
Daten-unshärfen deutlih ershwert ist. 8
3
Rihter[2002℄bezeihnetdiesalsmultipurpose-Charakterderstatistishen Begrie(S.14).
4
Vgl.Rihter2002,S.7.
5
Vgl.ebd.S. 7.
6
Vgl.StatistisheÄmterdesBundesundderLänder2006,S.22.
7
Vgl.ebd.S. 1466.
8
DieUntersuhungvonMorgenstern[1965℄zuMessfehlerninderWirtshafts-undSozialstatistikgiltals
grundlegendundwird weiterhingernezitiert.Als zentralfürdiedeutsheStatistikkönnenauÿerdemdie
ArbeitenvonStrekerundWiegertgelten,die u.a.ShätzverfahrenzurBerüksihtigungder
ImZuge derQualitätsentwiklung fürdieamtlihenStatistiken stellendiestatistishen
Ämter des Bundesund der LänderseitAnfang2006 QualitätsberihtefüralleStatistiken
als Servie für die Nutzer/innen zur Verfügung. Diese enthalten strukturierte
Informa-tionenüber dieQualitätder statistishen Ergebnisse sowie Angaben zu den verwendeten
Methoden und Denitionen, die eine sahgerehte Nutzung der Statistiken ermöglihen
sollen. Somit liegen nun systematishe Darstellungen der Fehlereinüsse vor, die trotz
aller Einshränkungen eine bessere Vergleihbarkeit zwishen den Datenungenauigkeiten
herstellen.
Den Qualitätsberihten werden einheitlihe Qualitätsstandards zugrundegelegt, die es
zulassen, die Aspekte der Datenunshärfe besser zu beshreiben. 9
Wir verwenden sie
da-her als Ausgangspunkt für die weiteren Untersuhungen. Die Qualitätsstandards
bezie-hen sih niht nur auf die Datenqualität der Statistiken im engeren Sinne sondern auh
auf den institutionellen Rahmen, z.B. fahlihe Unabhängigkeit, Neutralität,
Objekti-vität sowie den Datenshutz, und auf die Prozesse zur Erfassung und Auswertung der
Daten, z.B. Verwendung adäquater Verfahren und Methoden sowie vor allem auh die
Vermeidung einer übermäÿigen Belastung der Befragten. Insbesondere können dieF
ehle-reinüsse überwiegend lediglihqualitativbeshrieben werden. AlsQualitätskriterienfür
diestatistishen Produkte im engeren Sinne werden die folgendensehs Ziele deniert: 10
Relevanz, die sih darin ausdrükt, in welhem Maÿ die Daten den Anforderungen der
Nutzer/innenentsprehen. Genauigkeit, d.h.der Nähe des gemessenen Wertes zum
wah-ren, aber unbekannten Wert. Aktualität und Pünktlihkeit, d.h. die Veröentlihung der
Datensollmöglihstzeitnaherfolgen.DazusindVeröentlihungsterminefestzulegenund
bekanntzugeben, die eingehalten werden. Für wihtige Statistiken, bei denen die
Aktua-litäthöhste Prioritäthat, werdenvorläugeErgebnisse veröentliht.Verfügbarkeit und
Transparenz, d.h. neben der leihten Verfügbarkeit der Statistiken für die Nutzer/innen
müssendieErgebnisseauhhinsihtlihKonzeptundMethodenvollständigdokumentiert
sein. Vergleihbarkeit,d.h. dieErgebnisse sollen zeitlih, räumlihund fahlih
vergleih-bar sein. Insbesondere werden einheitlihe Standards in Bezug auf die Denitionen, die
Einheiten,dieMerkmale unddieKlassikationenverwendet,diemöglihstinternationale
Gültigkeit haben. Kohärenz soll in dem Sinne gewährleistet sein, dass untershiedlihe
Statistiken, diesihaufdiegleiheGrundgesamtheitbeziehen,möglihstwiderspruhsfrei
untereinander inBeziehung gesetzt werden, damit Statistiken aus vershiedenen Quellen
hinaus auh der leihtfertige Umgang mit der Theoriehaltigkeit von amtlihen Daten problematisiert,
hiervorallembeidervolkswirtshaftlihenGesamtrehnungsowiebei internationalenStatistiken.
Insbe-sondere Bereinigungen bzw. Glättungen von Daten werden in vielen Fällen mit Bezug auf theoretishe
Modelledurhgeführt. Zudiesem Problembereihvgl.[HolubundTappeiner,1995, 1997;Froeshl,1999;
Rihter,2002℄.
9
Vgl.[StatistisheÄmter desBundesundderLänder,2006℄.
10
kombiniert und gemeinsam verwendet werden können. 11
Die Statistiken sollen also als
Gesamtsystem entwikelt werden, in dem die Einzelstatistiken eine bestimmte Funktion
übernehmen.
Zwishen den Qualitätszielen gibt es Konkurrenzen. Häug besteht ein wesentliher
Gegensatz zwishen Genauigkeit und Aktualität, etwa wenn Wartezeiten bei der
Daten-sammlung zu berüksihtigen sind. 12
Umden Zielkonikten zu begegnen, müssen bei der
Gestaltung des Erhebungsverfahrens Prioritäten gesetzt werden, die je nah
Interessen-shwerpunkt des Anwenders selbst innerhalb der einzelnen Forshungsdisziplinen
unter-shiedlih ausfallen dürften 13
. Die Datenunshärfen sollen nun ausgehend von den
Qua-litätszielen der amtlihen Statistik genauer betrahtet werden.
Die Mehrzahl der Kriterien wie Relevanz, Aktualität, Vergleihbarkeit und Kohärenz
sindauf dieKonzeptualisierungder statistishen Einheiten undBegrieausgerihtet. Die
Operationalisierungderzu messendenMerkmalesowie desErhebungsverfahrens ineinem
Arbeitsmodell,indemversuhtwird,einemöglihsthoheÜbereinstimmungmitden
fah-wissenshaftlihen Zielgröÿendes Idealmodells sowie den darinenthaltenen theoretishen
Vorstellungenzu erreihen, wirdauhalsAdäquation bezeihnet. 14
Zielbeider
Adäquati-onistdieDenitionvoneindeutigenBegrien, sodass sowohldieMess-Subjekte bzw.die
statistishen Einheiten als auh deren Merkmalswerte konkret und zweifelsfrei bestimmt
werden können. 15
. Krätshmer shlägt vor, Datenunshärfen, die durh die Adäquation
induziert sind, als Vagheit der statistishen Begrie aufzufassen. In seiner
Habilitations-shriftstelltereinentsprehendesMessmodellfürFuzzy-Variablevor,inweiterenArbeiten
hat er weitreihende Ergebnisse zur Regressionsanalyse bei vagen Fuzzy-Konzepten
vor-gelegt. 16
In dieser Arbeit soll der Shwerpunkt demgegenüber auf den Datenunshärfen
liegen,die aufeine mangelndeGenauigkeitder Daten zurükgehen.
11
Dasbetrit nihtnur die Verwendung identisher Klassikationssystemesondernreiht auh soweit,
dassbeiBefragungenidentisheFrageformulierungeneingesetztwerden.
12
In [Statistishe Ämter des Bundes und der Länder, 2006℄ wird aber darauf hingewiesen, dass eine
Verbesserung der Aktualitätnihtzwangsläugmit einem Verlustan Genauigkeitverbundensein muss.
Aktualitätsgewinne können imRahmen einerEzienzsteigerungder Prozessebei derStatistikerstellung
ggf. auh bei gleihbleibender Genauigkeit erreiht werden. Dazu tragen neue Erhebungstehniken, die
Einführung exiblererAuswertungssoftware,ElektronisherDatenaustaushund dasInstrument der
Be-reitstellung vorläugerErgebnisse bei(S. 16).
13
Vgl.Löbbe1993,S.47.
14
Vgl.Streker1993,S. 26.ZudenDimensionenderDatenunshärfevgl.Diagramm2.1aufSeite25.
15
Allerdings kommtesvor,dassMerkmale nihtbei alleninteressierendenMess-Subjektender
Grund-gesamtheitbeobahtbarsind.Sokönnenz.B.AufwendungenbeiunselbständigenregionalenUnternehmen
ohneeigeneBuhführungundbeikleinenUnternehmen,dievonderBuhführungbefreitsind,nihterfasst
werden.UmdieVollständigkeitderDatenfürdiesesMerkmalzugewährleisten,werdenbeiderErhebung
desBetriebspanelsdaherplausibleErsatzdatenaufgenommen,dienaheinemvorabdeniertenVerfahren
zubestimmensind.
16
Ein Fehler 17
im Messergebnis liegt denitionsgemäÿ dann vor, wenn eine
Einzelbe-obahtung im Messergebnis vom wahren Wert bei einer fehlerfreien Durhführung des
Arbeitssystems abweiht. 18
Dabei ist das Messergebnis als Zusammenfassung aller bzw.
einer ausgewähltenReihe von Einzelmesswerten aufzufassen.Die allgemeine Abweihung
zwishen dem Erhebungsergebnis und dem unbekannten wahren Wert der
Grundge-samtheit wird als Gesamtfehler des Ergebnisses bezeihnet. Je gröÿer der Gesamtfehler
ist,destogeringerist dieGenauigkeitdes Messergebnisses. Als Maÿstabfür die
Genauig-keit des Messergebnisses wird eine Operationalisierungdes Gesamtfehlers verwendet, die
übliherweise durheine reellwertige Aggregation der Fehlereinüsse bestimmt wird.
InAbhängigkeitvonderArtderErhebungwerdendieFehlereinüssezunähstin
stih-probenbedingteFehler und niht-stih probenbedingteFehler untershieden. Diese
Unter-sheidungsollverdeutlihen,dassbeiStihprobenerhebungenbesondereFehlereinüssezu
berüksihtigen sind: Zum einen die Stihprobenzufallsfehler, die infolge der
Zufallsaus-wahleinerTeilmengevonIndividuenund aufgrundder daraufbasierenden
Hohrehnun-gen entstehen. Zum anderen die niht-zufälligenStihprobenfehler, dieaufsystematishe
Ursahen zurükzuführen sind, die nur bei Stihprobenerhebungen auftreten, wie z.B.
wenn Mängel hinsihtlih der Erhebungsgesamtheit oder Verzerrungen durh die
Aus-wahlmethode bestehen oder wenn das Hohrehnungsverfahren an sih fehlerhaft ist. 19
Niht-stihprobenbedingte Fehler treten sowohl bei Stihprobenerhebungen als auh bei
Vollerhebungen auf. Es handelt sih dabeihäug um systematishe Fehler, d.h. ihr
Auf-tretenkann zur Verzerrungen des Ergebnisses führen.
Sofern Aussagen über die Ungenauigkeit von Messwerten aufgrund von Fehlern
ge-mahtwerdenkönnen,istesüblih,eineReihevonEinzelmessungen 20
zusammenzufassen
undfürdiese denmittlerenquadratishen Gesamtfehler MSE(engl.meansquare error)
anzugeben. Es wird in der Regel angenommen, dass sih der mittlere quadratishe
Ge-samtfehler additivaus der Zufallskomponenteund der systematishen Fehlerkomponente
des Ereignisses zusammensetzt, d.h.
(
MSE)
2
=
(
Standardfehler)
2
+
(
Bias)
2
.
(2.1) 17DieAbweihungdesMessergebnissesvomwahrenWertwirdallgemeinalsFehlerbezeihnet.Davon
sind die Messfehler als eine bestimmte Fehlerart zu untersheiden, die in der Datenerhebungsphase
auftreten.SiewerdenfolglihdurhdenFragebogen,dieInterviewer/innenoderdieBefragtenverursaht.
Vgl.dazuStatistisheÄmter desBundesundderLänder2006,S. 14undS. 87.
18
Vgl.Streker1993,S.26.TatsählihistauhdasimProzessderAdäquationfestgelegteArbeitssystem
nohnihteindeutigbestimmtundkonkretisiertsiherstbeidertatsählihenDurhführungderErhebung.
19
Vgl.Krug u.a.2001,S. 217.
20
DerStandardfehler isteinMaÿzur Beurteilungdes Stihprobenzufallsfehlersundgibt die
sog. Präzisiondes Ergebnisses wieder. 21
Unter der Annahme, dass diegemessenen
Merk-malswerteentsprehendderAuswahlwahrsheinlihkeitderStihprobefüralle
Merkmals-werte der Grundgesamtheit repräsentativ sind, kann daraus der Stihprobenzufallsfehler
geshätzt werden. Überdies können die zufälligen Stihprobenfehler durh Vergröÿerung
der Stihprobe kontrolliertund verringert werden. Der Stihprobenzufallsfehlerist somit
vergleihsweise einfah zu bestimmen. Für wihtigere Erhebungsergebnisse bei
Stihpro-benstatistiken werden dierenzierte Fehlerrehnungen durhgeführt, 22
so dass relevante
Stihprobenfehler alshinreihendgut dokumentiert geltenkönnen.
Hingegen isteine quantitative Beshreibung des systematishenFehlers,der alternativ
auh alsVerzerrung oder als Bias bezeihnet wird, und damit der anderen Komponente
des Gesamtfehlers häug nur tendenziell oder gar niht möglih. Zur Beshreibung des
Gesamtfehlers werdendaher auhalternativeKennzahlenherangezogen wie z.B.
Gröÿen-ordnungundVorzeihendesBiasbzw.dessenrelativesVerhältniszumStandardfehleroder
aberdiequalitativeBewertungdes GesamtfehlerssowiedieBeshreibungderFehlerarten,
diebei der Bewertung des Gesamtfehlers zu berüksihtigen sind. 23
Zur Bestimmung der
Gröÿenordnung des Gesamtfehlers eignet sih auh der Vergleih mit unabhängigen
Da-tenressouren. 24
Im Untershied zum Standardfehler kann die systematishe Verzerrung
im Gesamtfehler niht durh Vergröÿerung der Stihprobe verringert werden, sondern
ausshlieÿlihdurhVerbesserung des Messverfahrens.
Niht-stihprobenbedingteFehlertreteninallen PhasendesDatenerhebungs- und
Auf-bereitungsprozesses auf. Die niht-stihprobenbedingten Fehler können wie folgt
harak-terisiertwerden: 25
FehlerdurhdieErfassungsgrundlageliegenvor,wennz.B. statistishe
Einheiten der Grundgesamtheit niht erfasst werden, mehrfah erfasst werden oder aber
Einheiten fälshlih erfasst werden. Messfehler sind Fehler, die während der
Datenerhe-bungsphase auftreten, sie werden z.B. durh missverständlihe Fragen des Fragebogens,
durhFalshauskünfteseitensder Befragtenoder durhdieInterviewer/innenverursaht,
wenn diese durh ihr Auftreten das Antwortverhalten beeinussen. Aufbereitungsfehler
sind Fehler, diein der Phase der Aufbereitung der Daten entstehen, z.B. bei der
Daten-21
Vgl.StatistisheÄmterdesBundesundderLänder2006,S.83.
22
Vgl.StatistisheÄmterdesBundesundderLänder2006,S.39.
23
Vgl.ebd.S. 83f.
24
Vgl.beispielsweiseFederalCommittee onStatistialMethodology[2001℄,Kapitel8,S.3f. Indem
Ar-beitspapierdes FederalCommittee onStatistialMethodologyisteinesehrumfangreiheÜbersihtüber
denaktuellen StandderMethodenzurFehlerreduzierungundzurFehlershätzungsowiedasF
ehlerrepor-ting in den USAzusammengestellt. Allerdings können die Ergebnisse nur analogübertragenwerden,da
in denAnalysendieUngenauigkeitvonStihprobenstatistikenimZentrumsteht.
25
DieFehlersystematikistebenfallsStatistisheÄmterdesBundesundderLänder[2006℄entnommen(S.
79.). Dortwirdzuallen Fehlerartenauhangegeben,mit welhenAngabendie Relevanzderjeweiligen
erfassung,der Codierungoder beider logishen Bereinigungaufgrundvon
Plausibilitäts-prüfungen. 26
AuÿerdementstehenFehlerdurhAntwortausfälle,sog.nonresponse.Dabei
können ganze Einheiten entfallen, weilsie beider Zählungnihtangetroen werdenoder
dieTeilnahmeanderErhebung verweigern,sog. missingunits.Zudemkommteszu
feh-lendenMerkmalswerten, sog. missingitems,wenn eine Bestimmungdes Merkmalswerts
nihtmöglihist,wennkeineAntworterfolgtoderggf.auhwennbesondere
Datenshutz-vorgaben zu berüksihtigen sind. Die Fehlerwirkung von Antwortausfällen hängt davon
ab,obeinsystematisherZusammenhangzwishenantwortenden undniht-antwortenden
Einheiten besteht. 27
Im Hinblik aufdie Fuzzyzierung von Datenungenauigkeiten sollhier nohbesonders
auf die Bedeutung von Klassikationsfehlern hingewiesen werden. Klassikationsfehler
sind stark interdependent mitdem Adäquationsproblem, da Missklassikationen in dem
Maÿe zunehmen, wie Zuordnungen den Respondent/innen uneindeutig ersheinen. Ihre
Zahl steigtalsomitzunehmender Gliederungstiefebzw.mitwahsender Komplexitätder
Klassizierungsvorshrift tendenziell an. 28
Von Bedeutung für dieDatenanalyse sind vor
allem Missklassikationen, die zu systematishen Abweihungen bei den Zuordnungen
führen. Ein Ausweg besteht hauptsählih in der Vereinfahung des
Klassizierungssys-tems, insbesondere durh Beshränkung auf eine höhere Aggregationsstufe der
Klassi-kation. Dies erkauft man sih allerdings mit einer steigenden Inhomogenität bei den
Mess-Subjekten, die einer der entsprehenden Klassen zugeordnet sind. Die Verwendung
von Fuzzy-Klassikationenwürde hier dieMöglihkeitanbieten, dass
Ermessensentshei-dungen beiden Klassizierungsvorgängenebenfallsabgebildetwerdenkönnen,sodass
vermittelt überden Grad der Zugehörigkeitzu einer Klasse eine gröÿereHomogenität
inden Klassenerreiht werden könnte. Dennoh wird der Aspekt von
Klassikationsfeh-lern im Weiteren niht genauer betrahtet. Es wird auf die einshlägigen Arbeiten zur
Fuzzy-Clusteranalyse verwiesen. 29
Es ist hervorzuheben, dass das Konzept des Gesamtfehlers auf Aggregationsprozessen
inzweiDimensionenberuht.Zumeinen wirdder GesamtfehlerimBezug aufeine
Zusam-menfassung von Einzelmessungen bewertet. Zum anderen ist über alle vorkommenden
Fehlereinüsse zu aggregieren. Insbesondere hinsihtlih des sog. systematishen F
eh-lers ist auf eine Begrisverwirrung hinzuweisen, denn von einigen Autor/innen werden
auh niht-zufällige Fehlereinüsse als systematishe Fehler bezeihnet 30
, im
Zusam-26
DieDatenqualitätkannu.a.nahderQuotederaufgrundderPlausibilitätsprüfungkorrigiertenDaten
bewertetwerden.
27
ZufälligeDatenausfälleführenu.a.auhzueinerErhöhungdesStihprobenzufallsfehlers.
28 Vgl.Neubauer1993,S. 16f. 29 Soz.B.[Höppneru.a.,1997℄. 30 Soz.B.Krugu.a.2001,S.216f.
menhang mit dem Gesamtfehler ist als systematisher Fehler aber immer der mittlere
Fehlerzu verstehen, der niht aufden Stihprobenzufallsfehlerzurükzuführen ist.In der
Wirtshafts- und Sozialstatistik gelingt normalerweise weder eine quantitative
Beshrei-bung aller Fehlerarten noh ist hinreihend genau bekannt, inwieweit sih die Einüsse
der einzelnen Fehlerartenbeider Aggregation imGesamtfehler gegenseitigkompensieren
oder verstärken. Um die Messfehler in den Daten annähernd abzushätzen, sollte daher
zunähst geprüft werden, welhe Fehlerartenamstärksten zur Verzerrungder Daten
bei-tragen, um die Betrahtung dann darauf zu beshränken. Die Untersuhung [Brinner,
2003℄ zu den Erhebungsungenauigkeiten beim Übergang von der DDR-Statistik zur
ge-meinsamenbundesdeutshen Statistikbeider amtlihenMortalitätsmessungisteingutes
Beispielfür diesesVorgehen,stellt mitihrer AusführlihkeitabereinepositiveAusnahme
dar.
DieAusprägungdesGesamtfehlerskanndanahharakterisiertwerden,obinden
Merk-malswerten über eine Klasse von individuellen wirtshaftlihen Akteur/innen aggregiert
wird oder niht. Merkmalsbeobahtungen, die auf Individualebene vorliegen, werden als
Mikrodaten bezeihnet. Aggregierte Daten, beidenen Teilpopulationen zusammengefasst
betrahtet werden, werden Makrodaten genannt.
Ein Vorteil bei der Verwendung von Makrodaten besteht darin, dass die Messfehler
aus den Einzelbeobahtungen sih zum Teil gegenseitig kompensieren. Grundsätzlih ist
aberdieZusammenfassungundVerallgemeinerungderBeobahtungenindenMakrodaten
niht unproblematish,wenn dieAusprägungen der Merkmalswerte inhomogen ausfallen
undvonEinzelfällenüberformtwerden.Insbesondere könnenÄnderungender
Merkmals-werte,diedurheineveränderteZusammensetzunginnerhalbeinesAggregates entstehen,
damit niht analysiert werden. Häug werden Makrodaten als Analogon für ein ktives
repräsentativesIndividuum interpretiert.Allerdingsexistiert nihtnotwendig ein
Mess-Subjektmitdenrepräsentativen Eigenshaften,sodassdieAdäquationbeiMakrodaten
ershwertist.Insgesamtgilt,dassFehlerinMakrodatentypisherweise systematisheF
eh-lersind, die invielen Fällen zusätzlihüber dieZeit korreliertsind. 31
Um diedurh die Aggregation verursahten Adäquationsprobleme zu vermeiden,
wer-den inzwishen verstärkt Mikrodaten für die Analyse herangezogen. Dadurh wird aber
andererseits das Gewiht und die Auswirkungen von Messfehlern bei der Analyse
ver-shärftund derEinussvonfehlendenDatensteigt. 32
Zudemsind Inhomogenitätenunter
den klassizierten statistishen Einheiten von höherer Relevanz. 33 31 Vgl.Grilihes1986,S. 1476. 32 Vgl.ebd.S. 1469. 33
Vgl.Baltagi1998, S.105.DasProblem entstehtdann,wennderInhomogenität imRegressions-bzw.
Shätzmodell nihtRehnunggetragenwird.Überdiesistanzumerken,dassKlassizierungenbei
Aus der Perspektive der Datenanalyse betrahtet, treten zu den Ungenauigkeiten, die
beiDatengewinnung entstehen, nohweitere Ungenauigkeiten hinzu.Diesewerden durh
dieDatentransformationoderdurhEinshränkungenbeiderVergleihbarkeitsowiedurh
Unvereinbarkeiten zwishen den ökonometrishen Begrisbildungen und den verfügbaren
Daten induziert.VonbesondererBedeutung sind ausdieserPerspektivedie
synthetisier-tenDaten 34
,mitdenentheoretisheBegrieapproximiertwerden,fürdieeskeinedirekte
Entsprehung in der Realität gibt und diedurh Verknüpfung von Daten anderer
Merk-male konstruiert werden. Dies tritauf vielewirtshaftlihe Kennzahlenzu, wie z.B. den
Preisindex für die private Lebenshaltung oder das reale Bruttosozialprodukt. Aber auh
durhFortshreibungmittelsbekannterBewegungsmassenbestimmteBestandsmassen
so-wieVergleihszahlenwieRelationsquotientenoderDierenzenwerdendurhKombination
von primären Daten berehnet. Fehler in den Eingangsdaten werden dabei entsprehend
mittransformiert. Dies kann zur gegenseitigen Verstärkung oder zur gegenseitigen
Kom-pensationder Fehlerbestandteileinden abgeleitetenDaten führen.Beispielsweisekönnen
konstante, additive Fehleranteile durh die Verwendung von Dierenzen ausgeshaltet
werden, wohingegen sih der Gesamtfehler bei Fortshreibungen über die Perioden
ku-muliert. Bei der Verwendung von synthetisierten Daten ist in besonderer Weise darauf
zu ahten, welhe Theorieannahmen die Verknüpfungsoperationen motivieren. Überdies
kanndieDatensyntheseShwierigkeitenbeiderempirishenAnalysebereiten,wenndurh
dieTransformation verdekte, zusätzlihe Abhängigkeiten zwishen einzelnen
Merkmals-variablen entstehen. Das reale Bruttosozialprodukt wird z.B. durh Division mit einem
aggregierten Preisindex ermittelt. Es ist folglih niht möglih, die Messfehler auf dem
aggregiertenNiveau alsunabhängig von den im Preisindex enthaltenen Ungenauigkeiten
bei der Messung der Preise und Mengenverhältnisse zu betrahten. 35
Zusammenfassend sind die ausgeführten Interpretationsebenen für die Bewertung von
Datenunshärfen im Diagramm 2.1 gegenübergestellt. Da die Operationalisierungen im
Messprozess und beider Modellanpassungwidersprühlihe Anforderungen andie
statis-tishen Begrie und die Aussagekraft der Daten stellen können, werden hierbei dieSeite
der Datengewinnung und der Datenanalyse gegenübergestellt. Als Stufen, die zwishen
einem Erkenntnisinteresse bzw. einer Fragestellung und der Realität vermitteln sollen,
können die Ebenen des Idealmodells, des Arbeitsmodells sowie der Messung betrahtet
desLösungsraumszuUnstetigkeitenundUmshlagspunktenunddamit zueinergröÿerenSensitivität im
Optimumführenkönnen.
34
Vgl.Neubauer1993,S. 16f.
35
Vgl.Grilihes1986, S. 1473:Themajorserious problem(...) probablyours in themeasurementof
real` output, GNP or industry output in onstant pries` (...). Sine mostof the output measures are
derivedbydeviding(deating`)urrentvaluetotalsbysomeprieindex,thequalityofthesemeasuresis
intimately onnetedto the quality ofthe available prie data.Beause of this, it is impossibleto treat
Adäquation
Operationalisierung
Substituierung
Simplifizierung
Abstraktion
U m w e l t z u s t a n d
Messfehler
Richtigkeit der Adäquation
Zuverlässigkeit
Konsistenz
Vergleichbarkeit
Aggregationsebene
Vollständigkeit
Reichhaltigkeit
Genauigkeit
Bereinigung
Aggregation
Rekonziliation
Anpassungsgüte
Abstraktion
A p p r o x i m a t i o n
E r h e b u n g d e r R o h d a t e n
d u r c h f ü h r b a r e s A r b e i t s
-s y -s t e m
M o d e l l d e r Z i e l g r ö ß e n
M o d e l l ü b e r M e r k m a l s
-z u s a m m e n h ä n g e
b e r e c h e n b a r e s A r b e i t s
-m o d e l l
D a t e n a u f b e r e i t u n g
Arbeitsmodell
Messung
Idealmodell
D a t e n g e w i n n u n g
D a t e n a n a l y s e
Fragestellung
Realität
(EigeneDarstellung) 36Abbildung2.1: Interpretationsebenen undUnshärfequellenbeider Datengewinnung und
beider Modellanpassung
werden. Zwishen den Abstraktionsebenen sind jeweilsspezishe Qualitätsmerkmalezu
verzeihnen, diedieUnshärfe der Daten ausmahen und beshreiben.
Auslösend für die datengestützte Beobahtung und deren Analyse ist eine allgemeine
Fragestellungbzw.einFragenkomplex.BeieinerAnalysederBeshäftigtenstrukturkönnte
beispielsweise dieAusgangsfrage formuliert werden:Welhes sind wihtige
Einussfakto-renaufdieEntwiklung derBeshäftigung?.DieseFragestellungwirdaufderEbeneeines
IdealmodellszunähstinquantitativeZielgröÿen
X
übertragen,diediehypothetishen Be-grierepräsentieren, bzw. auf der Seite der Datenanalyse inein quantizierbaresModellF
übertragen, das funktionale Zusammenhänge zwishen Variablen von Analysegröÿen formuliert.DasquantizierbareModellF
shlieÿt imFalleeinerinduktiven Analyse auh36
DieModellierungszusammenhängesindfürdieSeitederDatengewinnunginAnlehnunganStrekerund
einVerteilungsmodellein, das dieVariabilitäten zwishen denAnalysevariablenund dem
Strukturmodellabbildet. 37
AufderEbenedesArbeitsmodellswerdendieZielmodelledannsooperationalisiert,dass
siefür dieAnwendung geeignet sind. Für dieDatengewinnung werden dieZielgröÿen
da-beiineinArbeitssystem umgesetzt,das einen durhführbaren Erhebungsplan darstellt. 38
HierzuwerdenzusammenmitdemErhebungsziel,derAdäquationderZielgröÿenundden
operablenMerkmalen der denierten Einheiten auh dieErhebungstehnik einshlieÿlih
des Tabellenprogramms, der Erhebungsart, der Organisation der Feldarbeit sowie der
Aufbereitung der erhobenen Daten deniert und festgelegt. 39
Durh das Arbeitssystem
wird einVektor der wahren Merkmalswerte
X
W
repräsentiert. Analogwird bei der Da-tenanalyse ein Arbeitsmodellf
speziziert, in dem die Qualität und der Aussagewert der erhältlihen,d.h. der vorliegenden oder der beobahtbaren, Daten berüksihtigt ist.BeimÜbergangvomIdealmodellzumberehenbarenArbeitsmodellmüssen
Analysevaria-blehäugdurheinodermehrereHilfsvariablesubstituiertwerden,dieoperationalisierbar
sind und beideneneine zufriedenstellende Datenqualitäterreihtwerden kann. Zur F
est-legung des berehenbaren Arbeitsmodellisteine passende Methode zur Bestimmung der
Relationen zwishen den Modellvariablenauszuwählen.
Die Ebeneder Messung stehtauf derSeite derDatengewinnungfür dieRealisationdes
Arbeitssystems, bei der ein Messwert
x
∗
gewonnen wird. Das Ergebnis
x
ˆ
der Datenauf-bereitung durhDatenbereinigung,Aggregation und ggf. auhRekonziliation40
wird hier
bereits als Teil der Datenanalyse aufgefasst. Auÿerdem wird auh die Bildung von
ver-knüpftenKennzahlenzu diesemShrittgezählt.DieAufbereitung derDatenmittelseiner
Fuzzy-Modellierung,dieimLaufedieser Arbeitdiskutiert werdensoll,istsomit ebenfalls
auf dieserStufe der Datenanalyse einzuordnen.
Bemerkung 2.1 (Genauigkeitsshwelle) Durh die Bestimmung einer geeigneten
Mess-SkalafürdieFragestellungwirdauhfestgelegt,mitwelherSensitivitätdie
Messun-gen durhgeführt werden sollen. Also z.B. ob die Gröÿe eines Objekts in der Einheit m,
m oder km erfasst werden soll. In Abhängigkeit davon vershiebt sih auh die
Wahrneh-37
AuhbeiexplorativenStudienwirdhäugbereitseineVorauswahlrelevanterZielgröÿendurhgeführt.
Ebenso werdendie Parametereiner Approximations-bzw.Ausgleihsfunktion, die alsHinweisauf einen
proportionalen Zusammenhang gewertet werden können, durh die Qualität und Repräsentativität der
verwendetenDatenbeeinusst.
38
Dies ist eine Verkürzunggegenüber der Darstellungin [Streker und Wiegert, 1994℄.Sie setzen eine
Variabilität desArbeitssystems unddamit eineMengevondurhführbarenErhebungsplänen voraus, von
denen unter Kosten-Nutzen-Abwägungeneinerausgewähltwirdbzw. sih imZugederErhebung
konsti-tuiert.
39
Vgl.StrekerundWiegert1994,S. 103.
40
D.h.derGlättungvonDaten,damitdiesebestimmtenAnforderungengenügenwieetwaderIdentität
mungsgrenzefür unwesentliheVeränderungen.SowerdenwirbeiderMessunginkm eine
Abweihung von 1 m alszu vernahlässigenbetrahten, bei einerMessung imm hingegen
erst eine Abweihung im mm-Bereih. Zadeh bezeihnet dieses Phänomen als
granula-tion. 41
Die Wahl des Maÿstabes kann ein bewusst gewähltes Mittel zur
Komplexitätsre-duktionsein.Morgenstern [1965℄verweistallerdingsdarauf, dass beider Verwendungvon
sekundären Datenquellen, auf die man bei wirtshaftsstatistishen Analysen häug
ange-wiesen ist,besonders darauf zuahten ist,welheGenauigkeitsshwelleüberhauptfür alle
Merkmalsvariablen gewährleistet werden kann, um Sheingenauigkeitenzu vermeiden. 42
Grundsätzlih sind Messfehler daher erst dann relevant, wenn sie die modellimmanente
Genauigkeitsshwelleübershreiten.Essollallerdingsnihtvershwiegenwerden,dass
die-se Stabilität nur dann gilt, wenn keine komplexen Rükkopplungseekte bestehen. Solhe
Eekte sindz.B. Gegenstand der Chaostheorie.
Shlieÿlih erhalten wir aus der Anpassung des Arbeitsmodells anhand der passend
aufbereitetenDaten eineApproximation
ˆ
f
(
x
ˆ
)
,diefürdieInterpretationvonfunktionalen Zusammenhängenin den Merkmalswerten zur Verfügung steht.AufderSeitederDatenanalysewerdenwirunsimFolgendenaufdieRegressionsanalyse
konzentrieren. Diese wird im folgenden Abshnitt kurz vorgestellt, wobei vor allem die
Ansätze zur Behandlung ungenauer Daten kritish beleuhtet werden sollen.
2.2 Datenunshärfe bei einfaher, linearer Regression
Ökonometrishe Analysen haben die Aufgabe, funktionale Beziehungen zwishen
ökono-mishen Variablen mitHilfe von statistishen Methoden zu identizieren und zu messen.
Dievonder Theorievorgeshlagenen funktionalenZusammenhängesollendabeimitHilfe
empirisherDaten statistishgeprüft werden.Dabeisollnihtnurdas Vorzeihendes
Zu-sammenhangs zwishen den ökonomishen Variablen bestätigt werden, sondern es sollen
nahMöglihkeit auh dessen quantitativeIntensitäten abgebildet werden. Da
Beziehun-gen im sozialen Raum kontinuierlihen Änderungsprozessen unterliegen, ist das Ziel der
Untersuhungen darauf ausgerihtet, relevante ökonomishe Beziehungen zu ermitteln,
diezumindestüber einengewissen Zeitraumstabil sind.Nihtzuletztsollen aus den
vor-liegenden Daten auh quantitative Prognosen ermittelt werden, für die im Rahmen der
Modellannahmeneine Abshätzung des Fehlerspielraums möglihist.
GrundsätzlihstelltdieRegressionsanalyse diezentrale Methodeder Ökonometrie dar,
mit der Modellparameter numerish speziziert werden können. Typishe Beispiele für
41
Vgl.[Zadeh, 1997℄.
42
solheParameter,diewesentlihe Zusammenhängezwishenden ökonomishen Variablen
kennzeihnen, sind Grenzneigungenoder Elastizitäten. 43
AmAnfangderÜberlegungenstehtdieFormulierungdesShätzproblems.Darinwerden
dietheoretishe Vorüberlegungenin einoder mehrere parametrisierte F
unktionsgleihun-gen übersetzt, so dass die Parameter anhand von empirishen Daten ermittelt werden
können. Im Shätzproblem istauÿerdem zu untersheiden, welhe Variable für den
funk-tionalen Zusammenhang als gegeben bzw. unabhängig ersheinen und welhe Variable
sihaus dem Zusammenhang ergeben und somit abhängigeVariablesind. In den
Begri-lihkeiten der Ökonometrie werden erstere als exogene Variable und zweitere als
endoge-ne Variable für den untersuhten Zusammenhang bezeihnet. Dabei wird angenommen,
dass Abweihungen vonder Modellfunktion dadurh entstehen, dass der funktionale
Zu-sammenhang von zufälligen Störungen überlagert ist 44
, die ebenfalls auf die abhängigen
Variablen und im einfahen Modellansatz nur auf diese einwirken.
Die Modellbildungndetinder Ökonometriemeistensunter ungünstigenBedingungen
statt.Häug istderfunktionaleZusammenhang imZeitablaufnurbeshränkt stabil.
Ins-besondere bei Mikrodaten können die Störeinüsse auf den Zusammenhang relativ groÿ
seinundstarkvariieren.ShlieÿlihsindbeiderallgemeinenInterdependenzökonomisher
BeziehungenRükkopplungseekte zwishen den beobahtbarenökonomishen Variablen
unddenStörvariablenzuerwarten.Esistdahersinnvoll,denökonometrishen
Zusammen-hang nurannähernd abzubilden, sodass nur diewesentlihen Zusammenhangsparameter
geshätzt werden können. Für die meisten Situationen ist eine Beshreibung mit Hilfe
von linearen Modellfunktionen hinreihend genau. Beispielsweise können auh
exponen-tielle Wahstumsentwiklungen durh Logarithmieren auf eine lineare
Zusammenhangs-gleihungtransformiertwerden.DieKleinsteQuadrate-Regressionistallerdingsnurdann
optimal, wenn die Störkomponente stohastish unabhängig von den Variablen der
Mo-dellgleihungist.AndernfallskanndieVerzerrungder Shätzparametererheblihsein,wie
anhanddeseinfahenklassishenFehlermodellsillustriertwerdenkann,dasdenEektvon
fehlerhaftenDaten aufdie Parameter der linearenRegression beshreibt.
BeiökonometrishenAnalysenkannkeinesfallsdavonausgegangenwerden,dassdie
Be-dingungen für die Optimalität der Kleinste Quadrate-Regression hinreihend gut erfüllt
sind.Eskommthäugvor,dassdieStörkomponenteinnereAbhängigkeiten
(Autokorrela-43
Vgl.Shneeweiÿ1990,S. 17.
44
InderLiteraturwirdandieserStelleübliherweisedieBezeihnungstohastisheStörungverwendet,
um deutlih zu mahen, dass die Störung mittels eines Verteilungsmodells beshrieben und durh eine
Zufallsvariable abgebildet werden kann. Da Stohastik aus dem Altgriehishen auh als zum Erraten
gehörende Kunst übersetzt werden kann, gehört die Fuzzy-Theorie in einem weiteren Sinne auh zu
den GebietenderStohastik.Vgl.Brokhaus,21.völligneubearbeiteteAuage,Online-Ausgabe;Zugri
überMunzinger-Onlineam25.November2009.Aus diesemGrundwird hierimmerderBegrizufällig
tionen) 45
aufweist oder durh Einussfaktoren induziertist,die nihtidentiziertwerden
können oder die niht messbar sind. Eine zutreende Messung von funktionalen
Bezie-hungenistdahernurdannmöglih,wenn das Zustandekommen derbeobahteten Daten
theoretish verstanden und modellmäÿigerfasst worden ist 46
.Für das hinter den Daten
stehende ökonometrishe Modell reiht es folglih niht aus, eine Funktion anzugeben,
diegewisseVariablesinnvollmiteinanderverknüpft,sondern es besteht dieumfassendere
Anforderung, dass auh die stohastishe Natur dieser Variablen anzugeben ist, wobei
die möglihen Interdependenzen der Störvariablen besonderes zu berüksihtigen sind.
Darüberhinaus sind alle Variablen imModellzu spezizieren, mitdenen mögliherweise
Interdependenzen vorhanden sind.
Insgesamt bewegt man sih alsobei der Spezikation des Shätzmodells in dem
Span-nungsfeld,dass das Modelleinerseits vollständiggenugsein soll,sodass allewesentlihen
EekteundAbhängigkeitenindieShätzungeinbezogenwerden,andererseitssolldieZahl
derVariablennihtzu groÿwerden,um denapproximativenAnsatz inder Modellbildung
zu wahren und niht einer Sheingenauigkeit zu unterliegen, die den Instabilitäten der
ökonomishen Zusammenhänge niht angemessen ist. Überdies können bei einer
wah-senden Zahl von Variablen aussagekräftige Shätzergebnisse nur noh erreiht werden,
wenn immer mehr Beobahtungen einbezogen werden. Auÿerdem steigt dieGefahr, dass
dieParameter niht mehridentiziertwerden können,d.h. dass das Shätzproblemkeine
oder keine eindeutige Lösung hat. Niht-Identizierbarkeit eines Strukturmodells kann
abergrundsätzlihauhin der Natur der Fragestellung selbst liegen,wenn diese
ungüns-tig gestellt ist. Von einer Fehlspezikation des Shätzmodells sprehen wir immer dann,
wenn wesentlihe Einussfaktoren oder Interdependenzen niht modelliert wurden.
Ei-ne Shätzung nah einem fehlspezizierten Modell führt denitionsgemäÿ zu verzerrten
Parametern oder unzutreenden Kondenzmengen 47
.
Die ökonometrishe Modellkonstruktion basiert auf der Grundannahme, dass die
Da-ten eindeutig und fehlerfrei beobahtet werden und somit auh die Merkmalsvariablen
eindeutigundfehlerfreisind.FehlerindenVariablenmüssendemzufolgeimShätzmodell
gesondert speziziert werden und die Verteilungsannahmen sind im Hinblik darauf zu
modizieren.Entsprehende Shätzmodellewerden häugunterder BezeihnungModelle
mit Fehlern in den Variablen 48
zusammengefasst. Als Ausgangspunkt für die weiteren
Untersuhungen wird in Abshnitt 2.2.1 zunähst die klassishe, lineare
Regressions-45
AutokorrelationensindhäugbeiZeitreihendatenfestzustellen.Zu denunbekanntenEinussfaktoren
sindu.a.auhBeobahtungsfehlerindenDatenzuzählen.
46
Vgl.Shneeweiÿ1990,S. 22.
47
Eine Verzerrungder Kondenzmengenist gleihbedeutenddamit, dassder (Ko-)Varianzshätzer
ver-zerrtist.Diesistz.B.beiHeteroskedastizitätderStörkomponente,d.h.einerveränderlihenStreuungder
ModellabweihungenzwishendenStihproben,derFall.
48