Odigos-SPSS-Pramaggioulis

(1)

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

___________

ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ

Ο∆ΗΓΟΣ ΑΝΑΛΥΣΗΣ ∆Ε∆ΟΜΕΝΩΝ ΜΕ ΤΗ ΧΡΗΣΗ SPSS

Πραµαγγιούλης Παναγιώτης

(2)

(3)

ΠΕΡΙΕΧΟΜΕΝΑ

1. ΕΙΣΑΓΩΓΗ……….4 2. ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ……….………10 2.1 ΟΝΕ-SAMPLE T-TEST………..………10 2.2 CHI-SQUARE (ΕΛΕΓΧΟΣ Χ2 _)………11 2.3 Τ-TEST ∆ΥΟ ∆ΕΙΓΜΑΤΑ ΑΝΕΞΑΡΤΗΤΑ……….. 14 2.4 PAIRED T-TEST………..16 2.5 ΕΛΕΓΧΟΣ ΚΑΝΟΝΙΚΟΤΗΤΑΣ……….18 2.6 ΕΛΕΓΧΟΣ KRUSKAL-WALLIS………20 2.7 ONE-WAY ANOVA……….22 2.8 ΕΛΕΓΧΟΣ ΥΠΑΡΞΗΣ ΓΡΑΜΜΙΚΗΣ ΣΥΣΧΕΤΙΣΗΣ ΜΕΤΑΞΥ ΜΕΤΑΒΛΗΤΩΝ………..25 3. ΑΝΑΛΥΣΗ ΣΥΝΕΧΩΝ ΜΕΤΑΒΛΗΤΩΝ………..29 3.1 ΓΕΝΙΚΑ ΣΤΟΙΧΕΙΑ……..……….29 3.2 ΠΕΡΙΓΡΑΦΙΚΑ ΜΕΤΡΑ………30 3.3 ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ∆ΡΟΜΗΣΗ………32 3.4 ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ∆ΡΟΜΗΣΗ………43 3.5 ΑΝΑΛΥΣΗ ∆ΙΑΚΥΜΑΝΣΗΣ (ANOVA)………66 3.5.1 ΑΝΑΛΥΣΗ ∆ΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΠΑΡΑΓΟΝΤΑ……….66 4. ΑΝΑΛΥΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ∆Ε∆ΟΜΕΝΩΝ……….84 1.1 ΓΕΝΙΚΑ ΣΤΟΙΧΕΙΑ………84 2.2 ΠΕΡΙΓΡΑΦΙΚΑ ΜΕΤΡΑ ΓΙΑ ΚΑΤΗΓΟΡΙΚΑ ∆Ε∆ΟΜΕΝΑ……….……….85 3.3 ΕΛΕΓΧΟΣ ΑΝΕΞΑΡΤΗΣΙΑΣ ΜΕ ΤΗΝ ΚΑΤΑΝΟΜΗ Χ2 _……….88 4.3.1 ΕΛΕΓΧΟΣ ΑΝΕΞΑΡΤΗΣΙΑΣ Χ2 ΤΟΥ PEARSON……….88 4.4 RELATIVE RISK……….………91 4.5 ΣΥΓΚΡΙΣΗ ΕΞΑΡΤΗΜΕΝΩΝ ΠΟΣΟΣΤΩΝ……….95 4.6 ΛΟΓΙΣΤΙΚΗ ΠΑΛΙΝ∆ΡΟΜΗΣΗ……….98 5. ΠΟΛΥΜΕΤΑΒΛΗΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ……….105 5.1 ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ………..105

(4)

2.1.2 ΥΠΟΘΕΣΕΙΣ ΟΡΘΟΓΩΝΙΟΥ ΜΟΝΤΕΛΟΥ……..………106 3.1.3 ΕΛΕΓΧΟΣ ΣΥΣΧΕΤΙΣΕΩΝ………..107 4.1.4 ΑΡΙΘΜΟΣ ΚΑΙ ΕΚΤΙΜΗΣΗ ΠΑΡΑΓΟΝΤΩΝ………108 5.1.5 ΚΡΙΤΗΡΙΑ ΕΠΙΛΟΓΗΣ ΜΟΝΤΕΛΟΥ………..111 6.1.6 ΠΕΡΙΣΤΡΟΦΗ……….111 7.1.7 ΥΠΟΛΟΓΙΣΜΟΣ ΤΩΝ SCORES ΤΩΝ ΠΑΡΑΓΟΝΤΩΝ………112 8.1.8 ΜΗ ΟΡΘΟΓΩΝΙΑ ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ………113 9.1.9 ΤΕΛΙΚΑ ΣΥΜΠΕΡΑΣΜΑΤΑ……….114 6. ΠΟΛΥΜΕΤΑΒΛΗΤΕΣ ΣΤΑΤΙΣΤΙΚΕΣ ΤΕΧΝΙΚΕΣ……….131 6.1 ∆ΙΑΧΩΡΙΣΤΙΚΗ ΑΝΑΛΥΣΗ (DISCRIMINANT ANALYSIS)…..….131 1.1.1 ΑΛΛΕΣ ΜΕΘΟ∆ΟΙ ΠΑΡΟΜΟΙΕΣ ΜΕ ΤΗ ∆ΙΑΧΩΡΙΣΤΙΚΗ ΑΝΑΛΥΣΗ………148 6.1.1.1 ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ∆ΡΟΜΗΣΗ………..148 6.1.1.2 Η ΜΕΘΟ∆ΟΣ ΚΟΝΤΙΝΟΤΕΡΟΥ ΓΕΙΤΟΝΑ (Κ-NEAREST NEIGHBORS)………149 6.1.1.3 ΛΟΓΙΣΤΙΚΗ ΠΑΛΙΝ∆ΡΟΜΗΣΗ………….……….149 6.1.1.4 ∆ΕΝ∆ΡΑ ΑΠΟΦΑΣΕΩΝ (CART)………150 6.1.1.5 ΝΕΥΡΩΝΙΚΑ ∆ΙΚΤΥΑ………151 6.1.1.6 PROBIT REGRESSION……….151 6.2 ΑΝΑΛΥΣΗ ΚΑΤΑ ΣΥΣΤΑ∆ΕΣ (CLUSTER ANALYSIS)………152 6.2.1 ΠΡΟΒΛΗΜΑΤΑ ΠΟΥ ΠΡΕΠΕΙ ΝΑ ΑΝΤΙΜΕΤΩΠΙΣΕΙ Ο ΕΡΕΥΝΗΤΗΣ………..153 6.2.2 ΑΝΑΛΥΣΗ ΜΕΘΟ∆ΩΝ CLUSTERING………155 6.3 ΑΝΑΛΥΣΗ ΑΝΤΙΣΤΟΙΧΕΙΩΝ (CORRESPONDENCE ANALYSIS)………174 6.3.1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ………..………..177 7. ΜΟΝΤΕΛΑ ∆ΕΙΓΜΑΤΟΛΗΠΤΙΚΩΝ ΕΡΕΥΝΩΝ………..187 7.1 ΕΙΣΑΓΩΓΙΚΑ………..187 7.2 ΤΥΠΟΙ ∆ΕΙΓΜΑΤΟΛΗΨΙΑΣ……….187 7.2.1 ΤΥΧΑΙΑ ∆ΕΙΓΜΑΤΟΛΗΨΙΑ (RANDOM SAMPLING)……….188 7.3 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΤΥΧΑΙΑΣ ∆ΕΙΓΜΑΤΟΛΗΨΙΑΣ………..188 7.4 ΠΙΘΑΝΟΤΗΤΕΣ ΕΠΙΛΟΓΗΣ ΤΩΝ ΜΟΝΑ∆ΩΝ (INCLUSION PROBABILITIES)………189 7.5 ΣΦΑΛΜΑΤΑ ∆ΕΙΓΜΑΤΟΛΗΠΤΙΚΗΣ ΕΡΕΥΝΑΣ………191

4

(5)

7.6 ΠΛΑΙΣΙΟ ∆ΕΙΓΜΑΤΟΛΗΨΙΑΣ (SAMPLING FRAME)………193 7.6.1 Ι∆ΙΟΤΗΤΕΣ ΠΛΑΙΣΙΟΥ……….……….194 7.6.2 ΚΥΡΙΕΣ ΑΤΕΛΕΙΕΣ ΠΑΛΙΣΙΩΝ……….…………..195 7.6.3 ΚΡΙΤΗΡΙΑ ΕΠΙΛΟΓΗΣ ΠΛΑΙΣΙΟΥ……….195 7.7 ΣΧΕ∆ΙΑΣΜΟΣ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ………..……196 7.7.1 ΕΙΣΑΓΩΓΙΚΑ……….……….196 7.7.2 ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΣΤΟΝ ΣΧΕ∆ΙΑΣΜΟ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ……….196 7.7.3 ΤΙ ΠΡΕΠΕΙ ΝΑ ΑΠΟΦΕΥΘΧΕΙ ΣΕ ΕΝΑ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ………197 7.7.4 ΤΟ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΩΣ ΣΥΝΟΛΟ………..198 7.7.5 ∆ΟΚΙΜΕΣ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ………198 7.8 ΣΧΕ∆ΙΑΣΜΟΙ ∆ΕΙΓΜΑΤΟΛΗΨΙΑΣ………..199 7.8.1 ΑΠΛΗ ΤΥΧΑΙΑ ∆ΕΙΓΜΑΤΟΛΗΨΙΑ (SIMPLE RANDOM SAMPLING)………199

7.8.2 ΣΤΡΩΜΑΤΙΚΗ ∆ΕΙΓΜΑΤΟΛΗΨΙΑ (STRATIFIED SAMPLING)………..205

8. ΠΡΟΒΛΕΨΕΙΣ……….214 ΒΙΒΛΙΟΓΡΑΦΙΑ

(6)

1.

Εισαγωγή

Σκοπός του παρόντος οδηγού είναι να παρουσιάσουµε βήµα-βήµα πώς να αντιµετωπίζουµε µε βασικές στατιστικές µεθόδους χρησιµοποιώντας το στατιστικό πακέτο SPSS την αρχική ανάλυση ενός αρχείου που περιέχει κατηγορικές και/ ή ποσοτικές µεταβλητές (είτε ένα ερωτηµατολόγιο, είτε ένα αρχείο που να ταξινοµεί περιστατικά σε κατηγορίες κ.α.). Επίσης, ο οδηγός περιγράφει µε σαφή πρακτικά βήµατα, πως µπορούµε να βρίσκουµε συσχετίσεις µεταξύ µεταβλητών µε απλούς ή σύνθετους ελέγχους υποθέσεων και τι άλλες σχετικές µεθοδολογίες µπορούµε να εφαρµόσουµε. Επιπλέον, στο τέλος κάθε ενότητας, στην οποίο έχει αναλυθεί µία µέθοδος, περιέχει και ένα σχετικό παράδειγµα, µια εφαρµογή µε αναλυτική περιγραφή το πώς γίνεται βήµα-βήµα η ανάλυση της µεθόδου που έχει αναλυθεί µε χρήση του SPSS. Ο οδηγός ξεκινάει περιγράφοντας τους στοιχειώδεις ελέγχους που κάνουµε σε µια ανάλυση δεδοµένων(είτε κατηγορικών, είτε ποσοτικών). Πιο συγκεκριµένα, αναφέρουµε τους ελέγχους:

One Sample T-test

Chi-square Test (έλεγχος Χ2 ) T-test δύο δείγµατα ανεξάρτητα Paired Sample T-test

Έλεγχος Κανονικότητας καταλοίπων Έλεγχος Kruskal-Wallis One-way ANOVA Έλεγχος ύπαρξης γραµµικής συσχέτισης µεταξύ µεταβλητών Μετά από κάθε ανάλυση ακολουθεί και ένα παράδειγµα. Στο επόµενο κεφάλαιο, θα ασχοληθούµε µε το τι µεθόδους µπορούµε να χρησιµοποιήσουµε στην ανάλυση συνεχών/ ποσοτικών µεταβλητών. Πιο συγκεκριµένα στο παρόν κεφάλαιο γίνεται λόγος για το πια περιγραφικά µέτρα µπορούµε να εξάγουµε γα ποσοτικά δεδοµένα, καθώς και για την ανάλυση απλής και πολλαπλής γραµµικής παλινδρόµησης, επισηµαίνοντας τις στοιχειώδεις υποθέσεις του γραµµικού µοντέλου (Κανονικότητα καταλοίπων, Ανεξαρτησία καταλοίπων, Οµοσκεδαστικότητα στα κατάλοιπα), καθώς και το πώς µπορούµε να τις ελέγξουµε µε την χρήση SPSS. Ακόµη, γίνεται λόγος για την ανάλυση µοντέλων µη γραµµικής

6

(7)

παλινδρόµησης, τα οποία εφαρµόζονται µόνο στην περίπτωση που δεν ισχύουν οι υποθέσεις του γραµµικού µοντέλου αλλά και την πρόταση κάποιων µετασχηµατισµών (λογάριθµος, εκθετικός µετασχηµατισµός κ.α.) σε περίπτωση που έχουµε πρόβληµα µε τις υποθέσεις του πολλαπλού γραµµικού µοντέλου. Εν συνεχεία, περιγράφεται η µεθοδολογία της Ανάλυσης ∆ιακύµανσης (ANOVA), όπως και το ποιες είναι οι υποθέσεις που απαρτίζουν το µοντέλο της ανάλυσης διακύµανσης (Κανονικότητα καταλοίπων, Ανεξαρτησία καταλοίπων, Οµοσκεδαστικότητα στα κατάλοιπα). Τέλος, γίνεται αναφορά τι κάνουµε σε περίπτωση που ισχύουν οι υποθέσεις του γραµµικού µοντέλου, εκτός από της Κανονικότητα. Στην ουσία αναλύουµε µη παραµετρικές µεθόδους που αφορούν τον έλεγχο ισότητας διαµέσων (Kruskal-Wallis). Στο αµέσως επόµενο κεφάλαιο, γίνεται µια περιγραφή για το τι µεθόδους χρησιµοποιούµε στην ανάλυση κατηγορικών δεδοµένων. Το κεφάλαιο ξεκινάει µιλώντας γενικά για τις κατηγορίες των κατηγορικών δεδοµένων (διατεταγµένες και ονοµαστικές) και για το τι περιγραφικά µέτρα µπορούµε να εξάγουµε για κατηγορικά δεδοµένα. Συνεχίζουµε, µιλώντας για τον έλεγχο ανεξαρτησίας Χ2 _{, τον έλεγχο} ανεξαρτησίας G2 _{που βασίζεται στην µέθοδο µεγίστης πιθανοφάνειας, καθώς και για} τους έλεγχους σύγκρισης ποσοστών (σύγκριση εξαρτηµένων ποσοστών, Relative Risk). Τέλος, γίνεται λόγος τι είδους µεθοδολογία µπορούµε να χρησιµοποιήσουµε για να αναλύσουµε κατηγορικά δεδοµένα (Λογιστική Παλινδρόµηση, Λογαριθµικά Μοντέλα). Στο 5ο_{κεφάλαιο, γίνεται λόγος για Πολυµεταβλητή Στατιστική Ανάλυση. ∆ύο είναι οι} βασικές µέθοδοι Πολυµεταβλητής Στατιστικής Ανάλυσης, η ανάλυση σε κύριες συνιστώσες (Principal Components Analysis) και η παραγοντική ανάλυση (Factor Analysis). Στον παρόντα οδηγό θα αναφερθούµε µόνο στην παραγοντική ανάλυση µιας και η ανάλυση σε κύριες συνιστώσες δεν υποστηρίζεται από το SPSS (υποστηρίζεται από το MINITAB, S-plus και R). Στο τέλος του κεφαλαίου υπάρχει σχετικό παράδειγµα. Στο επόµενο κεφάλαιο, περιγράφονται τεχνικές οµαδοποίησης και κατάταξης Πολυµεταβλητών Dataset. Πιο συγκεκριµένα θα αναφερθούµε στις Οµαδοποίηση κατά συστάδες (Cluster Analysis), ∆ιαχωριστική Ανάλυση (Discriminant Analysis) και Ανάλυση Αντιστοιχιών (Correspondence Analysis).

(8)

Στο 7ο_{κεφάλαιο, θα αναφερθούµε σε µοντέλα δειγµατοληπτικών µοντέλων.}

Ειδικότερα από τις τεχνικές δειγµατοληψίας που υπάρχουν εµείς θα ασχοληθούµε µόνο µε την Απλή Τυχαία ∆ειγµατοληψία (Simple Random Sampling) και την Στρωµατική ∆ειγµατοληψία (Stratified Sampling). Επιπλέον, στο εν λόγω κεφάλαιο αναλύουµε βασικές έννοιες καθώς και τα βασικά βήµατα που χαρακτηρίζουν µια σωστή τυχαία δειγµατοληψία, τι πρέπει να προσέχουµε καθώς και ποια είναι τα δειγµατοληπτικά σφάλµατα. Τέλος, µια ενότητα αυτού του κεφαλαίου αφιερώθηκε στο πως πρέπει να φτιάχνουµε ένα σωστό ερωτηµατολόγιο. Τέλος, θα κλείσουµε αυτόν τον οδηγό µιλώντας για προβλέψεις, το που χρησιµεύουν, καθώς και πως µπορούµε να δούµε µε ένα οπτικό τρόπο το πια από τα Y, δηλαδή ποιες παρατηρήσεις της εξαρτηµένης µεταβλητής αναµένεται να έχουν µεγαλύτερες προβλεπόµενες τιµές. Σε αυτό το κεφάλαιο, το παράδειγµα που θα χρησιµοποιήσουµε θα έχει να κάνει µε την επιλογή κάποιων παιχτών του ΝΒΑ για µεταγραφή µε βάση κάποιες επιδόσεις (Rebound, Assist, Πόντους ανά αγώνα κ.α.). Αυτό που θα κάνουµε στην ουσία είναι να προτείνουµε ποιοι παίχτες αναµένεται να είναι χρήσιµοι για την δική µας οµάδα σύµφωνα µε κάποιες συγκεκριµένες επιδόσεις. Τέλος, παραθέτονται FAQs σχετικά µε την ανάλυση δεδοµένων: 1. Όταν έχω ερωτηµατολόγια και γενικότερα datasets µε κατηγορικά δεδοµένα τις θα µπορούσα να κάνω? Απάντηση: Correspondence Analysis (βλέπε κεφ. 6, ενότητα 6.3) ∆ιαχωριστική Ανάλυση (βλέπε κεφ. 6, ενότητα 6.1) Λογιστική Παλινδρόµηση (βλέπε κεφ. 3) 2. Όταν έχω συνεχή δεδοµένα, τι ανάλυση µπορώ να κάνω? Απάντηση: Ανάλυση Απλής Παλινδρόµησης (βλέπε κεφ. 3, ενότητα 3.3) Ανάλυση Πολλαπλής Παλινδρόµησης (βλέπε κεφ.3, ενότητα 3.4) Ανάλυση Μη Γραµµικής Παλινδρόµησης (βλέπε κεφ.3, ενότητα 3.3)

8

(9)

5. Όταν έχω πολλές συνεχείς µεταβλητές, µε αποτέλεσµα να υπάρχει σύγχυση αποτελεσµάτων ή να µη εξάγεται κανένα αποτέλεσµα τι µπορώ να κάνω? Απάντηση: Ανάλυση Κατά Συστάδες (βλέπε κεφ. 6, ενότητα 6.2) Παραγοντική Ανάλυση (βλέπε κεφ. 5, ενότητα 5.1) 4. Όταν θέλω να κάνω οµαδοποίηση ενός πληθυσµού σύµφωνα µε κάποιο κριτήριο, τι θα κάνω? Απάντηση: Ανάλυση Κατά Συστάδες (βλέπε κεφ. 6, ενότητα 6.2) 6. Όταν έχω πολλές κατηγορικές µεταβλητές (π.χ. ερωτηµατολόγια κλειστού τύπου), µε αποτέλεσµα να υπάρχει σύγχυση αποτελεσµάτων ή να µη εξάγεται κανένα αποτέλεσµα τι µπορώ να κάνω? Απάντηση: Correspondence Analysis (βλέπε κεφ. 6, ενότητα 6.3) 6. Όταν έχω κατηγορικές µεταβλητές και θέλω να ελέγξω την συσχέτιση µεταξύ τους ποιο συντελεστή να χρησιµοποιήσω? Απάντηση: Έλεγχος Ανεξαρτησίας Χ2 (βλέπε κεφ. 2, ενότητα 2.2) Έλεγχος Γραµµικής Συσχέτισης µεταξύ µεταβλητών κατά Spearman (βλέπε κεφ. 2, ενότητα 2.8) 7. Όταν έχω συνεχείς µεταβλητές και θέλω να ελέγξω την συσχέτιση µεταξύ τους ποιο συντελεστή να χρησιµοποιήσω? Απάντηση: Έλεγχος Γραµµικής Συσχέτισης µεταξύ µεταβλητών κατά Pearson (βλέπε κεφ. 2, ενότητα 2.8)

(10)

8. Όταν έχω κατηγορικά δεδοµένα, τι περιγραφικά µέτρα µπορώ να εξάγω για τις µεταβλητές µου? Απάντηση: Περιγραφικά Μέτρα για Κατηγορικά ∆εδοµένα (βλέπε κεφάλαιο 3, ενότητα 4.2) 9. Όταν έχω συνεχή δεδοµένα, τι περιγραφικά µέτρα µπορώ να εξάγω για τις µεταβλητές µου? Απάντηση: Περιγραφικά Μέτρα για Συνεχή ∆εδοµένα (βλέπε κεφ. 3, ενότητα 3.2) 10. Όταν τα δεδοµένα µου δεν πληρούν της προϋποθέσεις του Γραµµικού Υποδείγµατος και έχω να τρέξω απλή παλινδρόµηση, τι µπορώ να κάνω? Απάντηση: Απλή Γραµµική Παλινδρόµηση-Μη γραµµική Παλινδρόµηση (βλέπε κεφ. 3, ενότητα 3.3) 11. Όταν τα δεδοµένα µου δεν πληρούν της προϋποθέσεις του Γραµµικού Υποδείγµατος και έχω να τρέξω πολλαπλή παλινδρόµηση, τι µπορώ να κάνω? Απάντηση: Πολλαπλή Γραµµική Παλινδρόµηση (βλέπε κεφ. 3, ενότητα 3.4) 12. Όταν έχω µια συνεχή µεταβλητή και µία κατηγορική σαν dataset και θέλω να τρέξω ένα µοντέλο ANOVA, πως µπορώ να το κάνω αυτό? Απάντηση: Ανάλυση ∆ιακύµανσης κατά ένα Παράγοντα (ANOVA) (βλέπε κεφ. 3, ενότητα 3.4.1) 13. Όταν έχω µια συνεχή µεταβλητή και µία κατηγορική σαν dataset και θέλω να τρέξω ένα µοντέλο ANOVA αλλά δεν µου πληρείται η υπόθεση της κανονικότητας των καταλοίπων, τι µπορώ να το κάνω αυτό?

10

(11)

Απάντηση: Ανάλυση ∆ιακύµανσης κατά ένα Παράγοντα (ANOVA)-Μη παραµετρικές µέθοδοι ANOVA (βλέπε κεφ. 3, ενότητα 3.4.1) 14. Όταν έχω κατηγορικά δεδοµένα των οποίων οι παρατηρήσεις των µεταβλητών έχουν προέλθει από το ίδιο δείγµα (π.χ. αν ένα ερωτηµατολόγιο έχει συµπληρωθεί από ένα δείγµα 400 ατόµων και αν ένα άλλο ερωτηµατολόγιο διαφορετικό µε το πρώτο έχει συµπληρωθεί από το ίδιο δείγµα των 400 ατόµων) και θέλω να συγκρίνω ποσοστά, τι ανάλυση θα πρέπει να χρησιµοποιήσω για να κάνω αυτή τη σύγκριση? Απάντηση: Σύγκριση Εξαρτηµένων Ποσοστών (βλέπε κεφ. 4, ενότητα 4.5) 15. Όταν έχω κατηγορικά δεδοµένα των οποίων οι παρατηρήσεις των µεταβλητών έχουν προέλθει διαφορετικό δείγµα (π.χ. αν ένα ερωτηµατολόγιο έχει συµπληρωθεί από ένα δείγµα 400 ατόµων και αν ένα άλλο ερωτηµατολόγιο διαφορετικό µε το πρώτο έχει συµπληρωθεί από διαφορετικό δείγµα 400 ατόµων) και θέλω να συγκρίνω ποσοστά, τι ανάλυση θα πρέπει να χρησιµοποιήσω για να κάνω αυτή τη σύγκριση? Απάντηση: Relative Risk (βλέπε κεφάλαιο 4, ενότητα 4.4) 16. Πως θα κάνω προβλέψεις? Απάντηση: Προβλέψεις (βλέπε κεφάλαιο 8) 17. Πως µπορώ να κάνω δειγµατοληψία? Απάντηση: Μοντέλα ∆ειγµατοληπτικών Ερευνών (βλέπε κεφάλαιο 7)

(12)

2. ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ

Στο παρών κεφάλαιο θα αναφερθούµε στους στοιχειώδεις ελέγχους υποθέσεων που απαρτίζουν µια ανάλυση δεδοµένων (συνεχών και κατηγορικών δεδοµένων).

2.1

One-Sample T-test Χρησιµοποιείται για να ελέγξουµε το µέσο του δείγµατος ως προς µία ισότητα. Στην ουσία ελέγχουµε εάν ο µέσος κάποιας µεταβλητής ισούται µε κάποια τιµή. 0 1

:

H

c

H

c

µ

=

≠

όπου c είναι ένας σταθερός αριθµός. Σε περίπτωση που το p-value<0.05 (ή αλλιώς sig.<0.05) τότε απορρίπτουµε την Η0. Προϋπόθεση: Τα δεδοµένα µας θα πρέπει να ακολουθούν την κανονική κατανοµή Με χρήση SPSS:

Analyze> Compare Means> One Sample T-test

Βάζουµε στο κουτί Test Variable(s) τη µεταβλητή για την οποία θέλουµε να ελέγξουµε αν ο µέσος της ισούται µε κάποια συγκεκριµένη τιµή.

(13)

Στην επιλογή Test Value εισάγουµε την τιµή µε την οποία θέλουµε να ελέγξουµε αν ισούται ο µέσος της µεταβλητής που θέλουµε να µελετήσουµε. Το SPSS έχει σαν default τιµή το 0. Μετά πατάµε ΟΚ και το αποτέλεσµα θα είναι το παρακάτω πινακάκι: One-Sample Test 36,647 999 ,000 3271,248 3096,08 3446,41 Amount of credit in

"Deutsche Mark" (metric)

t df Sig. (2-tailed)

Mean

Difference Lower Upper 95% Confidence Interval of the Difference Test Value = 0 Από το παραπάνω πίνακα βλέπουµε ότι εφόσον p-value=0.000<0.05 η µηδενική υπόθεση απορρίπτεται εποµένως ο µέσος της υπό µελέτης µεταβλητής δεν ισούται µε 0.

2.2

Chi-square test (Έλεγχος Χ2 ₎ Ο έλεγχος Χ2 _{είναι ένα πολύ χρήσιµο στατιστικό κριτήριο, καθώς µπορεί να} χρησιµοποιηθεί για να κρίνει ένα µεγάλο αριθµό υποθέσεων οι οποίες σχετίζονται µε κατηγορικού τύπου δεδοµένα και έχει την µορφή: 0 1

:

(

:

H

ά

έ

ά

ύ

έ

ή ί

ά

H

ά

έ

ά

ύ

έ

)

εν υπ ρχει σχ ση αν µεσα στις δ ο µεταβλητ ς δηλαδ ε ναι ανεξ ρτητες

π ρχει σχ ση αν µεσα στις δ ο µεταβλητ ς

∆

Υ

ή 0 1 : : H ί ό ί ί ό ό H ά ά ά έ ώ ό

οι παρατηρηθε σες συχν τητες ε ναι σες µε τις αναµεν µενες συχν τητες

υπ ρχει διαφορ αν µεσα στιςπραγµατικ ς και τις εκτιµ µενες συχν τητες

Ο έλεγχος αυτός µπορεί να χρησιµοποιηθεί ως: Έλεγχος καλής προσαρµογής: σε αυτή την περίπτωση ο Χ2 έλεγχος προσδιορίζει αν η απόκλιση ανάµεσα στις πραγµατικές και τις εκτιµώµενες τιµές παρατηρήσεων είναι στατιστικά σηµαντική. Έλεγχος ανεξαρτησίας: σε αυτή την περίπτωση µε απλά λόγια το να γνωρίζεις τις τιµές για µια µεταβλητή, δεν σου λέει τίποτα για τις τιµές της άλλης. Για παράδειγµα, αν κάποιος είναι παντρεµένος και αν κάποιος είναι ευτυχισµένος είναι ανεξάρτητες, δηλαδή αν κάποιος είναι ευτυχισµένος δεν έχω καµία

(14)

Με χρήση SPSS: Στο µενού πάνω στο SPSS επιλέγουµε: Analyze>Descriptive Statistics>Crosstabs Και τοποθετούµε τις µεταβλητές όπως παρακάτω µετά πηγαίνουµε και επιλέγουµε το µενού Statistics και εκεί βάζουµε τικ στην επιλογή Chi-Square όπως παρακάτω: Πατάµε Continue και µετά ΟΚ.

14

(15)

Στο Output θα έχει δηµιουργηθεί ο πίνακας συνάφειας Trauma * TH Crosstabulation Count 3201 926 4127 215 361 576 3416 1287 4703 OXI NAI Trauma Total OXI NAI TH Total Το οποίο µας δείχνει ότι δεδοµένου ότι το νοσοκοµείο δεν έχει πτέρυγα αποκατάστασης τραυµάτων τα νοσοκοµεία τα οποία δεν είναι πανεπιστηµιακά είναι 3201, ενώ τα νοσοκοµεία τα οποία είναι πανεπιστηµιακά είναι 926 σε αριθµό. Οµοίως ερµηνεύεται και η περίπτωση που κάποιο νοσοκοµείο διαθέτει πτέρυγα αποκατάστασης τραυµάτων. Το επόµενο πινακάκι που εξάγεται είναι το πινακάκι που µας δείχνει αν υπάρχει ή όχι ανεξαρτησία µεταξύ των δύο µεταβλητών.

Κοιτάζοντας το p-value του ελέγχου Pearson Chi-Square βλέπουµε ότι είναι πολύ µικρό (0.000<0.05 επίπεδο σηµαντικότητας που έχουµε ορίσει) εποµένως

απορρίπτεται η µηδενική υπόθεση, δηλαδή οι µεταβλητές ΤΗ και Trauma είναι εξαρτηµένες µεταβλητές.

Σε περίπτωση, όπου η συνθήκη

n

5

(16)

και θα επιλέξουµε Monte Carlo όπως παρακάτω: Αυτό το κάνουµε γιατί όταν δεν ισχύει η συνθήκη

n

5 IJ

>

τότε ο έλεγχος Χ 2 _{δεν είναι} ισχυρός.

2.3

T-test ∆ΥΟ ∆ΕΙΓΜΑΤΑ ΑΝΕΞΑΡΤΗΤΑ Μια στατιστική τεχνική είναι η σύγκριση µέσων τιµών. Το T-test για ανεξάρτητα δείγµατα δίνει την δυνατότητα στον χρήστη να εξετάσει αν υπάρχουν διαφορές στους µέσους ανά επίπεδο µια κατηγορικής µεταβλητής.

16

(17)

Το T-test αποτελεί γενίκευση του One Sample T-test. Στο One Sample T-test είναι γνωστό το µέτρο σύγκρισης ενώ τώρα έχουµε να κάνουµε µε σύγκριση των

διακυµάνσεων των µέσων των δύο ανεξάρτητων δειγµάτων. Το τυπικό σφάλµα του µέσου πλέον υπολογίζεται από την διακύµανση και το µέγεθος του δείγµατος από τα δύο ανεξάρτητα δείγµατα.

Η λογική είναι ακριβώς η ίδια µε το One Sample T-test, µόνο που τώρα έχουµε να εκτιµήσουµε και το τυπικό σφάλµα της διαφοράς των µέσων και βασιζόµαστε στις διακυµάνσεις και το µέγεθος και των δύο ανεξάρτητων δειγµάτων.

Προϋπόθεση: Θα πρέπει να ισχύει κανονικότητα και για τις δύο οµάδες. Με χρήση SPSS:

Analyze> Compare Means> Independent-Samples T-test

Τοποθετούµε τις µεταβλητές για τις οποίες θέλουµε να ελέγξουµε αν οι µέσοι για κάθε επίπεδο της κατηγορικής Ηλικίας είναι ίσοι:

Στην επιλογή Define Groups θα καθορίσουµε την ελάχιστη και µέγιστη τιµή της κατηγορικής µεταβλητής Ηλικίας (εδώ η ελάχιστη είναι το 1 και η µέγιστη το 4). Πατάµε ΟΚ και το αποτέλεσµα θα είναι το παρακάτω πινακάκι:

(18)

Στο παραπάνω πινακάκι ο έλεγχος T-test εξάγεται για την περίπτωση που οι διακυµάνσεις είναι ίσες και σε περίπτωση που διακυµάνσεις είναι άνισες. Και στις 2 περιπτώσεις και για τις δύο µεταβλητές για τα τέσσερα επίπεδα της κατηγορικής µεταβλητής Ηλικία οι µέσοι φαίνεται να είναι ίσοι αφού τα p-values (sig.) είναι µεγαλύτερα από το 0.05. Εποµένως δεν απορρίπτεται η µηδενική υπόθεση ότι οι µέσοι ανά επίπεδο της κατηγορικής Ηλικίας είναι ίσοι.

2.4

PAIRED SAMPLES T-test

Ο έλεγχος αυτός χρησιµεύει για να µελετήσουµε αν η διαφορά των µέσων δύο µεταβλητών ισούται µε µηδέν ή είναι διάφορη του µηδενός. Ο έλεγχος έχει την µορφή: 0 1 1 1 2

:

H

2

µ

=

≠

ή 0 1 2 1 1 2

:

0 :

0 H

H

µ µ

−

=

−

≠

Με χρήση SPSS:

Analyze> Compare Means> Paired Samples T-test

Επιλέγουµε το/α ζεύγος/η των µεταβλητών που θέλουµε να µελετήσουµε αν ισχύει ότι οι µέσοι των δύο µεταβλητών είναι ίσοι ή διαφορετικά αν η διαφορά των µέσων είναι ίση µε το µηδέν ή όχι.

(19)

Πατάµε ΟΚ και το αποτέλεσµα θα είναι τα παρακάτω πινακάκια:

Paired Samples Correlations

69 ,280 ,020 Πόντοι ανα λεπτό των αγώνων των Αθλητών που αξίζουν για µεταγραφή & Assist ανα λεπτό των Αθλητών που αξίζουν για µεταγραφή Pair 1 N Correlation Sig. αυτό πινακάκι υπολογίζει τον συντελεστή συσχέτισης για να δούµε κατά πόσο οι µεταβλητές είναι συσχετισµένες µεταξύ τους. Εδώ βλέπουµε ότι συγκεκριµένες µεταβλητές δεν φαίνεται να έχουν ισχυρή συσχέτιση µεταξύ τους αφού R=0.280. Αν είχαν ισχυρή σχέση το Correlation θα ήταν κοντά στο 1. Επίσης, βλέπουµε ότι το sig. (p-value) για τον έλεγχο: 0 1

:

0 :

0 H R

H R

=

≠

είναι µικρότερο από 0.05 εποµένως απορρίπτεται η µηδενική υπόθεση ότι δεν υπάρχει καµία συσχέτιση.

Paired Samples Test

,00432825 ,00276538 ,00033291 ,00366393 ,00499257 13,001 68 ,000 Πόντοι ανα λεπτό των αγώνων των Αθλητών που αξίζουν για µεταγραφή - Assist ανα λεπτό των Αθλητών που Pair 1 Mean Std. Deviation Std. Error

Mean Lower Upper 95% Confidence

Interval of the Difference Paired Differences

(20)

Από τον παραπάνω πίνακα βλέπουµε ότι οι µέσοι των δύο µεταβλητών φαίνεται να διαφέρουν αφού (sig.<0.000) απορρίπτεται η µηδενική υπόθεση που θέλει οι µέσοι να είναι ίσοι, ή η διαφορά των δύο µέσων να είναι µηδενική.

2.5

ΕΛΕΓΧΟΣ ΚΑΝΟΝΙΚΟΤΗΤΑΣ Μία από τις προϋποθέσεις που θα πρέπει να ισχύουν για να µπορέσουµε να εκτιµήσουµε σωστά ένα γραµµικό µοντέλο είναι η υπόθεση ότι τα κατάλοιπα ακολουθούν κανονική κατανοµή µε µέσο 0 και διακύµανση γνωστή. Με χρήση SPSS: Πρώτα από όλα θα παράγουµε τα κατάλοιπα (Residuals) από το µοντέλο. Πηγαίνουµε στο µενού του SPSS και πατάµε:

Analyze> Regression> Linear

Και τοποθετούµε τις µεταβλητές ανάλογα στα κουτάκια, όπως παρακάτω:

(21)

Μετά πηγαίνουµε στο µενού Save και πατάµε την επιλογή

Πατάµε Continue και µετά ΟΚ.

Μετά πηγαίνουµε Analyze> Descriptive Statistics> Explore

Στο πρώτο κουτάκι βάζουµε τα Residuals τα οποία έχουν αποθηκευτεί στην τελευταία στήλη των δεδοµένων µας στο SPSS, όπως παρακάτω

(22)

Μετά πατάµε Continue και ΟΚ. Παίρνουµε ένα πίνακα, ο οποίος περιέχει τον έλεγχο κανονικότητας Kolmogorov-Smirnov αλλά και τον έλεγχο Shapiro-Wilks. Tests of Normality ,299 105 ,000 ,437 105 ,000 Standardized Residual

Statistic df Sig. Statistic df Sig. Kolmogorov-Smirnova Shapiro-Wilk

Lilliefors Significance Correction a. Η µηδενική υπόθεση απορρίπτεται και από τους δύο ελέγχους αφού p-value=0.000<0.05. Άρα παραβιάζεται η υπόθεση της κανονικότητας.

2.6

ΕΛΕΓΧΟΣ KRUSKAL-WALLIS Ο έλεγχος Kruskal-Wallis έχει να κάνει µε τον έλεγχο ισότητας διαµέσων και όχι ισότητας µέσων. Στην ουσία αποτελεί µια µη παραµετρική εκδοχή της ανάλυσης διακύµανσης (ANOVA). Εφαρµόζεται µόνο στην περίπτωση που δεν ισχύει η κανονικότητα καταλοίπων.

Analyze> Nonparametric Tests> K Independent samples…. Και θα κάνουµε τις εξής επιλογές:

(23)

Στο µενού Define Range θα δηλώσουµε το πόσα επίπεδα έχει η κατηγορική µεταβλητή Ηλικία. Εφόσον έχουµε 4 επίπεδα θα βάλουµε:

Πατάµε Continue και OK.

(24)

Σύµφωνα µε το οποίο οι διάµεσοι δεν φαίνεται να διαφέρουν (αφού p-value=0.473>0.05 άρα δεν απορρίπτεται η µηδενική υπόθεση).

2.7

One-way ANOVA Η One-Way ANOVA είναι απλή µορφή της ανάλυση διακύµανσης. Το µοντέλο που χρησιµοποιείται είναι το απλό µοντέλο µε την επίδραση µιας µόνο µεταβλητής, δηλαδή η µορφή του µοντέλου είναι:

1,....,

,

1,....,

ij i ij

i

a

y

j

n

µ τ ε

⎧

=

= + +

_{⎨ =}

⎩

Όπου µ: ο συνολικός µέσος του µοντέλου

τ

i _{: το πόσο επιδρά το i-επίπεδο στο µοντέλο( ισχύει πάντα} ₎ 1

0

a i i

τ

=

∑

ε

ij_{: τα σφάλµατα τα οποία είναι ανεξάρτητα και ακολουθούν κανονική} κατανοµή µε µέση τιµή 0 και διακύµανση σ2_{σταθερή αλλά άγνωστη.} Αυτό που κάνουµε είναι να ελέγχουµε την ισότητα µέσων. Απλά βασικές προϋποθέσεις είναι : Κανονικότητα Οµοσκεδαστικότητα Ανεξαρτησία καταλοίπων Για να µπορέσουµε να εφαρµόσουµε την One-Way ANOVA θα πρέπει να ισχύουν τα παραπάνω. Με χρήση SPSS:

Analyze> Compare Means> One-way ANOVA Τοποθετούµε τις µεταβλητές µας όπως παρακάτω:

(25)

και θα πάρουµε ως αποτέλεσµα το παρακάτω πινακάκι: ANOVA Πόντοι ανα αγώνα 610,297 3 203,432 6,419 ,001 3200,973 101 31,693 3811,270 104 Between Groups Within Groups Total Sum of

Squares df Mean Square F Sig.

Στο οποίο βλέπουµε ότι το µοντέλο φαίνεται να είναι στατιστικά σηµαντικό αφού p-value=0.001<0.05 εποµένως απορρίπτουµε την µηδενική υπόθεση ότι το µοντέλο δεν προσαρµόζεται καλά στα δεδοµένα µας. Επιπλέον, σε περίπτωση που θέλουµε να ελέγξουµε ισότητα ζευγών µέσων ανά επίπεδο της κατηγορικής µεταβλητής Ηλικία θα πάµε στο µενού Post Hoc και θα κάνουµε τις εξής επιλογές:

(26)

Συνήθως αυτοί οι έλεγχοι χρησιµοποιούνται διότι είναι πιο αξιόπιστοι. Το αποτέλεσµα που θα έχουµε είναι το παρακάτω πινακάκι: Αν κοιτάξουµε την στήλη Sig. Θα δούµε ότι όσα από τα ζεύγη έχουν sig. µεγαλύτερο από 0.05 τότε οι µέσοι των επιπέδων της κατηγορικής Ηλικίσ ανά δύο είναι ίσοι.

2.8

ΕΛΕΓΧΟΣ ΥΠΑΡΞΗΣ ΓΡΑΜΜΙΚΗΣ ΣΥΣΧΕΤΙΣΗΣ ΜΕΤΑΞΥ ΜΕΤΑΒΛΗΤΩΝ Ο έλεγχος που χρησιµοποιείται για να ελέγξουµε αν υπάρχει γραµµική συσχέτιση µεταξύ συνεχών µεταβλητών είναι ο έλεγχος Pearson, που έχει την µορφή: 0 1

:

0 :

0 H

H

ρ

=

≠

∆ηλαδή, ελέγχει την µηδενική υπόθεση ότι δεν υπάρχει συσχέτιση έναντι ότι η συσχέτιση είναι διάφορη του µηδενός.

26

(27)

Πέρα από τον συντελεστή συσχέτισης του Pearson, υπάρχει και ο συντελεστής του Spearman, ο οποίος αποτελεί µία µη παραµετρική µορφή του συντελεστή συσχέτισης του Pearson και αντικαθιστά τις πραγµατικές τιµές των δεδοµένων µε την σειρά κατάταξης. (στην ουσία εφαρµόζεται µόνο σε διατεταγµένα δεδοµένα). Η τιµή και των δύο συντελεστών κυµαίνονται µεταξύ -1 και 1. Με χρήση SPSS: Για συνεχή δεδοµένα θα εφαρµόσουµε Pearson έλεγχο: Analyze> Correlate> Bivariate

Και βάζουµε τις µεταβλητές όπως παρακάτω:

(28)

Βλέπουµε ότι απορρίπτεται η µηδενική υπόθεση ότι δεν υπάρχει συσχέτιση µεταξύ των δύο µεταβλητών αφού p-value=0.000<0.05. Αυτό µπορούµε να το καταλάβουµε και από την τιµή του συντελεστή Pearson που είναι της τάξεως του 56,4%.

Για διατεταγµένα δεδοµένα θα χρησιµοποιήσουµε τον συντελεστή Spearman: Analyze> Descriptive Statistics> Crosstabs

Και αφού βάλουµε τις µεταβλητές όπως παρακάτω:

θα πάµε στο µενού Statistics και θα κάνουµε την εξής επιλογή:

(29)

Και το αποτέλεσµα θα είναι το παρακάτω πινακάκι:

Βλέπουµε ότι το p-value είναι µικρότερο από 0.05 οπότε απορρίπτεται η µηδενική υπόθεση ότι τα δεδοµένα δεν είναι συσχετισµένα γραµµικά. Αυτό µπορούµε να το καταλάβουµε και από την τιµή του συντελεστή Spearman που είναι της τάξεως 12,6% (όχι µεγάλο αλλά διάφορο του µηδενός).

(30)

3. ΑΝΑΛΥΣΗ ΣΥΝΕΧΩΝ ∆Ε∆ΟΜΕΝΩΝ

3.1

ΓΕΝΙΚΑ ΣΤΟΙΧΕΙΑ Στην ανάλυση συνεχών δεδοµένων (π.χ. ηλικία, χρόνος, επίδοση κ.α.) χρησιµοποιούµε µοντέλα απλής γραµµικής παλινδρόµησης (µε µία µόνο επεξηγηµατική µεταβλητή Χ), µοντέλα πολλαπλής γραµµικής παλινδρόµησης (δηλαδή µε παραπάνω από µια επεξηγηµατική µεταβλητή Χ στο µοντέλο), καθώς και µε µοντέλα ανάλυσης διακύµανσης που εκφράζουν την επίδραση κάθε επιπέδου µιας ή περισσοτέρων επεξηγηµατικών στην εξαρτηµένη Y. Για παράδειγµα, έστω ότι θέλουµε να ελέγξουµε την επίδραση που θα είχε κάποιο φάρµακο (φάρµακο Α, φάρµακο Β, φάρµακο Γ, δηλαδή 3 επίπεδα στην µεταβλητή Φάρµακο) σε ένα άνθρωπο ανάλογα µε την ηλικία του. Εδώ η εξαρτηµένη είναι η ηλικία του ανθρώπου (Υ) και η επεξηγηµατική είναι του Φάρµακο (Χ). Και στις τρεις αυτές αναλύσεις, επειδή ακριβώς στηρίζονται στο γραµµικό υπόδειγµα, για να είναι οι εκτιµήσεις συνεπείς, οπότε και σωστές θα πρέπει να πληρούνται κάποιες προϋποθέσεις. • Κανονικότητα: τα κατάλοιπα θα πρέπει να ακολουθούν κανονική κατανοµή µε µέσο 0 και διακύµανση γνωστή (

_ε

_N

(

_0,

_σ

2

)

_{). Η Κανονικότητα µπορεί να} ελεγχθεί µέσω του ελέγχου Kolmogorov-Smirnov και Shapiro-Wilks µε µηδενική υπόθεση Ho : τα κατάλοιπα ακολουθούν κανονική κατανοµή και Η1 : τα κατάλοιπα δεν ακολουθούν κανονική κατανοµή. Όταν το p-value του ελέγχου είναι µεγαλύτερο από 0.05 τότε απορρίπτουµε την µηδενική υπόθεση. Ο Shapiro-Wilks έλεγχος είναι πιο αξιόπιστος, ιδιαίτερα όταν έχουµε µικρά δείγµατα. • Οµοσκεδαστικότητα: ισότητα διακυµάνσεων (

Cov

( , ) 0,

ε ε

_i _j

= ∀ =

i

j

). Στην περίπτωση απλής γραµµικής παλινδρόµησης κάνουµε ένα διάγραµµα σηµείων (Scatter Plot) των καταλοίπων µε την επεξηγηµατική. Αν τα σηµεία είναι τυχαία και δεν παρουσιάζουν κάποια τάση τότε υπάρχει Οµοσκεδαστικότητα. Στην περίπτωση πολλαπλής παλινδρόµησης θα πρέπει να κάνουµε το ίδιο µε την απλή παλινδρόµηση αλλά για όλες τις επεξηγηµατικές. Τέλος στην περίπτωση της ανάλυσης διακύµανσης θα κάνουµε ένα Spread vs Level with Levene Test όπου θα κάνει έλεγχο ισότητας διακυµάνσεων για καθένα από τα επίπεδα της επεξηγηµατικής. ( πιο κάτω ακολουθεί παράδειγµα)

(31)

• Ανεξαρτησία καταλοίπων (

Cov

( , ) 0,

ε ε

i j

= ∀ ≠

i

j

). Κάνουµε ένα διάγραµµα σηµείων µεταξύ των προβλεπόµενων τιµών (Predicted values) και των καταλοίπων (Residuals). Αν είναι τυχαία τα σηµεία τότε έχουµε ανεξαρτησία. Επίσης µια άλλη λύση είναι να κάνουµε ένα Runs-test. Αλλά δεν θα ασχοληθούµε µε αυτό στον παρόντα οδηγό. • Γραµµικότητα θα κάνουµε ένα διάγραµµα σηµείων (Scatter Plot)

προβλεπόµενων τιµών (Unstandardized Predicted Values) έναντι καταλοίπων (Standardized Residuals). Στην περίπτωση της πολλαπλής γραµµικής παλινδρόµησης θα πρέπει επιπλέον να ελέγχουµε και την πολυσυγγραµµικότητα, η οποία υφίσταται όταν υπάρχει συσχέτιση µεταξύ των επεξηγηµατικών µεταβλητών. Αυτό µπορούµε να το διαγνώσουµε µε ένα µέτρο που ονοµάζεται VIF και ισούται µε

1

1 −

R

_i , όπου Ri είναι ο συντελεστής συσχέτισης για κάθε ζεύγος επεξηγηµατικών. Όταν VIF>10 τότε έχουµε πρόβληµα πολυσυγγραµµικότητας. Πριν κάνουµε όµως οποιαδήποτε ανάλυση και οποιοδήποτε έλεγχο υποθέσεων καλό θα ήταν να κάνουµε ένα διάγραµµα σηµείων (Scatter Plot) για να δούµε αν υπάρχει κάποια τάση στα δεδοµένα. Με χρήση SPSS: Στο µενού SPSS

Graphs> Scatter> Simple (αν έχουµε µια επεξηγηµατική)

Graphs> Scatter> Simple (αν έχουµε περισσότερες επεξηγηµατικές)

3.5

ΠΕΡΙΓΡΑΦΙΚΑ ΜΕΤΡΑ

Σε συνεχή δεδοµένα τα περιγραφικά µέτρα µπορούµε να εξάγουµε είναι ο µέσος, η διακύµανση, η τυπική απόκλιση, η µέγιστη τιµή, ελάχιστη τιµή, κύρτωση και ασυµµετρία. Όσον αφορά την κύρτωση όταν ξεπερνάει το 3 τότε έχουµε σοβαρό πρόβληµα κύρτωσης.

(32)

Με χρήση SPSS:

Analyze> Descriptive Statistics> Descriptives

Βάζουµε στο κουτάκι τις µεταβλητές γα τις οποίες θέλουµε να βγάλουµε περιγραφικά µέτρα, όπως παρακάτω µετά πηγαίνουµε στο µενού Options και κάνουµε τις εξής επιλογές Μετά πατάµε Continue και ΟΚ. Έχοντας µιλήσει για αυτά θα µπορούσαµε να ξεκινήσουµε µιλώντας για την απλή γραµµική παλινδρόµηση.

32

(33)

3.3

ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ∆ΡΟΜΗΣΗ Στην απλή γραµµική παλινδρόµηση το γραµµικό µοντέλο αποτελείται από την εξαρτηµένη µεταβλητή και µια µόνο ανεξάρτητη Χ και έχει την µορφή:

y a

= +

β

x

+

ε

όπου β είναι η µεταβολή της Y όταν η Χ µεταβληθεί κατά µια µονάδα, ενώ το α είναι η τιµή που θα πάρει η Υ αν Χ=0. Το ε είναι τα κατάλοιπα για τα οποία ισχύει Ε(ε)=0. Όπως αναφέρθηκε στην ενότητα 3.1 για να έχουµε εκτιµήσει σωστά το απλό µοντέλο θα πρέπει να πληρούνται οι προϋποθέσεις της Κανονικότητας, της Οµοσκεδαστικότητας και της Ανεξαρτησίας. Σε περίπτωση που δεν πληρούνται οι προϋποθέσεις θα πρέπει να χρησιµοποιήσουµε ένα µη γραµµικό µοντέλο (εκθετικό, λογαριθµικό κ.α.), εφόσον το γραµµικό δεν θα προσαρµόζεται καλά στα δεδοµένα µας (για αυτό θα µιλήσουµε παρακάτω). Εφόσον λύσουµε το πρόβληµα µε τις υποθέσεις του µοντέλου, ένα άλλο πρόβληµα που καλούµαστε να λύσουµε είναι η στατιστική σηµαντικότητα των µεταβλητών του µοντέλου. Όταν εφαρµόσουµε σε κάποια δεδοµένα στο SPSS γραµµική παλινδρόµηση στο τέλος του Output εξάγει ένα πινακάκι που ονοµάζεται Coefficients που στην ουσία είναι ο πίνακας εκτίµησης των παραµέτρων του µοντέλου αλλά και ελέγχου στατιστικής σηµαντικότητας καθεµίας µεταβλητής. Για τον έλεγχο στατιστικής σηµαντικότητας των µεταβλητών χρησιµοποιείται ο έλεγχος t-test µε Η0 : η µεταβλητή δεν είναι στατιστικά σηµαντική Η1 : η µεταβλητή είναι στατιστικά σηµαντική Η µηδενική υπόθεση απορρίπτεται όταν p-value<0.05. ∆ηλαδή εµείς στο πινακάκι των Coefficient θέλουµε να έχουµε όσο το δυνατόν µικρά P-value, εποµένως µεγάλες τιµές του t-statistic. Αν κάποια µεταβλητή έχει µεγάλο p-value τότε κρίνεται ακατάλληλη για το µοντέλο µας. Ένα από τα εναποµείναντα πινακάκια που εξάγει το SPSS για την γραµµική παλινδρόµηση είναι αυτό της ANOVA. Στον πίνακα αυτό χρησιµοποιείται το F-test το οποίο ελέγχει την καλή προσαρµογή του µοντέλου στα δεδοµένα. Ο έλεγχος αυτός

(34)

0 1 2 1

:

...

0 :

n i

H

ά

έ

ό

ί

ά

ό

β

τουλ χιστον να απ τα β ε ναι δι φορο του µηδεν ς

=

Η µηδενική υπόθεση απορρίπτεται όταν p-value<0.05 ή για µεγάλες τιµές του F-statistic. ∆ηλαδή, αν το p-value είναι µεγάλο τότε το µοντέλο µας δεν προσαρµόζεται καλά εποµένως είναι στατιστικά µη σηµαντικό. Εµείς θέλουµε µικρές τιµές p-value και µεγάλες τιµές του F-statistic. Τέλος, το τελευταίο πινακάκι που εξάγεται είναι το επονοµαζόµενο Model Summary στην πρώτη στήλη του οποίου υπολογίζεται ο συντελεστής συσχέτισης (παίρνει τιµές µεταξύ -1 και 1) των επεξηγηµατικών µεταβλητών µε την εξαρτηµένη. Μας ενδιαφέρουν µεγάλα ποσοστά. Στην ουσία υπολογίζεται η συνολική συσχέτιση των επεξηγηµατικών (σε περίπτωση πολλαπλής παλινδρόµησης) µε την εξαρτηµένη. Στην τρίτη στήλη, υπολογίζεται ο συντελεστής προσδιορισµού (παίρνει τιµές από 0 έως 1) που δείχνει το ποσοστό διακύµανσης που εξηγείται από το µοντέλο. Καλό είναι το ποσοστό αυτό να είναι µεγάλο (από πάνω από 60%). Με χρήση SPSS: Θέλουµε να βρούµε ένα µοντέλο που να µας δείχνει κατά πόσο η ποσοτική µεταβλητή ηλικία επηρεάζει την επίδοση των αθλητών ΝΒΑ όσον αφορά τους πόντους ανά λεπτό. ∆εδοµένου λοιπόν των παραπάνω το µοντέλο θα είναι: 0 1

y

=

β

+

β

x

₁ Όπου x1 αντιπροσωπεύει την ποσοτική µεταβλητή «Ηλικία» Πριν προχωρήσουµε σε οποιαδήποτε ανάλυση θα ελέγξουµε αν ισχύουν οι προϋποθέσεις του γραµµικού µοντέλου η οποίες είναι: • Κανονικότητα καταλοίπων, δηλαδή τα κατάλοιπα να ακολουθούν κανονική κατανοµή µε µέση τιµή 0 και διακύµανση σ2_{σταθερή,} Με χρήση SPSS: Πρώτα από όλα θα παράγουµε τα κατάλοιπα (Residuals) από το µοντέλο. Πηγαίνουµε στο µενού του SPSS και πατάµε:

(35)

(36)

Πατάµε Continue και µετά ΟΚ.

Μετά πηγαίνουµε Analyze> Descriptive Statistics> Explore

Στο πρώτο κουτάκι βάζουµε τα Residuals τα οποία έχουν αποθηκευτεί στην τελευταία στήλη των δεδοµένων µας στο SPSS, όπως παρακάτω και µετά πηγαίνουµε στο µενού Plots και κάνουµε τις εξής επιλογές Μετά πατάµε Continue και ΟΚ. Παίρνουµε ένα πίνακα, ο οποίος περιέχει τον έλεγχο κανονικότητας Kolmogorov-Smirnov αλλά και τον έλεγχο Shapiro-Wilks.

36

(37)

Tests of Normality

,299 105 ,000 ,437 105 ,000

Standardized Residual Statistic df Sig. Statistic df Sig. Kolmogorov-Smirnova Shapiro-Wilk

Lilliefors Significance Correction a. Η µηδενική υπόθεση απορρίπτεται και από τους δύο ελέγχους αφού p-value=0.000<0.05. Άρα παραβιάζεται η υπόθεση της κανονικότητας. • Οµοσκεδαστικότητα, δηλαδή έχουµε ίσες διακυµάνσεις, αυτό το ελέγχουµε κάνοντας διάγραµµα των καταλοίπων έναντι της επεξηγηµατικής Με χρήση SPSS: Πηγαίνουµε στο µενού του SPSS: Graphs> Scatter> Simple

(38)

και πατάµε ΟΚ. 6,00000 5,00000 4,00000 3,00000 2,00000 1,00000 0,00000 -1,00000 Standardized Residual 35,00 30,00 25,00 Ηλικί α Από το διάγραµµα καταλαβαίνουµε ότι έχουµε πρόβληµα ετεροσκεδαστικότητας, αφού υπάρχει κάποιο pattern (γραµµικό). Άρα παραβιάζεται η υπόθεση της Οµοσκεδαστικότητας. • Ανεξαρτησία καταλοίπων, θα κάνουµε ένα διάγραµµα µεταξύ προβλεπόµενες τιµές και τα κατάλοιπα ή θα υπολογίσουµε την ανεξαρτησία των καταλοίπων µε την βοήθεια του Durbin-Watson µέτρο. Για τιµές πολύ κοντά στο 2 σηµαίνει ότι υπάρχει ανεξαρτησία, ενώ τιµές που αποκλίνουν αρκετά από το 2 η ανεξαρτησία δεν ισχύει. Με χρήση SPSS: Πρώτα από όλα θα πρέπει να παράγουµε τις προβλεπόµενες τιµές. Θα κάνουµε την ίδια διαδικασία µε την οποία εξάγαµε τα Residuals. Πηγαίνουµε στο µενού του SPSS και πατάµε: Analyze> Regression> Linear

(39)

(40)

και µετά κάνουµε ένα διάγραµµα σηµείων µε τις προβλεπόµενες τιµές στον άξονα των Υ και τα Residuals στον άξονα των Χ.

Graphs> Scatter> Simple

Μετά πατάµε ΟΚ.

Από το διάγραµµα καταλαβαίνουµε ότι υπάρχει κάποιο pattern στα δεδοµένα µας. Εποµένως παραβιάζεται και η ανεξαρτησία.

(41)

6,00000 5,00000 4,00000 3,00000 2,00000 1,00000 0,00000 -1,00000 Standardized Residual 0,01100 0,01000 0,00900 0,00800 0,00700 0,00600 0,00500 0,00400 Un sta ndar dize d Pre dic ted Va lue Από το παραπάνω διάγραµµα παρατηρούµε ότι παραβιάζεται η υπόθεση της γραµµικότητας, αφού δεν βλέπουµε να υπάρχει κάποια γραµµική τάση στα σηµεία. Για να υπολογίσουµε τον δείκτη Durbin-Watson:

Και στο µενού Statistics επιλέγουµε το Durbin-Watson και πατάµε Continue και ύστερα ΟΚ.

Βλέπουµε πως η τιµή του δείκτη Durbin-Watson δεν είναι κοντά στο 2 άρα παραβιάζεται η υπόθεση της ανεξαρτησίας καταλοίπων.

Το ότι το µοντέλο µας δεν είναι καθόλου µπορούµε να το δούµε και από το πινακάκι ANOVA που βγαίνει από το Analyze> Regression> Linear

(42)

και µετά ΟΚ. Στο πινακάκι ANOVA βλέπουµε ότι το P-value του ελέγχου είναι µεγάλο (0.169>0.05) άρα η µηδενική υπόθεση δεν απορρίπτεται, εποµένως το µοντέλο µας δεν προσαρµόζεται καλά στα δεδοµένα µας. ANOVAb ,000 1 ,000 1,915 ,169a ,010 103 ,000 ,011 104 Regression Residual Total Model 1 Sum of

Predictors: (Constant), Ηλικία a. Dependent Variable: Πόντοι ανα λεπτό b. Αν είχαµε πολλαπλή παλινδρόµηση θα προσπαθούσαµε να κάνουµε ένα µετασχηµατισµό έτσι ώστε πλέον να µην έχουµε γραµµικό µοντέλο, αλλά κάποιου είδους άλλο µοντέλο (µη γραµµικό) έτσι ώστε να µην χρειάζεται να ελέγξουµε καµία υπόθεση, διότι οι παραπάνω υποθέσεις αφορούν µόνο το γραµµικό υπόδειγµα (θα µιλήσουµε παρακάτω).

42

(43)

Εδώ στην απλή γραµµική παλινδρόµηση πάλι θα κάνουµε µετασχηµατισµό αλλά µε µια εντολή που υπάρχει στο SPSS:

Analyze> Regression> Curve Estimation Και τοποθετούµε τις µεταβλητές όπως παρακάτω: και διαλέγουµε πιο µη γραµµικό µοντέλο θέλουµε να παράγουµε. Για λόγους ευκολίας θα χρησιµοποιούµε µόνο τα µοντέλα τα οποία βρίσκονται µέσα στα πλαίσια, γιατί για τα υπόλοιπα η ερµηνεία είναι δύσκολη και µερικές φορές αδύνατη. Εµείς στην ανάλυσή µας θα χρησιµοποιήσουµε το εκθετικό µοντέλο (exponential model) Η ερµηνεία αυτού µοντέλου είναι ότι καθώς το Χ µεταβάλλεται κατά µία µονάδα τότε ο λογάριθµος του Υ µεταβάλλεται κατά β, και όταν το Χ=0 τότε η τιµή του

(44)

Όµοια ερµηνεύονται και τα υπόλοιπα µοντέλα. Μόνο που στα µοντέλα Inverse και S το Χ δεν µπορεί να πάρει την τιµή µηδέν. Εµείς θα χρησιµοποιήσουµε το εκθετικό µοντέλο που δεν περιέχει την σταθερά. ΠΡΟΣΟΧΗ: Την σταθερά θα την αφαιρούµε µόνο όταν το µοντέλο δεν µας βγαίνει στατιστικά σηµαντικό αλλιώς καλό είναι µην την βγάζουµε. Έτσι το µοντέλο µας είναι

ln( )

Y

=

bX

Το πινακάκι της ANOVA µας δείχνει ότι το p-value είναι 0.000<0.05 εποµένως απορρίπτεται η µηδενική υπόθεση, άρα το µοντέλο µας προσαρµόζεται καλά στα δεδοµένα µας. ANOVAa 1750,886 1 1750,886 4828,069 ,000 24,660 68 ,363 1775,546 69 Regression Residual Total Sum of

The independent variable is Ηλικία Αθλητών που αξίζουν για µεταγραφή. The equation was estimated without the constant term.

a. Model Summarya ,989 ,977 ,977 ,756 R R Square Adjusted R Square Std. Error of the Estimate The independent variable is Ηλικία.

The equation was estimated without the constant term. a. Επιπλέον βλέπουµε ότι από το µοντέλο εξηγείται το 97,7% (πολύ καλό ποσοστό) της συνολικής διακύµανσης. Η ερµηνεία του µοντέλου µας είναι ότι όσο αυξάνεται η ηλικία κατά µία µονάδα, ο λογάριθµος των πόντων ανά λεπτό θα µεταβάλλεται κατά β.

44

(45)

3.5

ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ∆ΡΟΜΗΣΗ Η πολλαπλή παλινδρόµηση αποτελεί µια γενίκευση της απλής γραµµικής παλινδρόµησης. Το µοντέλο της είναι: 0 1 1 2 2 0 1

...

_{n n} n i i i

y

x

ή

y

x

β

ε

=

+

=

+

∑

+

ε

Όπως και στην απλή γραµµική παλινδρόµηση έτσι και εδώ πρέπει να ισχύουν οι ίδιες υποθέσεις: τα κατάλοιπα πρέπει να ακολουθούν κανονική κατανοµή µε µέσο 0 και γνωστή διακύµανση γνωστή, να υπάρχει ισότητα διακυµάνσεων (Οµοσκεδαστικότητα), ανεξαρτησία καταλοίπων και επιπλέον θα πρέπει να προσέξουµε ώστε να µην υπάρχει πολυσυγγραµµικότητα, δηλαδή να µην υπάρχει γραµµική συσχέτιση µεταξύ των επεξηγηµατικών. Αυτό µπορούµε να το ελέγξουµε µε ένα δείκτη που ονοµάζεται VIF και ισούται µε

1

₂

1 −

R

_i , όπου Ri2 είναι το ποσοστό της µεταβλητότητας που ερµηνεύει το µοντέλο και i ο αριθµός των µεταβλητών που χρησιµοποιήσαµε στις παλινδροµήσεις των µοντέλων που έχουµε Σε αυτή την περίπτωση υπάρχουν 2 τρόποι για να µπορέσουµε να αντιµετωπίσουµε την πολυσυγγραµµικότητα. • Να κάνουµε πίνακα συσχετίσεων µε τις επεξηγηµατικές για να δούµε ποιες µεταβλητές έχουν µεγάλο συντελεστή συσχέτισης. Ο συντελεστής συσχέτισης, όπως ειπώθηκε παραπάνω, παίρνει τιµές από -1 έως 1, οπότε τιµές κοντά στο -1 και στο 1 υποδεικνύουν µεγάλη συσχέτιση. Όταν ανιχνευτεί ζεύγος επεξηγηµατικών µεταβλητών µε µεγάλο συντελεστή συσχέτισης, τότε αφαιρούµε την µια από αυτές αφού στην ουσία δίνουν την ίδια πληροφορία στον µοντέλο. Ένας πιο απτός τρόπος, από τον παραπάνω είναι να κάνουµε έναν πίνακα διαγραµµάτων σηµείων (Matrix Scatter Plot) µε όλες τις

επεξηγηµατικές. Αν στα διαγράµµατα φαίνεται να είναι υπάρχει κάποια γραµµική τάση σε κάποιο ζεύγος από τις επεξηγηµατικές τότε αφαιρούµε την µία από αυτές.

(46)

Analyze> Correlate> Bivariate

Βάζουµε τις επεξηγηµατικές που έχουµε χρησιµοποιήσει στο πολλαπλό γραµµικό µοντέλο που έχουµε δηµιουργήσει και έχουµε εντοπίσει πιθανή ύπαρξη πολυσυγγραµµικότητας (µε το µέτρο VIF που αποτελεί επιλογή στο Analyze> Regression> Linear στο µενού Statistics επιλέγουµε Colinearity diagnosis):

Και µετά πατάµε ΟΚ. Το αποτέλεσµα είναι

(47)

Στον πίνακα των συσχετίσεων παραπάνω βλέπουµε ότι υπάρχουν κάποιες µεταβλητές οι οποίες συσχετίζονται µεταξύ τους. Βλέπουµε όµως η µεταβλητή που σχετίζεται µε αρκετές µεταβλητές είναι η Assist ανά αγώνα. Οπότε ίσως αφαιρούσαµε αυτή την µεταβλητή από το υπόδειγµα µας. Για να έχουµε και µια οπτική επαφή καλό θα ήταν να κάνουνε και ένα πίνακα διαγραµµάτων σηµείων: