KWANTITATIEVE ANALYSEMathias Leonard Vercauteren Faculteit Politieke en Sociale Wetenschappen Inhoudsopgave: 1. ANOVA A. Vergelijking van 2 verwachtingen 1) 2) 3) 4) Z-procedure t-procedure Voorbeelden Samengestelde t-procedures a. Z-procedure b. t-procedure c. Voorbeeld d. Gebruik samengestelde procedure B. ANOVA Probleemstelling en logica ANOVA Van t-test naar ANOVA Eén-factor ANOVA-model Schatting van populatieparameters F-toets a. SST b. SSG c. SSE d. F-toetsingsgrootheid 6) Contrasten 1) 2) 3) 4) 5) C. Meervoudige vergelijkingen 1) 2) 3) 4) Least Significant Differences (LSD) Bonferroni-methode Voorbeeld Statistische significantie revisited 2. MEERVOUDIGE REGRESSIE A. Herhaling BVA (STAT 1) 1) 2) 3) 4) 5) 6) 7) 8) Spreidingsdiagram (scatterplot) Enkelvoudige lineaire regressie analyse Kleinste kwadratenregressie (OLS) Covariantie Standaardisatie = Z-transformatie Correlatiecoëfficiënt Determinatiecoëfficiënt B: Gestandaardiseerde b B. Bivariate correlatie- en regressie-analyse 1) Voorbeeld a. SPSS-output 2) Vertekeningen a. Outliers b. Invloedrijke waarnemingen c. Non-lineariteit 3) Residuen-analyse 4) Controle op invloedrijke waarnemingen 2 a. DfFit b. DfBeta C. Inferentie over regressiecoëfficiënten 1) Assumpties 2) Betrouwbaarheidsinterval 3) Significantietoets 3. OPSTAP NAAR MULTIVARIATE ANALYSE A. Opstap naar multivariate analyse 1) Types relaties 2) Voorbeelden B. Het multivariate model met 2 onafhankelijke variabelen 1) Concept van gedeelde variantie 2) Illustratie 3) Uitbreiding naar meer onafhankelijke variabelen 4. MULTIPLE REGRESSIE-ANALYSE A. Inleiding tot multiple regressie-analyse 1) Het multivariate basismodel a. Concept van gedeelde variantie b. Voorbeelddata c. Relatie bivariate b’s en meervoudige b’s 2) Coëfficiënten a. Residuelen b. Meervoudige correlatiecoëfficiënt c. Meervoudige determinatiecoëfficiënt d. Gestandaardiseerde partiële regressiecoëfficient e. Semi-Partiële correlatie (part-correlatie) f. Partiële correlatie B. Multiple regressie-analyse: Coëfficiënten 1) Toepassing a. Beschrijving data b. Coëfficiënten c. Outliers d. Uitbreiding naar meer predictoren 2) Types relaties tussen variabelen a. Verhouding bi- en multivariatie coëfficiente b. Type 1 correlatie-patroon i. Redundantie ii. Suppressie c. Type 2 correlatie-patroon i. Suppressie d. Patroon voor meer dan 3 variabelen 3 Multiple regressie-analyse: Dummy Codering en Interactie-effecten 1) Nominale Onafhankelijke variabelen a. Hogere complexiteit 4 . F voor b b. Assumptie 4: ε is normaal verdeeld e. Effect-codering 2) Modelleren interactie-effecten a. Dummy codering dichotome varn b. Steekproevenverdeling van b b.C. Assumptie 3: εi’s zijn onafhankelijk d. Multiple regressie-analyse: Assumpties 1) Inleiding a. F voor R² c. Assumptie 1: ε is niet gecorreleerd met X b. Assumptie 2: Homoscedasticiteit c. t-test voor bivariate regressie 2) Assumpties a. Interactie interval X – nominaal X b. F voor subsets van X D. Dummy codering polytome varn c. Interactie interval X – interval X c. Assumptie 6: Afwezigheid multicollineariteit 3) Voorbeeld 4) F-tests a. Assumptie 5: lineariteit f. ANOVA 5 . dan N(0.σ1) en N(µ2. dus 2 toevalsvariabelen met een numerieke uitkomst.µ2 = x −x 1 2 We gebruiken de steekproevenverdeling van twee gemiddelden als indicatie voor het verschil van de twee populatieverwachtingen. De verdeling verschilt echter van steekproef tot steekproef. Ho = µ1 = µ2 (bijvoorbeeld mannen en vrouwen zijn gelijk op basis van etnocentrisme) Ha = µ1 ≠ µ2 6 . gebruiken we de z-procedure. waarvan elk betrekking heeft op een andere populatie en met een mogelijk verschillende n (steekproefomvang). Situatie: Vergelijking van 2 verwachtingen We beschouwen twee groepen als twee EAS.A.1): z= ( x 1 − x 2) − ( µ − µ ) 1 2 σ +σ 2 1 2 2 2 Meestal kennen we σ niet en gebruiken we de standaardafwijking s als schatting. We gaan nagaan hoe groot die kans is dat het verschil door louter toeval komt. Z-procedure X1 en X2 zijn onafhankelijke stochastische variabelen (=kansvariabelen). gebruiken we de t-procedure met s1 en s2 als schatting voor σ1 en σ2. Wanneer we stellen dat die kans klein is. Indien σ1 en σ2 niet gekend zijn. Indien N(µ1. n 1 n 2. Bijgevolg moeten we de t-procedure gebruiken. 1.σ2). kunnen we onze Ho (nulhypothese) verwerpen. De resultaten van groep 1 zijn onafhankelijk van groep 2. Ho: Er is geen verschil tussen de 2 groepen (nulhypothese) Ha: Er is wél een verschil tussen de 2 groepen (eventueel met een specificatie van de richting) (alternatieve hypothese) Indien σ1 en σ2 gekend zijn. De variantie van het verschil = som van de varianties: σx 2 1 − x2 σ1 σ 2 σ σ + = + = σ +σ = x x n n n1 n 2 2 2 2 1 1 2 2 2 2 2 2 1 σx 2 1 − x2 = de variantie van de steekproevenverdeling van een verschil tussen twee verwachtingen. De verwachting van het verschil = verschil van de verwachtingen: schatter voor µ1 . t-procedure We hebben twee gemiddelden x −x 1 2 en gaan er vanuit dat er een verschil is tussen beiden door toeval. • 7 .µ2 = 0 De nul (0) laten we echter weg in onze berekeningen.v. dus gaan we s (standaardafwijking uit de steekproef) gaan gebruiken. indien we ervan uit gaan dat Ho klopt.n2-1) (handmatig) conservatieve toets We gebruiken de kleinste groep om onze df (vrijheidsgraden) te berekenen.Bij de nulhypothese gaan we ervan uit dat het verschil tussen µ1 . Dus in hoeverre we ons verwachte verschil kunnen gaan veralgemenen. We bepalen een significantietoest om na te gaan in hoeverre we onze steekproevenverdeling kunnen doortrekken naar de populatie. Dat komt doordat je df (vrijheidsgraden) minder zijn i. Heeft ook te maken met de overschrijdingskans. met als gevolg dat we de nulhypothese kunnen verwerpen. H0: µ1 . Als het zo is dat Ho klopt (dus dat er geen verschil is) dan zullen we in 1 op de 1000 steekproeven.m. deze kans is groter als je uitgaat van de kleinste groep. de grootste groep. In de steekproevenverdeling is de verwachting µ1 . Een probleem: heeft geen t-verdeling (2 en niet 1 σ gesubstitueerd + df) • oplossing 1: df exact herberekenen uit data (software) oplossing 2: df benaderen: min(n1-1. door louter toeval. De formule wordt dan: Sx 1 − x2 = ² S1² S 2 + n1 n2 Bij een N-verdeling Bij een t-verdeling kennen we kennen we σ σ (of gaan we ervan uit) niet en gebruiken we s Bij een t-verdeling gaan we een grotere overschrijdingskans bekomen dan bij een Nverdeling. dit heeft als gevolg dat het moeilijker wordt om de nulhypothese te verwerpen.µ2 gelijk is aan 0. 2-steekproevengrootheid: t= ( x 1 − x 2) − ( µ − µ ) 1 2 s +s n n 1 1 2 2 2 2 We gaan de kleinste groep gaan gebruiken (tussen n1 en n2) omdat we ervan uit gaan dat onze nulhypothese klopt. een verschil vinden van 1 of > (gegeven in de opdracht).µ2 = 0 De standaardafwijking van de steekproevenverdeling is σx 1 − x2 = σ 1² n1 + ² σ2 n2 van de populatie (in ons voorbeeld: etnocentrisme) kennen we Die variantie ² σ 1² en σ 2 meestal niet. 9% (volledig: 61. robuustheid van 1 EAS gaan ook hier op (voor n1+n2). APS2002 survey naar de maatschappelijke oriëntatie van1BA PSW o n = 432 (volledig: 385) o respons-rate : 68.20] • • • 8 .b.4%) o hier beschouwd als EAS uit volledige 1BA PSW vergelijken met EAS uit Vlaamse bevolking (APS2002) vergelijken verwachtingen op: ethnocentrisme.t. aanvaardbaarheid van maatschappelijke en wettelijke normoverschrijding via schaalconstructie: o attitudes gemeten via Likert-items (nt. individualisme.t= ( x 1 − x 2) s +s n n 1 1 2 2 2 2 (x − x ) ± t s + s n n * 1 1 2 1 2 2 2 2 De regels m. 3. Zelfs meer robuust dan t-procedure voor 1 EAS. negatief) antwoord op elk item = numerieke score o construeren schaal door per individu scores te sommeren op items (na hercoderen zodat alle in dezelfde richting wijzen) o (beter: nagaan unidimensionaliteit of constructie deelschalen (via factoranalyse)) o + hier: herschaald [0. vooral als twee steekproeven ongeveer dezelfde omvang hebben. normoverschrijding) 5-puntenschaal (volledig oneens <-> volledig eens) verschillende items meten deelaspecten items variëren in intensiteit en richting (positief vs. traditionalisme. • Voorbeelden: survey 1BA vs. Maar we moeten echter onze onzekerheid in rekening brengen.0 3.0 Std.v. Dev = 2.00 Traditionalisme (/20) 9 Traditionalisme (/20) .0 11. Dev = 3.d.0 13.0 5.Ethnocentrisme APS 300 PSW 100 80 200 60 100 40 Std.05 wat wijst op een systematisch verschil.05² + 1257 340 3. Dev = 2.0 9.63 Mean = 9.72 Mean = 10.39 3.0 N = 340.0 9.0 15.05 Mean = 6. H0: µ1 .0 5.0 15.0 19.0 13.51 < µ − µ < 4.0 3. Dev = 3.9) ± 0.0 19.0 19.9 0 1.0 7.8 0 1.h.0 17.65 Mean = 11.91 3.0 5. etnocentrisme We kunnen onze H0 verwerpen want onze kans is kleiner dan 0.05² + 1257 340 (x − x ) ± t s + s n n * 1 1 2 1 2 2 2 2 2 P(T ≥ t ) < 0.8 − 6.00 Ethnocentrisme (/20) Ethnocentrisme (/20) t= ( x 1 − x 2) s +s n n 1 1 2 2 2 2 = (10.0 11.0 15.0 17. Onze overschrijdingskans is kleiner dan 0.0 7.0 17.00 20 0 1.b.8 − 6.72² 3.00 20 Std. wat er dus op wijst dat er een verschil is.0 N = 1404. onze t-verdeling.9) ± 1.0 9.0 N = 1257.3 N = 371.0 13.001.0 7.001 (10.29 1 2 We merken dat er een verschil is tussen PSW en APS. Tevens ligt de nul (0) niet in het betrouwbaarheidsinterval.0 9.9 0 1.0 17.0 19.8 − 6.0 3.t.0 7. We stellen dat de Vlaming (APS) meer etnocentristisch is dan de 1BA student PSW.9) = 19. Traditionalisme APS 600 PSW 140 500 120 100 400 80 300 60 200 40 100 Std.0 15.µ2 = 0 (essentie van de significantietoets) H0: In de populatie is er geen verschil met 1ste bachelorstudenten m.72² 3.98 (10.0 5.0 13. a.0 11.0 3.0 11. een t-toets.3) ± 1.65² 2.t= ( x 1 − x 2) s +s n n 1 1 2 2 2 2 = (11. We zeggen dat er wel een verschil is en gaan na of dat verschil statistisch significant is of dat het louter door toeval komt. Ho verwerpen want een kleine kans. dat we veronderstellen dat in de populatie. Hiervoor gebruiken we een t-toets (want σ kennen we niet).a.3) = 16. Samengestelde t-procedures Indien 2 normale populaties dezelfde (ongekende) standaardafwijking σ hebben t voor verschil volgt exacte de t-verdeling (slechts 1 substitutie noodzakelijk) s1 en s2 vormen schatters voor σ : informatie combineren als gewogen gemiddelde ( s 2 p 2 p = samengestelde schatter voor de variantie (pooled estimator of variance)) s = (n1 − 1) s1 + (n2 − 1) s2 2 2 n +n 1 2 −2 Stel bijvoorbeeld dat we twee groepen (2 EAS) willen vergelijken met elkaar.001 (11. We bekomen een overschrijdingskans van minder dan 1 op 1000 EAS.w. In onze nulhypothese verwachten we dat We gebruiken het gewogen gemiddelde s p omdat in H0: µ1 = µ2 Dat is de belangrijkste voorwaarde. 4. Dus dat µ = µ1 = µ2 Indien dit klopt dan mogen we s 2 p gebruiken. dus hebben we bij 1 op 1000 EAS een verschil. Er is dus iets systematisch aan de gang. Wat is die 0.9 − 9.9 − 9. In ons voorbeeld zou dat dus zijn dat mannen en vrouwen. in de populatie. Die kans is heel klein waardoor we onze nulhypothese mogen verwerpen.d. Bijvoorbeeld een groep mannen met en σ 1 ( S1 ) en µ1 en een groep vrouwen met σ 2 ( S 2 ) σ 1 en σ 2 gelijk zijn ( σ 1 = σ 2 ) 2 µ 2 .30 2.91 df = 370 (kleinste groep = PSW = 371-1) We bekomen een overschrijdingskans die < 0.63² + 1404 371 2.001 nu? Wel. gelijk zijn aan elkaar. dat ze dezelfde σ (s) en dezelfde µ hebben.90 1 2 H0: we veronderstellen geen verschil (APS = PSW) t-score = 16. onze H0 (nulhypothese) stelt dat er geen verschil is tussen APS en PSW. We willen nagaan of dit verschil statistisch significant is a.h. 10 .001.30 < µ − µ < 2.65² 2.63² + 1404 371 (x − x ) ± t s + s n n * 1 1 2 1 2 2 2 2 2 P (T ≥ t ) < 0.9 − 9. Een vuistregel om dit na te gaan is dat de standaardafwijking van de verschillende groepen niet dubbel zo groot mag zijn.v.98 (11. M. de groepen hetzelfde zijn.91 2.3) ± 0. Voorbeeld Werkt Calcium bloeddrukverlagend ? Onderzoek via 2 groepen (behandeling vs.536 10 + 11 − 2 s p = 7. a. dan mogen we s 2 p niet gebruiken.Stel bijvoorbeeld dat Maar als S1 =7 en S 2 = 2. t-procedures Substitutie σ door sp Twee-steekproevengrootheid t om H0: µ1 = µ2 te testen (exact t verdeeld): t= ( x 1 − x 2) s 1 p 1 n n + 1 2 n1 en n2 zijn in feite aan elkaar gelijk.5 dan mogen we s 2 p wel gebruiken. M&M voor meer uitleg) betrouwbaarheidsinterval met df = n1 + n2 . S1 =2 en S 2 = 2. (cfr. 2 De variantie van verschil = som van varianties σx 2 − 1 x2 σ σ σ σ 1 1 + = + =σ = σ +σ = + n n n n n n 1 2 2 2 2 2 2 2 1 1 2 1 1 2 2 2 Toetsingsgrootheid z= ( x 1 − x 2) − ( µ − µ ) σ n +n 1 1 1 2 b. en gaan er bijgevolg vanuit dat beide groepen gelijk zijn aan elkaar.2: ( x 1 − x 2) ± t * s 1 p 1 n n + 1 2 c. placebo). Z-procedures Bij de Z-procedure gaan we ervan uit dat σ 1 en σ 2 gekend zijn.385 11 . Want we gebruiken de samengestelde schatter.901² = 54. n1 = n2 = n (steekproefomvang).743² + (10)5. H0: µ1 = µ2 Ha: µ1 > µ2 2 p s = = (n1 − 1) s1 + (n2 − 1) s 2 2 2 n +n 1 2 −2 (9)8. 852] 20 vb.53367 ETHNO2 10 5 0 N= 407 484 -LSO HSO+ DIP2 s 2 p = (n1 − 1) s1 + (n2 − 1) s2 2 2 n1 + n2 − 2 t= ( x 1 − x 2) (406)3.579 = [−0.227 + 7.2157 10.1595 N Std.382 407 484 s d.2817 9.27230 3.440 407 + 484 − 2 s 1 p 1 n n + 1 2 = 11.382 Gebruik samengestelde procedure • dikwijls gebruikt ⇐ als n zo goed als gelijk: robuust tegen niet-normaliteit en ongelijke standaardafwijking maar opletten bij grote verschillen in n en s.282 − (9.273 = = 1.10.509² + (483)3. p = 3.t= 5 − (−0.385 s p + met t(19): 10 D: 11 0.50850 484 891 3.235 1 1 + 3. Deviation 407 3.216) = 18.10 P(T≥1. Ethnocentrisme naar diploma (APS2002) 15 Report ETHNO2 DIP2 1.634 1 1 1 1 3.272² = = 11.00 HSO+ Total Mean 11.00 -LSO 2.634) tabel n1 n2 = 90% betrouwbaarheidsinterval: ( x 1 − x 2) ( x 1 − x 2) ± t * s 1 p 1 n n + 1 2 = 5.05 < p < 0. vooral bij kleine steekproeven • 12 .273) 5.273 ± 5.306 . ANOVA Bij ANOVA gaan we groepsgemiddelden gaan berekenen en vergelijken. We trekken een EAS uit elke populatie. Probleemstelling en logica ANOVA Bij ANOVA gaan we verwachtingen gaan vergelijken. • Logica De logica van ANOVA is naar analogie met de t-procedure.of meer-factor anova = verwachting vergelijken tussen categorieën van 2 of meer andere variabelen Wij gaan ons hier echter beperken tot één-factor anova. (variantie-analyse) 1.1 • 13 . H0: alle populatieverwachtingen gelijk Ha: niet alle populatieverwachtingen zijn gelijk Vereisten/assumpties: • • data afkomstig van verschillende EAS(of gerandomiseerde experimentele designs) te vergelijken kenmerk: o normaal verdeeld met gelijke σ o metrisch o = te verklaren kenmerk a-symmetrische techniek factoren: categorische variabelen Vb. 12. maar hier gebeurt het via de F-grootheid. Het is een toets voor verschil tussen verwachtingen.B. Tussen 2 groepen/populaties t-procedure variantie-analyse: ANOVA Tussen meer dan 2 groepen/populaties ANOVA = ANalysis Of VAriance één-factor anova =verwachting vergelijken tussen categorieën van 1 andere variabele • twee. Van t-test naar ANOVA De vergelijking tussen 2 groepen: x1 − x2 t= = 1 1 sp n + n n ( x1 − x2 ) 2 s p 2 n x x ( − ) 1 2 2 t =2 2 s p In t-formule wordt er tweemaal n gebruikt. Grotere binnengroepsvariatie grotere onzekerheid Verschillen in x (of medianen) en heel veel spreidingen (overlappend) binnen de groepen. (zie hierboven) 2 n = variatie tussen de groepen * factor voor n [teller] ( x − x ) 1 2 2 14 . we vergelijken de variatie tussen de groepen (tussengroepsvariatie) met de variatie binnen de groepen (binnengroepsvariatie).Zijn de waargenomen verschillen in de gemiddelden statistisch significant of een gevolg van toeval? noodzakelijk variatie + steekproefomvangen in rekening te brengen ⇐ s en n bepalen SE x We gaan twee soorten van varianties gaan vergelijken met elkaar. enkel minder spreiding. Geringere binnengroepsvariatie geringere onzekerheid Hier zelfde verschillen in medianen. maar dat is omdat n1 en n2 gelijk zijn aan elkaar. We krijgen wel een aanwijzing dat er een verschil is in de populatie. De verschillen binnen de groepen gaan we gaan vergelijken met de verschillen tussen de groepen. Dus. omdat we de samengestelde schatter gebruiken. 2. s 2 p = variatie binnen de groepen (samengestelde schatter voor gemeenschappelijke variantie) [noemer] t² = F -test voor 2 groepen Complexer bij ANOVA: test of alle verwachtingen aan elkaar gelijk indien H0 verworpen: verder bekijken welke Voorbeeld (12.001 De overschrijdingskans is kleiner van 1 op 1000.x2..σ) x1.35 met P < 0..3) In hoerver is er een verschil tussen deze groepen? F = 10.σ) xj = µ + εj xj = kenmerk van een individu en εj = de afwijking ANOVA: EAS uit I populaties van grootte van elke EAS: ni 15 . dus mogen we onze nulhypothese verwerpen..xn 1 eenheid: xj (subscript j = om een individu aan te geven) anders genoteerd: met εj EAS uit N(0. Eén-factor ANOVA-model WAARNEMING = ‘AANPASSING’ + RESIDU Aanpassing = SST en Residu = SSE EAS uit populatie N(µ. welke ? • • zelf contrasten maken: als vooraf gespecificeerde hypothese meervoudige (paarsgewijze) vergelijking: verkenning 3. één-factor ANOVA model: xij = µi + εij o o o o εij EAS uit N(0.1595 N 146 261 211 273 891 Std.0 8..53 Mean = 10.0 2.00 ETHNO2 16 .0 18.4079 3.xi σ schatten door sp : s 2 p = (n1 − 1) s1 + (n2 − 1) s2 + .0 12. σ onbekende parameters: µi‘s en σ 4. het kan tegen een stootje.0 20.1788 3.1632 10. De vuistregel is: OK als (max(si)/min(si)) < 2 ANOVA is ook robuust voor schending van assumpties.9822 8.5337 200 100 Frequency Std.afw. Het moeten al zware outliers zijn om echt een effect te hebben. + (nI − 1) 2 2 2 We moeten rekening houden met onze assumptie dat alle σi’s = σ .6233 10.0 4. Deviation 3..σ) = de residuen volgen een normaalverdeling µi = groepsgemiddelde gemeenschappelijke st..7886 9. Ethnocentrisme APS2002 300 ETHNO2 Report ETHNO2 DIP geen/LO LSO HSO HO Total Mean 12. Dev = 3.2257 3. + (nI − 1) s I (n1 − 1) + (n2 − 1) + .0 16. Schatting van populatieparameters µi schatten door xi : xi = ∑x j =1 ni ij n i met eij = xij .0 6.5244 3. maar ANOVA niet extreem gevoelig aan schending hiervan.0 10..0 N = 1027.0 0 0.0 14. v. en we doen dan een significantie-toets op de F-waarden. variatie binnen groepen.20 18 16 14 12 10 8 6 1098 187 1439 893 88 1395 771 73 1208 776 1204 629 ETHNO2 4 2 1379 930 934 769 146 261 211 210 196 928 273 0 N= geen/LO LSO HSO HO DIP De gemiddelde in dit voorbeeld verschillen. Variatie is ∑ ( x −x )² i (de sum of squares) 17 . SST: Sum of Squares Total SST= de verschillen tussen waarnemingen en globaal gemiddelde = ‘te verklaren’ variatie (totale variatie) = sommeren van kwadraten • • • DFT = N . • • SST = SSG + SSE in vb.49 Verschil tussen S² en SST = de noemer: geen (n-1) bij SST. F-toets ANOVA: vergelijking van variaties (tussen groepen / binnen groepen) Het is een globale maat die vergelijkingen maakt tussen variatie tussen groepen t. ‘SS’). o o o ethnocentrisme: SST = 11113. nml.1 (Degrees of Freedom Total) MST = SST / DFT (gemiddelde (Mean) kwadratensom) = s² MST = de variantie die we willen verklaren. De variatie tussen de groepen en de variatie binnen de groepen. cf. komt dit door louter toeval? We doen een F-test omdat we gaan vergelijken tussen de groepen en binnen de groepen. 5. De variatie tussen groepen = de systematische verklaring De variatie binnen groepen = de residuele variatie a.o.28 DFT = 890 MST = 12.: = i =1 s ∑ ( x − x) n −1 S² is een decompositie in 2 componenten. n 2 Berekening F via ‘kwadratensommen’ i 2 (‘Sum of Squares’ . Verschil variatie en variantie Ze verwijzing in principe naar hetzelfde. maar de berekening is anders. o o o ethnocentrisme: SSG = 1340. Ho = omgekeerde van de verwachting. variatie veroorzaakt door verschillen tussen groepsgemiddelden • • • DFG = I . F-toetsingsgrootheid F = MSG / MSE Als F=1: groepen verschillen evenveel van elkaar als individuen onderling al van elkaar verschillen geen effect van groepen Als F > 1: tussengroepsvariantie > binnengroepsvariantie effect van groepen Als H0 waar: geen verschil tussen de groepsverwachtingen: steekproeven van verschillende groepen zijn eigenlijk steekproeven uit eenzelfde populatie MSG = MSE . berekend per waarneming = tussengroeps variatie.79 (variantie) SSG = ∑ ( x j =1 n i − x) 2 c. hoe meer bewijs dat er effectief verschil is tussen groepen.02 d.Variantie = ∑ (x i −x )² n −1 (de gemiddelde variatie) [idem voor covariatie en covariantie] b. Bijvoorbeeld 3 verdelingen vallen samen µ1 = µ2 = µ3 18 .36 (variatie groep) DFG = 3 (bv: 4 groepen – 1) MSG = 446.I MSE = SSE / DFE = (sp)² (= samengestelde maat) xij = deze waarde wordt je gegeven SSE = ∑ ( xij − x i) j =1 n 2 • in vb. dus er is geen verschil. SSE: Sum of Squares of Error (error = residu) SSE = verschillen tussen waarnemingen en groepsgemiddelde = binnengroeps variatie • • • DFE = N .1 MSG = SSG / DFG in vb. o o o ethnocentrisme: SSE = 9772. SSG: Sum of Squares between Groups SSG = verschillen tussen groepsgemiddelden en globaal gemiddelde.92 DFE = 887 MSE = 11. beide goede schatters van σ² Hoe groter F. Probleem: enkel globale test op verschil we weten nog niet welke verwachtingen statistisch significant verschillen 6. dan zal minder dan 1 op 1000 EAS uit de populatie een Fwaarde opleveren van 40.0001 o Overschrijdingskans van een F-waarde: als het zo is dat in de populatie geen verschil is. ethnocentrisme: F = 40.N-I) verdeling berekenen overschrijdingskans: tabel E (lang en complex F-toets steeds eenzijdig ⇐F≥0 • vb.918 11113.362 9772. Hoe groot is dan verdelingen en overschrijdingskans? F-grootheid volgt F(I-1. verschillen tussen verwachtingen geformuleerd werden.b. niet kunnen toepassen Nu niet kennen (p.280 df 3 887 890 Mean Square 446. 621-628) 19 . ²Alternatieve H0 en Ha formuleren Zeer complex (eerst kennis nodig van contrastcodering).000 Between Groups Within Groups Total Sum of Squares Df Between groups Within groups total SSG SSE SST DFG DFE DFT Mean Square MSG MSE MST F F=MSG/MSE Sig. .55 p < 0.t.Hoe groot moet F zijn om statistisch significant te zijn? Steekproevenverdeling = verschil tussen 4 groepen.787 11.55 of > (door louter toeval komen wordt) SPSS-output: SPSS-output) • ANOVA ETHNO2 Sum of Squares 1340.018 F 40. Bij contrasten gaan we zelf onze vergelijken kiezen. Contrasten Indien bij onderzoek specifieke hypothesen m.551 Sig. Er is een verschil maar waar? We gaan dus bij contrastcodering het verschil na tussen bijvoorbeeld Ho/Univ en geen/LO. maar niet alle combinaties zijn gemogelijk. Oplossing: t** zo bepalen dat hiervoor gecontroleerd wordt alternatieven beschikbaar (zoals de Bonferroni-methode) verschillende 2. maar waar? Dus na het verwerpen van de algemene H0 gaan we na welke paren van verwachtingen van elkaar verschillen.5% rechts) Er zijn 2 manieren om t** te bepalen: • • Least Significant Differences (LSD Bonferroni-methode 1. Naast de t-toetsen. Bij elke van die 190 t-toetsen hebben 5% kans op het foutief verwerpen van de H0.05 (significantieniveau).5) Dus door het herhaaldelijke toetsen hebben we meer fouten want het kapitaliseert uw fouten. met als gevolg dat je H0 verkeerdelijk kan verwerpen. Want je gaat alle mogelijke combinaties gaan vergelijken (2 aan 2) op het 5% significantieniveau. dit via een aangepaste t-toets: t ij = x −x i j s • 1 p i n n + 1 j De ‘meervoudig’ t-toets: sp voor alle groepen gebruikt verwerpen H0: µi = µj indien |tij| ≥ t** (2-zijdig) • we toetsen paarsgewijs (2 aan 2) • t**= geeft aan in welk gebied 95% van de gevallen liggen. Dit is een type 1 fout. Dus. Je hebt 5% kans dat je bijvoorbeeld 1 van de 190 t-toetsen fout hebt (en dus H0 verkeerdelijk kan verwerpen). het is wel gemakkelijk maar fout. Least Significant Differences (LSD) t**: bovenste α/2-kritieke waarde voor t(DFE)-verdeling Evenveel afzonderlijke significantietoetsen als er paarsgewijze vergelijkingen zijn Probleem bij het herhaaldelijk toetsen Stel bijvoorbeeld dat I = 20 (groepen) en α=0. vaak ook gebruik van simultane betrouwbaarheidsintervallen voor verschillen tussen verwachtingen.C. ⇒ globale kans op foutief verwerpen H0 is onaanvaardbaar hoog! (in 5% van 190 ttoetsen: 9. MEERVOUDIGE VERGELIJKINGEN Indien geen specifieke a priori verwachtingen.5% links en 2. Je hebt een foutief significantieniveau en een foutieve overschrijdingskans. Bonferroni-methode De Bonferroni-methode is een meer correcte berekening van t** (oplossing probleem LSD. ( x i − x j ) ± t ** s 1 p i n n + 1 j 20 .05: 5% kans op minstens één foutieve verwerping van H0 over alle vergelijkingen samen. (2. een correctie op het herhaaldelijke toetsen) Bij α=0. dan krijgen we 190 paarsgewijze vergelijkingen van verwachtingen. er is een verschil. Daarom gaan we LSD nooit gebruiken. 3573 .5544 2.0292 N 113 178 210 195 137 123 71 1027 Std.148E-03 .000 .5399* -2. 65-74j.5050 3.2362 -1.5244 3.5933 9.5528 10.3430 .1810* -. De We hebben 7 leeftijdsgroepen.5399* -1.000 . Std.2033 1.6565 12.9251 -1.5308 18 16 14 12 10 8 6 ETHNO2 4 2 0 hebben hogere waarden.9251 -3.6400 4.6013 -1.3043 .2224 3. Deviation 3.6013 2.053 .7293 -1.6652 9.3403 .2874 . 45-54j.Error = standaardfout (standaardafwijking van de steekproevenverdeling) = de gemiddelde afwijking van de steekproevenverdeling t.3.2874 .2079 -2.1653* -1.1259 -1.2079 -2.3043 .v.1810* -.3746* 2.1810* 3.000 . De oudere groepen N= 113 178 210 195 standaardafwijkingen liggen dicht bij elkaar.6400 -2.9561 -.4675 -6.6190 6.5544 *.000 .2362 3.7013 2.o.7617 1.3403 .3746* 2.5399* -1.0567 3.5193 3.7293 -2.000 . 45-54j.000 .000 .4055 2.3043 . 137 123 71 55-64j.1634 -. 75j.3746* .3589* 1.8823 -1.4095 -.3073 .1482E-03 1. 25-34j.2874 .3403 .5399* -2.000 .000 .6190 1. The mean difference is significant at the .4095 1.3573 .3073 .000 . 25-34j.8064* 2.3573 .000 .8064* 1. 75j.3430 .000 .8162 10.4797 2.2874 . 55-64j.000 .+ LFTCAT 21 .7617 . het gemiddelde Ethnocentrisme naar leeftijd (APS2002) 20 771 323 317 1439 73 1274 879 698 921 1208 441 1081 848 490 1392 Report ETHNO2 LFTCAT <25j.8823 2. .3573 .0479 1.000 .2667 3.3589* LSD (I) DIP geen/LO LSO HSO HO Bonferroni geen/LO LSO HSO HO (J) DIP LSO HSO HO geen/LO HSO HO geen/LO LSO HO geen/LO LSO HSO LSO HSO HO geen/LO HSO HO geen/LO LSO HO geen/LO LSO HSO Std.05 level.3073 .4797 -1.053 .3430 .000 .009 .3589* -3.1259 2. Error .1810* 3.3589* -3.3746* . 35-44j.000 95% Confidence Interval Lower Bound Upper Bound .2817 1.0479 -.3073 .4675 2.8720 -2.0683 3.1653* -2. <25j.1653* -1.4398 -2. 65-74j.8720 4.9561 -4.2817 -.000 .4055 -2.3430 .+ Total Mean 8.3043 Sig.1011 9. 35-44j.7013 .5627 11.1653* -2.000 .000 .2033 .1634 -4.8064 1. Voorbeelden Multiple Comparisons Dependent Variable: ETHNO2 Mean Difference (I-J) 1.3403 .8064 2.000 .4398 -2.009 . 000 -4. <25j. .+ .4278 .000 -3. Dus nu kunnen we gaan kijken waar zich die verschillen juist voordoen. .5368 45-54j. (I) LFTCAT <25j. .385 -.7974 1.4049 1. .000 -1.7968 55-64j.7577 -1.8876* . .4921 -. .4517* .1244 .9281 -1.7974 35-44j.5519 45-54j.2682 2.6693 35-44j.9694 -2.3490 .443 df 6 1020 1026 Mean Square 204.003 -2.5099 . .9281 . .000 Between Groups Within Groups Total We mogen Ho verwerpen want we hebben een kleine overschrijdingskans.000 -.7151 -1.3928 .3928 .3478 55-64j. Lower Bound Upper Bound 25-34j.256 12790.000 -5.335 F 18.+ .5526 45-54j.6693 .5368 .3980 .5554* -3.2275 -.3697 . . . Dus welke groepsverschillen zijn statistisch significant? Want niet alle verschillen tussen 2 groepen zijn statistisch significant.125E-02 55-64j.3275 -1. <25j.000 -4.0633* -2.8910 -2.3531 75j. aanleunende groepen zijn niet statistisch significant.2682 45-54j. .3430 1.4359 -.4622 .000 -3.2961 65-74j.2005 -. Bonferroni Mean Difference (I-J) -.4726 .864 11.3348 1.0124 35-44j.2427 .6552 75j.4359 -.1510 -1. 22 .5526 1.3348 25-34j.8990 75j.4387 .3948 .9913* -3.ANOVA ETHNO2 Sum of Squares 1229. .000 -1.187 11561.+ .000 -.3823 .4921 -.6269 -.4615* -2.5944 65-74j.3430 1.3633 6.000 -4.000 -3. .2230 -. De groepen met een significantieniveau van 1= extreme groepen verschillen statistisch significant.1567 65-74j.3826 .3672 -1. .385 -2.1244 25-34j.000 -1. Error Sig.186 -2. .8975* -2.7781 . .855 -1.082 -2. <25j.0955 .074 Sig.4405 -2.4049 1.9596* 95% Confidence Interval (J) LFTCAT Std. 7781 1.4907 4.190 1.3633 1.987 .6596 -. 45-54j. 35-44j. t= x −µ 0 s/ n = 10. 25-34j.2427 .855 1. 45-54j. 4.8910 4.8975* 1.6596 -1.5519 1.2005 2.1251E-02 -.3275 3.3697 .8895 .4405 4. 75j.000 .3980 .3675 .4907 -.0124 1. 55-64j.987 .6320 5. 45-54j.0939 -1.8895 -3.8963 .4726 . 55-64j.4923 .8990 . Deviation Valid Missing 1027 450 10.+ <25j. 65-74j.6269 2.3348 .5018 .6552 1.001 1. The mean difference is significant at the .4615* .75 . 25-34j.4517* 2.11018 10.3153 3.4246 2.4246 *.7151 .4182 .3672 4. 75j.9902* 2. 55-64j.000 .5944 .4667 . 1.0939 -.000 .2275 3.9596* 2. Statistische significantie revisited Bij significantietoets: 2 soorten fouten mogelijk: type I: H0 verwerpen terwijl ze juist is (kans = α) type II: H0 aanvaarden terwijl Ha juist is vb. 75j.000 . 35-44j.0210 -4.001 .1798 -2. Ha: µ≠9.7366* 1.03 − 10 = 0.000 .7464 -1.3490 .3478 -. 35-44j. 65-74j.1579 3.000 .000 .4622 .1798 -.25 H0: µ=10 .3948 .11 2P(T ≥ |t|) > 0.0292 .01 23 . 25-34j.3753 . 35-44j.3823 .000 .53077 95% betrouwbaarheidsinterval: 9.000 .9694 .11 t= x −µ 0 s/ n = 10.7968 -1.3877 .05 level.3877 .45-54j. Ethnocentrisme (APS-2002) Statistics ETHNO2 N Mean Std.+ <25j.3826 .190 .2230 -.0000 3.1579 .000 . 65-74j.082 .54 0.5554* 2.4387 .0633* 1.75 Ha: µ≠10 H0: µ=9.7366* 1.000 .0955 1.4923 .7464 -1.186 .3753 .000 .5018 . 65-74j.4182 .4896 1.1567 -.3967 -.4896 2.+ <25j.2961 -. 25-34j.000 -6.6320 2.3531 . 75j.8403* 1.25 2P(T ≥ |t|) = 0.7577 3.3675 -3.3153 .5099 .8403* -2.1510 .+ <25j.27 0.4667 . 55-64j.8876* 3.9913* 2.03 − 9. Error of Mean Median Std.003 .8963 3.3967 -2.3348 2.000 .0210 2.4278 .81 < µ < 10.9902* .75 = 2. MEERVOUDIGE REGRESSIE 24 . Herhaling BVA (STATISTIEK 1) Zie Statistiek 1 voor meer informatie over: 1) 2) 3) 4) 5) 6) 7) 8) Spreidingsdiagram (scatterplot) Enkelvoudige lineaire regressie analyse Kleinste kwadratenregressie (OLS) Covariantie Standaardisatie = Z-transformatie Correlatiecoëfficiënt Determinatiecoëfficiënt B: Gestandaardiseerde b 7. de afwijking van elk puntje in de puntenwolk t. r2 = TSS − SSE RegSS = TSS TSS TSS – SSE = de variatie die we wél verklaren. of de residuele variatie. de regressierechte.o.a.v. 25 .v. de verwachte y = de residuen oftewel SSE M.o. Determinatiecoëfficiënt r2 = ∑(y i =1 n i ˆi )2 − y ) − ∑ ( yi − y 2 i =1 n ∑(y i =1 n i − y)2 ∑ n i =1 ( yi − y ) 2 = gekwadrateerde standaardafwijking van y = de variantie van y = TSS 2 ˆ) ∑(y − y i i = waargenomen y t. (oftewel RegSS) RegSS = regression Sum of Squares = de variatie tussen de groepen oftewel de variatie die we verklaren.A. ˆ variantie van verwachte waarden y r2 = variantie van waargenomen waarden y s r = s 2 xy 2 ˆ y 2 y r² = (a + e) – e = a a+e a+e dit is bij 1 onafhankelijke variabele (BVA) a = de gedeelde variatie (of covariatie) tussen Y en X1 R² = a + b + c a+b+c+e Meestal laten we (a+b+c+e) weg aangezien dat gelijk is aan 1 doordat we hier met gestandaardiseerde variabelen werken.w. Bivariate correlatie.en regressie-analyse 1. Aangezien we bij MVA verschillende richtingscoëfficiënten hebben.B. r = correlatiecoëfficiënt = -0. wanneer men 0 jaar is. B = gestandaardiseerde richtingscoëfficiënt = bij een verschil van 1 standaardafwijking op de X-as. heeft mijn 16.46 standaardafwijkingen op de Y-as dit is een relatief sterk negatief effect.29 b = −0.46 = een tamelijk grote negatieve samenhang 26 . zetten we bij elke rico een subscript om te zien over welke populatie het gaat. M. verwachten we een verschil van -0. b = richtingscoëfficiënt = bij een verschil van 1 eenheid op de X-as.a. Maar aangezien b gevoelig is voor de meeteenheid en spreiding.087 eenheden op de Y-as dit is een negatief effect.46 5 10 Leeftijd a = intercept = het snijpunt van de regressierechte met de Y-as indien X nul (0) is.087 X Y a = 16.29 jaar onderwijs gevolgd.21 B = −0.w. b b1 B B1 (= richtingscoëfficiënten) a b0 A B0 (= intercept) A = y − Bx = 0 − B0 = 0 B= ∑ ( zxi − zx )(z yi − z y ) i =1 n ∑(z i =1 n = ∑ zxi z yi i =1 n n xi − zx ) 2 ∑z i =1 = ∑z i =1 n xi z yi 2 xi n =r Laten we de verschillende coëfficiënten uit volgend voorbeeld eens interpreteren.46 15 10 r 20 30 40 50 60 70 80 90 2 = 0. leeftijd -> aantal jaren onderwijs (APS2002) 25 20 Aantal jaren onderwijs gevolgd ˆ = 16.29 − 0. Voorbeeld In multivariate analyse krijgen de coëfficiënten soms een andere notatie. gebruiken we liever de gestandaardiseerde rico B. verwachten we een verschil van -0.087 r = −0. ) = 0. Regression = tussengroepsvariantie. In multivariate analyse gaan we pogen om de rest te verklaren. 79% van de verschillen in aantal jaren onderwijs gevolgd. andere variabelen. a.a.w. aangezien we ook maar 1 onafhankelijke variabele hebben. Predictors: (Constant). we mogen de nulhypothese Ho verwerpen.w.000 P < 0. door louter toeval.078 Model 1 df 1 1459 1460 Regression Residual Total Mean Square 3377.676 F 389. LEEFTIJD R Square = R² Adjusted R Square + Std.459a .9456 Model 1 R R Square . met een df = 1 overschrijdingskans (Sig. hebben we een kans van 1 op 1000 EAS dat we toch een EAS steekproef trekken met een verschil (indien Ho waar is) zo groot als F = 389.h.000a a. M.091/8. we hebben 1459 mensen in onze analyse Ho = er is géén invloed van leeftijd op het aantal jaren onderwijs gevolgd Ha = er is wél een invloed van leeftijd op het aantal jaren onderwijs gevolgd F = 3377.a.211 a.210 Std.224. Error of the Estimate = MVA-coëfficiënten ANOVAb Sum of Squares 3377. we hebben een df (vrijheidsgraden) van 1. M. 27 . Error of the Estimate 2. . LEEFTIJD b. Dependent Variable: Aantal jaren onderwijs gevolgd We passen ANOVA toe aangezien we de groepsgemiddelden gaan vergelijken (per leeftijd).676 = 389. Predictors: (Constant). is te verklaren a.0001 = de kans dat als de nulhypothese (Ho) waar is.091 8.v.224 Sig.r² = determinatiecoëfficiënt = 21% van alle verschillen (variantie) bij het aantal jaren onderwijs gevolgd.091 12658. SPSS-output Model Summary Adjusted R Square .224 of groter. Residual = binnengroepsvariantie.987 16036.d. wordt verklaard door verschillen in leeftijd. Error = de standaardafwijking in de steekproevenverdeling. Significantietoets (Sig.293 – gemiddelde constante in steekproevenverdeling (= 0 . Dit is de gemiddelde standaardafwijking van de steekproevenverdeling van het intercept (a). b1 = b = -8. waarde uit Ho) Std.293 0.1 iii. a is in de 2de EAS = 16.453 -19.459 Model 1 (Constant) LEEFTIJD Unstandardized Coefficients B Std. Beta t 72.99 Std. Een andere EAS kan bijvoorbeeld 16.293 .459 Std. Deze kans is klein.000 b0 = a = 16.225 = 72. dus kunnen we onze nulhypothese (Ho) verwerpen en hebben we dus een statistisch significant intercept. Error 16.225 .) We moeten de toetsingsgrootheid (t-score) berekenen.004 t 72.004 Gestand. dan hebben we een kans van minder dan 1 op 1000 EAS dat we een verschil bekomen. 28 .225.000 .000 a. t = 16. Bijvoorbeeld: i.Coefficientsa Standardi zed Coefficien ts Beta -. .1 geven in plaats van 16.225 iv.729 Sig.Error = 0. a is in de 1ste EAS = 16.70E-02 .225 -8.293 ii.453 B1 -19.293.293 = stochastische variabelen. a is in de 3de EAS = 15.000 . Error . Error = 16. dus onderhevig aan toeval. We hebben een standaardafwijking van 0. Dependent Variable: Aantal jaren onderwijs gevolgd Ongestandaardiseerd B (constant) LEEFTIJD b0 b1 Std.70E-02 B1 = B = -0.453 (t-score) Indien het intercept gelijk is aan nul (0). uit de hele populatie.729 Sig. . Ook de determinatiecoëfficiënt verandert (verklaarde variantie) = 96% 29% Dus bekijk eerst de verdeling van de variabelen afzonderlijk vooralleer de resultaten te interpreteren. Zeker in de richtingscoëfficiënten: 1.06 De outliers trekken de regressierechte naar zich toe.2. Invloedrijke waarnemingen Een outlier is niet altijd een invloedrijke waarneming.38 + 1. Dus een invloedrijke waarneming ≠ outlier (kan dicht bij regressielijn) Een invloedrijke waarneming is een waarneming die de regressiecoëfficiënten sterk beïnvloedt. kunnen dus de resultaten beïnvloeden.96 r 165 170 2 = 0.65 x y ˆ = −109. a.65 1. m. Is de rechte wel een goeie samenvatting? b. 29 . Spreidingsdiagram van lichaamslengte en -gewicht 100 90 80 70 100 90 80 70 Spreidingsdiagram van lichaamslengte en -gewicht gewicht (kg) gewicht (kg) 60 50 40 30 20 10 0 160 60 50 40 30 20 10 0 160 ˆ = −213.96 + 1.29 175 180 185 175 180 185 lengte (cm) lengte (cm) Tussen bovenstaande spreidingsdiagrammen zie je een immens verschil.w.06 x y r 165 170 2 = 0. aangezien zij de regressielijn naar zich toe trekken.a. Vertekeningen Outliers Uitschieters hebben een sterke invloed op de regressie-oplossing. en correlatieanalyse mogen uitvoeren. 30 . Op de Y-as krijgen we de residuen tegenoverstaande van de regressielijn (= 0). hij zal amper invloedrijk zijn aangezien hij in de lijn van de regressierechte ligt. Geval 19 is dan eerder wel een invloedrijke waarneming. door te kijken naar de residuelenpatronen. c. Bij residuen-analyse gaan we de regressierechte horizontaal neerklappen en daar de puntenwolk op leggen. Geval 18 illustreert dit. plots een positieve samenhang wordt of dat er een significante verandering van de regressierechte plaatsvindt. De gemiddelde afwijking tot de regressierechte van de residuen zou nul (0) moeten zijn. in welke mate we een regressie. maar bij non-lineariteit moeten we het samenvatten via een curve. terwijl midden statusgroepen relatief weinig kinderen hebben. Wanneer een variabele ervoor zorgt dat een negatieve samenhang. al ligt bij immens ver. 4.Als een outlier op de regressielijn ligt of er heel dichtbij. kunnen we spreken van een invloedrijke waarneming. Bij lineariteit gaan we de puntenwolk samenvatten via een rechte. Maar het blijft vooral een onderwerp ter discussie. Residuen-analyse We gaan nagaan. Hoge en lage statusgroepen kunnen veel kinderen hebben. Non-lineariteit Non-lineariteit betekent dat er een curve nodig is aangezien een regressielijn geen goede samenvatting is. b=0 r =0 Bijvoorbeeld statusgroepen en aantal kinderen. (a) Indien de regressielijn een goede samenvatting is van de data. (b) non-lineariteit. Hiervoor zijn er twee manieren: 1) gewone standaardisering: Hierbij gaan we gaan kijken naar de residuen op zich en deze in een standaard uitdrukken. Maar wat is nu een groot residu? Dit kunnen we nagaan door de residuen te gaan standaardiseren. Dus de waargenomen residuen gaan we delen door de standaardafwijking over alle residuen. (c) heteroscedasticiteit. Levert wel een probleem. Bij heteroscedasticiteit heb je bij lage X-waarden een dichte spreiding (grote r²) en bij hoge Xwaarden een grotere spreiding (kleine r²).96]. 1.96 .b. e / Se ( S e = standaardafwijking berekend over alle residuen) Dit volgt een normaalverdeling N(0. oplossing: studentisering 2) Studentisering: e / S e −i ( S e−i = standaardafwijking berekend over alle residuen van regressie-analyse zonder case i) ˆ en Y e = de afwijking van Y i i 31 . Dat maakt het mogelijk om uitzonderlijke residuen die groter of kleiner zijn dan het 95% betrouwbaarheidsinterval te identificeren als zijn grote residuen. dan hebben we geen systematisch patroon in residuen en dus geen probleem. Je merkt dit aan de trechtervorm in de puntenwolk.1). Zie puntje 2. Vervolgens kunnen we het 95% betrouwbaarheidsinterval gaan opstellen in het gebied [-1. Het enige probleem is echter dat grote residuen de standaardafwijking opblazen. Heteroscedasticiteit levert een probleem bij de schatting van de standaardfout. 0 -.5 0 0 0.In SPSS: Hier zullen we de residuelen moeten gaan bewaren. dus je krijgt dan alle residuen met een afwijking kleiner of groter dan 3. -2 0 .94 Mean = 0. plots. 00 1. 0 5 1. 0 5 3. … 32 . 300 20 RES 200 10 Unstandardized Residual 100 0 Std. Dev = 2.0 11 0 9.0 0 N = 1461. Dev = 1. 0 7.00 . 0 0 2.00 00 4.v. 0 . . Je kan dit veranderen naar bijvoorbeeld 2.0 -5 . mediaan. -1 50 . beschouwen we als grote residuelen. De 5% (1%) die buiten het betrouwbaarheidsinterval valt. dit doe je als volgt: Regression lineair save residuals … SRE = gestudentiseerde residuelen (studentized residuals) RES = residuelen (unstandarised residuals) ZRE = gestandaardiseerde residuelen (standarised residuals) Deze coëfficiënten bevinden zich achteraan de dataset. nadat je ze hebt aangemaakt. -1 00 .0 -9 -10 10 20 30 40 50 60 70 80 90 LEEFTIJD Unstandardized Residual 200 4 SRE 3 2 1 100 Studentized Residual 0 -1 Std. 0 5.d. standaardafwijking.500 . 0 5 2. We kunnen ze samenvatten a. -3 -2 -3 10 20 30 40 50 60 70 80 90 LEEFTIJD Studentized Residual Zoals je kan zien zijn de residuen zo goed als normaal verdeeld.00 0 N = 1461.h.0 -1 . 0 3. In SPSS staat dit standaard op 3%.0 -7 . beschouwen we als normale residuelen. Residuelen die zich bevinden in het 95% (99%) betrouwbaarheidsinterval.00 Mean = -. Vervolgens kunnen we al deze coëfficiënten in een scatterplot steken.5 -2 00 . 0 1. 0 0 3.0 -3 . 00 20.872 3.385 3. Je gaat per rico bekijken.00 Predicted Value 11. Het is dus hetzelfde als bij DfFit. Niet of wel gestandaardiseerd. Indien dit verschil (DfFit) groot is.1590 10.00 21.4930 a. maar nu wordt enkel het verschil berekent tussen de richtingscoëfficiënten (b’s).267 3.00 20. DfBeta geeft dus een indicatie van wat de invloed is van 1 case i op de richtingscoëfficiënt.9699 9. dan hebben we een grote invloed van case i. of een case een grote invloed heeft.001 3. Dus het verschil tussen voor volledige dataset (met case i) en ˆ y i berekend ˆ y i berekend zonder case i.6659 11.0301 9. dan hebben we een kleine invloed van case i. omdat je over de hele lijn gaat kijken.0301 9.Lijst van cases met gestand.5070 Residual 9.0731 9.4060 8.00 21.3770 12.5940 12.00 21.1450 9. om te zien of het uitzonderlijk is.00 19.045 3.6230 8.105 3. residueel > 3 a Casewise Diagnostics Case Number 108 334 391 491 509 794 839 1132 1169 1354 Std. DfFit = ‘difference between fitted values’ Bij DfFit zijn alle verwachten waarde ˆ y i als case i in rekening wordt genomen en wanneer case i niet in rekening wordt genomen. Indien dit verschil (DfFit) klein is. Niet of wel gestandaardiseerd. DfBeta DfBeta is het verschil tussen b-coëfficiënt berekend voor volledige dataset en bcoëfficiënt berekend zonder case i.8410 9.00 21. a.370 3.0290 11.9699 11.9710 9.00 18. Dependent Variable: ONDJREN Aantal jaren onderwijs gevolgd 4.902 ONDJREN Aantal jaren onderwijs gevolgd 21.3341 9. Residual 3. Het is een globale indicatie. beiden zijn mogelijk.281 3.00 21. 33 . b.9269 8.8550 10.045 3. Je hebt 1 DfBeta per case per regressiecoëfficiënt. Controle op invloedrijke waarnemingen Dit is een tweede manier om te kijken of alles in orde is en om ervoor te zorgen dat twee of drie grote residuen onze analyse en oplossing niet vertekenen en zo onze samenvatting beïnvloeden. Je hebt 1 DfFit per case. 04 Mean = -.1 -.004 Dus indien case 1 eruit wordt genomen. Zo goed als normaal verdeeld.1 0 DFFIT 0 30 .0 8 3 .df(Beta)std. dan stijgt ons intercept (a) met 0. maar toch een hoog opleidingsniveau.1 8 8 . De meeste cases hebben amper een invloed op de samenvatting. Zo zijn allemaal mooi verdeeld rond de nul (0).1 Standardized DFFIT Oudere leeftijd.0 0 15 . = SDB .0 00 2 -.0 0 05 .00 Mean = -.0 2 1 -. Dev = .00 88 .004.00 Std.0 0 00 .1 63 .0 0 25 . Standardized DFFIT 0.0 3 6 .In SPSS: Regression Lineair Save Influence statistics .0 0 15 -.0 5 0 0 -.0002 N = 1461.0 2 1 -.2 .3 .0 -.062 -.1 7 3 -. dat komt doordat de variabele leeftijd een discrete variabele is.df(Beta) = DFB . = SDF DFBo = invloed op het intercept (a) DFB1 = invloed op richtingscoëfficiënt (b) (idem bij SDB) Bijvoorbeeld: DFBo = 0.1 3 1 .0 0 20 .0 5 0 2 -.0 . Dev = . Deze plots heeft een golvend patroon.0 0 10 .0 7 3 -.2 10 20 30 40 50 60 70 80 90 LEEFTIJD 34 . Maar deze outliers zijn niet ontzettend groot.0 0 0 1 -. 500 300 400 300 200 200 100 100 Std.0 7 8 -.001 0 N = 1461.1 8 3 .df(Fit) = DFF .df(Fit)std. Belangrijkste verschil is de standaardafwijking.0 3 1 . 0 031 0 -.0 0 5 -.0 44 00 .1 0 0 . m.w.00 Mean = 0. Maar deze outliers zijn niet ontzettend groot.0 56 00 .1 50 .600 600 500 500 400 400 300 300 200 200 100 Std.a.0 0 5 . 0.0 5 2 -. -. Y ] en hebben weinig effect op de richtingscoëfficiënt.0 0 0 . maar toch een hoog opleidingsniveau. een hoge concentratie rondt de nul (0). De middengroep ligt dan ook in het midden = zwaartepunt [ X .2 Oudere leeftijd.0 056 0 -. Dev = .0 5 7 -.000 N = 1461.0 19 00 .00 69 00 .03 Mean = .0 06 00 .1 5 2 .0 06 00 -.0 5 2 .0 DfBeta lage leeftijd groot DfBeta gemiddelde leeftijd klein -.1 DfBeta hoge leeftijd groot = de waarden van de richtingscoëfficiënt wordt vooral bepaald door lage en hoge waarden op X in plaats van de middengroep.1 Standardized DFBETA LEEFTIJD Dit is een raar patroon (invloed van elke case op richtingscoëfficiënt).0 31 00 .0 100 Std.00000 N = 1461.2 10 20 30 40 50 60 70 80 90 LEEFTIJD 35 .0 0 0 -.00 0 0 DFBETA LEEFTIJD Standardized DFBETA LEEFTIJD Je hebt hier 2 grote toppen. . Dit is echter perfect normaal bij regressie-analyse. 75 .1 .0 019 0 -.1 5 2 -. Dev = .0 044 0 -. Hoge en lage waarden trekken het zwaarst aan de rico.1 5 7 . C. Is het verschil daartussen statistisch significant? µ1 µ2 ˆ = b +b x y i 0 1 i 0 1 i ˆ = β +β Y 0 i 1 x y =b +b x +e i Y =β +β 0 1 x +ε 0 Situatie vergelijkbaar met verschil tussen 2 verwachtingen. 36 . Inferentie over regressiecoëfficiënten We willen iets zeggen over de regressiecoëfficiënt ( We willen iets weten over steekproef. β β ) uit de populatie. een significantietoets doen tussen twee groepen met en . Het verband tussen de verschillende groepen is dat ze een lineaire functie hebben. maar hebben enkel de richtingscoëfficiënt (b) uit de We zullen aan de hand van een t-verdeling. Populatie: We gaan na of het verschil tussen deze groepen statistisch significant is. Maar hier: vele mogelijke verschillende waarden X Bij regressieanalyse hebben we heel veel groepen (hier 3 maar kunnen er meer zijn). De ene heeft geen invloed op de andere (normaal gezien). • • • Assumpties (zie ook Multiple regressie analyse) Lineariteit normaliteit: e ’s normaal verdeeld met gemiddelde 0 [N(0. 1. Bijvoorbeeld wanneer we een enquête afnemen in scholen. kan het zijn dat de selectie afhankelijk is van de scholen zelf. 4] geen vertekening door outliers en invloedrijke waarnemingen • • 37 . geen autocorrelatie: e ’s zijn onafhankelijk van elkaar We veronderstellen dat de residuelen van alle cases onafhankelijk zijn van elkaar. we gebruiken de residuen als schatting van de standaardafwijking van de steekproevenverdeling. populaire scholen). In steekproef: y bij gegeven x is kansvariabele met bepaalde µ en σ De verwachting y varieert volgens lineaire functie met x µ =β +β y 0 1 x Steekproefgrootheden: normaal verdeelde zuivere schatters ˆ = b0 + b1 x y De steekproevenverdeling van de regressiecoëfficiënt is over alle mogelijke steekproeven de verwachting ( ) en die is gelijk aan de verwachting ( ) in de populatie. De variabelen in de bevolking liggen rond de verwachte Y-waarde. Per school hebben we een ander publiek (elite vs.De spreiding ligt rond de verwachting (kan dus normaal verdeeld zijn). Met als gevolg dat twee residuen met elkaar verbonden zijn via school in plaats van via willekeurige residuen. We kunnen dit schatten door de verwachten residuen. In de populatie heb je zo’n verdeling. nagaan via Durbin Watson test [0 . µ µ Er is echter nog een ontbrekende parameter: σ populatieparameter meestal onbekend e ’s gebruiken als schatting S s 2 = ˆ )² ∑( y − y i i n−2 = de geschatte standaardafwijking van de steekproevenverdeling De standaardafwijking van de residuen (S²). maar dit is niet altijd zo.1)] homoscedasticiteit: e ’s hebben constante variantie We veronderstellen dat de variate van de residuen gelijk is voor alle X-waarden. Met alle gegevens hierboven berekent. Betrouwbaarheidsinterval Zowel voor b0 als voor b1: b ± t * SE SE • • b met t(n-2) verdeling b = standaardafwijking van de steekproevenverdeling van de richtingscoëfficiënt ONDJREN : Voorbeeld LEEFTIJD b0 = 16. kunnen we nu aan inductieve statistiek gaan doen. • Ho: β 0 = 0 ▫ verwachte Y bij X = 0 dikwijls niet interessant ▫ tenzij ev.73] b1 = -0. 16.v.078] 3. We vergelijken tussen de richtingscoëfficiënten uit de steekproef en delen deze door de richtingscoëfficiënten die we formuleren in de nulhypothese (Ho).85 .087 95%-CI: [-0. gemidd. Significantietoets Oftewel een t-toets. -0. X in deviation scores (afwijking t.293 95%-CI: [15.) • Ho: β 1 = 0 ▫ geen effect (horizontale rechte) 38 . 2.o.096 . 453 -19.729 Sig.225 -8.001 p < 0.000 . Bijvoorbeeld: • • b0 = 16.087 t = -19.293 . Dependent Variable: Aantal jaren onderwijs gevolgd 39 . .70E-02 .293 t = 72.004 t 72.001 Coefficientsa Standardi zed Coefficien ts Beta -.729 p < 0.000 a.453 b1 = 0.Toetsingsgrootheid: t= b SEb 1 1 met n-2 vrijheidsgraden Meestal doen we een tweezijdige toets.459 Model 1 (Constant) LEEFTIJD Unstandardized Coefficients B Std. Error 16. OPSTAP NAAR MULTIVARIATE ANALYSE 40 . inductieve statistiek cross-sectionele vs. Vb: Y = aantal keer naar theatervoorstelling X = leeftijd Z Z = opleidingsniveau Jongeren meer dan ouderen Hoger opgeleiden gaan vaker ! relatie tussen leeftijd en opleidingsniveau: jongeren zijn hoger opgeleid dan ouderen! 41 . Men noemt deze relatie dan ook een “schijnverband”. Je moet die in rekening brengen om het netto-effect te krijgen. longitudinale data verborgen variabelen (Z) / multivariate analyse X Y Het bivariate geval Types van relaties met meer dan 2 variabelen: Gemeenschappelijke afhankelijkheid/ wederzijdse oorzaak X Y De relatie tussen X en Y is geen echte relatie. Vb: X = etniciteit Z = SES Y = criminaliteit X Z Y Verstrengeling X Y Dit is de meest voorkomende soort relatie. Enkele aandachtspunten: beschrijvende vs. Types relaties Een bivariate effectrelatie is niet altijd gelijk aan een causale relatie. misschien een beetje invloed van X op Y.A. Opstap naar multivariate analyse 1. Z Intermediaire variabele Geen rechtstreekse relatie tussen X en Y. zij wordt beïnvloed door een 3e variabele Z. De derde variabele heeft tevens een invloed op Y én is gecorreleerd met X. 0% (100%) (100%) .leeftijd 42 . zonder kinderen woont met partner en kinderen Multivariaat (kansverhoudingen) woont met partner. Bij multivariate statistiek spreekt men van netto-effecten.t. hebben van (thuiswonende) kinderen . .1% 14. naar al dan niet hebben van kinderen 0 Bivariaat (%) woont met partner. leeftijd. wel sterke indicatie voor causale relatie. Z Hoe kies je een set van onafhankelijke variabelen? Door te kijken naar de theorie.Interactie-effect X Y Variabele Z heeft een effect op de relatie tussen X en Y.1 . bijwonen van niet-klassieke concerten/festivals (voorbije 6 maand). vb. Dit bleek niet uit de vergelijking van percentages (integendeel) ⇐ o.v. indien: sterke samenhang statistische controle voor diverse andere kenmerken (MVA) samenhang wordt consistent gevonden in vele onderzoeken vermeende oorzaak gaat vooraf aan het effect • Sterke samenhang: Stijging in opleidingsniveau levert een daling in etnocentrisme. nml.0 * Wie samenwoont met partner en kinderen vertoont een tweemaal lagere kans (odds) om frequent een niet-klassiek concert/festival bijgewoond te hebben dan wie enkel met de partner woont (interpretatie i.3% <-> 21. Wij gaan nakijken naar de dimensies van verschillende onderzoeken ( causaal verband) Repliceerbaarheid van onderzoek.1% 3+ 7. samenhang ts. . . Mensen met inwonende kinderen gaan frequenter. blijft: cross-sectionele vs.2% 7. dit komt door de invloed van een 3e variabele.1%). • maar zelfs met correcte toepassing MVA-technieken. zonder kinderen woont met partner en kinderen 84. oddsratio) Mensen met kinderen gaan meer frequent naar concerten (15.a. .8% 1-2 8. longitudinale data mogelijkheid verborgen variabelen => vaststellen effectrelatie ≠ causale relatie ev.1.7% 78.2. 2. Voorbeelden leeftijd -> ethnocentrisme (APS 2002) 20,00 15,00 Ethnocentrisme ˆ = 7,17 + 0,061X Y a = 7,17 b = 0,061 r = 0,30 10,00 r 5,00 0,00 20,00 40,00 60,00 80,00 2 = 0,09 B = 0,30 Leeftijd jaren onderwijs -> ethnocentrisme (APS2002) 20,00 15,00 ˆ = 14,7 − 0,382 X Y a = 14,7 b = −0,382 r = −0,37 Ethnocentrisme 10,00 5,00 r 0,00 5,00 10,00 15,00 20,00 2 = 0,13 B = −0,37 Aantal jaren onderwijs gevolgd 43 jaren onderwijs (X1) + leeftijd (X2) -> ethnocentrisme (APS2002) ˆ = 12,358 − 0,305 Y X 1 + 0,031 X 2 a = 12,358 b = −0,305 b = 0,03 R = 0,15 B = −0,292 B = 0,152 1 2 2 1 2 44 B. Het multivariate model met 2 onafhankelijke variabelen X1 Y X2 ε • • • • • • Y: afhankelijke variabele X1 en X2: onafhankelijke variabelen (metrisch) a: intercept (verwachte Y als X1 en X2 = nul) b1: netto-effect van X1 op Y (met X2 constant gehouden) (statistisch gecontroleerd voor X2) b2: netto-effect van X2 op Y (met X1 constant gehouden) (statistisch gecontroleerd voor X1) ε: cumulatief effect alle andere oorzaken Y ; verzameling van alle andere mogelijke variabelen die een invloed op Y kunnen hebben (verzameling Z-variabelen; residuele variatie) Stuk van de niet-verklaarde variantie. ˆ =a+ Y b1 X 1 + b2 X 2 Verwachte Y Y = a + b1 X 1 + b2 X 2 + e Waargenomen Y ( e = residueel) Z Y = B1 Z X1 + B2 Z X2 +e Gestandaardiseerde Y, verwachte Z-score op var. Y Geen intercept ( a ) want a = 0 bij standaardisatie. Voorbeeld: X1 = Partner X2 = Kinderen Y = Cultuurparticipatie ε = Opleidingsniveau, leeftijd, … 45 Bivariate analyse: MULTIVARIATE ANALYSE Eén cirkel staat voor de totale variatie van een variabele. M. Het stukje C staat hier voor de overlapping tussen X1. • • • a + c = het effect van X1 op Y b + c = het effect van X2 op Y c + d = het effect van X1 op X2 en omgekeerd Wat we in de multivariate analyse gaan doen is het stukje C weghalen zodat wat het netto-effect krijgen van X1 op Y (= stukje a) en van X2 op Y (= stukje b). Deze overlapping is een deelverzameling en staat voor de covariatie tussen (a) en (b). X2 en Y.w. Multivariate analyse: In het multivariate model covariëren X1 en X2 ook. Er is echter géén variatie tussen X1 en X2 aangezien het hier bivariaat is. er is dus een samenhang tussen de twee onafhankelijke variabelen. Daarom is het voldoende om twee afzonderlijke bivariate analyses te doen: • a+c • b+c Doordat we tweemaal C in rekening brengen krijgen we een vertekening en dus een overschatting van de coëfficiënten. de mate waarin ze samen variëren. In het bivariate model is er een overlapping tussen X1 en Y en tussen X2 en Y. 46 . Concept van gedeelde variantie BIVARIATE ANALYSE Eén cirkel staat voor de totale variatie van een variabele.1.a. Een illustratie 2 afzonderlijke bivariate regressie-analyses: ETHNOCENTRISME = 14.22 (= c + d ) We moeten rekening houden met de gedeelde variaties (c) tussen X1-X2-Y. a = 14.09 = b + c) a = 7.031 LEEFTIJD + e ( R = 0. DIT IS FOUTIEF. (1/4de van het effect valt weg doordat we overschat hebben bij de bivariate analyse) R² = 15% a+ b + c 2 47 .17 + 0.2.15 = a + b + c) Hier gaan we het stukje C eruit halen.305 OPLEIDING + 0. verklaren we 22% van de totale variatie.061 LEEFTIJD + e (r = 0. Indien we de r² (determinatiecoëfficiënten) samentellen. MAAR: r r LEEFTIJD − OPLEIDING 2 LEEFTIJD − OPLEIDING = −0.17 b = 0. 22% hebben we verklaard. ETHNOCENTRISME = 7.061 r² = 9% b+c 2 Dus 9% van de verschillen in etnocentrisme worden verklaard door verschillen in leeftijd.7 − 0. (zijn “perfecte” coëfficiënten) Dus 22% van de verschillen in etnocentrisme worden verklaard door verschillen in opleidingsniveau en leeftijd.7 b1 = 0.382 OPLEIDING + e (r = 0.382 r² = 13% a+c 2 Dus 13% van de verschillen in etnocentrisme worden verklaard door verschillen in opleidingsniveau.13 = a + c) a = 14.7 − 0.305 b2 = 0.0.031 De richtingscoëfficiënten zijn lager dan bij de bivariate analyse. WANT C HEBBEN WE TWEE KEER GETELD!!! Multivariate analyse: ETHNOCENTRISME = 14.46 = 0.7 b = . 0. We kunnen onze voorspellingen dus niet gaan doortrekken op langere termijn. jaren onderwijs (X1) + leeftijd (X2) -> ethnocentrisme (Y) [3D-puntenwolk] (APS2002) Van een 3D-puntenwolk naar een 2D.R² = de meervoudige determinatiecoëfficiënt Dus 15% van de verschillen in etnocentrisme worden verklaard door verschillen in opleidingsniveau en leeftijd. Met andere woorden.152 Z Z = −0. 15% hebben we verklaard. het is cross-sectioneel onderzoek. jaren onderwijs (X1) + leeftijd (X2) -> ethnocentrisme (Y) [2D-regressievlak] (APS2002) ˆ = 14. we kunnen geen voorspellingen doen m.regressievlak (zie grafiek hieronder).305 Y X 1 + 0.7 b = −0.a.15 + 0.292) 48 .031 1 2 R 2 = 0.t.305 b = 0.7 − 0. ! Dit is geen longitudinaal onderzoek. de toekomst e.292 Z X B = −0.152 ˆ Y 1 2 1 X2 Wat heeft nu het grootste effect op etnocentrisme? Opleidingsniveau want de gestandaardiseerde richtingscoëfficiënt is het grootst (B1 = .b.292 B = 0.031 X 2 a = 14. worden verklaard door verschillen in de 7 onafhankelijke variabelen. R² = 30.067 Hier zijn er 7 onafhankelijke variabelen. Hierdoor moeten we B1 met B2 gaan vergelijken om een goeie voorspelling te krijgen. Uitbreiding naar meer onafhankelijke variabelen Eenvoudige uitbreiding naar drie en meer onafhankelijke variabelen: ˆ= + Y a b1 X 1 + b2 X 2 + b3 X 3 ˆ= + Y a b1 X 1 + b2 X 2 + b3 X 3 + b4 X 4 + . in: Vlaanderen Gepeild 2005.37-60). B1 = bij een verschil van 1 standaardafwijking in het aantal jaren onderwijs gevolgd.304 (N=1554) (+ ook controle voor geslacht en levensbeschouwing) (bron: Meuleman B. B 0. Tevens is het afhankelijk van steekproef tot steekproef (= steekproefvariatie) Dus moeten we een betrouwbaarheidsinterval opstellen van b1 om zeker te zijn. dus moeten we controleren op een mogelijke 4e variabele.184 instellingen Vertrouwen -0.305 is netto-effect van opleidingsniveau gecontroleerd op leeftijd.074 administratie Vertrouwen gerecht -0.0. & J. Zoals bijvoorbeeld urbanisatiegraad (en de samenhang met opleidingsniveau): Bv: .Je kan de ongestandaardiseerde richtingscoëfficiënt b1 en b2 niet met elkaar gaan vergelijken omdat ze zeer gevoelig zijn voor de meeteenheid en de spreiding. Dit is natuurlijk een zinloze interpretatie. In hoeverre is opleidingsniveau verklarend? Er zijn nog veel andere (verborgen) variabelen die een effect kunnen hebben. Hiervoor moeten we de theorieën gaan nakijken.034 -0. R² = 0.0. Maar misschien is er ook een mogelijke samenhang met de verstedelijkingsgraad.15 = 15% van de verschillen in etnocentrisme hebben we verklaard door verschillen in opleidingsniveau en leeftijd..129 Vertrouwen leger 0. verwachten we een verschil van – 0. pp. een illustratie (APS 2004): perceptie van bedreiging door migranten (Y) Regressie-analyse van perceptie van bedreiging door migranten . 3. Hiervoor moet de operationalisatie heel goed uitgewerkt worden.318 -0..4% van de verschillen in de perceptie van bedreiging door migranten. Opleiding heeft het grootste effect want B is ..gestandaardiseerde regressie-coëfficiënten Leeftijd Opleiding Lidmaatschap verenigingen Vertrouwen politieke -0. maar we kunnen vergelijken en dat kunnen we niet met b1 en b2. 49 . Billiet (2005) De evolutie van etnische dreiging tussen 1991 en 2004 en de relatie met institutioneel vertrouwen.089 R² 0.292 standaardafwijkingen op de etnocentrismeschaal.318. Ook kunnen er zich meetfouten voordoen. MULTIPLE REGRESSIE-ANALYSE 50 . Inleiding tot multiple regressie-analyse Correlaties tussen onafhankelijke variabelen afhankelijke variabele onafhankelijk variabelen We gaan ervan uit dat alle variabelen van metrisch meetniveau zijn. De richtingscoëfficiënten (b’s) zijn niet aan elkaar gelijk. dus gaan we b (richtingscoëfficiënt) gebruiken ter vervangen. 1. rico) ⇐ ‘measurement error’ (bij b) ⇐ conceptueel onderscheid tussen: • statistisch hulpmiddel • bestudeerd fenomeen We willen β berekenen maar we kunnen dit niet want we kennen die niet. lineair = voor alle effecten veronderstellen we een lineair effect.A. Het multivariate basismodel X1 Y X2 ε Lineair-additief model • • ε : cumulatief effect alle andere oorzaken Y (‘random variable’) β : ‘true coefficient’ (beta) ≠ regressiecoëfficiënt ⇐ ‘sampling error’ (bij b. additief = we hebben “+”-tekens. In de multiple regressie-analyse gaan we gaan controleren op associaties tussen de onafhankelijke variabelen. sommatie effecten. 51 . 1 X 2 Puntnotatie. MULTIVARIATE ANALYSE De cirkels zijn even groot = Z-score. In feite is X1 = ZXi (fout bij McClendon) 52 . waargenomen Y 2 ˆ =a+ Y b1 X 1 + b2 X 2 verwachte Y. wat we bedoelen in de regressie.2 = het effect van X1 op Y statistisch gecontroleerd met X2 (constant) = netto-effect a= a y .2 X 1 + b y 2.12 + b y1.Puntnotatie: controleren / constant houden partiële regressiecoëfficiënt voorspeld door b y1. Het zijn hier dus gestandaardiseerde variabelen.2 a +ε y . Voorbeeld: b 1 = b y1. Concept van gedeelde variantie BIVARIATE ANALYSE Eén cirkel staat voor de totale variatie van een variabele. b ter vervangen van β ˆ= Y a y.12 = intercept. verwachte waarde op Y voorspeld door de waarde X1 en X2 a.12 (of ook: ay12) Y =α + β 1 X +β X 1 2 lineair-additief model. Multivariate analyse: Hier is er dus een samenhang tussen de twee onafhankelijke variabelen. Bijvoorbeeld persoon 1 heeft 0 jaren ervaring (X1). Voorbeelddata X1: aantal jaren ervaring (onafh.000 $ X1 = per jaar ervaring komt er 1000 $ bij X2 = per publicatie komt er 2000 $ bij ε = residueel. staat hier voor andere verdiensten (extra $ erbij) Twee bivariate analyses We hebben een onderzoekspopulatie van 5 personen. standaardloon van 20.2 = a (C is eruit) b.) geweten dat: Y = 20 + 1X1 + 2X2 + ε maar hier: schatten om logica te illustreren a = intercept. 2 publicaties uitgegeven (X2) en 53 .) Y: jaarloon (in 1000$) (afh.) X2: aantal publicaties (onafh. b y1. We verwachten dat hij normaal 24. b y1 = het bivariate effect van X1 op Y.2 : 23. Persoon 1 heeft een afwijking van -9 ( Y − Y ) t.09 + 2. er is dus verdient 26.2 : 2.ˆ ) verdient.09 > 20. ˆ = 23. a y1 > a y1. van het gemiddelde jaarloon ( Y ).000$ ( Y een residueel van +2 (ε).30 b y1 > b y1.382 x1 ) zien we dat we het effect van X1 op Y In de regressie vergelijking ( y overschatten indien we X2 buiten beschouwing laten.v.382 > 1 Grafisch 54 .000$ (Y).o. 94 X 2 = 35 − 2. waar we niet X1 en X2 in onze analyse opnemen. ˆ = a + 2.94 * 5 = 8. Dus gaan we a. R² zal dan c+d zijn. Dus gaan we onze nieuwe variabele εX1 in relatie brengen met Y.94 * 9 = 58.39 + 2. 55 . We gaan dit ook doen voor X2. en deze gaan we gaan gebruiken in onze regressie-analyse. zonder C! f g De overlappende variatie tussen X1 en X2 op Y en de covariatie tussen X1 en X2 (c+d) zorgen ervoor dat met een probleem zitten.v regressie-analyse dat probleem oplossen.c.382 X 1 − 2. εX1 = 1 – R² = a + f We willen het stukje C weg als we het effect van X1 of X2 op Y willen nagaan.382 Y X 1 + 2. Bijvoorbeeld als we X1 als afhankelijke variabele nemen en X2 als onafhankelijke (c+d) dan gaan we ons enkel focussen op het residu εX1.h. X1 = a [εX1 = X2 = a [εX2 = + bX2 + εX1 a + f] + bX1 + εX2 b + g] (hier is X1 de afhankelijke) (hier is X2 de afhankelijke) ˆ = a+ Y b1ε X 1 + b2 ε X 2 partiële RC’s. Dus we gaan een nieuwe regressie-analyse uitvoeren (MVA). Op deze manier is het stukje C uit onze vergelijking.d.94 X 2 ˆ = Y − 2.39 a ˆ = 8.382 *10 + 2. We hebben dus een zware overschatting indien we enkel X1 en X2 gebruiken. maar wel εX1 en εX2 (zonder C). Dit gaan we doen via regressie-analyse. Relatie bivariate b’s en meervoudige b’s De bivariate regressiecoëfficiënten (RC) overschatten ‘ware’ RC’s.67 Y (--> vb. case 5) oorzaak: correlatie tussen X1 en X2 Oplossing overschatting ‘dubbeltelling’ We moeten een methode vinden om X2 uit X1 en X1 uit X2 te krijgen.382 * 5 − 2. 18 jaren ervaring Voorbeeld case 1: X 1.Zo bekomen we de partiële richtingscoëfficiënten b1 en b2.940 ˆ = de verwachte waarde op X1 X 1.2 1 X1 waar X2 eruit is gehaald (dus a + f).Y ) = 23. de geresidualiseerde variabele van X1 . ( X1 .X 1.2 ˆ = 2.18 = bij 2 publicaties verwachten we 2. 56 .X 1. Deze εX1 gebruiken we om de covariatie van Y te berekenen.2 ˆ = residu ε X = dit is onze nieuwe variabele. statistisch gecontroleerd op het effect van publicaties. ˆ )(Y.82 = de covariatie tussen Y en de geresidualiseerde X1 variabele.2 Hier is het stukje C uit verwijderd! b y1.2 = het netto-effect van de geresidualiseerde variabele X1 op Y. statistisch gecontroleerd op X2 = het effect van jaren ervaring op loon. b12 = het effect van publiciteit (X2) op jaren ervaring (X1) = 0. 1 ˆ = residu ε X = dit is onze nieuwe variabele.Idem tabel 3. Deze εX2 gebruiken we om de covariatie van Y te berekenen.X 2. Voorbeeld case 1: X 2. statistisch gecontroleerd op het effect van jaren ervaring. maar dan voor X2 in plaats van X1 ˆ = de verwachte waarde op X2 X 2. ( X2.54 = bij 0 jaren ervaring verwachten we 1.1 ˆ = 1.2.03 = de covariatie tussen Y en de geresidualiseerde X2 variabele.1 = het netto-effect van de geresidualiseerde variabele X2 op Y. de geresidualiseerde variabele van X2. ˆ )(Y. Het regressievlak moet door het evenwichtspunt ( X en Y ).1 2 X2 waar X1 eruit is gehaald (dus b + g). statistisch gecontroleerd op X1 = het effect van publicaties op loon. 57 .1 Hier is het stukje C uit verwijderd! b y 2. a y .54 publicaties.12 = analoog berekend als het bivariate geval (regressievlak).Y ) = 35.X 2. Waar moeten we C aan toekennen? Aan X1 of X2? Daarom moet C eruit. Y Y e e a c d b a c d b f g f g X1 X2 X1 X2 X1 uit X2 halen εX1 = a +f X2 uit X1 halen εX2 = b +g We halen de gedeelde variatie tussen de onafhankelijke variabelen eruit en kijken dan naar het effect op de afhankelijke variabele (C eruit). Y e a c d b f g X1 X2 effect εX1 en εX2 op Y Grafisch 58 . Coëfficiënten a. 12 Wij gaan trachten zo goed mogelijk de afhankelijke variabelen te verklaren. 1/n-1) ˆ = de verwachte waarde op Y Y 12 b. Hoe goed is onze regressie nu? SY −Yˆ = 1. 1/n i. Residuelen Hier gaan we na hoe goed X1 en X2 nu de variantie in Y verklaren.v. nml. Meervoudige correlatiecoëfficiënt (Hoe goed is onze voorspelling?) rYYˆ = de bivariate correlatie tussen de waargenomen en verwachte variabele Y. SY = standaardafwijking waargenomen Y 59 .p. 12 (in de reader van McClendon wordt er een andere formule gebruikt.2.6733 = de standaardafwijking van de residuen. 12 = de variatie die we willen begrijpen.9850 = bijna perfecte correlatie. = 1 = perfecte voorspelling min. ∑ (Y − Y )² = de variatie van de waargenomen waarden (totale variatie) (delen door n-1 = variantie. max.SYˆ12 = standaardafwijking verwachte waarde van Y SY SYˆ12 = covariatie De bivariate correlatie kan niet negatief worden. 40 30 20 20 Y Rsq = 0.12 = 0.9702 30 40 50 Unstandardized Predicted Value c.o.v. SST ∑ (Y − Yˆ 12 )² = variatie van de residuelen = afwijking van elke waargenomen waarde t. = 0 (!) = geen samenhang 60 De residuen zijn niet perfect gecorreleerd. SSE de verwachte waarde.12 = de correlatie tussen Y en Y RY . geeft goed weer wat we bedoelen. RY . vierkantswortel = standaardafwijking). Meervoudige determinatiecoëfficiënt (Hoe groot is stuk a + b + c?) R 2 Y . 60 . 50 ˆ. ˆ z y = 0.6524 z 2 ˆ = gestandaardiseerde verwachte waarde voor Y. Z Y 61 . Alsook is de afwijking t.R 2 Y . k = de onafhankelijke variabelen. R² groter naarmate er meer onafhankelijke variabelen (k) zijn en wanneer R² kleiner is. situatie waar R in populatie = 0) (meer marge voor fouten als populatie-R klein is) Dus we hebben een overschatting voor de steekproefvariatie voor R².o.12 = SST − SSE = . Het is dus moeilijk te zeggen wat een groot/klein effect is.3804 z1 + 0. alsook zijn ze schaalafhankelijk. Gestandaardiseerde partiële regressiecoëfficiënt In multivariate analyse werken we met gestandaardiseerde richtingscoëfficiënten.v. Dit komt door steekproeffouten. kunnen we niet X2 verklaren door onafhankelijke var. De ongestandaardiseerde coëfficiënten zijn gevoelig voor spreiding. Oplossing: standaardisering Berekeningen zijn analoog aan het niet-gestandaardiseerde geval. We hebben afwijkingen in opwaartse bewegingen. Probleem bij R² is dat we een overschatting hebben van de populatie-R². d. (cf.9702 SST de proportie van de totale variantie die verklaard wordt door de onafhankelijke variabelen. ˆ ) Oplossing: adjusted R² ( R 2 Deze is steeds kleiner dan R². Y e a c d b f g X1 SST = a + c + b + e SSE = e . 3804).6524) dan Z1 (0.2 )/n − 1. De waarden zijn mathematisch onbegrensd en liggen praktisch in het interval [-1. Het nadeel is wel dat het een inhoudelijk zinloze interpretatie is. (cf. Z2 en Zy) is per definitie gelijk aan 0. De covariatie tussen Y en X.+1].2 62 . aangezien men hier spreekt in termen van standaardafwijkingen. sr1 = ˆ ∑ (Y − Y )( X − X s sX X ˆ 1 Y 1 1. tabel 3. Semi-partiële correlatie (part-correlatie) Definitie: correlatie tussen Y en X waarvan andere predictor uitgehaald.Z 2 heeft een groter effect (0. Hier kunnen we dus gaan vergelijken. De som van de afwijkingen (bij Z1.5) e. 14 + 0. Bij semi-partieel halen we X2 uit X1.3861 sr1 ligt in het interval [-1.ˆ = de residuelen X1 − X 1.zonder X1 f.1490 (b) 2 R 2 Y .77 c+b is de R² van de bivariate analyse => verklaarde variatie gaat met a dalen.1490) = 0.+1].12 − rY 2 2 Interpretatie sr1 ² : bijkomende variantie uniek verklaard door X1 (of daling in R² door weglaten X1) = de gecontroleerde determinatiecoëfficiënt Dus. pr = r 1 = Y 1.1490 = 0.2 ˆ )( X − X ˆ ∑ (Y − Y sY Yˆ s X X ˆ 2 1 − 2 1 1. met statische controle voor (het aantal jaren ervaring en) aantal publicaties. sr = R 1 2 2 Y . X2 zowel uit X1 als uit Y halen.2 De partiële correlatie ( pr1 ) ligt in het interval [-1.0507 (a) 2 2 = 0. sr1 = 0.8212 + 0.12 = r Y 1 + sr 2 = (0.12 − ( sr1 + sr 2) = 0. 63 .+1]. X 1.2251 sr2 = 0.9702 2 2 Stel X1 is uit het model => c + b = 0.2 ˆ = de verwachte waarde van X1 als X2 de afhankelijke variabele is.9702 − (0.0507 + 0. Partiële correlatie Definitie: correlatie tussen Y en X waarbij andere predictor zowel uit X als Y gehaald.2251)² = 0.2 In voorbeeld is sr1 de correlatie tussen loon en het aantal jaren ervaring. hoeveel verschil in loon wordt verklaard door verschil in jaren ervaring = 5% sr sr 2 1 = 0.7705 2 (c) Dus c = ervaring + publicaties verklaren samen 77% R 2 Y .2 )/n − 1. stukje b is het verschil tussen de twee.9062)² + (0. In voorbeeld: pr1 = 0.6299 pr2 ² = 0.12 1 2 Y2 2 2 Y2 Interpretatie pr1 ² : hoe goed verklaart X1 het deel van de variantie in Y die niet verklaard wordt door X2 In voorbeeld: pr1 ² = 0.9129 − pr = R1 − r r 2 Y .8333 1- rY 2 ² = 1 – (b+c) a+e 1 is de totale variatie van Y (want deze is gestandaardiseerd) 64 .7936 pr2 = 0. • • • • Toepassing: 1973-1977 Quality of Employment Survey blanke mannen.0. in voltijds loonverband Y: jaarloon in 100$ (EARN) X1: aantal jaren scholing voltooid (EDUC) (0[0]. We zien dat inkomen voornamelijk bepaald wordt door opleidingsniveau. 8[8]. Maar dit zegt niet genoeg over het effect van inkomen.323) tussen opleidingsniveau en ervaring. 1-7[4]. Beschrijving data B (bivariaat) Correlations (r) zijn de bivariate analyses. 13-15[14]. 16[16].B. 25-64 jaar. Multiple regressie-analyse: Coëfficiënten 1. 65 . We zien een negatief verband (. 9-11[10]. 17-19[18]) X2: aantal jaren ervaring (EXPER) ordinaal a. Daarom moeten we multivariate analyse gaan toepassen. 12[12]. En we hebben 3 probleemgevallen (= invloedrijke waarnemingen) sterk effect opleidingsniveau op inkomen (!) er is vertekening b) Tevens drie probleemgevallen Een negatief categorisch verband 66 . a) Geen metrische variabele. maar een categorische. De scatterplots geeft de relatie weer met de afhankelijke variabele inkomen.Bivariate scatterplots We gaan eerst kijken naar de verdeling van de outliers. We gaan dit tevens conditioneel gaan bekijken: (p.68) 67 .Multivariate 3D-scatterplots In dit 3D-scatterplot gaan we loodlijnen trekken (“spikes”) voor een beter zicht te krijgen. We merken op dat de loodlijnen oplopen van links naar rechts. 68 . 1737 = 17. Coëfficiënten (multivariaat) C is nog niet getoond: C is negatief! A+B > a+b+c Legende: sr = semi-partiële correlatiecoëfficiënt (part-correlatie) sr ² = semi-partiële determinatiecoëfficiënt pr = partiële correlatiecoëfficiënt pr ² = partiële determinatiecoëfficiënt B = meervoudige gestandaardiseerde richtingscoëfficiënt Shrunken R ² = .173 = 17.3% van de verschillen in inkomen worden alleen verklaard door verschillen in opleidingsniveau. komt uit verschil in opleidingsniveau. worden verklaard door verschillen in opleidingsniveau en aantal jaren ervaring. 69 . worden verklaard door verschillen in opleidingsniveau. sr2 ² = .b. pr1 ² = .174 = 17.3% van de verschillen in inkomen.4% van de verschillen in inkomen die niet verklaard worden door de verschillen in aantal jaren ervaring.6% van de verschillen in inkomen worden alleen verklaard door verschillen in het aantal jaren ervaring. (Hoe goed is onze voorspelling?) sr1 ² = . Alle verklaringskracht van verschillen in inkomen.036 = 3. worden verklaard door verschillen in het aantal jaren ervaring. Grafisch (multivariaat) 70 . verwachten we een verschil van . (cf.440 = bij 1 standaardafwijking verschil op opleidingsniveau. Dus het effect bij multivariate is groter dan bij bivariaat = suppressie.9) .059 Bij bivariaat gaan we het effect van X1 op Y na.798 X1 = bij een verschil van 1 jaar opleiding. tabel 3.12 ˆ= Y a + bY 1.2 X 1 + bY 2. verwachten we een verschil van 680$ 0.042 = 4. Bij multivariaat gaan we X2 in rekening brengen. verwachten we een verschil van 95$. met als gevolg dat de ware aard van het effect van X1 op Y naar boven komt.798 = bij een verschil van 1 jaar opleiding.verwachten we een verschil van 679$.440 standaardafwijking op inkomen. b X1 = 6.1 X 2 = 10.954 X2 = bij een verschil (tussen 2 mensen) bij 1 jaar ervaring. (= gestandaardiseerd b ) Wat heeft nu het grootste effect op het inkomen? B X 2 = .pr2 ² = . R² = SST − SSE 1473832 − 1213433 = (waarbij 260398 = 14732832 – 1213433) SST 1473832 Y .72 + 6.201 > . zijn deze B ’s groter.798 X 1 + 0.2% van de verschillen in inkomen die niet verklaard worden door de verschillen in opleidingsniveau. Dit is een dubbel zo groot effect dan B X 2 ! In tegenstelling tot bivariate correlatie.440 > .201 B X 1 = .954 X 2 6. B = de meervoudige gestandaardiseerde richtingscoëfficiënt.375 . 1 X 2 = 10.123 = intercept b Y 1.23 1 1.72 + 6.092 (6.23 (X − X ˆ )(Y − Y ∑ = ˆ )² ∑(X − X 1 1.123 + bY 1. statistisch gecontroleerd voor X2 en X3 (constant) ∑(X 1 ˆ ) (Y − Y ) = de associatie van de geresidualiseerde X1 en Y −X 1.12 + bY 1. ˆ= Y a Y .12 X 3 aY .23 X 1 + bY 2.23 = netto-effect (rico) van X1 op Y.23 ˆ X 1. Outliers Bijvoorbeeld case 552 weglaten.798 dalen). Uitbreiding naar meer predictoren Een eenvoudige uitbreiding naar drie en meer onafhankelijke variabelen. ˆ= Y aY . Cook’s D = Cook’s Distance = de gemiddelde van de verschillen van de dfBeta’s.2 X 1 + bY 2. b1 en b2 hebben een invloed op de richtingscoëfficiënt.13 X 2 + bY 3.23 = de geresidualiseerde X1 variabelen In SPSS: meervoudige regressieanalyse met X1 als afhankelijke en X2 + X3 als 71 .954 X 2 d.798 X 1 + 0.23 ) bY 1. dan zal b1 dalen met 0.c. 23 2.en multivariatie coëfficiënten De gestandaardiseerde partiële ≠ gestandaardiseerde bivariate parameters Enkele mogelijkheden: • ‘redundancy’ (redundantie) o B (in MVA) zelfde teken als r (in BVA) maar kleiner in absolute waarde o de bivariate coëfficiënt is groter (>) dan de multivariate coëfficiënt ‘suppression’ (suppressie) o B zelfde teken als r maar groter in absolute waarde o B tegengesteld teken van r en kleiner/groter in absolute waarde o de bivariate coëfficiënt is kleiner (<) dan de multivariate coëfficiënt o het effect van X1 en X2 wordt onderdrukt o ook mogelijk negatief effect van X1 op Y • Voor een beter begrip: BY 1.123 = verschil tussen de totale variatie in Y (SST) – residuen (SSE) totale variatie in Y (SST) sr = R 1 2 2 2 Y .123 = 2 ˆ ∑ (Y − Y )² − (Y − Y ∑ (Y − Y )² 123 )² R ² Y . Klik vervolgens op Save en op de residuelen.23 De idee van statistische controle blijft hetzelfde. RY .23 2 2 = verschil tussen totale verklaarde variatie – variatie die verklaard wordt indien X1 uit de analyse gehaald wordt. want deze functie bewaart de verwachte X1 waarden. Types relaties tussen variabelen Verhouding bi.onafhankelijke variabelen.123 1 2 2 Y .123 − RY . − pr = R1 − R R Y . X 1.2 = r Y1 − r Y 2 r12 2 1 − r12 = relatie tussen het bivariate effect van X1 op Y en multivariate component 72 .23 = partiële determinatiecoëfficiënt Y . a. Zo bekom je ˆ . − Idem met (b).) In dit type correlatie-patroon zijn alle correlaties positief of positief te maken.05 Dit is r (zonder X2) vb: .05 Dus.03 zonder X2 Y X2 ε We zien in ons voorbeeld suppressie: . (a) type 1 correlatie-patroon = positieve correlatie tussen alle variabelen. = Y1 Y 1. B r r r 1− r Y2 2 12 12 Gemeenschappelijk: • • • alle r’s positief te maken door omgekeerd coderen X’ = (Xmax + Xmin) . hier gaan we gewoon X2 omcoderen.2 Dat is nodig zodat rY 2 r12 hetzelfde teken zal hebben als rY 1 . met X2 erbij komt het effect van X1 op Y tot zijn volste recht.03 < . (c) correlatie-patroon is terug te voeren tot (a) door Y (de schaal) om te coderen. Type 1 correlatie-patroon (3 varn.X1 In MVA (B) Vb: X1 Y = .X rY 2 r12 zelfde teken als rY 1 rY 1r12 zelfde teken als rY 2 de 2 delen van de teller hebben hetzelfde teken 73 . b. waardoor alles positief wordt. dan ook bij multivariate analyse. Bij multivariaat ga je het gedeelde stukje C eruit halen.6 > ( BY 1. Redundantie We hebben redundantie als: | rY 1 | > | rY 2 r12 | EN | rY 2 | > | rY 1 r12 | ( rY 1 .2 als BY 2.2 = multivariate effect van X1 op Y. Dat kan kleiner zijn dan a + b.rY 2 r12 ) Indien het geldt voor X1. statistisch gecontroleerd op X2 In voorbeeld: ( rY 1 ) . sr²) c positief sr ²1 + sr ² 2 ≤ R ² Dit is het meest frequent voorkomende type van correlatie-patroon. De totaal verklaarde variatie is a + b + c.1 ) en 74 . het kan zijn dat het stukje c negatief is! ii.33 Of anders geformuleerd: • • • • • deel van relatie X1-Y is redundant met deel van relatie X2-Y gedeelde variatie tussen X1. Indien X1 groter is in bivariate analyse. dan ook bij X2. rY 1 = bivariate effect van X1 op Y.a. m.i. zonder controle op X2 BY 1.2 ) . X2 en Y partiële relatie < zero-orde relatie (B.w. Suppressie We hebben suppressie als: • B tegengesteld teken van r | rY 1 | < | rY 2 r12 | o of | rY 2 | < | rY 1 r12 | maar (‘tegengestelde teken’ suppressie) als | rY 1 | < | rY 2 r12 | dan | rY 2 | > | rY 1 r12 | als | rY 2 | < | rY 1 r12 | dan | rY 1 | > | rY 2 r12 | (<= r12 voor zowel BY 1. 3252 standaardafwijkingen verschil in loon.1 75 . per publicatie en jaar ervaring) In het bivariate geval ( r ) zien we een positief effect. BY 1.tegengestelde teken suppressie bij BY 1.4583 We bemerken bij BY 1. terwijl we in het multivariate geval ( B ) een negatief effect waarnemen.• |B| groter dan |r| (‘gelijke teken’ suppressie) | rY 2 | > | rY 1 r12 | en (1.2 . Hieruit concluderen we dat de bivariate analyse foutief is.1 = 1.8503 = hier is het omgekeerd BY 2.2 en BY 2.2 = -. Er is suppressie: . rY 1 = bij 1 standaardafwijking verschil in jaren ervaring.1 iets systematisch met het type 1 correlatie-patroon. verwachten we een verschil van .gelijke teken suppressie bij BY 2.r ²12 ) < teller (voorbeeld: universiteit en loon. We bekomen hier dus andere conclusies in multivariate dan in bivariate analyse. De suppressie werkt in beide richtingen. 8513 BVA ≥ MVA 76 . Bij multivariaat gaan we X2 erbij nemen en zien we een negatief effect X1 op Y. Dat effect is hier positief.) Y + ε Bij bivariaat gaat het enkel om het positieve effect van X1 op Y.7455 > 0.2534 + 0. mee in het effect van X1 op Y. X1 - + X2 + MVA: Stukje C eruit en dus positief stuk valt weg. BVA: Bij X2 op Y heb je een positief effect. Bij BVA wordt het negatieve effect onderdrukt. Effect op Y Het totale effect (BVA) van X1 op Y (a+c) Het echte effect van X1 op Y is in feite negatief.Grafisch suppressie X1 + X2 - + (bivar. Bij BVA zit er een stuk van het effect van X2 op Y. Dus we krijgen een onderdrukking van het totale effect door relatie met andere variabelen. Het totale effect wordt onderdrukt door het negatieve stukje dat meekomt uit X1. sr ²1 + sr ² 2 ≥ R ² (‘negatieve’ c) 0. waardoor we enkel nog het negatief stuk overhouden. ) In dit type correlatie-patroon zijn alle correlaties negatief of negatief te maken. Gemeenschappelijk: • • • alle r’s negatief te maken door omgekeerd coderen X’ = (Xmax + Xmin) . Hier gaan we de Y variabelen moeten omcoderen.2 = r Y1 − r Y 2 r12 2 1 − r12 2 delen van teller hebben tegengesteld teken i. Suppressie Hier hebben we steeds ‘gelijke teken’ suppressie: |B| > |r| (MVA coëf. sr ²1 + sr ² 2 ≥ R ² 77 .c. Type 2 correlatie-patroon (3 varn. We hebben in dit type correlatie-patroon geen redundantie.) voor elke onafhankelijke variabele. > BVA coëf.X rY 2 r12 tegengesteld teken van rY 1 rY 1r12 tegengesteld teken van rY 2 B Y 1. 059 Bij de MVA is het echte effect van X1 = . d. • 78 .38 (bij correlations = BVA) wordt onderdrukt door X2 = .v.44 (B) en idem voor X2 = .20 Bij het type 2 correlatie-patroon hoort redundantie niet tot de mogelijkheid. Patroon voor meer dan 3 variabelen Dit is té complex voor eenvoudige weergave bepaalde predictor kan redundant zijn met bepaalde andere predictoren en in suppressie met nog andere predictoren Voorkomen redundantie/suppressie afhankelijk van aantal en sterkte redundante t.o. suppressieve relaties met andere predictoren.De bivariate coëfficiënt X1 = . we hebben steeds ‘gelijke teken’ suppressie. maar gemiddeld genomen ligt deze dicht bij de populatiewaarde β [beta] = de richtingscoëfficiënt in de populatie.3 zien we dat bepaalde aantallen afwijken. Inleiding Je afhankelijke variabele moet altijd metrisch zijn! We nemen steeds enkele assumpties aan. In figuur 4. hierna moeten we gaan zien of onze bevindingen statistisch significant zijn of niet zodanig dat we het kunnen doortrekken naar de gehele populatie. vb: n = 1000). Multiple regressie-analyse: Assumpties 1. Maar het gaat steeds over n (uw steekproefpopulatie. we kennen de verwachting niet de standaardafwijking µ maar σ ? Enkele assumpties: • b is een zuivere schatter (unbiased estimate) van β µ b =β 79 .C. a. waaraan voldoen moet worden vooraleer je aan regressie analyse kan doen. Maar wat is het probleem als onze assumpties geschonden zijn? Toch voor a-symmetrische relaties. Van steekproef tot steekproef krijgen we een andere richtingscoëfficiënt. Met de steekproevenverdeling willen we iets zeggen over de volledige populatie. Steekproevenverdeling van b (richtingscoëfficiënt) Dit is de steekproefvariatie beschreven door een steekproevenverdeling. t -verdeling ⇐ geschatte i. dit levert bijkomende onzekerheid • • grotere proportie > |2| dan N benadert normaalverdeling bij grote n 80 . ‘ware’ standaardfout. gebruiken we s (standaardafwijking uit de steekproef). Hierdoor wordt de staart(kans) dan ook groter. met als gevolg dat de overschrijdingskans ook groter wordt en het moeilijker wordt om Ho (nulhypothese) te verwerpen.v. maar: hiervoor assumpties aannemen over ε ! Onze grootste bekommernis met assumpties: Wat moet je doen na analyses? 1) residuen-analyse (Hebben we invloedrijke waarnemingen?) dfBeta’s of dergelijks. b. s b = s s ˆ Y −Y X n We doen een t-test om de kans te bepalen dat steekproeffouten ervoor zorgen dat b ≠ β (hoeveel standaardafwijkingen is b verwijderd van β) We gaan onze onzekerheid incalculeren door een t-verdeling te doen.σ b = σ s X ε n σ b = de standaardafwijking van de steekproevenverdeling van de b σ ε = de standaardafwijking van de residuen in de populatie s x = de standaardafwijking van X (waargenomen X) ε = de populatie residuen [eta] b~ N • = de steekproevenverdeling is bij benadering normaal verdeeld • • Gauss-Markov theorema: OLS regressievergelijking geeft ‘Best Linear Unbiased Estimate’ van β: meest efficiënte schatter ⇐ minimale standaardfout (vertaald) OLS regressie = richtingscoëfficiënt in een steekproef is de best mogelijke lineaire. het is een techniek die ervoor zorgt dat we zo’n minimaal mogelijke afwijkingen hebben van de residuelen. Dus de ‘ware’ σ niet gekend berekenen uit data.p. niet vertekende schatter van β. kunnen we de resultaten gaan interpreteren. Doordat σ niet gekend is. t-test voor bivariate regressie We gaan de verschillen (residuelen) in de steekproef gaan schatten. 2) Assumpties testen 3) Indien alle assumpties vervult zijn. Dus over de residuen moeten we eerst een aantal assumpties gaan testen vooraleer we dit hard kunnen maken. Dit levert een bijkomende onzekerheid waardoor we een t-verdeling moeten gebruiken. standaardafw. a.a. Y X2 Indien wel ε wel gecorreleerd is met X: • • ε b vertekende schatter (verstrengeling of ‘spuriousness’) of b = totaal (direct + indirect) effect hypothesetoetsing: . residuelen overschat t vertekend (onderschat) .H0 : β = 0 t= b−0 s = b b s = b b SE b • • • kans op type 1 fout (correcte nulhypothese verwerpen) gebruikelijk α-niveau: 0. t= b s = b b( n) b = sX ˆY −Yˆ ˆY −Yˆ /( s X n ) s s 81 . We veronderstellen geen correlatie tussen de onafhankelijke variabelen en de residuen. X1 We veronderstellen geen correlatie tussen X1 en ε.b vertekend ⇒ t vertekend (over/onderschat) . Dus geen samenhang tussen het verklaarde deel van Y en het niet verklaarde deel van Y. Dus uw model moet zo goed mogelijk zijn anders zijn de schattingen vertekend.netto-effect: afhankelijk van verhouding vorige Oplossing: modelconstructie (alle relevante X’en opgenomen) => je kan inzichten en andere onderzoeken gaan gebruiken. M. het is eerder iets conceptueel. one-tailed test 2. zoveel mogelijk van de invloeden op Y gaan we in ons model gaan opnemen.05 two-tailed vs. ook andere modellen overnemen.w. Assumpties Assumptie 1: ε is niet gecorreleerd met X Deze assumptie is niet iets empirisch. b. Dus bij een positief heteroscedastisch patroon wordt bij een homoscedastisch patroon) S b onderschat ==> t-score delen door de standaardfout.b. = homoscedasticiteit ε vertoont zelfde variantie voor elke Xi (homoscedasticiteit) Indien niet: heteroscedasticiteit (var(ε) is gecorreleerd met X) • • • • geen probleem van vertekende schatter wel van efficiëntie: over/onderschatten van standaardfout Probleem in de mate waarin de standaardfout correct is Probleem met significantietoetsen. Gelijke spreiding van de X waarden op Y = voor elke onafhankelijke variabele moet er een gelijke spreiding zijn in de puntenwolk. deze is dan te klein ==> t-score is groter dan normaal (bij homoscedasticiteit) • als correctie: b niet meest efficiënte schatter van β S b overschat t onderschat niet verwerpen schattingsmethode s b H 0 die wel verworpen zou worden met meer efficiënte 82 . uitwaaiend patroon zichtbaar is. Heteroscedasticiteit levert problemen met significantietoetsen. Met op dat bij heteroscedasticiteit er een positief. Assumptie 2: Homoscedasticiteit Gelijke spreiding van de residuen voor de onafhankelijke variabelen.t. De gevolgen van heteroscedasticiteit: • • formule voor standaardfout b niet geldig S b onderschat als positieve correlatie X en var(ε) t overschat foutief verwerpen H 0 (+omgekeerd) H 0 : significantieniveau incorrect S b onderschat (kleiner dan t= b of zelfs als correcte beslissing m. Maar bij heteroscedasticiteit krijgen we een overschatting van de t-score.X1.t= b s b t-score in steekproevenverdeling en overschrijdingskans berekenen. Detectie: plot X tegenover e • • • • zero-orde en conditioneel (op X) gemiddelde van e =0 checken of spreiding e constant over X alternatief |e| of e²: checken of gemiddelde |e| of e² varieert met X multiple regressie: o plot tegenover verwachte Y voor algemeen idee o plot tegenover geresidualiseerde X om probleemX te identificeren (bvb.23) vruchtbaarheid Voorbeeld 1: aantal broers/zussen 83 . dus bevinden we ons meer naar rechts in de steekproevenverdeling. waardoor het gemakkelijker wordt om H 0 te verwerpen. (normaal). X1 . Voorbeeld 2: EARNING = EDUC + EXPER Deze puntenwolk lijkt een uitwaaiend patroon te hebben. met flagrante patronen moet je rekening houden. Tip: Kijk naar patroon. Het is misschien heteroscedastisch. (Squared residuals) 84 . Relatie van verwachte waarde op Y en (ruwe) residuen ( Yi ˆ) −Y normaal mogen we hier geen patroon in zien! Predicted Earnings = ˆ Y Oplossing: de residuen kwadrateren om een beter zicht te krijgen. maar het is niet zeker. aan wat ligt het nu? Bij de onderste (a) zetten we de residuen af tegen de geresidualiseerde variabelen. regio. ruimte of sociaal) Doordat de ε i ’s niet onafhankelijk zijn van elkaar. gecorreleerd met elkaar. Maar de vraag is nu echter. m. Bijvoorbeeld leerlingen uit dezelfde school lijken heel sterk op elkaar (SES. krijgen we autocorrelatie.w. Dus de residuen plotten tegen de geresidualiseerde onafhankelijke variabele. We merken op dat de heteroscedasticiteit voornamelijk zit bij opleiding (education). Bij heteroscedasticiteit: OLS-schatters niet langer meest efficiënte schatters (laagste standaardfout) remediëring: Weighted Least Squares (WLS) • * WLS: minimaliseren SSE* 2 2 i i ˆ i) = ∑ w (Y i − a*−b* X i) SSE = ∑ w (Y i −Y ˆ = a* + b* X Y • • OLS: wi = 1 bij heteroscedasticiteit: laag gewicht aan cases met grote foutenvariantie Dit is een uitbreiding van de OLS.…) dan lukraak verschillende leerlingen uit verschillende scholen (meer diversiteit). krijgen we een onder/overschatting van de standaardfout. + leeftijd en SES We veronderstellen: Jonge leeftijd = niet veel kinderen. veel variatie heteroscedasticiteit Oplossing = WLS. Hierdoor zijn de residuelen van de leerlingen uit dezelfde school. Dus grote residuen.Bij de bovenste (b) zien we wel een heteroscedastisch patroon. Indien ε i ’s niet onafhankelijk zijn. Bijvoorbeeld: Aantal kinderen per vrouw.a. maar hier gaan we elk residu gaan wegen. Maar soms is dat niet zo. (vaak door nabijheid cases in tijd. (meestal: onderschatten: gelijkaardigheid) 85 . de puntjes in de puntenwolk zijn onafhankelijk van elkaar. Assumptie 3: εi’s zijn onafhankelijk De residuelen zijn onafhankelijk van elkaar. En lage residuen. Door het kwadrateren worden de residuen groter. idem als bij gewone regressieanalyse. krijgen een groter gewicht. bij OLS is het gewicht steeds 1. c. krijgen een kleiner gewicht. weinig variatie Oudere leeftijd = veel kinderen. niveau 2 is de klasse en niveau 3 is de school.b.Wat zijn de gevolgen van autocorrelatie? • • formule voor standaardfout b niet geldig S b onderschat als positieve autocorrelatie (gelijkenis) t overschat • foutief verwerpen H 0 (+omgekeerd) H 0 : significantieniveau incorrect of zelfs als correcte beslissing m. Indien dit niet zo gaan we een probleem krijgen met de t-toets. t= b s b d. als correctie: b niet meest efficiënte schatter van β S b overschat t onderschat niet verwerpen schattingsmethode H 0 die wel verworpen zou worden met meer efficiënte Detectie van autocorrelatie via de Durbin-Watson test [0. 86 . Dus 2 vertelt ons dat we voldoen aan de assumptie dat er geen correlatie is tussen de residuelen. waarbij 2 staat voor geen probleem. dit niveau per niveau. waarbij we nagaan of H 0 we kunnen verwerpen. In SPSS doen we dit via regression -> lineair -> statistics -> Colline diagn.4] De Durbin-Watson test levert een score tussen de 0 en de 4. Bijvoorbeeld niveau 1 zijn de leerlingen. We gaan hierbij gaan kijken welke invloed verschillende niveaus hebben op de afhankelijke variabelen. Een oplossing voor de autocorrelatie is multi-level analye. De score vindt men terug in de model summary.t. • b/ S b niet verdeeld als t o • foutief significantieniveau foutief verwerpen H 0 of foutief niet-verwerpen H 0 o enkel problematisch bij kleine steekproeven mogelijk dat b niet meest efficiënte schatting Detectie: Via een histogram van de residuelen of via een normal probability plot waarbij alle puntjes op één lijn moeten liggen. Assumptie 4: ε is normaal verdeeld We veronderstellen dat de residuelen normaal verdeeld zijn. …) Het is een lijn die de gemiddelde verbindt. Meervoudig lineair regressiemodel: additief: effect X op Y gelijk voor elke Xi = conditioneel gemiddelde = voor elke Xi (partieel) =e=0 maar: niet lineaire effecten mogelijk Hier zie je dat de regressielijn door het midden gaat ( Y indien X=1. Wij gaan niet-lineaire effecten nagaan door transformatie. Dat is OK voor detectie non-lineariteit.e. Assumptie 5: Lineariteit Dit is een geval apart. 87 . X=2. maar moeilijk/onmogelijk om het type nonlineariteit vast te stellen. Er is dan wel een effect maar het is geen lineair effect. Het is echter te complex om in de praktijk de conditionele gemiddelden te gaan berekenen. We veronderstellen steeds dat de effecten op de onafhankelijke variabelen perfect lineair zijn. In de praktijk gaan we gebruik maken van residuelen-plots. Maar lineariteit is niet altijd het geval (bijvoorbeeld non-lineariteit). Er is hier geen verschil. Klik vervolgens op aplly.anal. 88 . Lowess-schatting = locally weighted scatterplot smoother Lowess-schatting in SPSS: Via regression -> lineair -> plots -> res. (+ histogram) In de output gaan we dan de partiële residuelen plot zien. Hierbij gaan we voor elke residu het effect van X op Y erbij gaan tellen. Een gewone residuelenplot laat niet toe (a) en (b) te analyseren. dus gaan we een andere residuelen plot moeten gebruiken. afvlakkend effect bij hoge X. In het properties venster kun je dan de fit method veranderen van lineair (lineaire regressie rechte) naar Loess (Lowess-schatting). Merk op dat (a) en (b) hetzelfde zijn. Dit zijn de residuenanalyses.We gaan na of er een patroon in de plots zit. 1) zitten er invloedrijke waarnemingen in? 2) wat is het patroon? (a) lage X = lage Y midden X = midden Y hoge X = lage Y (b) puntenwolk stijgt in verschillende maten. (! De geresidualiseerde variabele erbij tellen) Partiële residueel voor Xj E ( j) i = E i + B j X ij Vaak is het nuttig om een Lowess-schatting toe te voegen. Namelijk de partial-residual plots. We kunnen vervolgens onze assumpties gaan testen: is het heteroscedastisch? Is er non-lineariteit? Wanneer je dubbelklikt op de plot kun je in het venster klikken op elements -> fit line at total. Al die verschillende analyses gaan overlappen en de verschillende lijntjes worden dan met elkaar verbonden.of log-transformaties) A B 89 . gaan we er vanuit dat het lineair is. Hoe kleiner het getal.Tevens kun je bij % of points to fit invullen hoeveel analyses er uitgevoerd moeten worden. In plot (b) lijkt de Lowess-schatting op een non-lineair verband met een afvlakkend effect. die zich rechts bevinden? Wat kunnen we doen aan het niet-lineair patroon? Remediëring afhankelijk van type non-lineariteit: • monotone non-lineariteit: transformatie X (of Y) (machts. Via een smoothing gaan ze de gebroken lijntjes samenbrengen. Maar in welke mate komt dat door invloedrijke waarnemen. gebogen lijn in (a) en (b) is de Lowess-schatting. De rechte lijn in (a) en (b) is de OLS regressie rechte. hoe regressie-analyses er uitgevoerd worden. De kromme. Wanneer de Lowessschatting zo goed als recht ligt. De Lowess-schatting is nooit een perfect rechte lijn. Bij de Lowess-schatting gaat we binnen een puntenwolk verschillende regressie-analyses uitvoeren. 2 staat vor X² en 0.We gaan op onze onafhankelijke variabele die een niet-lineair verband vertoont met de afhankelijke variabele. Y = a + b1 X + b2 X + b3 X + b4 X + . een transformatie doen. In plot A is de lijn Y=f(X) de samenvatting van de puntenwolk. + 2X – X² + .1X³ De regressieschatting geeft dan de invulling. Bijvoorbeeld lijn 3. Het gaat hem dan om de relatie van X’ en Y in plaats van de relatie X en Y. zodanig krijgen we een perfect lineair verloop. Bijvoorbeeld 3 staat voor X³... Plot B is een sjabloon om te zien hoe onze puntenwolk verdeeld is.-1 en -2 staan voor logtransformaties. maar het is 1 verschil op X². Vervolgens kunnen we een transformatie uitvoeren van X door X te verheffen in ons voorbeeld tot de derde macht. Gelukkig komt dit niet zo vaak voor in de praktijk. We leggen dat sjabloon op onze puntenwolk en we kunnen dan aflezen tot welke macht we X moeten verheffen om tot een perfect lineair verband te kunnen komen. dus X³.2X + X² = positief verband X² is een getransformeerde X [in SPSS: compute -> new] Twee buigpunten is een polynomiaal van de derde orde. We doen dit als trucje om toch een lineaire regressieanalyse te doen. Het is niet langer 1 verschil op X. 90 . We veranderen X naar X’ door deze tot bijvoorbeeld de derde macht te verheffen. spreken we van polynomialen. + bk 2 3 4 X k We nemen X en X² op en krijgen zo een buigpunt. maar dan wel met een getransformeerde onafhankelijke variabele. • niet-monotone non-lineariteit: polynomialen Indien onze rechte niet monotoon stijgt. Hierna kunnen we onze regressielijn tekenen. De lijn Y=f(X’) is de getransformeerde lijn. Let echter wel op bij de interpretatie van de lijn. We stellen ons dus de eerst de vraag welke vorm onze puntenwolk volgt. Bijvoorbeeld: + 2X – X² = negatief verband . k 1 1 − Ri 2 = ˆ Yˆ s VIF n s Y− 12.. moeilijker om effect van elk betrouwbaar van elkaar te scheiden. de samenhang tussen de onafhankelijke variabelen mag niet zo groot zijn. alle onafh.a... M. waardoor verwerpen is.) met alle andere Xk Hoge R²i: hoge multicollineariteit grote standaardfout sbi = ˆ Yˆ s s n Y− i 12.. Dus je kan een vertekening krijgen van de t-toets. sb1 sb1 gebruiken voor de t-toets. sb1 = 12 ˆ s s 1 Y− ˆ12 Y 2 n 1 − r12 = de standaardafwijking van de richtingscoëfficiënt van de steekproevenverdeling (b1) ˆ ˆ = de standaardafwijking S Y −Y 1 − r ²12 = 1 – de samenhang tussen de 2 onafhankelijke variabelen sb 2 = ˆ s s 2 Y− ˆ12 Y 2 n 1 − r12 t = 1 b s 1 b1 Naarmate r ² toeneemt. var. naarmate onafhankelijke Dus naarmate r ² toeneemt (multicollineariteit). Assumptie 6: Afwezigheid multicollineariteit De mate van overlapping in variantie van de onafhankelijke variabelen mag niet té groot zijn. Hoge correlatie = klein resultaat grote sb1 grote Hoe groter samenhang tussen onafhankelijke. Maar indien sb1 groot is dan wordt t klein.. k i i 91 . neemt t af variabelen sterker gecorreleerd.f.w. Maar hoe groot is nu die impact? Voor 3 of meer onafhankelijke variabelen: H 0 moeilijker te sbi = ˆ s s i Y− ˆ12. De overlapping in de variatie van de onafhankelijk = C eruit. k Y 2 n 1 − Ri R²i: gekwadrateerde meervoudige correlatiecoëfficiënt van Xi (tss.. neemt sbx toe. dit geeft ons de nettoschattingen. Dit heeft als implicatie dat de overschrijdingskans té groot is. tekort aan geld (SHORTINC) (neg) X4: subj. Een hogere Ri geeft ons een hogere VIFi .16] (ANOMIA) X1: jaren opleiding gevolgd (EDUC) X2: gezinsinkomen (INCOME) X3: subj. Xi met hoogste multicollineariteit: grootste standaardfout en minst statistisch significant Oplossing: • selectie: Het geeft aan dat het bijna onmogelijk is om twee onafhankelijke variabelen lost te trekken zijn (grote Ri en VIFi ). datareductie technieken: Er worden latente dimensies uitgeschakeld (factoranalyse). geeft aan in welke mate de t-toets beïnvloedt wordt door een té grote samenhang tussen de onafhankelijke variabelen. • 3.90 en hoger.80 Ri van . tevredenheid levensstand. Dus geeft aan in welke mate er een verschil is. dan bevinden we ons in de VIFi moet er nog een vierkantswortel van getrokken worden om een beter zicht te krijgen. dus moet je een keuze maken welke variabele je gaat nemen. (SATINC) X5: subj. Vooral bij hoge waarde van de (meerv. omdat de correlatie tussen dimensies tot een minimum wordt gereduceerd. In SPSS: Regression -> Lineair -> statistics -> collineairty diagnostics Bij de Ri van . • • • • • • • Voorbeeld: 1986 Akron Area Survey (n=513) Y: anomie [4.67 keer groter bij een We hebben pas een probleem bij een problemenzone.) correlatiecoëfficiënt.VIFi = Variance Inflation Factor. (REWRDINC) in welke mate wordt anomie bepaald door subjectieve of objectieve oorzaken van aliënatie ? 92 . Je bent tweemaal hetzelfde aan het meten. beloning levensstand. Bijvoorbeeld de geschatte standaardfout is 1. De vraag is wél indien we alle objectieve variabelen in rekening brengen.02 % wordt verklaard door de objectieve set variabelen.) 93 . X2 en X3 2) Subjectieve variabelen X4 en X5 De vraag is niet of alle richtingscoëfficiënten statistisch significant zijn.We hebben hier 2 sets van variabelen.1102 = 11. var. het dan zo is dat de subjectieve variabelen nog iets bijdragen? Y = a + b1 X1 + b2 X2 + b3 X3 + e . (zonder subj. 1) Objectieve variabelen X1. Y = a + b1 X1 + b2 X2 + b3 X3 + b4 X4 + b5 X5 + e .1106 = 11,06 % wordt verklaard door de objectieve én de subjectieve set variabelen. .1102 (enkel obj.) -> .1106 (obj. + subj.) Subjectieve kenmerken voegen weinig additief toe. De anomie wordt voornamelijk verklaard door de objectieve indicatoren. 4. F-tests We trachten zoveel mogelijk variatie in de afhankelijke variabele te verklaren. Dus zorgen we ervoor dat we zoveel mogelijk onafhankelijke variabelen hebben die de variatie kunnen verklaren. Je begint met 2 onafhankelijke variabelen en je voegt er steeds meer aan toe. Je begint dus met 1 set van onafhankelijke variabelen om daarna een 2de set van onafhankelijke variabelen eraan toe te voegen. Vervolgens stellen we ons de vraag of de verandering in R² statistisch significant genoeg is om te kunnen spreken van een kwalitatieve toename (bij een toename van onafhankelijke variabelen). We hebben een familie van testen voor: • • • test van b gecombineerd effect alle Xi (test van R²) gecombineerd effect subset Xi’s F= [(R² voor alle X) − (R² voor alle constant gehouden X)]/ df 1 (1 − R² voor alle X)/ df 2 = aantal X dat getest wordt = n − k −1 df df 1 2 94 De essentie is de vergelijking van R². Het is mogelijk voor verschillende elementen. Hier: 2 of 3 onafhankelijke variabelen in model (variabelen samennemen) Bij partiële of semi-partiële R²: 1 onafhankelijke variabele (variabele per variabele) => beschrijvende statistiek a. F voor b t-test is bijzonder ding van de F-test. t-test, test per richtingscoëfficiënt. t-test is in feite F-test in geval we 1 rico beschouwen. F-test, test voor alle richtingscoëfficiënten (neemt de rico’s samen). H0: β 1=0 F 1 = ( RY .123 − RY .23) / 1 (1 − RY .123) /( n − 3 − 1) 2 2 2 F =t 1 2 1 b. F voor R² F • • = R 2 2 Y .123 /3 (1 − RY .123) /( n − 3 − 1) H 0 : R²=0 dus: β1 = β2 = β3 = 0 mogelijke inconsistenties met individuele F/t o meervoudige F statistisch significant maar individuele F/t niet (o.a. bij hoge correlatie tussen onafhankelijke variabelen) o meervoudige F niet statistisch significant maar individuele F/t wel: element van discussie resultaten niet gebruiken (louter toeval) resultaten wel gebruiken 95 c. F voor subsets van X F • • • 1 = ( RY .123 − r Y .3) / 2 (1 − RY .123) /( n − 3 − 1) 2 2 2 H 0 : β 1 = β2 = 0 geval van multicollineariteit Bijvoorbeeld: 3 indicatoren van subjectief inkomen o F voor deze subset niet statistisch significant + SHORTINC niet statistisch significant effect na controle andere ⇒ geen statistisch significant effect van subjectief inkomen 96 A B 97 . Via ANOVA -> 1way krijgen we 1 onafhankelijke variabele. Multiple regressie-analyse: Dummy codering en interactie-effecten 1.D.. Nominale onafhankelijke variabelen We kunnen niet steeds de onafhankelijke variabelen metrisch gaan operationaliseren. Maar hoe gaan we deze opnemen? Via dummy codering of effect-codering (of . (analoge berekening) Eigenlijk specifiek geval van regressie-analyse met interval-variabelen: ook test van verschil in gemiddelden. maar je kan wel categorische kenmerken transformeren naar metrische kenmerken.) De interpretatie van het effect: verschil in Y statistische significantie (ANOVA): o o t-test voor verschil in gemiddelden F-test voor verschil in gemiddelden Dus we voeren een ANOVA uit (of t-test) Bijvoorbeeld de gemiddelde etnocentrismescore voor mannen en vrouwen en we gaan deze gaan vergelijken door middel van een variantie-analyse.. Nominale (of ordinale) variabelen zijn vaak zinvolle verklarende variabelen. Bij deze categorische verdeling hebben elk van de twee groepen een conditionele verdeling en we kunnen daarvan de gemiddelden van verbinden met een regressielijn.7549 X Y b YX = Y −Y X −X B B A A = 4. In plot B staat A voor de vrouwen en B voor de mannen. Het intercept is het gemiddelde Y voor de referentiegroep (= blanken). De zwarten scoren 0. Bijvoorbeeld: tevredenheid met leven vergeleken tussen blank en zwart.7619 − 5. b YX = Y −Y X −X B B A A = verschil van het gemiddelde van Y van groep B en A verschil van groep B en A Het probleem is echter er geen gelijke afstanden zijn tussen groep A en B aangezien ze beiden categorische variabelen zijn. We berekenen dus de richtingscoëfficiënt die door deze twee groepsgemiddelden gaat. 98 . Dus de richtingscoëfficiënt bYX is het verschil in groepsgemiddelden.5168 − 0. ˆ = 5. Deze plots is een uitbreiding op het klassieke lineaire regressie-analyse model. dit is dummy codering.Bij plot A gaat de regressielijn door het midden van de conditionele verdeling.5 vs. 4.75 punten lager dan de blanken. dit gaan we vertalen in een regressie vergelijking door de formule toe te passen. Dummy codering dichotome (2 cat.5168 = −0.76).7549 1− 0 Verschil in groepsgemiddelden (5. a. Dus moeten we aan groep A een waarde 0 geven en aan groep B een waarde 1. De groep blanken geven we de code 0 en de groep zwarten geven we de code 1.) var n Welke numerieke scores gaan we toekennen aan de categorieën van de nominale onafhankelijke variabele? o 0 aan de ene categorie o 1 aan de andere categorie We doen dit voor de interpreteerbaarheid van de parameters. Bij dummy codering nemen we de ene groep als referentiegroep en vergelijken we de andere groep daarmee. positief en negatief niet meer interpreteren op de klassieke manier.9).v. Parameters voor inductieve statistiek = interval onafhankelijke variabelen b.51 is het gemiddelde voor de referentiegroep = blanken.) var n Dezelfde logica als voor dichotome variabelen: • • kiezen referentiecategorie dummy voor elke andere categorie (niet 1 dummy voor alle andere categorieën) Het is veiliger om de grootste groep als referentiegroep te nemen. ref.68) en de gescheiden personen zijn het minst gelukkig (4. Je kan bijvoorbeeld niet stellen dat blanken superieur zijn aan zwarten. De gehuwden zijn het meest gelukkig (5.o. Dummy codering polytome (meerdere cat. groep B ! code-keuze is een artificiële keuze. • • Regressievergelijking 0 = blank.groep Y positief: Y groter voor X=1 dan voor X=0 (+omgekeerd) grootte: grootte van verschil in Y (in feite zelfde interpretatie als bij interval variebelen) • intercept: Y voor X=0 b = verschil 1 eenheid op X = verschil groep A t.5. 99 .v. ˆ = gemiddelde Y voor de referentiegroep – afwijken andere groep t. In dit voorbeeld heb je 4 categorieën.o. 1 = zwart. 52 = de afwijkingen van de andere categorieën t.78.o.0.0.25WIDOWED − 0.25. Je hebt evenveel dummy’s nodig als categorieën – 1.1 (1 categorie 0 voor alle cases: referentiecategorie) • keuze van referentiecategorie: o inhoudelijk/substantieve overwegingen o relatieve frequenties In het voorbeeld heb je meerdere dummy’s.0.1 dummy voor alle categorieën . Bijvoorbeeld 4 categorieën levert 3 dummy’s.v.04260 = 5% wordt verklaard door huwelijksverschillen (verklaarde variantie) Variables in the equation = de variantieanalyse Enkel bij widowed kunnen we de H 0 niet verwerpen (Sig T = . R Square = .52 NEVER Y 5.68 − 0.1808) 100 . Interpretatie: ˆ = a + DIVORCED + WIDOWED + NEVER Y b1 b2 b3 ˆ = 5. . de ref. .groep.78 DIVORCED − 0. In ons voorbeeld hebben we 3 nieuwe dummy’s met gehuwden als referentiegroep.68 = gemiddelde van de gehuwden (indien de rest = 0) . 18099 = intercept = verwachte waarde op Y als alle andere variabelen gelijk zijn aan 0. -. Analyse -> compare means Voorbeeld: geslacht: 1 = man -> 10.75 zijn de partiële B’s.47. Gemiddelde X is statistisch gecontroleerd op leeftijd => geen brutto-effecten meer. 5.02 Wordt verschil bijvoorbeeld bepaald door opleidingsniveau? (Suppressie of redundantie?) NIET: via lineair regression (factor = geslacht) WEL: compute -> geslacht If (v3=1) geslacht=0 If (v3=2) geslacht=1 V3 = geslachtsvariabele Nadat we deze nieuwe variabele hebben kunnen we lineaire regressie toepassen met de nieuwe variabele als onafhankelijke variabele. -. -. niet gecodeerd! Dummies + andere X: andere interpretatie a en b R Square = verklaarde variantie is ook mogelijk Het is weliswaar moeilijker met een bijkomende variabele.In SPSS: Bivariate verschil mannen en vrouwen op basis van etnocentrisme.35. 101 .03 2 = vrouw -> 10. referentiegroep. De groep die we als -1 gaan nemen maakt niet uit.14WIDOWED − 0.o. Effect-codering Wat te doen als we niet weten wie we als referentiegroep gaan nemen? Bij effect-codering gaan we gaan vergelijken t. + Y g g b = Y −Y i i ˆ = 5. hierdoor verliezen we echter informatie. a =Y = Y +Y 1 2 + .14 NEVER Y Y = het algemeen gemiddelde a = 5. terwijl we bij dummy codering groepen gaan vergelijken t. Effect-codering wordt gebruikt indien de keuze van de referentiecategorie problematisch is of een andersoortige interpretatie meer geschikt lijkt.. De referentiegroep geven we code -1 mee en valt dus in feite weg uit onze berekeningen..39 DIVORCED + 0. het algemene gemiddelde.v. Dummy codering is weliswaar veel efficiënter.o.v.30 = gemiddelde over de 4 groepen heen.c. Wijziging betekenis regressiecoëfficiënten. 102 .30 − 0. maar geen effect op opleidingsniveau en vocabularium. hebben we twee groepen. Zwart of blank levert additioneel iets toe. 1. Indien we geen interactie-effecten hebben.454 + 0.381 EDUC + 1.076X1 (want 1 is blank) 103 .2. Modelleren interactie-effecten Effect van een bepaalde variabele op de relatie tussen de andere onafhankelijke variabele op de onafhankelijke variabele. Tot nog toe: enkel additieve effecten Hier: multiplicatieve effecten Betekenis additief (Y=WORDSUM) ˆ = 0.076 RACE Y ˆ = regressierechte voor de blanken Y W ˆ = regressierechte voor de zwarten Y B Indien er geen interactie-effect zou de plot er zo uitzien. Interactie interval X – nominaal X ˆ =a+ Y b1 X 1 + b2 X 2 + b3 X 1 X 2 ˆ = a+( + Y b1 b3 X 2) X 1 + b2 X 2 ˆ = a+( + Y b2 b3 X 1) X 2 + b1 X 1 We nemen onafhankelijke X1 en X2 op + de productterm van X1 X2 (interactievar.19 verschil in steilheid. ˆ Y B = 2.213 X 1 0. interactie- Grootte van het effect X op Y is afhankelijk van ras. 0.226 + (0.989 * 0 = 2.989 = zuiverste verschil RACEDUC = nieuwe varibele ! Ook voor 2 metrische. Effect X2 (ras) beschouwen we op zich. 104 . ˆ = a+( + Y b1 b3 X 2) X 1 + b2 X 2 ˆ = 2.226 + 0.192 * 0) X 1 − 0.213 + 0.192 Y X 2) X 1 − 0.) [compute -> interaction educ x race] Schatting: X3 = X1 * X2 (+ opnemen X1 en X2) Meerdere dummies: ˆ =a+ Y b1 X 1 + b2 D1 + b3 D2 + b4 D1 X 1 + b5 D2 X 1 Wat is interactievariabele? Heeft ras een effect of heeft education een effect? Hier in ons voorbeeld is ras de interactievariabele.989 X 2 Interpretatie: ˆ = white en Y ˆ = black Y W B effect.a.213 + 0.226 + (0. 05 EDUC * AGE Y Negatieve interactievorm 105 .05 EDUC + 0.nominaal X Voorbeeld 1: Wordt het effect van opleiding sterker of zwakker naarmate we kijken op hogere leeftijd? ˆ = 2 + 0. Dezelfde logica als interval X .b. Interactie interval X – interval X (Ook voor 2 metrische variabelen).06 AGE − 0.002 EDUC * AGE Y Effect X2 wordt groter bij hogere X1 waarden (+ omgekeerd) Voorbeeld 2: ˆ = 2 + 0.36 EDUC + 0.02 AGE + 0. toevoegen in lineaire regressie (indep.) Output. coëfficients. 106 . Compute interactie 2 = ondjren X lft. Hogere complexiteit Alle mogelijke interactie-effecten met 3 X.c. ˆ =a+ Y b1 X 1 + b2 X 2 + b3 X 3 + b4 X 1 X 2 + b5 X 1 X 3 + b6 X 2 X 3 + b7 X 1 X 2 X 3 In SPSS: Compute interactie = geslacht x ondjren.