Samenvatting_MTO-C



Comments



Description

Samenvatting MTO-C DictaatX= onafhankelijke variabele, predictor, explanatory, regressor, covaraiates Y= afhankelijk variabele, respons, outcome Hoofdstuk 1: Causaliteit (theoretisch begrip) 1.1 Inleiding Causaliteit is een voorgegeven principe om de ervaringsgegevens te ordenen. X is oorzaak van Y, variatie in X brengt variatie (of verschillen) in Y terecht. Dit idee maakt een causale relatie asymmetrisch. Het asymmetrische karakter van een causale relatie sluit wederzijdse causaliteit (X---Y) niet uit, maar beschouwt deze twee als asymmetrische relaties X---Y en Y----X. 1.2 Afbakening van het begrip causaliteit: Methoden van experimenteel onderzoek: Het is onmogelijk om alle factoren bij een onderzoek te betrekken. Verder wordt er met oorzakelijkheid meer bedoeld dan het samengaan van verschijnselen op de aangegeven wijze. Er kan namelijk ook iets geproduceerd worden. Veranderingen kun je opmerken in bijvoorbeeld een longitudinaal onderzoek (diverse metingen in de loop der tijd) of cross-sectional onderzoek (bij een aantal onderzoekselementen op 1 moment metingen te verrichten). Het is onjuist een bepaalde wijze van onderzoek naar causale relaties, zonder meer te vereenzelvigen met datgene wat met het begrip causaliteit theoretisch wordt bedoeld. Causaliteit heeft een noodzakelijk karakter, ((conditionele) herhaalbaarheid), verandering in oorzaak brengt een verandering in het gevolg. Echter men weet nooit zeker of de omstandigheden en de factoren identiek zijn. Tevens zijn de waarnemingen en het productiekarakter indirect. Verder moet de aard van de relatie steeds dezelfde zijn. Oplossing causaal model, verder geeft dit ook geen garantie. 1.3 Criteria ter toetsing van causale hypothesen 1) er is samenhang tussen X en Y 2) X gaat in tijd vooraf aan Y 3) er zijn geen andere variabelen die de samenhang tussen X en Y tot stand brengen. In andere woorden : X—Y is geen schijnsamenhang, de werking van storende factoren is uitgeschakeld. Deze 3 criteria zijn noodzakelijk. 1.3.1 samenhang: beide variabelen zullen te samen variëren. Uit het ontbreken van samenhang in de voorspelde richting mag alleen onder bepaalde voorwaarden worden geconcludeerd dat er geen oorzakelijke relatie bestaat. Let op bepaalde omstandigheden, kan je dan ook het beste van te voren uitschakelen. Dit doe je door middel van operationaliseren, het tijdstip moet in evenwicht zijn (causal lags, inwerktijd) en de storende factoren uitschakelen. Een andere moeilijkheid is de verscheidenheid in technieken. 1 1.3.2 causale ordening: de asymmetrie is meestal niet direct waarneembaar. Onderzoeken waarbij alle variabelen op een bepaald tijdstip gemeten zijn, leveren vaak problemen op mbt de causale ordening van de variabelen. 1.3.3 Storende factoren zijn factoren die een samenhang teweeg brengen tussen de variabelen X en Y, waardoor ten onrechte de indruk ontstaat dat X oorzaak is van Y. (of waardoor juist geen samenhang ontstaat.) Schijnsamenhang: de variabelen die zowel oorzaak zijn van X als van Y en als zodanig (mede) de samenhang tussen X en Y bepalen. Indien we na eliminatie van storende effecten de voorspelde samenhang vinden, is er reden de causale hypothese te handhaven, in het andere geval kan deze verworpen worden. Eliminatie is haast onmogelijk. 1.4 Ongeldige criteria 1.4.1 perfecte relatie: als een relatie tussen twee variabelen niet perfect is, dan is de relatie niet causaal. Men gaat er juist van uit dat de waarnemingen in een puntenwolk liggen. De waarden van de onafhankelijke variabele leggen dus de waarden van de afhankelijke waarde wel vast, maar slechts met een bepaalde marge, met bepaalde kansen. In de vergelijking Y = a + b X geeft b aan, in welke mate een bepaald verschil in X (dX) een bepaald verschil in verwachte waarde van Y (dY) tot gevolg heeft. B = dY / dX, geeft de marges aan rond de verwachte waarden. 1.4.2 karakteristieke factor: als een factor niet karakteristiek is voor een bepaalde categorie, dan is deze factor geen oorzaak van het behoren tot deze categorie. Een oorzakelijk verband tussen twee variabelen kan niet vastgesteld worden door slechts een categorie van de onafhankelijke variabele te bekijken. Het gaat om de vergelijking van de percentages. Indien een factor wel karakteristiek is, is dit nog geen aanwijzing voor het bestaan van een causale relatie. 1.4.3 geen samenhang binnen een categorie: als er een relatie gevonden wordt tussen een onafhankelijke en een afhankelijke variabele binnen een categorie van een derde variabele, dan kan deze derde variabele nooit oorzaak zijn van de afhankelijke. Over de invloed van een variabele die in een bepaald onderzoek niet varieert, op basis van dat onderzoek niets zinnigs gezegd kan worden. Je moet dus wel een vergelijkingsgroep hebben. (blz 18 en 19 VB) 1.4.4 geen interveniërende variabelen: als er een relatie gevonden wordt tussen X en Y en als een derde variabele intervenieert tussen deze beide, dan is de oorspronkelijke relatie niet causaal. Gaat dan om indirecte causaliteit. (gedraagt zich in zekere zin wel als een storende factor) (blz20) T is storend bij schijnsamenhang en intervenieert bij interpretatie. In nutteloos om al deze factoren op te sporen, wordt ook beperkt door de onderzoeker. Echter niet irrelevant. 1.4.5 niet-meetbare variabelen: meetbare variabelen zijn geen oorzaak: Op operationeel niveau is er sprake van indicatoren en van samenhang tussen deze indicatoren. 2 waarbij X voor de verschillende tijdstippen verschillende waarden aanneemt. maar een specificatie.6 geen interactie: als een relatie tussen X en Y afhankelijk is van waarden van andere variabelen. is een bestaande groep (bijv. O3 Xc O4 = groep 2 idem aan 1. dit alles bij 1 onderzoeksgroep. .causale factoren . Interactie is geen bewijs voor de afwezigheid van causaliteit. dezelfde onderzoeksgroep wordt minstens 2 * in de tijd gemeten. onbetrouwbare meetprocedure) 3 . daarna meting 2 van Y. Op hetzelfde tijdstip worden minstens 2 groepen die verschillend scoren op X met elkaar vergeleken (A + B) (BLZ 30) Bronnen van variatie in Y: (BLZ 31) . (BLZ 27) Op generaliseerbaarheid beoordelen (BLZ 28) .het ontwerp moet een beslissing over de richting van oorzakelijkheid toelaten. ---. geld etc.4. Randomiseren is gelijkelijk varieren op basis van toeval. R = at random toewijzing van onderzoekselementen aan de verschillende groepen.Praktische uitvoerbaarheid kan worden omschreven in termen van tijd. 2 groepen onderscheiden) Moet voor causaliteit meerdere situaties onderzoeken. vervolgens bepalen van de waarde van X. behalve de waarde van X. Hoofdstuk 2: Onderzoeksontwerp Een onderzoeksontwerp is adequaat als het in staat stelt de aanwezigheid of afwezigheid van de veronderstelde causale relaties op legitieme wijze vast te stellen. .gecontroleerde storende factoren .1.theoretische adequaatheid betekent dat de opzet aansluit bij het theoretisch model. (BLZ 27) Vereisten: . O = observatie of meting Y (BLZ 28) X = experimentele stimulus.Het ontwerp moet de invloed van storende factoren uitschakelen. is X geen oorzaak van Y. categorie.toevalsfactoren (onsystematisch.het ontwerp moet het vaststellen van samenhang mogelijk maken.er heeft geen at random toewijzing plaats gevonden. .ongecontroleerde storende factoren deze zijn systematisch . Xe. Xc = waarden van X in experimentele en controlegroep O1 Xe O2 = meting 1 van Y. Niet volkomen toereikend. De range van Y kan ook beperkt zijn. je hebt namelijk slechts te maken met 1 groep. • meten/testing: voormeting heeft invloed op de nameting (gaat je best doen. (BLZ 35) De methode is afhankelijk van onder andere het meetniveau. bijvoorbeeld als gevolg van differentiële groepssamenstelling.storende factoren tot constanten maken. matchen (precisie en frequentie). testvaardigheid (BLZ 42) • Verandering van meetinstrument/instrumentation. (BLZ 50) 4 . bij neiging tot consistentie. er zijn meerdere variabelen. Hierbij vaak veel verlies van de onderzoekselementen. causale factor van maken. vragenlijsten etc zal je moeten aanpassen. de interne geldigheid is niet in het geding. Met name bij secundair materiaal. (BLZ33). Beperkt generaliseerbaar. regressie naar het gemiddelde (BLZ 43) De regressie naar het gemiddelde kan verklaard worden met een model waarin de varianties van de gemeten IQ in T1 en T2 gelijk aan elkaar zijn en waarin de aanduidingen T1 en T2 volkomen arbitrair zijn en net zo goed van rol kunnen wisselen. Hoe extremer de uitgangssituatie is. Causaliteit daardoor moeilijk vast te stellen. Bij precisiematchen worden de te matchen onderzoekselementen zo geselecteerd. Bij frequentiematchen zorgt men er voor dat er per storende factor equivalente paren aanwezig zijn. matchen en systematisch variëren van storende variabelen. (zwakke samenhang). bijv doordat we nu in een andere tijd leven. M + R wordt vaak gecombineerd. (BLZ 49) • Uitval/mortality: toevallige verdeling. Oplossing is randomiseren.Controle: .storende factoren systematisch laten variëren. doet wat je denkt dat de ander van je verwacht. men moet met name uitkijken voor regression to the mean wanneer er grote verschillen bestaan tussen de experimentele en controle groep bij de voormeting. (BLZ 40). spontaan. Wat niet varieert kan niet verantwoordelijk zijn voor variatie in Y. kan X geen grote verschillen in Y teweeg brengen. X + Y worden op verschillende tijdstippen gemeten (BLZ 37) Intern geldig: de variatie in Y kan worden toegeschreven aan de variatie in X (causale factor). . des te sterker zal de regressie naar het gemiddelde zijn. dat zij op alle in het onderzoek te betrekken storende factoren tegelijk identiek zijn. Wanneer de range van X zeer beperkt is. (BLZ 36) Statistisch en synchronisch. Tentamenvraag! • Differentiele groepssamenstelling/selection: 2 of meer groepen verschillen bij de aanvang al. Storende factoren • Buitenexperimentele gebeurtenissen/history: Oplossing: gelijktijdige controlegroep (intrasession-history and local history) Groepsgebonden gebeurtenissen blijven een mogelijk storende factor (BLZ 40) • spontane veranderingen/ automatisch verloop met de tijd (vermoeid. . oefening.storende factoren gelijkelijk laten variëren.) De construct validity wordt eigenlijk het meeste aangetast. ontwikkeling) (BLZ 41). X + Y tegelijk gemeten Dynamisch en diachronisch. (BLZ 46) Regression to the mean is een gevolg van meetonbetrouwbaarheid in Y. (BLZ 43) • Regressie: extreme scores (door toeval ?). houding verandert. BG. regelmatig terugkerende gebeurtenissen en plaats. van uitgaande dat het geen groepsgebonden gebeurtenissen zijn. Verder naar de subgroepen kijken. (BLZ 53). Negatief is dat de continue onafhankelijke variabele moeilijk in te passen. Theoretische adequaatheid: (BLZ 60) 1. Problemen: 1. De onderzoeker moet dus rekening houden met de mogelijke invloed van de specifieke constellatie van causale en storende factoren die in zijn onderzoek voorkomt (BLZ 54). (BLZ 61) • One shot case: 3 punten (BLZ 63) Kan geen samenhang vaststellen. 1. Praktische uitvoerbaarheid 5. (BLZ 54). Dit bekijkt hij vanuit de optiek van externe geldigheid van onderzoeksbevindingen (BLZ 55) Externe geldigheid: generaliseerbaarheid. U (uitval) (is namelijk vaak ongelijk. Op een indirecte manier kunnen interacties van belang zijn. Richting van de causale beïnvloeding geen problemen 3. 1. (BLZ 51) Hoofd – en interactie-effecten geven weer hoe de partiële samenhangen feitelijk zijn. Selectiemechanismen: (BLZ 57). Wel samenhang 2. (special and general universe) (BLZ 56 en 57). Toevallige praktische overwegingen Tijd (BLZ 58). theoretische aanpak Evaluatie van onderzoeksontwerpen. en omdat de onderzoeksperiode gelijk is) 2. uitval (ook een intern probleem) Op basis van een aselecte steekproef mag alleen gegeneraliseerd worden naar de populatie waaruit deze steekproef afkomstig is. Aansluiten aan conceptueel model 4. nadat die groep is blootgesteld aan een bepaalde stimulus. niet duidelijk afgebakend. Verschil O1 – O2 kan al eerder aanwezig zijn 2. dus geen probleem met het vaststellen van variabelen tegelijkertijd.Van interactie is er sprake als richting en/of sterkte van de samenhang tussen 2 variabelen verschillend is binnen de categorieën van een derde variabele. Problemen met name DS (differentiele groepssamenstelling) 3. Dit gaat om de externe geldigheid. geen toeval) Meestal geen problemen: 1. Intern en extern (construct) (herhaling) geldig 2. BG (buitenexperimentele gebeurtenissen. Confirmatie hypothese zo groot mogelijk 2. Tijd weet je 4. Typische groep 4. Static group comparison (BLZ 63) twee groepen op 1 moment. Confirmatie hypothese zo klein mogelijk 3. (soms vergelijking bijdenken) Het vaststellen van Y bij 1 groep. Twee steden vergelijkbaar? Oplossing herhalen op verschillende tijdstippen en plaatsen. Vereisten van het ontwerp 3. Alleen is de steekproef-populatie vaak niet identiek met de theoretisch bedoelde populatie. Waarden tegelijk aangeven. representatief. Verandering M (meten en meetinstrument) 5 . Verschillen in tabellen komt door T. kan je niets over zeggen Regressie en DG ingewikkeld.3. M. spontane veranderingen. U (denk wel aan de generaliseerbaarheid). BG. DG irrelevant. tabel bekijken met EPS. M (zij het dat er geen interacties zijn). Conclusie. Spontane veranderingen Regressie is onzeker (maar geen scores bekend) Extern weinig te zeggen Zwakte wel: operationaliseringen der onderzoeksvariabelen Praktisch groot. Elaboratie is het erbij halen van variabelen. T in enkele categorieën indelen (variatie) 6 . oorspronkelijke relatie Verandering als gevolg van derde variabele (er zijn vaak namelijk meerdere variabelen van invloed). theoretisch? Meten niet want er is geen voormeting One group comparison Samenhang en causale relatie OK Problemen: BG. Vanaf BLZ 74 een voorbeeld: de behandeling van klinische psychiatrische patiënten. problematisch Pretest-posttest control group design DG en de interacties. storend is de verandering in meetinstrument. spontane veranderingen (+/-) OK Verandering in M. U Over andere factoren is weinig te zeggen zoals verandering in verandering in M. BG. namelijk maar 1 groep U kan storend werken Interactie? Extern? Nonequivalent control group design Samenhang en causaliteit. Hoofdstuk 4: elaboratie “ variabele erbij halen” (BLZ 121) Waarom tabelanalyse: (BLZ 121) Makkelijker te begrijpen dan bijvoorbeeld padanalyse en makkelijker communiceerbaar Zeer gedetailleerd Verduidelijking logica causale analyses Stappen: (BLZ 122) Twee variabelen. verandering S ok U: +/Regressie: +/Negatief is de kunstmatigheid Time series designs: bepalen invloed van gebeurtenissen. regressie. Nieuwe relatie (gecontroleerd voor T). Schijnsamenhang: als T wordt ingevoerd verdwijnt de samenhang. Dus de invloed van T is gelijk op X en Y. X oorzaak Y. Oorspronkelijke relatie XY relatie tussen X en Y.T Negatieve samenhang: onder invloed van T gaan hoge X waarden samen met lage Y-waarden.Als de invloed van T wordt uitgeschakeld varieert T niet meer. M1-type: interpretatie: T gevolg van X.T.Tb en niet gelijk aan XY) T causaal bepaald voor X en Y Ma-type: schijnsamenhang: T oorzaak van X. samenhang hoeft niet het gevolg te zijn van een direct causaal effect. XY. Marginale samenhang: de samenhangen tussen de oorspronkelijke variabelen en de nieuw ingevoerde testvariabele. Partiële samenhangen zijn gelijk aan elkaar. maar ongelijk aan de oorspronkelijke samenhang. Als T stijgt. stijgen X en Y ook. Partiële samenhang is de samenhang binnen een subtabel. oorzaak van Y. T buiten beschouwing laten. Positief effect: de totale. Z kan ook invloed hebben maar je moet er van uitgaan dat het een gesloten systeem is.Ta is XY. oorspronkelijke samenhang. De sterkte en de richting van het effect zijn afhankelijk van de waarde die T aanneemt. P-type: interactie Partiële samenhangen zijn ongelijk. Samenhang XY. De samenhangen zijn te vinden in de marginalen. P-type: interactie: Samenhang in de partiële tabellen ongelijk. als de (gewogen) optelsom van deze beide componenten was dus groter dan de partiële samenhang XY. X heeft een grotere of kleinere invloed al naar gelang de waarde die T aanneemt.Ta is niet XY. onder constant houding van T. 7 . Gesloten systeem: alle storende factoren zijn in het model opgenomen.Tb M-type: Partiële samenhangen zijn ongeveer gelijk aan elkaar.T relatie tussen X en Y. Interne replicatie voegt niets toe. XY. en ongelijk aan het oorspronkelijke verband (XY. Samenhangen in een subtabel verdwijnen zelden geheel. XY. T is het gevolg van X (oorzaak van Y) T tussen X en Y qua tijd. Rij en kolomtotalen van de partiële tabellen (BLZ 124). is er wel degelijk sprake van een direct causaal verband tussen X en Y. 8 . Tentamenvraag: X gaat in tijd vooraf aan T. voor en na verschijnen advertentie Indien er sprake is van schijnsamenhang en dus het verband tussen de beide variabelen inderdaad louter en alleen berust op het feit dat ze beide afhankelijk zijn van het eerdere koopgedrag. T gaat in de tijd vooraf aan Y. Wanneer er in de ene categorie T een sterkere samenhang is tussen X en Y dan in de andere categorie van T. Onjuist is dat er binnen de categorieën van T geen samenhang is tussen X en Y.Stappen elaboratie: Opmerken van de advertentie en kopen product Kopers van product voor verschijnen advertentie en zien van de advertentie Kopen van product. is er geen causaal verband tussen X en Y. verdwijnen. verschillen binnen elke subtabel niet meer naar eerder koopgedrag. Immers de twee groepen wel en niet opmerkers van de advertentie. onder constanthouden van het eerdere koopgedrag. moet de samenhang in de subtabellen. doel: voorspelling: prediction about the dependent variable based on the observed values of the independent variables . by putting the other variables in the regression equation. Regression a linear equation to describe a relationship. (BLZ6) For each case.a statistical method for studying the relationship between a single dependent variable and one ore more independent variables . omdat dat om veranderingen gaat. the X’s are regarded causes of Y. A larger slope corresponds to a steeper line. You must have at least as many cases as variables (including the dependent variables) (BLZ7) Covenience samples are also more likely to violate the assumptions that justify multiple regression. then an increase in X results in a deecrease in Y. Y=a + b1x1 + b2x2 (BLZ 5). 9 .Samenvatting Allison Multiple Regression Hoofdstukken 1 t/m 9 Hoofdstuk 1 What is multiple regression? (BLZ 1) . (BLZ 3) Causal analysis: separates effects. (BLZ 4) Y=a + bX b: slope. Ordinary least squares multiple linear regression Least squares is the method used to estimate the regression equation. weet niet hoe groot het verschil precies is. Controlling for other variables. unieke contributie iedere variabele. Linear describes the kind of equation that is estimated by the multiple regression method.combine many variables. inkomen. langs een rechte lijn. (BLZ 2) Ordinary serves to distinguish the simplest method of least squares from more complicated method such as weighted least squares. is interval en ratio. Regression to the mean. Bepaalde volgorde. how big a change in Y is from a 1-unit increase in X. If the slope is negative. Linear regression: (als je een lijn tekent krijg je een rechte lijn) Optimale voorspeller van Y. Uitkijken voor generalisaties naar de gehele populatie. you need measurements on all the variables in the regression equation. a : intercept regressioncoefficient : de waarde van Y wanneer X 0 is. bij 2 variabelen. well-defined scale. Met multiple regression kan je verschillende variabelen combineren om zo optimaal Y te voorspellen. Ordinaal is eigenlijk niet toegestaan in multiple regression. (BLZ9) Kwantitatief: leeftijd. If the slope is 0 the line is perfectly flat. Je moet de makkelijkste formule nemen als je de relatie tussen de variabelen niet weet. Dit is driedimensionaal. generalized least squares and two-stage least squares Multiple means that there are two or more independent variables.werkelijke beïnvloeding? In a causal analysis. Prediction error: Observed Value -/.. Measurement error: very few variables can be measured with perfect accuracy especially in the social sciences. (BLZ 14) Errors random en onsystematisch.. Sampling error: in many cases. How well can we predict Y knowing only X in the model? (BLZ 31) Lage R2 kan toch een goed model zijn en omgekeerd. (BLZ 13) Coefficient of determination: R2: 1. (Y mag wel) Ordinary least squares is the method most often used to get values for the regression coefficients.(SSE (regression)/SSE (mean only)=. (geen zekerheid) The smaller the p-value. CI: a range of possible values for the coefficient. Om zo goed mogelijk te meten grote steekproef etc nodig. geslacht etc. simultane controle. Bij benadering zo goed mogelijk in vergelijking met lab. Gaat niet zo zeer om de richting maar om de sterkte. Zie designs! (BLZ 19) Nooit perfect te meten. Intercept zegt weinig. the LSE for the intercept is just the mean of Y. met name wanneer de waarden van 0 op de onafhankelijke variabele ver van de geobserveerde waarden ligt. Alleen in een lab kan je alles controleren. je wil ze zo klein mogelijk hebben. Chapter highlights blz 22 10 . So choose coefficients that make the sum of the squared prediction errors as small as possible. single schatting van iedere variabele. That implies that the predicted value for every case is the mean. The “best” predicted values.. the stronger the evidence that the coefficient is not 0.De dummy of indicator variabele kan je als beste als onafhankelijke variabele gebruiken. The sum of squared errors produced by the least squares equation that you are evaluating AND the sum of squared errors for at least sqaures equation with no independent variables (just the intercept) When an equation has no X.predicted value.Nominaal: helemaal geen volgorde.. de richting maakt daarbij niet uit. (the slopes and the intercept).. in de sociale wetenschap is dat onmogelijk. our data are only a sample from some larger population and the sample will never be exactly like the population. Multiple regression lost drie problemen op: controleren van andere variabelen. Uncontrolled variation: age and income are surely not the only variables that affect a person’s income and these uncontrolled varaibles may “disturb” the relationship between age and income. is slechts een benadering (BLZ20). het gaat dus om de sterkte). (kunnen positief en negatief zijn. the effect is not very large in absolute terms. Coefficient is de gemiddelde waarde van Y voor alle mensen met een waarde van 1 op de Dummy -/. de SD van Y after effects van X have been removed. Ongestandaardiseerde: afhankelijk van het meetniveau. (BLZ 36) If you have a 1 in 20 change of being wrong on any one of those tests. (BLZ 36) The coefficient for a dummy variable can be interpreted as an adjusted difference in the mean value of Y for the two groups. (BLZ 39) Een – en tweezijdige testen (BLZ 41) Geld is een logaritme. Are adjusted differences. controlling for the other variables in the model. en gestandaardiseerde coefficienten: gestandaardiseerd in SD’s. (BLZ 44) SE of the estimate. The multiple regression procedure makes no distinction among the independent variables. verandert ook het teken.0) the SE of the estimate would be 0. When the R2 is 0 (no predictive power).Hoofdstuk 2: how do I interpret multiple regression results? Beta: gestandaardiseerde regressiecoefficient (BL27) T= coefficient/SE SE moet je hebben voor CI en is nooit kleiner dan 0.de gemiddelde waarde van Y voor alle mensen met een waarde van 0 op de dummy. (BLZ 32) Als bij de dummy de referentiecategorie verandert. Although this coefficient is highly statistically significant. Niet significante waarden uit de vergelijking laten.35) Regression of Y on X and Z. the chance of making at least one mistake is substantially higher than that. Dummy: how much the dependent variable changes for a 1-unit increase in the independent variable. Je vergelijkt de correlatiecoefficienten om te kijken of er effecten zijn. gecontroleerd voor de andere variabelen in het model. (blz 30) R2 laag kan toch een goed model zijn. If we could perfectly predict Y from the set of X (which would correspond to an R2 of 1. Chapter highlights BLZ 45 11 . the SE of the estimate is the same as the SD of Y. Referentiecategorie: each of the coefficients is a comparison between an included category and the reference category. Dummy’s gebruik je omdat je anders te maken krijgt met extreme multicollinearity. Voorbeeld van twee onafhankelijke groepen waarvan je het gemiddelde bekijkt. (BLZ 34. MR maakt geen onderscheid tussen de studie en controle variabelen. Gecontroleerd voor alle andere variabelen in het model. (BLZ 55) Relaibility (niet absoluut waar. In een kleine steekproef kan een nonsignificante coefficient toch een effect op Y hebben. bij meer X’s moeilijker voorspelbaar. then we must be very wary about interpreting a regression with Y and X.Hoofdstuk 3: What can go wrong with multiple regression? You want to know the effect of the variable on Y. The measured variable does not fully control for the true variable. we can say that for each measured value of that variable. If we can make an equally persuasive argument for X causing Y and Y causing X. If you are interested in the effect of X on Y. Paddiagram: indirect + intervenierend (MTO-05) (BLZ 60) Total effect= DE + IE (blz 61) Een regressiemodel meet alleen het directe effect van iedere variabele. Non-experimenteel: causaliteit vaak in twee richtingen. In a small sample (weinig informatie). As with omitted varaibles. die er eigenlijk niet zijn. both with and without the intervening 12 . (BLZ 50) Je kan vaak de richting van de variabelen gokken. Moeilijk om de hoogte van de correlatiecoefficient te bepalen wat significant is. er zijn nl verschillende methoden en zegt alleen iets over de stabiliteit) is a number between 0 and 1 that quantifies the degree of ME in a variable (BLZ 56). Validiteit ook van belang. Some uncertainty usually remains. It’s hard to design a study that adequatly solve this problem. but a nonsignificant coefficient is extremely weak evidence for the absence of an effect (low power). Meetfouten niet altijd een enorm probleem. the issue here is one of degree. Bij een grote steekproef is er het probleem dat je zegt dat er effecten zijn. Reverse causation: (BLZ 52) Every coefficient in the regression model may be biased. Whenever X is measured with error. (BLZ 54) Most applications of MR involve some uncertainty about the direction of causality. but there are other variables W and Z that may mediate that effect. You want to control for the variable. If we have a compelling argument for X affecting Y but only a weak or contrived argument for Y causing X. Goed naar de magnitude kijken. 1 onafhankelijk----. estimate the regression twice. then we can feel much more secure about interpreting the regression of Y on X. there may be many different values of the true variable. Controlevariabelen: moeten causaal en gecorreleerd zijn.fout tendeert naar 0. statistically significant coefficients should be taken seriously. De onzekerheid blijft bestaan. The difference in the two coefficients for X represents teh indirect effects of X through W and Z. But there is a limit to what regression can do. Specifieke samples zijn moeilijk te generaliseren. MR is designed precisely for separating the effects of two or more X on a Y when X are correlated with one another. The inclusion of an intervening variable does not always eliminate the effect of teh variable of intrest. if the p-value is small. Interne geldigheid: steekproef zelf heeft fouten. (BLZ 85) 13 . Tha adjusted R2 is a modification of the R2 that adjusts for the number of X. than you can conclude that at least one of the coefficients is not 0. (BLZ 79) Dummy = K -/. (BLZ 84) F= MSmodel/Mserror MS= SS/df (BLZ 84) Standardized coefficients: how many SD’s Y verandert for an stijging van 1 SD in a particular X. The coefficient of X in the regression witthout W and Z is the total effect of X. Chapter highlights BLZ 66 Hoofdstuk 4: How do I run a multiple regression? Biavariate regressie: 1 * X en 1 * Y (BLZ 71).80 meestal problemen) Externe geldigheid: generaliseerbaarheid naar de populatie. complete case analysis. pairwise deletion and available case analysis. Moet letten op extreme scores.1 (BLZ 80) The number of dummy variables for a nominal variable must always be one less than the number of categories. Verder kunnen er meerdere interveniërende variabelen zijn. (BLZ 83) Analysis of variance. (BLZ 63) Ergste effect: the possibility of concluding that 2 variables have no effect when one or the other of them actually has a strong effect.variables W and Z. Same metric so you can compare. BLZ 71 t/m 78 wat SPSS is. (BLZ 83) The SE of the estimate is a statistic that is primarly useful when constructing CI’s around the predicted values from a regression analysis. Multi-collinearity: there is no way you can get separate estimates of the effects of these 2 variables on survival time. The adjusted R2 is always less than or equal to the original R2 and the discrepancy gets larger as the number of X increases. listwise deletion. (boven . either with MR or with any other statistical method. niet zo belangrijk. you need to test the Ho that all the dummy variables have coefficients of 0. 1) Regress Y on Z (take Y as the dependent variable ad Z as the independent variable). lagere SE. sample variance. Verschillende correlaties. The standardized influence statistics divide the unstandardized statistics by the SE of the coefficient. Studentized residuals= residu/SE (BLZ 87) Influence statistics tell us how much the regression results would change if each individual observation were deleted from the analysis. dan is er wel sprake van samenhang. (BLZ 91) To test whether the nominal variable has a significant effect. covariance. -1. Formule SE (blz 107). (BLZ 99) Formules BLZ 100 t/m 102 zelf lezen. . I= individual N= number of cases in the sample Xi = waarde van X voor individu i (BLZ 100) Formules van de sum of squared residuals. (BLZ 92) Doel: to get a parsimonious model that includes those variables with important effects on Y but excludes those variables that have trivial effects.50 (niet lineair. 0. 2) Regress X on Z. Meer N. (BLZ 89) The unstandardized statistics tell us how much the actual coefficient would change if that case were deleted. 14 . 1. meer precies en betrouwbaarder. Calculate the residuals from this regression and call them Y*. Calculate the residuals from this regression and call them X*.Residu= O-E (voorspellinsgsfouten) (BLZ 86) Het identificeren van uitschieters. Y stijgt en X stijgt) ) (BLZ 104 met tekeningen!) CC measures the degree of scatter around a regression line (BLZ 105) Een kwadratenfunctie kan ook bestaan. slope b (soort deviatiescore). errors below the line are negative. The influence of an observation depends in part on the size of its residual but also on how extreme its X are. If the deletion of an observation produces a big chance. (BLZ 98) Choosing a line is equivalent to choosing a and b. (BLZ 89) Delete: that tells how much the predicted value for each observation would change if that observation were deleted. Errors above the line are positive. the observation is said to be influential. (BLZ 93) Chapter highlights BLZ 93 Hoofdstuk 5: How does bivariate regression work? Least squares criterion: choose a line that minimizes the sum of squared prediction errors. Assumpties: Linearity: plus random disturbance E Mean independence: E = 0 Homoscedasticity: variantie onafhankelijkheid Uncorrelated disturbance Normal disturbance (BLZ 123) Assumpties mean independancy: Violations can produce severe bias in the estimates There are often reasons to expect violations There is no way tot test for violations without additional data Drie condities die leiden tot violations: Omitted X variables Reverse causation Measurement error in the X’s Homoscedasticiteit: Heteroscedasticiteit means that the degree of random noise in the linear equation varies with the values of the X variables. We presume that we have data on a set of indviduals. this one says nothing about the relationship between a sample and a population.3) Regress Y* on X*. regardless of the values of the X variables. (BLZ 111) Trivariate regressie (BLZ 111) Partiele samenhang: the residuals from the bivariate regressions on Z. we get the new versions of X and Y that remove or “purge” any relationship with Z. the correlation is 0. (BLZ 112) Snijpunten berekenen (BLZ 113) Chapter highlights BLZ 114 Hoofdstuk 6: What are the assumptions of multiple regression? A estimation method is unbiased if there is no systematic tendency to produce estimates that are either too high or too low. (BLZ 109) By calculating residuals. (BLZ 126) Inefficiency and biased SE (BLZ 127) Variance stabilizing transformations (BLZ 128) 15 . (SE) Standard linear model (BLZ 122) Unlike the probability sampling model. (BLZ 120) Efficiency has to do with how much variation there is around the true value. Because X are always uncorrelated with the residuals. Homoscedasticiteit means that the degree of random noise is always the same. So we can examine the relationship between X* and Y* without having to be concerned about any mutual dependency on Z. X* and Y*. Moeilijk significante resultaten te vinden bij hoge variantieinflatie.5 opletten) Tipping effect: when X’s are highly correlated. MR is trying to separate the effects of two or more variables. and look for a high R2. zie de variantie-inflatie.60) (BLZ141) Tolerance: 1 – R2 (worry lager dan . (BLZ 145) The collinear variables are conceptually distinct The collinear variables can be seen as alternative measures of the same conceptual variable. T-toets klein. heeft een grote SE. If the regression coefficient has only two X’s near-extreme multicollinearity occurs if the two variables have a correlation that’s close to 1 or –1. Multicollinearity makes MR much more sensitive to minors errors or departures from the assumption of the model.Intraclass correlations coefficient (BLZ 129) Central limit theorem (BLZ 130) Multivariate normal model (BLZ 132) Chapter highlights BLZ 132 Hoofdstuk 7: what can be done about multicollinearity? Extreme multicollinearty means that at least two the X’s in a regression equation are perfectly related by a linear funtion. (BLZ 137). even though they are correlated with each other. If the R2 from the regression is near 1. when you hold one constant. Oplossingen: Delete on or more variables from the model Combine the collinear variables into an index Estimate a latent variable model Performe joint hypothesis Chapter highlights BLZ 149 16 . small differences in their bivariate relationships with Y get magnified into large differences in the regression coefficients. It’s impossible to separate their effects on Y. There must be some remaining variation on each X variable when the other X variables are held constant. then X2 is collinaer with X1 and X3. Multicollinearity only affects the coefficients estimates for those variables that are collinear. CI wijd.40) Variance inflation factor: 1/ tolerance (boven 2. nothing to do with Y. Hoe opsporen? Regress each X on all the other X’s. If two varaibles are perfectly correlated. (. The coefficients are less robust. It’s impossible to get separate estimates for the coefficients B1 and B2. Bij klassieke test tijd designs eerder multicollineair. Near-extreme multicollinearity means that there are strong linear relationships among the X’s. the other must be constant as well. 159) Scatterplots (160). Natural logarithms (percentage change in Y). Like the intercept in any regression equation. In the bivariate case. Dummy: the intercept is the average number of the reference category (meestal de groep met relatief veel mensen omdat je dan beter vergelijkingen kan maken) (BLZ 164). those terms play an essential role in generating correct predictions for Y. Putting a product term in a regression equation is symmetrical with respect to the two variables. Whenever you have a product term in a regression model. R2 for a regression is equal to correlation2 between Y and the predicted value of Y. If you have a model without a product term. based on the estimated regression model.one way anova (BLZ 176) 17 . That doesn’t mean that you can delete the main effects from the model. Voordelen: The method doesn’t impose any particular pattern on the relationship between X and Y. exponentiating (Y dan altijd positief). cubic model. . and the two lines would be strictly parallel. Log kennen? Another tranformation of Y that is sometimes useful is the logit transformation. you should not be concerned about the statistical significance of the main effects of the two variables in the product. (BLZ 168). (BLZ 166) Interactie: twee of meer X’s.t-test (BLZ 176) . (BLZ 168). Probleem: bij veel cases gaat de precisie omlaag met name bij kleine steekproeven. Regression focuses on the slope of the line. the slopes of X would be equal. when there are multiple X’s. they also fundamentally alter the relationship between Y and X. testing whether a regression slope is 0 is equivalent to testing whether the corresponding partial correlation is 0. (Y tussen 0 en 1) (BLZ 155) Polynomiaal. hoofdeffect zegt hierbij niet altijd veel. The numerical results can be somewhat simpler to interpret. 158. Chapter highlights BLZ 170 Hoofdstuk 9: How is multiple regression related to other statistical techniques? Samenvatting verschillende methoden (BLZ 175) Both regression and correlation assume that the relationship between X and Y can be described by a straight line.Hoofdstuk 8: how can multiple regression handle nonlinear relationships? Although transformations may reduce heteroscedasticity. testing whether the regression slope is equal to 0 is equivalent to testing whether the correlation is equal to 0. quadratic (benadering ware functie). whereas correlation focuses on the degree to which the data points are scattered around the line. (BLZ 156. which is applied when Y is a proportion. unobserved variables and those latent variables may have causal relatiosnships among them. Maximum likelihood Event history analysis: Timing of events Survival analysis Censoring and time dependent explanatory variables Proportional hazards model Instantaneous likelihood Chapter highlights BLZ 186 18 . Linear simultaneous equations model. Multilevel models (clusters bv klaslokalen) Yij= Aj +BjXij + Uij Besides producing correct SE’s.- ancova (categorisch en kwantiatatief) padanalyse (causale diagrammen. Nonlinear regression: Iterative algorithm Starting values Logit analysis: Logistic regression Dichotomous dependent variables (homoscedasticiteit en normality of the disturbance: gevaar. Factor-loading: exploratory factor analysis and confiramtory factor analysis) (BLZ 179) structural equation models (BLZ 180) multilevel models (BLZ 181) nonlinear regrssion (BLZ 183) logit analysis (BLZ 184) event history analysis (BLZ 185) Structural equation models combine confirmatory factor analysis with simultaneous equations models. Recursive heeft veel pijlen) (BLZ 177) simultaneous equation models (BLZ 178) factoranalyse (a bunch of variables and reduce them to a much smaller number of dimensions. Helpful in dealing with multicollinearity. More than one equation and all equations are simultaneously true. The observed variables depend on latent. the appeal of the multilevel model lies in its capacity to reveal how processes at the individual level are affected by things going on at the group level. These methods can correct for the biasing effect of measurement error. heeft niets met de controle van schijnsamenhang te maken. perceteren 6. VB: Man: Y= 12 +B1X1+ e Vrouw: Y= 8 + B1X1 + e D=4 Y= 8 + B1X1 + 4 Dm + 7 Dh + e ( is 7 hoger dan de referentiecategorie laag) Dh = 8 + B1X1 + 7 + e = Dh = 15 + B1X1 + e H nu 1 en de rest 0:??? Dm = 8 + B1X1 + 4 + e= Dm = 12 + B1X1 + 7Dh + e?? 9. formules als SS etc om output SPSS verder te berekenen. interactie: twee factoren die elkaar mogelijkerwijs versterken/verzwakken. 5. 7. ANOVA: kan gebruikt worden bij meer dan twee groepen. dan is er sprake van interactie. dummy. padanalyse 19 . elaboratietypes 8. homoscedasticiteit 11. partiele samenhangen. tolerance 15.Losse opmerkingen etc die van belang zijn voor het tentamen Kennen: 1. Een factor waarvan het effect mogelijkerwijs verschilt voor subgroepen. 2. Kan ook gebruikt worden bij meer dan twee onafhankelijke/verklarende variabelen. 3. F-change 10. EPS 14. Designs: dictaat! Namen niet belangrijk maar wel de zwakke punten van alle designs. meetniveaus 13. multicollineairiteit 12. Als er verschil is tussen de rijen en de kolommen. 4. (in feite twee onderzoeken die je tegelijk uitvoert). X2 toets. chi kwadraat toets. Interactie is ook een direct effect . For testing Ho:u1=u2 versus Ha: u1 niet Ha: u2. e ik. the total variance can be partitioned into two sourdes. One way-anova involves the analysis of one X with two or more levels. F = t2. A mean square (MS) is a variance estimate. That is. K-sample case: analysis of variance. as the number of t tests increases. In one-way ANOVA. Changes in Y in ANOVA are. the between-groups variation reflects variation due to differential treatment effects. The df’s associated with the two estimates of the population variance are K-1 and N-K for MSb and MSw respectively. the result of changes in X. the other estimates the variance due to treatment effects. E (MSb) is the sum of two parameters: one estimates the variation among subjects in the population. The linear model in one-way ANOVA represents a single score in the population and contains three components. w2 can provide useful information about the association between Y and the levels of X. mu. If a statistical procedure is little affected by violating an assumption. or are presumed to be. When used appropriately. In addition. The null hypothesis in ANOVA is tested using the ratio of the two variance estimates-s2b. The aspects of violating the assumptions vary somewhat with the specific assumptions violated. oneway classification The problem with computing multiple independent T tetsts for comparing K sample means is that. 1 the sum of squares within groups (SSw) and 2 the sum of squares between groups (SSb). In one-way ANOVA. pr s2b/s2w. the within-groups variance. ANOVA and the t-test for X samples give identical results. as well as the measure of the group effects.Hinkle Hoofdstuk 14: Hypothesis testing. Both sources reflect variation due to random sampling. the group means will differ substantially from the grand mean and SSb will be substantially greater than zero. If there are group effects. 1 – (1 – alfa)tot de macht hoeveel testen er zijn. and s2w. E (MSw) estimates only the variation among the subjects in the population. 1 variation of scores within groups and 2 variation between the group means and the grand mean. the between-groups variance. SSw is the sum of the squared deviations of the original scores from the respective group means summed over the K groups. The expected mean squares are parameters that are estimated by the observed mean squares. the procedure is said to be robust with respect to that assumption. 20 . SSb is the weighted sum of squared deviations of the group means from the grand mean. except in the case of unequal variances with unequal sample sizes. the total sum of squares (SSt) is partitioned into two components. ANOVA is robust with respect to violations of the assumptions. alfa k. the type 1 error rate increases. an additional source of variation is controlled and MSw is reduced. 3 the variation among the K column means. The scores on Y are normally dsitributed in the population. Disproportionate cell frequencies also result in a correlation between the two X’s. The significance of the interaction is determined in the ANOVA. The popualtion variances in all cells of the factorial design are equal (homogeneity of variance). random samples from defined populations. Summary Hoofdstuk 16: Geen samenvatting 21 . A significant intercation is ordinal when the lines do not intersect within the plo. 2 the variation among the J row means. Assumptions two-way ANOVA: The samples are independent. The variance estimates in two-way ANOVA are called mean squares.Summary page 378 Hoofdstuk 16 analysis of variance. The tests of the hypotheses on the two X’s are called tests of the main effects. which interferes with the interpretation of their effect on Y. and random error. two-way classification. In two-way ANOVA. They are calculated by dividing the sum of squares for the four components by the respective df’s. two-way classification In analysis of variance (ANOVA). the total variation is partioned into four components. The linear model for two-way ANOVA is an expression that represents an individual score as additive components that are associated with the main effects. W2 indicates the proportion of variance in Y that is accounted for the levels of X. an interaction is disordinal when they do intersect. If a second X is used in the design of a research study. The hypotheses refer to the J row population means averaged across the columns and the K column population means averaged across the rows. control over additional variables and the study of the interaction among X’s. The sampling distributions for these test statistics are F distributions with the appropriate df’s. The test statistic for the three null hypothesis of two-way ANOVA is the F-ratio. The advantages of factorial designs are efficiency. two X’s or factors are analyzed simultaneously in a single analysis. By proportional we mean that the ratios of the cell sample sizes across one X are equal to those of the cell sample sizes across the other X. 1 the within cell variation. A nonsignificant interaction is illustrated by nearly parallel lines (within sampling fluctuation) that connect the cell means. the interaction effect. 4 the variation due to interaction. Hoofdstuk 21: chi-sqaure tests for frequencies Nonparametric tests can be used when the paramatric assumptions of normality and homogeneity of variance are not met. The X2 distribution comprise a family of distributions. not symbols. the expected frequencies are determined using the marginal totals. The values in the categories are frequencies. ordinal. interval and ratiolevel data. this is determined by computing the standardized residuals. Summary 22 . the product of the row and column frequencies divided by the sample size. For the R*C contingency table. The X2 value does not indicate where the statistical significance lies. The categories are based on nominal. Teh null hypothesis is stated in words. In a contingency table. each determined by a single degree-offreedom value. The expected frequency of the RC cell is determined by fr * fc/n that is. there are (R-1) (C-1) df’s associated with the X2 test of homogenity.
Copyright © 2024 DOKUMEN.SITE Inc.