Analisis Komponen Utama Dg R



Comments



Description

Analisis Komponen Utama/ Principal Component Analysis(Teori)   Tujuannya mereduksi dimensi peubah yang saling berkorelasi menjadi peubah2 baru yang tidak berkorelasi dengan tetap mempertahankan sebanyak mungkin keragaman data asalnya. (patokan 80%) Misal ada 1000 variable, apa kelebihan n kekurangannya..?? 1. Terlalu rumit 2. Segi interpretasi sulit Sehingga perlu dilakukan reduksi data. Syaratnya harus ada korelasi kuat antar variable. Langkah langkah AKU / PCA: Pengujian hipotesis matriks korelasi→ melihat ada tidaknya korelasi yang erat antar variable. dengan menggunakan uji bartlet: H : ρ =I (Selain diagonal utama=0, Artinya korelasi antar peubah 0) H : ρ≠ I (Selain diagonal utama=0, Artinya korelasi yang erat antar peubah 0 p 1 p UJi Barlett: n = jumlah observasi; p = jumlah variable ; R= matrik korelasi (estimasi) ; = determinan matrik korelasi Tolak H0 jika x >x  Karena kita niatnya make AKU, yang kita harapkan Tolak H0. Artinya antar variable awal ada korelasi sehingga tujuan reduksi/ penyusutan dimensi data menjadi tercapai. 1. Mencari akar ciri dari matriks kovarian (S) atau basis korelasi (R). Jika satuan variable sama pake kovarian, jika satuan berbeda pake korelasi. 2. Mengurutkan akar ciri yang diperoleh dari terbesar ke terkecil (λ ≥λ ≥ λ ≥ 0) 2 hitung 2 tabel 1 3. 2... p Membuat peubah baru (komponen utama) yang merupakan kombinasi linear dari peubah asalnya. Membuat vector ciri yang dinormalisasi (dibuat orthonormal) dari masing2 akar ciri yang bersesuaian Y =e ’X=e x +…+e x Y =e ’X=e x +…+e x 1 1 11 1 1p p 2 2 21 1 2p p … Y =e ’X=e x +…+e x *disini belum ada proses reduksi Dimana, X’=[x … x ] Sifat peubah baru: Tidak saling berkorelasi, dan berurutan dari ukuran kepentingannya. Y1 paling penting sampai Yp p p p1 1 pp 1 1. p p Melakukan proses reduksi KU yang terbentuk. Ada 3 cara : Dengan proporsi keragaman (bagi akar ciri per total akar ciri) 1. 2. Akar ciri >1 3. Scree plot Misal : proporsi keragaman Y =e ’X=e x +…+e x  76% 1 1 11 1 1p p Y =e ’X=e x +…+e x  23% 2 2 21 1 2p p … Y =e ’X=e x +…+e x p p p1 1 pp p Proporsi keragaman variable baru pertama belum cukup, sehingga ditambah dengan variable baru kedua. Jadi banyaknya KU yang terbentuk adalah 2. Akar ciri: Selama akar cirinya >1, itulah banyaknya KU. Scree plot : dilihat landau curamnya dan besarnya akar ciri. (scree plot tu plot antara jumlah variable dengan akar cirinya) Melakukan penamaan pada KU yang digunakan setelah terjadi proses reduksi. Ada 2 cara: 1. Korelasi antar KU dengan variable asalnya. Korelasi yang besar, tu yang mencirikan KU 2. Dengan melihat penimbang (weighting) Y1=e1’X=e x +…+e pxp penimbang tu e-nya. Penimbangnya yang paling besar. Kalo penimbangnya beda2 tipis, berarti KU dicirikan oleh variable2 tsb. 11 1 1 the typical PCA results should consist of a set of eigenvalues. as well as their associations with the extracted PCs. The loadings (or correlations) allow you to get a sense of the relationships between variables. In this post I’ll show you 5 different ways to do a PCA using the following functions (with their corresponding packages in parentheses):  prcomp() (stats)  princomp() (stats)  PCA() (FactoMineR)  dudi. and "amap") have been developed by French data analysts. which are uncorrelated and explain the variation in the data. there are several functions from different packages that allow us to perform PCA.5 functions to do Principal Components Analysis in R Posted on June 17. From a data analysis standpoint. PCA in R In R.pca() (ade4)  acp() (amap) Brief note: It is no coincidence that the three external packages ( "FactoMineR". No matter what function you decide to use. and a table of loadings (or correlations between variables and PCs). a table with the scores or Principal Components (PCs). PCA is used for studying one table of observations and variables with the main idea of transforming the observed variables into a set of new variables. For this reason. The eigenvalues provide information of the variability in the data. which have a long tradition and preference for PCA and other related exploratory techniques. the principal components. 2012 Principal Component Analysis (PCA) is a multivariate technique that allows us to summarize the systematic patterns of variations in the data. ."ade4". PCA allows to reduce a “complex” data set to a lower dimension in order to reveal the structures or the dominant types of variations in both the observations and the variables. The scores provide information about the structure of the observations. 5434 -0.4164 # loadings head(pca1$rotation) ## PC1 PC2 PC3 PC4 0.01950 -0. The good news is that all of the functions that perform PCA come with parameters to specify that the analysis must be applied on standardized data.5359 0.64923 ## Murder -0.9776 0.82626 ## Arkansas 0.2782 -0.1400 1.9949 0.43980 ## Alaska -1.5749 0. the PCA must be performed with standardized data (mean = 0. which means that you don’t have to install anything.9305 1.7454 -0.15470 ## Alabama -0.8728 -0. It is perhaps the quickest way to do a PCA if you don’t want to install other packages. scale.5832 0.5274 0.08902 -0.43418 ## Arizona -1.0624 2.4986 -1.33856 ## Colorado 1.1880 -0.18097 ## California -2.1220 -0.00145 . It’s a data frame with 50 rows (USA states) and 4 columns containing information about violent crime rates by US State.The Data To make things easier.3780 0.9757 1.8178 # PCs (aka scores) head(pca1$x) ## PC1 PC2 PC3 PC4 0.11342 -0.7385 0.5971 0.08400 -1. Since most of the times the variables are measured in different scales.74341 ## UrbanPop -0.3412 ## Assault -0.2681 -0.1085 0. variance = 1). Option 1: using prcomp() The function prcomp() comes with the default "stats" package.4182 -0.4993 -0. we’ll use the dataset USArrests that already comes with R.13388 ## Rape 0. # PCA with function prcomp pca1 = prcomp(USArrests.1673 0. = TRUE) # sqrt of eigenvalues pca1$sdev ## [1] 1.05423 -0.59254 -0. 001465 Option 3: using PCA() A highly recommended option.0732 2.Option 2: using princomp() The function princomp() also comes with the default "stats" package.4 0.3 Comp.9949 0.13388 ## Rape 0. cor = TRUE) # sqrt of eigenvalues pca2$sdev ## Comp.09501 -1. # PCA with function PCA library(FactoMineR) # apply PCA .08902 -0. and it is very similar to her cousin prcomp().4 ## 1.5832 0.2 Comp.7632 -0.9856 1.8178 # PCs (aka scores) head(pca2$scores) ## Comp.5359 0.11457 -0.5434 -0.156267 ## Alabama -0.44427 ## Alaska -1.5429 0.59856 -0.64923 ## Murder -0.2 Comp.1198 0.4182 -0.5146 -0.04000 -0.3 Comp.2 Comp.7460 0.2782 -0.2681 -0.834653 ## Arkansas 0.3412 ## Assault -0.1880 -0.9876 0.341996 ## Colorado 1.182811 ## California -2.8728 -0.3 Comp.4164 # loadings unclass(pca2$loadings) ## Comp. is the PCA() function from the package "FactoMineR".3780 0.9501 1.5240 -1. What I don’t like of princomp() is that sometimes it won’t display all the values for the loadings. It is by far the best PCA function in R and it comes with a number of parameters that allow you to tweak the analysis in a very nice way. # PCA with function princomp pca2 = princomp(USArrests.1 Comp.5749 0.1414 1.1673 0.5971 0.4 0.1 Comp. especially if you want more detailed results and assessing tools.1 Comp.05478 -0.438583 ## Arizona -1. but this is a minor detail.1334 -0.74341 ## UrbanPop -0. 66 ## comp 4 0.1734 4. scannf = FALSE) # eigenvalues pca4$eig ## [1] 2.5429 -0.59856 -0.pca(USArrests.8683 0.914 95.1870 0.pca() function from the package "ade4"which has a huge amount of other methods as well as some interesting graphics.03707 0.1 Dim.04000 -0.9876 -1.1734 .4381 0.9501 -1.pca() Another option is to use the dudi.4160 0.27037 ## Assault 0.8440 -0.00 # correlations between variables and PCs pca3$var$coord ## Dim.7460 -0.0732 -2.438583 ## Arizona 1. # PCA with function dudi.8558 # PCs (aka scores) head(pca3$ind$coord) ## Dim.75 ## comp 3 0.11457 -0.4 ## Alabama 0.05478 -0.3566 8.7632 ## Arkansas Dim.1 0.9856 -1.05575 ## Rape 0.156267 ## Alaska 1.2038 0.3 Dim.3566 0.44427 0.9184 -0.001465 Option 4: using dudi.pca library(ade4) # apply PCA pca4 = dudi.744 86.1414 -1.4 ## Murder 0.2257 0.3 Dim. graph = FALSE) # matrix with eigenvalues pca3$eig ## eigenvalue percentage of variance cumulative percentage of variance ## comp 1 2.1334 0.1665 -0.341996 ## Colorado 1.336 100.01 ## comp 2 0.30959 ## UrbanPop 0.4802 0.9898 24. nf = 5.pca3 = PCA(USArrests.2 Dim.4883 0.5240 1.09501 0.1198 -0.1601 -0.4802 62.9898 0.006 62.182811 ## California 2.2 Dim.5146 0.834653 -0. 7460 0.05478 -0.4182 -0.1198 0.5146 -0.44427 ## Alaska -1.4164 # loadings pca5$loadings .8683 -0.5429 0.1870 -0.8728 -0.4381 -0.2782 -0. # PCA with function acp library(amap) # apply PCA pca5 = acp(USArrests) # sqrt of eigenvalues pca5$sdev ## Comp 1 Comp 2 Comp 3 Comp 4 ## 1.9501 1.5359 0.9876 0.1673 0.05575 ## Rape 0.27037 ## Murder -0.2038 ## Assault -0.1665 0.438583 ## Arizona -1.59856 -0.5832 0.09501 -1.001465 Option 5: using acp() A fifth possibility is the acp() function from the package "amap".9184 0.74341 ## UrbanPop -0.2681 -0.5240 -1.156267 ## Alabama -0.1414 1.03707 -0.30959 ## UrbanPop -0.0732 2.7632 -0.2257 0.1334 -0.3780 0.8558 -0.5434 -0.341996 ## Colorado 1.64923 ## Murder -0.3412 ## Assault -0.8178 # correlations between variables and PCs pca4$co ## Comp1 Comp2 Comp3 Comp4 0.8440 0.5971 0.04000 -0.182811 ## California -2.9856 1.08902 -0.834653 ## Arkansas 0.9949 0.1880 -0.5749 0.13388 ## Rape 0.4883 # PCs head(pca4$li) ## Axis1 Axis2 Axis3 Axis4 0.4160 -0.11457 -0.# loadings pca4$c1 ## CS1 CS2 CS3 CS4 0.1601 -0. 7385 0.43980 0. PCA plots Everybody uses PCA to visualize the data.00145 Of course these are not the only options to do a PCA.59254 -0.8178 # scores head(pca5$scores) ## Comp 1 Comp 2 Comp 3 Comp 4 ## Alabama 0.9776 1. colour = "gray65") + geom_vline(xintercept = 0. y = PC2.data.7454 -0. colour = "gray65") + geom_text(colour = "tomato".Crime Rates") . size = 4) + ggtitle("PCA plot of USA States . label = rownames(scores))) + geom_hline(yintercept = 0.2681 -0.5359 0.9305 1.33856 ## Colorado 1.1880 -0. let’s take the basic results from prcomp().1673 0.15470 ## Alaska 1. and most of the discussed functions come with their own plot functions.4993 -0.1220 -0. aes(x = PC1.01950 -0.4182 -0.13388 ## Rape 0.08400 0.5434 -0.0624 2.1400 1.64923 ## Assault 0.3412 0.43418 ## Arizona 1.5832 0.74341 ## UrbanPop 0. but I’ll leave the other approaches for another post. Just to show you a couple of plots. alpha = 0.2782 -0.9757 1.8.frame(pca1$x) # plot of observations ggplot(data = scores.3780 0.82626 ## Arkansas -0.## Comp 1 Comp 2 Comp 3 Comp 4 ## Murder 0. But you can also make use of the great graphical displays of "ggplot2".18097 ## California 2.11342 -0. Plot of observations # load ggplot2 library(ggplot2) # create data frame with scores scores = as.05423 -0.4986 -1.5274 0.08902 0.8728 -0.1085 0. aes(x = x1.frame(x1 = c(0. colour = "gray65") + geom_segment(data = arrows.function(center = c(0. 0.frame(x = xx. y1 = c(0.Circle of correlations # function to create a circle circle <. 0). colour = "gray65") + . 0). x2 = correlations$PC1. y = yy)) } corcir = circle(c(0.data. 0). y = y). y = y1.frame(cor(USArrests. 0). npoints = 100) { r = 1 tt = seq(0. 0. yend = y2). pca1$x)) # data frame with arrows coordinates arrows = data. 0. 2 * pi. 0. xend = x2. aes(x = x. length = npoints) xx = center[1] + r * cos(tt) yy = center[1] + r * sin(tt) return(data. y2 = correlations$PC2) # geom_path will do open circles ggplot() + geom_path(data = corcir. npoints = 100) # create data frame with correlations between variables and PCs correlations = as. 1) + labs(x = "pc1 aixs". All contents under (CC) BY-NC-SA license. y = PC2.geom_text(data = correlations. . unless otherwise noted. 1. aes(x = PC1.1. 1. colour = "gray65") + xlim(-1.1) + ylim(-1. consider helping me with my wishlist. y = "pc2 axis") + ggtitle("Circle of correlations") Published in categories how-to Tagged with principal components analysis pca multivariate plot R ← previous next → See all posts → © Gaston Sanchez. Did you find this site useful? If yes.1. colour = "gray65") + geom_vline(xintercept = 0. label = rownames(correlations))) + geom_hline(yintercept = 0. # Varimax # Rotated retaining Principal 5 Components components library(psych) fit <- principal(mydata.Principal Components and Factor Analysis This section covers principal components and factor analysis. Pairwise deletion of missing data is used.obs=. # # Pricipal entering # Components raw data from fit extracting the <- summary(fit) and correlation print loadings(fit) plot(fit.type="lines") cor=TRUE) variance # accounted pc # # for loadings scree the PCs matrix princomp(mydata. # fit$scores Analysis principal plot components biplot(fit) click to view Use cor=FALSE to base the principal components on the covariance matrix. nfactors=5. The later includes both exploratory and confirmatory methods. "varimax". "simplimax". Exploratory Factor Analysis . Principal Components The princomp( ) function produces an unrotated principal component analysis. "promax". rotate can "none". include the optionn. "oblimin". "quatimax". If entering a covariance matrix. or "cluster" . Use the covmat= option to enter a correlation or covariance matrix directly. The principal( ) function in the psych package can be used to extract and rotate principal components. rotate="varimax") fit # print results mydata can be a raw data matrix or a covariance matrix. Rotation can be "varimax" or "promax". # plot factor load digits=2. any factor solution must be interpretable to be useful.7) # add variable names click to view The rotation= options include "varimax".obs=. The nFactors package offer a suite of functions to aid in this decision. If entering a covariance matrix.The factanal( ) function produces maximum likelihood factor analysis. #withvarimaxrotation fit<-factanal(mydata. #MaximumLikelihoodFactorAnalysis #enteringrawdataandextracting3factors.3.type="n") 2 fit$loadings[. by sort=TRUE) factor <- plot(load. "promax". nfactors=3.3. Of course. include the option n. Details on this methodology can be found in a PowerPoint presentation by Raiche. 1 cutoff=. and Blais. # Determine library(nFactors) Number of Factors to Extract . Add the option scores="regression" or "Bartlett" to produce factor scores. # Principal Axis Factor Analysis library(psych) fit <- factor.pa( ) function in the psych package offers a number of factor analysis related functions. Determining the Number of Factors to Extract A crucial decision in exploratory factor analysis is how many factors to extract.pa(mydata.cex=. Pairwise deletion of missing data is used. rotation="varimax") fit # print results mydata can be a raw data matrix or a covariance matrix.rotation="varimax")print(fit.1:2] # set up plot text(load. and "none". The factor.labels=names(mydata). including principal axis factoring. Use the covmat= option to enter a correlation or covariance matrix directly. Riopel. rep=100.cent=. This includes the use of both quantitative and qualitative variables.ev <- eigen(cor(mydata)) ap <- # get eigenvalues parallel(subject=nrow(mydata). as well as the inclusion of supplimentary variables and observations.PCA(mydata) # graphs generated automatically click to view Thye GPARotation package offers a wealth of rotation options beyond varimax and promax.var=ncol(mydata).05) nS <- nScree(x=ev$values. Here is an example of the types of graphs that you can create with this package. Map . # PCA Variable Factor library(FactoMineR) result <. aparallel=ap$eigen$qevpea) plotnScree(nS) click to view Going Further The FactoMineR package offers a large number of additional functions for exploratory factor analysis. More mathematically. PCA finds the combination of your variables which explains the phenomena. As the name of PCA suggests. Let's say we asked the participants four 7-scale Likert questions about what they care about when choosing a new computer.Principal Component Analysis (PCA) Introduction Principal Component Analysis (PCA) is a powerful tool when you have many variables and you want to look into things that these variables can explain. In this sense. One common scenario of PCA is that you have n variables and you want to combine them and make them 3 or 4 variables without losing much of the information that the original data have. and got the results like this. Particip Price Softwar Aesthetic Brand ant e s P1 6 5 3 4 P2 7 3 2 2 P3 6 4 4 5 P4 5 7 1 3 P5 7 7 5 5 P6 6 4 2 3 P7 5 7 2 1 P8 6 5 4 4 P9 3 5 6 7 P10 1 3 7 5 P11 2 6 6 7 . PCA is one of the methods you may want to try if you have lots of Likert data and try to understand what these data tell you. PCA is useful when you want to reduce the number of the variables. PCA is trying to find some linear projections of your data which preserve the information your data have. 3.6.2.1.7.6.3) Aesthetics <. Now.1.frame(Price.5.4.2. Brand) At this point.7.5. Aesthetics: The appearance of a new computer is appealing to you (1: strongly disagree – 7: strongly agree).3.7. Brand: The brand of the OS on a new computer is appealing to you (1: strongly disagree – 7: strongly agree) Now what you want to do is what combination of these four variables can explain the phenomena you observed.4. so be careful).7. there are two functions for PCA: prcomp() and princomp(). I will explain this with the example R code.6.5. Software: The OS on a new computer allows you to use software you want to use (1: strongly disagree – 7: strongly agree).3.2. Price <.4.4.2. In R.7.6.c(4.6.6.1.5.1.5.7.2.7) Brand <. . we do PCA.7.c(3.6.7.c(6. prcomp() uses a correlation coefficient matrix. R code example Let's prepare the same data shown in the table above.6.6. Aesthetics.5.6. and the results gained from princomp() have nice features.5.4.data.3.2.Particip Price Softwar Aesthetic Brand ant e s P12 5 7 7 6 P13 2 4 5 6 P14 3 5 6 5 P15 1 6 5 5 P16 2 3 7 7     Price: A new computer is cheap to you (1: strongly disagree – 7: strongly agree).5.5.7.3. But it seems that the results become similar in many cases (which I haven't formally tested.3.5.5.2) Software <c(5.5.5. and princomp() uses a variance covariance matrix.4. Software. data looks pretty much the same as the table above.7.7) data <. so here I use princomp().5. 977 -0. Comp.134 0.674 0. which are Comp.2 Comp.167 0.1 is calculated as follows: Comp.1Comp.37925777 Proportion of Variance 0.1 Comp. which mean the coefficients for the “new” variables.9804092 0. you need to look at Standard deviation. The next thing we want to know is how much each of new variables has a power to explain the information that the original data have.0.2 Comp.2403006 0.523 0.295 -0. PCA found four new variables which can explain the same information as the original four variables (Price.583 0.734 Brand 0.523 0. Importance of components: Comp.pca <.princomp(data.597 * Aesthetics + 0. loadings=T) And here is the result of the PCA. For this.848 Software -0.177 * Software + 0.597 0. and Brand). and Cumulative Proportion (of Variance) in the result.3 Comp.523 * Price .167 0.00000000 Loadings: Comp.1 Comp.423 0. And Comp.1 to Comp.597 cs 0.1161676 0.177 0.134 0. which is good.3Comp.8478733 0.674 I will explain how to interpret this result in the next section.5589391 0. cor=T) summary(pca.9640409 1.848 Softwar -0.734 Brand 0.6816673 0.583 * Brand Thus.4 Price -0.4 Price -0.977 -0.03595911 Cumulative Proportion 0. PCA successfully found a new combination of the variables.6075727 0.6075727 0. . Software.4.423 0. Aesthetics.177 e 0.120 Aestheti 0. Interpretation of the results of PCA Let's take a look at the table for loadings.4 Standard deviation 1.2Comp.120 Aesthetics 0.295 -0.3 Comp.1 = -0.583 From the second table (loadings). we can describe 85% of them. we probably can name this variable as “Feature/Fashion index” or something. A heuristics is that we take all the new variables whose standard deviations are roughly over 1.1 and Comp. we can take Comp.61 0.2). you can see Participant 1 . Thus. Another way to determine how many new variables we want to take is to look at cumulative proportion of variance. For instance. and the other participants get positive values. There is no definitive answer for this part of PCA.38 Cumulative Proportion 0.1 = -0.1. It seems that this new variable indicates whether a user cares about Price and Software or Aesthetics and Brand for her computer. As we have seen.3Comp.1Comp. If we use Comp. we can describe 61% of the information the original data have. Your next task is to understand what the new variable means in the context of your data. but you can quickly generate it by yourself).3 and Comp. PCA calculates the combination of the variables such that new variables have a large standard deviation. This means how much of the information that the original data have can be described by the combination of the new variables. You need to go through your data and make sense what the new variables mean by yourself.56 0.0 (so.177 * Software + 0. In this manner.96 1.1]) With the graphs (sorry I was kinda lazy to upload the graph. You can use scores to take the values of each variable modeled by PCA. So.1 and Comp.00 Standard deviation means the standard deviation of the new variables.85 0.523 * Price .2Comp. we will take Comp. the first new variable can be calculated as follows: Comp.0.8 get negative values.583 * Brand It is a very good idea to plot the data to see what this new variable means. in this example. from 4 variables to 2 variables).Comp.2. . Generally.1 and Comp2. and ignore Comp. generally a larger standard deviation means a better variable.4.4 Standard deviation 1.98 0. 80% is considered as the number of the percentage which describes the data well. we can decrease the number of the variables (in this example.68 0. plot(pca$scores[.597 * Aesthetics + 0.1]) barplot(pca$scores[. with only Comp. So. This is kinda like machine learning: Whether features can classify the data well. and the results are like this. Particip Price Softwar Aesthetic Brand OS ant e s P1 6 5 3 4 0 P2 7 3 2 2 0 P3 6 4 4 5 0 P4 5 7 1 3 0 P5 7 7 5 5 1 P6 6 4 2 3 0 P7 5 7 2 1 0 P8 6 5 4 4 0 P9 3 5 6 7 1 P10 1 3 7 5 1 P11 2 6 6 7 0 P12 5 7 7 6 1 P13 2 4 5 6 1 P14 3 5 6 5 1 P15 1 6 5 5 1 P16 2 3 7 7 1 . you may want to look into whether the new variables can predict some phenomena well. Let's say you have asked the participants one more thing. which OSthey are using (Windows or Mac) in your survey.PCA and Logistic regression Once you have done the analysis with PCA. the details of logistic regression are available in a separate page. You can use fitted() function to see the prediction.01932 0. For example.0.1) to a logistic function.02649166 8 9 10 11 12 13 14 0. OS <.91057994 0.e.1].1. which means the dependent variable is binomial.65268 Coefficients: Estimate Std. I will skip the details of logistic regression here.033 Number of Fisher Scoring iterations: 5 Let's see how well this model predicts the kind of OS.1. OS is 0 or 1 in our case.34968733 0. family=binomial) summary(model) Now you get the logistic function model.001 ‘**’ 0.0.21744454 0.1.0.89433079 0. PCA can be used with regression models for calculating the probability of a phenomenon or making a prediction.Here what we are going to do is to see whether the new variables given by PCA can predict the OS people are using.74216 -0.78149889 0.08371 0. fit the first variable we found through PCA (i.62129 2. Error z value Pr(>|z|) (Intercept) -0. Participant 1 is more likely to be using OS 0.25520745 0. we can expect 15% chance that Participant 1 is using OS 1 based on the variable derived by PCA.033 on 14 degrees of freedom AIC: 16.15173723 0.301 0.113 0. which agrees with the survey response.0.glm(OS ~ pca$scores[.181 on 15 degrees of freedom Residual deviance: 12. In this way.19746 -0.96410841 These values represent the probabilities of being 1.0. family = binomial) Deviance Residuals: Min 1Q Median 3Q Max -2.1. 1].1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 22.1) Then. If you are interested.07808633 0.9102 pca$scores[.85190931 0.0.04406133 0.Signif.0.05 ‘. codes: 0 ‘***’ 0.42973 0.’ 0. we prepare the data about OS. Comp.44586 0.76285170 15 16 0.60018 1.04159449 0.73428648 0.93612411 0. we are going to do logistic regression.1. Thus.c(0..1. Thus. model <. fitted(model) 1 2 3 4 5 6 7 0. .1.01 ‘*’ 0. Call: glm(formula = OS ~ pca$scores[. in this case. First. 1] 1.0214 * --. We are going to use a similar example in PCA. CFA means that you already have some guesses or models for your hidden variables (or factors) and you want to check whether your models are correct. your Factor Analysis is EFA. it sounds very similar toPCA. Particip Price Softwar Aesthetic Brand Family Friend ant e s P1 6 5 3 4 7 6 P2 7 3 2 2 2 3 P3 6 4 4 5 5 4 P4 5 7 1 3 6 7 P5 7 7 5 5 2 1 P6 6 4 2 3 4 5 P7 5 7 2 1 1 4 P8 6 5 4 4 7 5 P9 3 5 6 7 3 4 . What Factor Analysis does is to try to find hidden variables which explain the behavior of your observed variables. So you are trying to find them. Let's say you have some data like this from your survey about what is important when they decide which computer to buy. you may have heard of the terms like Exploratory Factor Analysis (EFA) and Confirmatory Factor Analysis (CFA). I will explain this in the next section. If you are a little more knowledgeable. In many cases. EFA means that you don't really know what hidden variables (or factors) exist and how many they are.Factor Analysis Introduction Factor Analysis is another powerful tool to understand what your data mean particularly when you have many variables. we hope that we can find a smaller number of new variables which explain your data well. Our interests here also lie in reducing the number of variables. So. Although the outcome is very similar in terms of reducing the number of variables. In this sense. and I explain it in this page. the approach to reduce the number of variable is different. we can use Factor Analysis on ordinal data if the scale is 5 or more. If your want to find n factors. you want to have roughly 3n . For successfully doing Factor Analysis. we need more data than this example. I would like to briefly explain the difference between PCA and FA. Aesthetics: The appearance of a new computer is appealing to you (1: strongly disagree – 7: strongly agree). in practice. Through Factor Analysis. For looking at how to do Factor Analysis in R. Brand: The brand of the OS on a new computer is appealing to you (1: strongly disagree – 7: strongly agree).4ndimensions of data. And Factor Analysis assumes the normality of the data. Friend: Your friends' opinions are important to you (1: strongly disagree – 7: strongly agree).Particip Price Softwar Aesthetic Brand Family Friend ant e s P10 1 3 7 5 2 4 P11 2 6 6 7 6 5 P12 5 7 7 6 7 7 P13 2 4 5 6 6 2 P14 3 5 6 5 2 3 P15 1 6 5 5 4 5 P16 2 3 7 7 5 6       Price: A new computer is cheap to you (1: strongly disagree – 7: strongly agree). Family: Your family's opinions are important to you (1: strongly disagree – 7: strongly agree). and data can be treated as interval data. However.10n samples. and 5n . so it is not a great tool for ordinal data. Software: The OS on a new computer allows you to use software you want to use (1: strongly disagree – 7: strongly agree). you want to find hidden variables (common factors) which may explain the responses you gained. Difference between Factor Analysis and PCA . PCA tries to find linear combination of the variables which contain much information by looking at the variance.60727189 Family -0. and one will be related to Price.01) and the other (Var 2) forms N(1. Another interesting aspect of the new variables derived by PCA is that all new variables are orthogonal. This is why the standard deviation is one of the important metrics to determine the number of new variables in PCA.1462152 1. Price Software Aesthetics Brand Friend Family Price 1. and so forth. If one variable is correlated with another variables. 1).14621516 -0.06183118 Software 0.0000000 -0.06977360 Brand -0. like 0 or 2.18561230 1.02662389 Friend 0. and Friend has a strong correlation with Family. Although the example above just looks at one variable at one time. and the other will be related to Friend and Family.63202219 -0.06183118 0.85285436 1.00000000 0. and see what will happen.11858645 0. One of them (Var 1) forms N(1.1765724 -0. it looks like that Price has strong negative correlations with Aesthetics and Brand.17657236 Aesthetics -0.33316719 0. You can think that PCA is rotating and translating the data such that the first axis contains the most information.10096774 0. and Brand.58026680 -0. . Thus.03082006 0.00000000 0.60727189 1.1185864 0. Aesthetics.58026680 0.03989799 -0. Let's move on to Factor Analysis. Which variable do you think has more information? Var 1 is always pretty much 1 whereas Var 2 can take a wider range of values. 0.03082006 -0.06977360 0. Let's take a look at the correlation matrix of the data we have (see the code example below to create the data frame) before doing Factor Analysis.1856123 -0. The intuition of Factor Analysis is to find hidden variables which affect your observed variables by looking at the correlation. we can say that these two variables are generated from one hidden variable. This means that we can expect that we will have two common factors.00000000 0. cor(data) And you get the correlation matrix. Let's say you have two variables.33316719 1. Why are larger variances important? This is a similar concept of entropy in information theory.00000000 So.1009677 0.The intuition of Principal Component Analysis is to find new combination of variables which form larger variances.63202219 -0. Thus.02662389 0. and the second has the second most information. so we can explain the phenomena with that one hidden variable instead of the two variable. which means Var 2's entropy is larger than Var 1's.85285436 0. we can say Var 2 contains more information than Var 1.00000000 0.03989799 0. Var 2 has more chances to have various values than Var 1. 2.7. the factor analysis is doing a null hypothesis test in which the null hypothesis is that the model described by the factor we have found predicts the data well.7.3.16 on 4 degrees of freedom.5.c(4.7.974 1.5.620 Factor1 Factor2 SS loadings 2.172 Here.4. Price <.R code example In the following code example.912 Friend 0.6. The chi square statistic is 12.365 Test of the hypothesis that 1 factor is sufficient.100 0.5.3) Aesthetics <.4. Brand.1. Family) Factor Analysis is easy to do in R.8.000 Loadings: Factor1 Price -0.6. and the p value is 0.658 Software -0.4.4.5.7.4.610 Test of the hypothesis that 2 factors are sufficient.6.6. such as using varimax rotation or promax rotation (R uses varimax rotation by default). which is 12.3.706 The p value gets larger.4.5.7.7) Friend <c(7.7.167 0.161 0.4. I recommend you to read other books or references for now.368 0.1.242 Friend 0.79 on 9 degrees of freedom.4.368 0.c(3.6. The p-value is 0. Loadings shows the weights to calculate the hidden variables from the observed variables.5.2) Software <c(5. Call: factanal(x = data.4.1. factor=2) Call: factanal(x = data.1. So. .2.992 Family 0.3. This means. but not sure… First. it is 0.3.933 Brand 0.2.6.6) data <data.6. fa <.6.5. so the factor predicts the data well from the statistics perspective.5.190 Proportion Var 0.242 Cumulative Var 0.126 0.3.2.5.7.080 0.5. Friend.17.factanal(data. factors = 2) Uniquenesses: Price Software Aesthetics Brand Friend Family 0. fa <. factors = 1) Uniquenesses: Price Software Aesthetics Brand Friend Family 0.frame(Price.7.5.2. This is why the result says “Test of the hypothesis that 1 factor is sufficient.3.2.6.2.126 0.factanal(data. factor=1) And you get the result.5.5.005 0. The chi square statistic is 2. If you want to know more details.5.960 0.6.37).6.152 Aesthetics 0.928 0.5.c(6.5. we cannot reject the null hypothesis.c(6.657 Software -0.2.2.161 Family Factor1 SS loadings 2.5) Family <.207 1.7.7.935 Brand 0.6. we prepare the data.6.2.1. The p-value is 0. we have the chi-square goodness-of-fit.3.5.559 0.1.3.119 Aesthetics 0. Let's do Factor Analysis assuming that the number of the hidden variables is 1.” Let's take a look at the Factor Analysis with two factors.5.4.609 Loadings: Factor1 Factor2 Price -0.4.7. I may add these details later.453 Proportion Var 0.3.7.7) Brand <.4.2.977 0.5.61 (with one variable.567 0.7. I skipped some details. Aesthetics. So the model seems to be improved. Software. and the Cumulative portion of variance becomes 0.7. 992 Family 0. which are: Factor Factor 1 2 Price -0.933 cs Brand 0.1] with more precisions. and not necessary equal to zero. but this means these coefficients are just too small.119 Aestheti 0.928 0. the model gets improved if you have more variables. So. For instance.620 In the results of FA. .100 0. How many factors should we use? We found the two factors in the example. it does not tell whether the number of variables are large enough for describing the information that the original data have. some coefficients are missing.242 Friend 0. Although the goodness-of-fit tells you whether the current number of variables are sufficient or not.657 Softwar -0. which shows the trade-off between the number of variables and the accuracy of the model.But obviously. how should we decide how many factors we should pick up? This is the topic for the next section. why don't we try three factors instead of one or two factors? There are a few ways to answer this question. You can see the all coefficients by doing like fa$loadings[.161 e 0. you can look at the cumulative portion of variance.08373107 So. Thus. It can be 80% similar to PCA. Factor 1 has large weight on Price. Kaiser criterion The Kaiser rule is to discard components whose eigenvalues are below 1.eigen(cor(data)) ev$values 2. but is a standard way to do.89157047 0. So. we have more mathematical ways to determine the number of factors. If your focus is on reducing the number of variables.0. it can be 50 . Deciding the threshold for the cumulative portion is kind of heuristic. we can just ignore factors which don't really make sense. This is also used in SPSS. we can determine that the number of factors should be 2. Factor 2 has large weights on Friend and Family. which may indicate whether people want practical aspects or fashionable aspects on their computers. and if that reaches some numbers. Aesthetics and Brand. which seems to mean that people around users have some effects on the computer purchase. Cumulative variance Similar to PCA. One problem of Kaiser rule is that it often becomes too strict.60 %. both factors seem to have some meanings.Comprehensibility This means whether you can explain your new variables in a sensible way.45701130 1. You can easily calculate the eigenvalues from the correlation matrix. and that's why we should keep them. you can stop adding more factors. . This is probably intuitive. This is not really a mathematical way to determine the number of factors. but I know you may argue that it is too subjective.60583326 0.27285334 0. Because we want to find factors which explain something. ev <.68900056 0. For example. eigen(cor(data)) library(nFactors) ap <parallel(subject=nrow(data). how exactly should we find the spot like that? Again. The following procedure to make a Scree plot is based on this webpage. You also need nFactors package.05) nS <nScree(ev$values. In some cases (particularly when the number of your original variables are small like the example above). it is good to know how to make a Scree plot. You then try to find the spot where the slope of the line becomes less steep. it is kind of heuristic.cent=0. you can't find a clear spot like that (try to make a plot by using the following code).var=ncol(data). and the eigenvalues on the Y axis and connect them with lines. Nonetheless. ev <. So. You plot the components on the X axis. ap$eigen$qevpea) plotnScree(nS) .Scree plot Another way to determine the number of factors is to use Scree plot.rep=100. 15. anggota populasi yang terdiri dari 100 orang. bila dipandang orang yang kebetulan ditemui itu cocok sebagai sumber data. kurang dari 30 orang. maka setiap anggota kelompok harus dapat menghubungi 100 orang anggota sampel. 1. misalnya: 000-299 untuk populasi yang berjumlah 300 orang. Menggunakan Tabel Acak Pada cara kedua ini. jumlah sampel yang ditentukan 500 orang. 5. semua anggota dalam populasi mempunyai probabilitas atau kesempatan yang sama untuk dipilih menjadi sampel. Pengambilan sampel dapat dilakukan dengan mengambil nomor ganjil saja. tetapi karena dengan dua orang sampel ini belum merasa lengkap terhadap data yang diberikan. atau kelipatan dari bilangan tertentu. dari semua semua anggota populasi itu diberi nomor urut 1 sampai 100. b. gerakan penunjuk . misalnya kelipatan dari bilangan lima. kocok kotak tersebut dan keluarkan lewat lubang pengeluaran yang telah dibuat. Sebagai contoh. Dalam penentuan sampel. 2. akan melakukan penelitian tentang Karies Gigi. jika populasinya berjumlah 500. Sampling Insidental Pengertian Sampling Insidental atau Definisi Sampling Insidental adalah teknik penentuan sampel berdasarkan kebetulan. jika pengumpulan data belum memenuhi kuota 500 orang tersebut. Pada penelitian kualitatif banyak menggunakan sampel Purposive dan Snowball. pada angka-angka yang terpilih. berikan semua anggota dengan nomor kode yang diminta. Sampling Jenuh. Untuk itu maka yang diambil sebagai sampel adalah nomor urut 1.Contoh Sampling Sistematis. angka-angka yang ada digunakan untuk memilih sampel dengan langkah sebagai berikut: identifikasi jumlah total populasi. 20 dan seterusnya sampai 100. a. yaitu siapa saja yang secara kebetulan atau insidental bertemu dengan peneliti dapat digunakan sebagai sampel.eknik Pengambilan Sampel : Nonprobability Sampling Pengertian Nonprobability Sampling atau Definisi Nonprobability Sampling adalah teknik pengambilan sampel yang tidak memberi peluang atau kesempatan sama bagi setiap unsur atau anggota populasi untuk dipilih menjadi sampel. Apa pun namanya teknik ini sangat populer dan banyak dianjurkan penggunaannya dalam proses penelitian. Teknik acak ini dapat dilakukan dengan langkah-langkah seperti berikut: tentukan jumlah populasi yang dapat ditemui. Pada teknik acak ini. Sampel ini lebih cocok digunakan untuk Penelitian Kualitatif atau penelitian yang tidak melakukan generalisasi. daftar semua anggota dalam populasi. atau 00-99 untuk jumlah populasi 100 orang. Tabel tersebut umumnya terdiri dari kolom dan angka lima digit yang telah secara acak dihasilkan oleh komputer. maka angka terpilih 375 tidak termasuk sebagai individu sampel. Bila pengumpulan data dilakukan secara kelompok yang terdiri atas 5 orang pengumpul data. maka sampel sumber datanya adalah orang yang ahli makanan. jika angka dikaitkan dengan angka terpilih untuk individual dalam populasi menjadi individu dalam sampel. maka peneliti mencari orang lain yang dipandang lebih tahu dan dapat melengkapi data yang diberikan oleh dua orang sampel sebelumnya. Sampling Insidental. atau 5 orang tersebut harus dapat mencari data dari 500 anggota sampel. sehingga jumlah sampel semakin banyak. Sampling Sistematis Pengertian Sampling Sistematis atau Definisi Sampling Sistematis adalah teknik pengambilan sampel berdasarkan urutan dari anggota populasi yang telah diberi nomor urut. Keempat teknik tersebut. nomor anggota yang keluar adalah mereka yang ditunjuk sebagai sampel penelitian. 6. pilih secara acak (misalnya tutup mata) dengan menggunakan penunjuk pada angka yang ada dalam tabel. Jika populasi mempunyai anggota 90 maka hanya diperlukan dua digit dari akhir saja. stratifikasi. atau penelitian yang ingin membuat generalisasi dengan kesalahan yang sangat kecil. secara teoretis. Sampling Jenuh (Sensus) Pengertian Sampling Jenuh atau Definisi Sampling Jenuh adalah teknik penentuan sampel bila semua anggota populasi digunakan sebagai sampel. maka angka terpilih 375 masuk sebagai individu sampel. Contoh Purposive Sampling. Nama tersebut termasuk di antaranya: random sampling atau teknik acak. Dengan menggunakan tabel tersebut. Snowball Sampling Pengertian Snowball Sampling atau Definisi Snowball Sampling adalah teknik penentuan sampel yang mula-mula jumlahnya kecil. pertama-tama dipilih satu atau dua orang sampel. tentukan jumlah sampel yang diinginkan. Jika populasi 500 maka hanya 3 digit dari akhir saja. yaitu cara acak. Teknik Sampling Nonprobality ini meliputi :Sampling Sistematis. klaster. lakukan terus sampai jumlah yang diinginkan dapat dicapai. 4. genap saja. maka penelitian dipandang belum selesai. Contohnya akan meneliti siapa provokasi kerusuhan. lihat hanya angka digit yang tepat yang dipilih. Purposive Sampling Pengertian Purposive Sampling atau Definisi Purposive Sampling adalah teknik penentuan sampel dengan pertimbangan tertentu. Cara Tradisional Cara tradisional ini dapat dilihat dalam kumpulan ibu-ibu ketika arisan. Snowball Sampling. proses pemilihan subjek dilakukan dengan menggunakan tabel yang dihasilkan oleh komputer dan telah diakui manfaatnya dalam teori penelitian. Sampling Acak Ada beberapa nama untuk menyebutkan teknik pemilihan sampling ini. daftar semua anggota yang masuk sebagai populasi. dan sistematis. 10. Purposive Sampling. 3. Ibarat bola salju yang menggelinding yang lama-lama menjadi besar. Cara Pengambilan Sampel dengan Probabilitas Sampling Ada empat macam teknik pengambilan sampel yang termasuk dalam teknik pengambilan sampel dengan probabilitas sampling. Untuk mendapat responden yang hendak dijadikan sampel. Hal ini sering dilakukan bila jumlah populasi relatif kecil. Sebaliknya jika populasi hanya 300. 5. satu hal penting yang harus diketahui oleh para peneliti adalah bahwa perlunya bagi peneliti untuk mengetahui jumlah responden yang ada dalam populasi. Teknik memilih secara acak dapat dilakukan baik dengan manual atau tradisional maupun dengan menggunakan tabel random. Sampling Kuota.Contoh Sampling Kuota. maka akan cocok menggunakan Purposive Sampling dan Snowball Sampling. Begitu seterusnya. Sampling Kuota Pengertian Sampling Kuota atau Definisi Sampling Kuota adalah teknik untuk menentukan sampel dari populasi yang mempunyai ciri-ciri tertentu sampai jumlah kuota yang diinginkan. kemudian membesar. masukkan dalam kotak yang telah diberi lubang penarikan. akan melakukan penelitian tentang kualitas makanan. 1. Daftar semua anggota yang termasuk sebagai populasi. sebaliknya kelompok lain tidak terwakili karena tidak muncul dalam proses pemilihan. Jumlah sampel yang diinginkan 400 orang. Dasar logis klaster adalah sekolah yang jumlahnya ada 100. tetapi lebih didasarkan pada kelompok. Total populasi adalah 4. 10 sekolah di antara 100 sekolah dipilih secara random. Bagi populasi menjadi tiga lapis. Contoh terapan pemilihan sampel dengan menggunakan teknik klasterMisalkan seorang peneliti hendak melakukan studi pada populasi yang jumlahnya 4. golongan tiga. Syarat yang perlu diperhatikan oleh para peneliti adalah adanya daftar atau list semua anggota populasi. Mereka juga dapat dibedakan menurut jenis kelamin responden menjadi kelompok laki-laki dan kelompok perempuan. atau kelompok subjek yang secara alami berkumpul bersama. ketika peneliti mengetahui bahwa kondisi populasi terdiri atas beberapa anggota yang memiliki stratifikasi atau lapisan yang berbeda antara satu dengan lainnya. Bagaimanakah langkah menentukan sampel tersebut? Jawabannya adalah sebagai berikut. Setiap lapis mempunyai anggota 90 orang. misalnya petani. Daftar semua anggota yang termasuk sebagai populasi dengan nomor 000-899. Seperti halnya teknik memilih sampel secara acak. dan sebagainya. Jumlah sampel adalah jumlah klaster dikalikan jumlah anggota populasi per klaster. Contoh Memilih Sampel dengan Sampling Acak Seorang kepala sekolah ingin melakukan studi terhadap para siswa yang ada di sekolah. sampel yang diinginkan adalah 10% dari populasi. Teknik yang paling tepat dan mempunyai akurasi tinggi adalah teknik sampling dengan cara stratifikasi. Dalam populasi. Jadi. b. Pisahkan anggota populasi sesuai dengan karakteristik lapisan yang dimiliki. 2. Jawabannya adalah sebagai berikut. Jumlah total populasi adalah 900 orang. Perkirakan jumlah rata-rata subjek yang ada pada setiap klaster. Tentukan jumlah sampel yang diinginkan. dan golongan empat. Coba langkah d sampai diperoleh semua jumlah 60 responden. yaitu observasi langsung (observasi partisipasi) yaitu apabila pengumpulan data melalui pengamatan dan pencatatan gejalagejala pada objek yang dilakukan secara langsung di tempat kejadian. Tentukan dasar logika untuk menentukan klaster. ulangi langkah nomor 8 sampai jumlah sampel yang diinginkan tercapai. Pilih sampel dengan menggunakan prinsip acak seperti yang telah dilakukan dalam teknik random di atas. Dalam anggota populasi ada tiga lapisan guru. Tentukan besar sampel yang diinginkan. Terangkan langkah-langkah guna mengambil sampel dengan menggunakan teknik stratifikasi tersebut. sri dalam bahasa Indonesia akan terjadi pengumpulan nama dalam awalan tersebut. Lakukan langkah pemilihan pada setiap lapisan yang ada. Lakukan langkah 6 dan 7 untuk Iapis kedua dan ketiga sampai total sampel diperoleh jumlah 270 orang. dan observasi tidak langsung (observasi non-partisipasi) yaitu pengumpulan data . Sampel yang diinginkan 10% x 600 = 60 orang. daerah.6 atau 10. Daftar semua subjek dalam setiap klaster dengan membagi antara jurnlah sampel dengan jumlah klaster yang ada. Teknik stratifikasi ini harus digunakan sejak awal. Dia ingin menggunakan teknik acak. pegawai negeri. Langkah-langkah tersebut dapat dilihat seperti berikut : Identifikasi jumlah total populasi. Identifikasi populasi yang hendak digunakan dalam studi.000 orang.000 guru dalam 100 sekolah yang ada. setiap sekolah adalah 4. Teknik Secara Sistematis Teknik memilih sampel yang keempat adalah teknik sistematis atau systematic sampling. Teknik pemilihan ini menggunakan prinsip proporsional. Dia ingin memilih sampel dengan menggunakan teknik stratifikasi. Teknik klaster sering digunakan oleh para peneliti di lapangan yang wilayahnya mungkin luas. Cara yang digunakan adalah teknik sampel secara klaster dengan sekolah sebagai dasar penentuan logis klaster yang ada. kelas dua. Teknik Klaster Teknik klaster merupakan teknik memilih sampel lainnya dengan menggunakan prinsip probabilitas. menghitung. Teknik ini ada dua macam. Keadaan populasi yang demikian akan tidak tepat dan tidak terwakili. populasi dapat berupa kelompok masyarakat. Sampel yang diinginkan adalah 10% dari populasi. Sisternatis proporsional k dapat memilih dengan baik. 3. Caranya ialah dengan menentukan pilihan sampel pada setiap 1/k. 4. dan mencatat kejadian yang ada di lapangan. Ketepatan teknik stratifikasi juga lebih dapat ditingkatkan dengan menggunakan proporsional besar kecilnya anggota lapisan dari populasi ditentukan oleh besar kecilnya jumlah anggota populasi dalam lapisan yang ada. semua guru yang ada dalam 10 sekolah sama dengan jumlah sampel yang diinginkan. Contoh menentukan sampel dengan teknik stratifikasi Seorang peneliti ingin melakukan studi dari suatu populasi guru SMK yang jumlahnya 900 orang. Dengan menggunakan teknik klaster ini. Dan pilih dari angka tersebut dan ambil yang memiliki nilai lebih kecil dari angka 899 sampai akhirnya diperoleh 90 subjek. teknik stratifikasi juga mempunyai langkah-langkah untuk menentukan sampel yang diinginkan. Jumlah klaster yang ada adalah 400/40 = 10.000/100 = 40 guru setiap sekolah. Karena hasilnya mungkin satu kelompok terlalu banyak yang terpilih sebagai sampel. Di masyarakat. jika digunakan teknik acak. Memilih sampel dengan menggunakan teknik klaster ini mempunyai beberapa langkah seperti berikut.dalam kolom atau angka lain. melainkan merekam. Undilah sampel yang diinginkan 30% x 900 = 270 orang. Di sekolah. Misalnya diperoleh sederet angka seperti berikut: 058 710 859 942 634 278 708 899 Oleh karena jumlah populasi 600 orang maka dua angka terpilih menjadi sampel yaitu: 058 dan 278. pilih jumlah angggota sampel yang diinginkan untuk setiap klaster. dia menggunakan langkah-langkah untuk memilih sampel seperti berikut. Mengamati tidak hanya melihat. Secara random. Teknik Stratifikasi Dalam penelitian pendidikan maupun penelitian sosial lainnya. dengan setiap lapis terdiri 300 orang. Ketika jumlah sampel yang diinginkan telah tercapai maka langkah selanjutnya adalah membagi dalam kelompok kontrol dan kelompok perlakuan sesuai dengan bentuk desain penelitian. Teknik klaster atau Cluster Sam¬pling ini memilih sampel bukan didasarkan pada individual. mereka adalah yang mempunyai golongan dua. sering kali ditemui kondisi populasi yang ada terdiri dari beberapa lapisan atau kelompok individual dengan karakteristik berbeda. Populasi yang jumlahnya 600 orang diidentifikasi. Walaupun mungkin saja terjadi bahwa suatu nama seperti nama yang berawalan su. Tabel acak yang berisi angka random digunakan untuk memilih data dengan menggerakkan data sepanjang kolom atau baris dari tabel. pegawai swasta. misalnya ada kelas satu. Oleh karena itu. `Sampel yang diinginkan adalah 400 orang. untuk lapisan pertama gerakan penunjuk (pensil) dalam tabel acak. dan kelas tiga. untuk mencapai hal itu. Populasi didaftar dengan diberikan kode dari 000-599. Sampai jumlah sampel dapat dicapai. Teknik ini mempunyai sedikit perbedaan jika dibandingkan dengan kedua teknik yang telah dibahas di atas. mengukur. Untuk populasi yang didaftar atas dasar urutan abjad pemakaian metode menggunakan teknik sistematis juga dapat diterapkan. di mana k adalah suatu angka pembagi yang telah ditentukan misalnya 5. Populasi siswa SMK ternyata jumlahnya 600 orang. mereka lebih dapat menghemat biaya dan tenaga dalam menemui responden yang menjadi subjek atau objek penelitian. Teknik observasi lapangan khusus untuk penelitian di lokasi tambang Pengumpulan Data penelitian Teknik ini dilakukan dengan cara melakukan pengamatan langsung di lapangan. pedagang. yaitu catatan informal yang digunakan pada waktu melakukan observasi. 4) Mencatat dengan menggunakan alat (mechanical device). Beberapa cara yang biasa dilakukan dalam observasi adalah sebagai berikut: 1) Membuat catatan anekdot (anecdotal record).melalui pengamatan dan pencatatan gejala-gejala pada objek tidak secara langsung di lapangan. 3) Membuat skala penilaian (rating scale). Observasi tersebut bisa begitu berharga sehingga peneliti bisa mengambil foto-foto pada situs studi kasus untuk menambah keabsahan penelitian (Dabbs. yaitu daftar yang berisi catatan setiap faktor secara sistematis. Catatan ini berisi fenomena atau peristiwa yang terjadi saat observasi. Copy the BEST Traders and Make Money (One Click) : http://ow. Observasi dapat menambah dimensi-dimensi baru untuk pemahaman konteks maupun fenomena yang akan diteliti. 1996: 113). misalnya slide.ly/KNICZ . Daftar cek ini biasanya dibuat sebelum observasi dan sesuai dengan tujuan observasi. kamera. komputer. Observasi tersebut dapat terbentang mulai dari kegiatan pengumpulan data yang formal hingga yang tidak formal. Bukti observasi seringkali bermanfaat untuk memberikan informasi tambahan tentang topik yang akan diteliti. 2) Membuat daftar cek (checklist). yaitu skala yang digunakan untuk menetapkan penilaian secara bertingkat untuk mengamati kondisi data secara kualitiatif. dan alat perekam suara. yaitu pencatatan yang dilakukan melalui pengamatan dengan menggunakan alat.
Copyright © 2024 DOKUMEN.SITE Inc.