Haupt Andere Erforschungsfaktoranalyse

Erforschungsfaktoranalyse

Überblick

Software

Beschreibung

Webseiten

Lesungen

Kurse

Überblick

Auf dieser Seite werden die Methoden der Exploratory Factor Analysis (EFA) kurz beschrieben und eine kommentierte Ressourcenliste bereitgestellt.

[Die folgende Erzählung bezieht sich stark auf James Neill (2013) und Tucker und MacCallum (1997) , sondern wurde für Epi-Doktoranden und Nachwuchswissenschaftler destilliert.]

Beschreibung

Die Faktorenanalyse ist eine 100 Jahre alte Familie von Techniken, die verwendet wird, um die Struktur/Dimensionalität von beobachteten Daten zu identifizieren und die zugrunde liegenden Konstrukte aufzudecken, die zu beobachteten Phänomenen führen. Die Techniken identifizieren und untersuchen Cluster von miteinander korrelierten Variablen; diese Cluster werden Faktoren oder latente Variablen genannt (siehe Abbildung 1). In statistischer Hinsicht ist die Faktorenanalyse eine Methode zur Modellierung der Populations-Kovarianzmatrix eines Satzes von Variablen unter Verwendung von Stichprobendaten. Die Faktorenanalyse wird für die Theorieentwicklung, die Entwicklung psychometrischer Instrumente und die Datenreduktion verwendet.


Abbildung 1. Beispiel für die Faktorenstruktur häufiger psychiatrischer Störungen. Häufige Störungen scheinen zwei latente Dimensionen darzustellen, internalisierende und externalisierende Störungen. Von Krueger, R. F., 1999, Die Struktur häufiger psychischer Störungen. Archiv der Allgemeinen Psychiatrie. 56: 921-926.

Die Faktorenanalyse wurde 1904 von dem Psychologen und Statistiker Charles Spearman (von Spearman Korrelationskoeffizient berühmt) in seiner Arbeit über die zugrunde liegenden Dimensionen der Intelligenz entwickelt. Bis zur Einführung des statistischen Rechnens wurde seine Verwendung durch mühsame Handrechnungen behindert; seitdem blüht die Technik.

Im Fall Brandenburg gegen Ohio von 1969 hat der Oberste Gerichtshof dies entschieden

Es gibt zwei Hauptarten der Faktorenanalyse: explorative und konfirmatorische. Bei der explorativen Faktorenanalyse (EFA, Schwerpunkt dieser Ressourcenseite) ist jede beobachtete Variable potenziell ein Maß für jeden Faktor, und das Ziel besteht darin, die stärksten Beziehungen (zwischen beobachteten Variablen und Faktoren) zu bestimmen. Bei der konfirmatorischen Faktorenanalyse (CFA) wird eine einfache Faktorenstruktur postuliert, jede Variable kann ein Maß für nur einen Faktor sein, und die Korrelationsstruktur der Daten wird über Anpassungstests gegen die hypothetische Struktur getestet. Abbildung 2 ist eine grafische Darstellung von EFA und CFA.


Abbildung 2. EFA (links) und CFA (rechts). Adaptiert von Wall, M., 20. September 2012, Session 3 Gastvortrag in Epidemiology of Drug and Alcohol Problems, Hassin, D., Columbia University Mailman School of Public Health

Für verschiedene Mess- und Datenszenarien gibt es verschiedene faktoranalytische Techniken:

  1. Beobachtete Variablen sind stetig, latente Variablen werden als stetig angenommen

  2. Beobachtet sind kontinuierlich, latent sind kategorisch

  3. Beobachtet sind kategorisch, latent sind kontinuierlich

  4. Beobachtet sind kategorisch, latent sind kategorisch

Diese Ressourcenseite konzentriert sich auf die Szenarien 1 und 3.

Die folgenden Abbildungen 3 und 4 veranschaulichen einige grundlegende Prämissen der Messtheorie gegenüber der Faktorenanalyse:

  1. Faktoren oder latente Variablen beeinflussen systematisch beobachtete Variablen (d. h. wenn wir beobachtete Variablen messen, werden diese Messungen/Beobachtungen zumindest teilweise durch latente Variablen verursacht)

  2. Interindividuelle Unterschiede (d. h. Varianz) bei beobachteten Variablen sind auf latente Variablen und Messfehler zurückzuführen

  3. Jede Art von Faktor (allgemein, spezifisch – siehe unten) trägt zusätzlich zum Messfehler zu einem Teil der Varianz bei


Abbildung 3. Elemente, die die beobachteten Variablen beeinflussen. Abbildung angepasst von Tucker, LR und MacCallum, RC. 1997, Explorative Faktorenanalyse: http://www.unc.edu/~rcm/book/factornew.htm

Abbildung 3 zeigt, dass drei Dinge die beobachteten Variablen beeinflussen. Zwei sind Arten von latenten Variablen oder Faktoren. Der erste sind gemeinsame Faktoren, die zu mehr als einer der beobachteten Variablen führen (z. B. können mathematische Fähigkeiten zu einem Additionstestergebnis, einem Multiplikationstestergebnis und einem Divisionstestergebnis führen). Der zweite sind spezifische Faktoren, die nur zu einer der beobachteten Variablen führen (ein gemeinsamer Faktor kann zu einem spezifischen Faktor werden, wenn Sie alle bis auf eine der beobachteten Variablen entfernen, zu denen sie führen). Der dritte Faktor, der die beobachteten Variablen beeinflusst, ist der Messfehler, der nicht latent ist, sondern oft auf unsystematische Ereignisse zurückzuführen ist, die die Messung beeinflussen. Der Messfehler ist eng mit der Zuverlässigkeit verbunden.

Jedes der Elemente, die die beobachteten Variablen beeinflussen, trägt auch zur Varianz dieser Variablen bei. Abbildung 4 zeigt, dass die Varianz einer bestimmten beobachteten Variablen teilweise auf Faktoren zurückzuführen ist, die andere beobachtete Variablen beeinflussen, Faktoren, die nur die bestimmte beobachtete Variable beeinflussen, und Messfehler. Die gemeinsame Varianz wird manchmal als Kommunalität bezeichnet, und die spezifische Varianz und die Fehlervarianz werden oft kombiniert und als Eindeutigkeit bezeichnet.


Abbildung 4. Varianzstruktur beobachteter Variablen. Abbildung aus James Neill, 2013, Exploratory Factor Analysis, Lecture 5, Survey Research and Design in Psychology. http://www.slideshare.net/jtneill/exploratory-factor-analysis

Die Abbildung zeigt auch einen wesentlichen Unterschied zwischen Faktorenanalyse undHauptkomponentenanalyse. Bei der Hauptkomponentenanalyse besteht das Ziel darin, so viel wie möglich von der Gesamtvarianz der beobachteten Variablen zu berücksichtigen; Linearkombinationen von beobachteten Variablen werden verwendet, um Komponenten zu erstellen. Bei der Faktorenanalyse besteht das Ziel darin, die Kovarianz zwischen Variablen zu erklären; die beobachteten Variablen sind als Linearkombinationen der Faktoren definiert.

Der Hauptpunkt ist, dass es in der faktoranalytischen Theorie darum geht, die Kovariation zwischen beobachteten Variablen zu berücksichtigen. Wenn beobachtete Variablen miteinander korreliert sind, sagt die faktoranalytische Theorie, dass die Korrelation zumindest teilweise auf den Einfluss gemeinsamer latenter Variablen zurückzuführen ist.

Annahmen

Die Faktorenanalyse hat die folgenden Annahmen, die in den unten verlinkten Ressourcen genauer untersucht werden können:

  1. Stichprobengröße (z. B. 20 Beobachtungen pro Variable)

  2. Bewertungsniveau (z. B. die oben genannten Mess-/Datenszenarien)

  3. Normalität

  4. Linearität

  5. Ausreißer (Faktoranalyse reagiert empfindlich auf Ausreißer)

  6. Faktorisierbarkeit

Eigenwerte und Faktorladungen

[Hinweis: diese Matrix-Algebra-Überprüfung kann Ihnen helfen zu verstehen, was mit Eigenwerten und Faktorladungen unter der Haube vor sich geht, ist aber nicht unbedingt notwendig, um die Ergebnisse der Faktorenanalyse zu interpretieren.]

Faktoren werden aus Korrelationsmatrizen extrahiert, indem solche Matrizen durch Eigenvektoren transformiert werden. Ein Eigenvektor einer quadratischen Matrix ist ein Vektor, der, wenn er mit der quadratischen Matrix vormultipliziert wird, einen Vektor ergibt, der ein ganzzahliges Vielfaches des ursprünglichen Vektors ist. Dieses ganzzahlige Vielfache ist ein Eigenwert.

Der Eigenwert stellt die Varianz dar, die jeder Faktor berücksichtigt. Jeder extrahierte Faktor hat einen Eigenwert (das ganzzahlige Vielfache des ursprünglichen Vektors). Der erste extrahierte Faktor wird versuchen, so viel Varianz wie möglich zu absorbieren, sodass aufeinanderfolgende Eigenwerte niedriger sind als der erste. Eigenwerte über 1 sind stabil. Die Summe aller Eigenwerte ist die Anzahl der beobachteten Variablen im Modell.


Abbildung 5. Scree-Plot, von James Neill, 2013, Exploratory Factor Analysis, Lecture 5, Survey Research and Design in Psychology. http://www.slideshare.net/jtneill/exploratory-factor-analysis

Jede Variable trägt zu einer Varianz von 1 bei. Eigenwerte werden dann den Faktoren entsprechend dem erklärten Varianzbetrag zugeordnet. Scree-Plots (Abbildung 5 unten) werden in Faktorenanalysesoftware häufig ausgegeben und sind Liniendiagramme von Eigenwerten. Sie stellen den Betrag der Varianz dar, der durch jeden Faktor erklärt wird, und der Cut-Off ist die Anzahl der Faktoren direkt vor der Biegung im Scree-Plot, z. B. etwa 2 oder 3 Faktoren in Abbildung 5. Eigenwerte und Scree-Plots können Ihnen bei der Bestimmung helfen viele Faktoren passen am besten zu Ihren Daten.

Faktorladungen sind eine Matrix der Beziehung zwischen beobachteten Variablen und den von Ihnen angegebenen Faktoren. In geometrischer Hinsicht sind Ladungen die numerischen Koeffizienten, die den Richtungspfaden entsprechen, die gemeinsame Faktoren mit beobachteten Variablen verbinden. Sie bilden die Grundlage für die Interpretation der latenten Variablen. Höhere Ladungen bedeuten, dass die beobachtete Variable stärker mit dem Faktor zusammenhängt. Als Faustregel gilt, Ladungen über 0,3 zu berücksichtigen.

Drehungen

Faktor werden gedreht (wörtlich im geometrischen Raum), um die Interpretation zu erleichtern. Es gibt zwei Arten der Rotation: orthogonal (senkrecht), bei der Faktoren nicht miteinander korreliert werden dürfen, und schräg, bei der Faktoren frei im Faktorraum liegen und miteinander korreliert werden können. Beispiele für orthogonale Rotation umfassen Varimax, Quartimax und Equamax. Beispiele für eine schräge Drehung sind Oblimin, Promax und Geomin. Informationen zur Auswahl einer Rotationsmethode finden Sie unten in den Ressourcen.

Nach der Rotation werden die Faktoren neu angeordnet, um optimal Cluster gemeinsamer Varianz zu durchlaufen, damit die Faktoren leichter interpretiert werden können. Dies ist vergleichbar mit der Auswahl einer Referenzgruppe in der Regression. Abbildung 6 veranschaulicht eine Faktorrotation unter Verwendung von Varimax, dient jedoch nur konzeptionellen Zwecken. Rotationen finden unter der Haube Ihrer Software statt.


Abbildung 6. Beispiel für eine orthogonale Varimax-Rotation. Beobachtete Variablen bezogen sich auf Weineigenschaften. Von Abdi, Hervé. http://www.utdallas.edu/~herve/Abdi-rotations-pretty.pdf

EFA mit dichotomen Items

Eine Pearson-Korrelationsmatrix ist für kategoriale oder dichotome Elemente nicht geeignet. Um EFA für solche Daten durchzuführen, müssen Sie daher eine geeignete Korrelationsmatrix erstellen, die als tetrachorisch (für dichotome Elemente) oder polychorisch (für andere kategoriale Elemente) bezeichnet wird. Eine tetrachorische Korrelationsmatrix ist die abgeleitete Pearson-Korrelation aus einer 2×2-Tabelle unter der Annahme einer bivariaten Normalität. Polychoric verallgemeinert dies auf eine n x m-Tabelle.

Die in Abbildung 7 illustrierte Idee ist, dass dichotome Items
zugrundeliegende kontinuierliche Konstrukte. Beim Erstellen einer tetrachorischen Korrelationsmatrix schätzen Sie im Grunde ein Modell basierend auf Proportionen, die in jeden Bereich der unteren rechten Ecke von Abbildung 7 fallen. Der Computer probiert zahlreiche Schwellenwerte und Kombinationen aus.


Abbildung 7. Darstellung der beobachteten dichotomen Variablen (deprimiert ja/nein) und eines kontinuierlichen latenten Konstrukts. Die untere Ecke zeigt, wie letzteres durch ersteres modelliert wird.

Seit Frühjahr 2013 ist MPlus der Goldstandard für die Durchführung von EFA bei dichotomen Items, kann aber auch in R implementiert werden. Siehe Ressourcen unten, insbesondere die Dokumentation zum Psych-Paket.

Lesungen

Lehrbücher & Kapitel

Methodische Artikel

Methodik (Theorie und Hintergrund)

Methodisch (angewandt)

Anwendungsartikel

Software

install.packages(psych)
Bibliothek (Psych)

?Fa

#schnelle Demo der explorativen Faktorenanalyse

Daten (Harman)

head(Harman.Holzinger) # 9×9 Korrelationsmatrix der kognitiven Leistungstests, N=696

cor.plot(Harman.Holzinger)

pa<- fa(Harman.Holzinger, 4, fm=pa, rotate=varimax, SMC=FALSE)
print(pa, sort=TRUE)

#druckt Ergebnisse, sort=TRUE zeigt Ladungen nach Absolutwert an. u^2 ist Einzigartigkeit und h^2 ist #Zuverlässigkeit. Siehe Werte in ?fa zum Aufrufen bestimmter Ergebnisse

scree(Harman.Holzinger,factors=TRUE,pc=TRUE,main=Scree plot,hline=NULL,add=FALSE)

#erzeugt ein Scree-Plot — ein Liniendiagramm von Eigenwerten. Sie stellen den Betrag der Varianz dar, #erklärt durch jeden Faktor, und der Cut-Off ist die Anzahl der Faktoren direkt vor der Krümmung #im Scree-Plot, z. B. etwa 2 oder 3 Faktoren in Abbildung 5. Eigenwerte und Scree-Plots können Sie #leiten # bei der Bestimmung, wie viele Faktoren am besten zu Ihren Daten passen.
fa.diagram(pa, sort=TRUE, cut=.3, simple=TRUE, error=FALSE, digits=1, e.size=.05, rsize=0.15)

#ein vertraut aussehendes Diagramm der Beziehung zwischen Faktoren und beobachteten Variablen
#Code für dichotome Elemente

deine Daten<-read.csv(, header=TRUE, stringsAsFactors=FALSE)
dein.fa<-fa.poly(your.data, nfactors=3, n.obs = 184, n.iter=1, rotate=geominQ, scores=tenBerge, SMC=TRUE, symmetric=TRUE, warnings=TRUE, fm=wls,
alpha=.1, p =.05, oblique.scores=TRUE)

#der Hauptunterschied hier ist die Rotation (Sie müssen eine schräge Methode auswählen — geominQ ist #am nächsten von MPlus), die Faktorisierungsmethode (gewichtete kleinste Quadrate oder wls ist #MPlus am nächsten, aber nicht genau) und Scores = score tenBerge.

#wenn Sie die tetrachorische Korrelationsmatrix selbst erstellen möchten, verwenden Sie das polychor-Paket

install.pakete (polycor)
Bibliothek (Polycor)

?hetcor?

Kurse

Interessante Artikel

Tipp Der Redaktion

Eine Studie von George Bonanno von TC findet eine genetische Grundlage für Resilienz
Eine Studie von George Bonanno von TC findet eine genetische Grundlage für Resilienz
Neue Forschungen von George Bonanno bestätigen die genetische Grundlage für die psychischen Reaktionen von Menschen auf potenziell traumatisierende Ereignisse.
Vorteile der Nanotechnologie und ihre Anwendung in Medizin, Industrie, Elektronik
Vorteile der Nanotechnologie und ihre Anwendung in Medizin, Industrie, Elektronik
Nanotechnologie. Ein breites Anwendungsgebiet sieht in der Automobilindustrie, Elektronikgütern, der Medizin, der Verbesserung des menschlichen Sehvermögens und der Reduzierung körperlicher Anstrengungen vor.
Klinik für Rehabilitation und Regenerative Medizin
Klinik für Rehabilitation und Regenerative Medizin
Was sind Kreuzschmerzen? Kreuzschmerzen können von leichten, dumpfen, lästigen Schmerzen bis hin zu anhaltenden, starken, behindernden Schmerzen im unteren Rückenbereich reichen. Schmerzen im unteren Rückenbereich können die Beweglichkeit einschränken und die normale Funktion beeinträchtigen. Schmerzen im unteren Rücken sind eines der bedeutendsten Gesundheitsprobleme, mit denen die Gesellschaft heute konfrontiert ist. Betrachten Sie diese Statistiken der National Institutes of Health: Acht von zehn Menschen haben irgendwann in ihrem Leben Rückenschmerzen. Rückenschmerzen sind eine häufige Ursache für Aktivitätseinschränkungen bei Kindern und Erwachsenen jeden Alters.
John Bennet
John Bennet
John Bennet ist leitender Redakteur beim New Yorker.
Klinik für Rehabilitation und Regenerative Medizin
Klinik für Rehabilitation und Regenerative Medizin
Was ist eine Repetitive Motion Injury (Repetitive Stress Injury)?
SBI Xpress Kreditdokumente, Berechtigung, Zinssatz, EMI, Online beantragen
SBI Xpress Kreditdokumente, Berechtigung, Zinssatz, EMI, Online beantragen
SBI Xpress-Kreditdarlehensdokumente, Berechtigung, Zinssatz, EMI, Online-Antrag, Online-Antragsformular, Zeit, Darlehensbetrag
e-Mentor-Programm
e-Mentor-Programm
Willkommen beim e-Mentor-Programm, das vom Career Design Lab und Alumni Relations der Columbia University School of Professional Studies gesponsert wird…