Beispiel Strukturgleichungsmodelle: Gruppenvergleich und äquivalente Messung

 

Prinzipien MGCFA (Mehr-Gruppen Konfirmatorische Faktorenanalyse)

Bei der Schätzung von Strukturgleichungsmodellen stellt sich häufig die Frage, ob sich Stärke und Richtung der gefundenen Zusammenhänge in verschiedenen Gruppen (z.B. Männer und Frauen) voneinander unterscheiden oder invariant sind. Von besonderem Interesse ist diese Frage dann, wenn es sich bei diesen Gruppen um kulturelle Kontexte handelt. In der Literatur wird häufig zwischen drei Typen der Invarianz unterschieden:

  • Configural Invariance:  Diese erfordert lediglich, dass die Grundstruktur des Modells in allen Grupen die gleiche ist. Konkret wird gefordert, dass alle Items in allen Kontexten auf dieselben Faktoren laden, dass diese Ladungen das korrekte Vorzeichen haben, statistisch signifikant und inhaltlich relevant sind, und dass die Korrelationen/Kovarianzen zwischen den Faktoren kleiner 1 sind, so dass diese voneinander unterscheidbar bleiben.
  • Metric Invariance: Für das Vorliegen von metrischer Invarianz müssen darüber hinaus auch die Faktorladungen identisch sein. Dennoch können sich die Mittelwerte eines Items zwischen den Gruppen unterscheiden, da die Achsenabschnitte nicht identisch sein müssen.
  • Scalar Invariance: Skalare Invarianz hingegen erfordert zusätzlich genau dies. Wenn sowohl die Faktorladungen als auch die Achsenabschnitte identisch sind, bedeutet dies, dass die absoluten Werte der Indikatoren miteinander vergleichbar sind. Noch interessanter ist der Umkehrschluss, der sich daraus ergibt: Trifft die Annahme der skalaren Invarianz zu, dann können die aus den beobachteten Indikatoren errechneten Werte der Faktoren über kulturelle Kontexte miteinander verglichen werden. Auf diese Weise ist es dann beispielsweise möglich zu ermitteln, in welchem Land die Befragten im Mittel nationalistischer eingestellt sind. Dies lässt immer noch die Möglichkeit zu, dass sich (je nach gewählter Parametrisierung) die Fehlervarianzen der Items bzw. die Varianzen der Faktoren voneinander unterscheiden.

Die Überprüfung verschiedener Varianten von Invarianz wird als Mehr-Gruppen Konfirmatorische Faktorenanalyse bzw. als Multi-Group CFA (MGCFA) bezeichnet. Im Buch wird die typische Vorgehensweise am Beispiel des zweidimensionalen Modells der Einstellungen gegenüber Migranten illustriert. Hierbei wird nur zwischen zwei Gruppen – Ost- und Westdeutschen – unterschieden. Die gleichen Methoden lassen sich aber auch auf eine größere Zahl von Gruppen anwenden.

MGCFA in Stata

Im folgenden Stata-Code wird das das zweidimensionale Modell jeweils für zwei Gruppen geschätzt, und zwar zunächst unter Annahme konfiguraler Invarianz, dann unter Annahme metrischer Invarianz und zuletzt unter Annahme skalarer Invarianz. Die Ergebnisse werden jeweils unter einem entsprechenden Namen gespeichert.

Um Platz zu sparen, ist die Spezifikation gegenüber dem vorangegangenen Beispiel etwas verkürzt worden (für jeden Faktor stehen die beiden Indikatorenvariablen gemeinsam in der Klammer). Ansonsten kommt zunächst die Option group hinzu, durch die die einzelnen Analysegruppen definiert werden (ost ist eine Regionalvariable). Die mit den Invarianztypen verbundenen Restriktionen können in Stata sehr knapp formuliert werden, da hierfür die Option ginvariant existiert.

use ess-w1-mgcfa , replace

sem (OEK -> imtcjob imbleco) (CULT -> imueclt imwbcnt) , group(ost)  ginvariant(none)  means([email protected] [email protected])
est store configural

sem (OEK -> imtcjob imbleco) (CULT -> imueclt imwbcnt) , group(ost)  ginvariant(mcoef) means([email protected] [email protected])
est store metric

sem (OEK -> imtcjob imbleco) (CULT -> imueclt imwbcnt) , group(ost)  ginvariant(mcoef mcons)
est store scalar


lrtest configural metric ,stat

lrtest metric scalar,stat

est restore scalar
estat ginvariant
est stat *
estat gof ,stats(all)

Im Anschluß können die drei Modellschätzungen miteinander verglichen werden. Dies kann einerseits durch Likelihood-Ratio-Tests geschehen (lrtest). Andererseits kann Stata auch automatisierte Wald- und Lagrange-Multiplier-Tests durchführen (estat ginvariant), nachdem das restriktivste Modell wieder in den Speicher zurückgerufen wurde. Zuletzt schließlich ist es auch möglich, für alle drei Varianten die Informationsmaße miteinander zu vergleichen (vorletzte Zeile) und die Anpassungsmaße für das Modell der skalaren Invarianz anzeigen zu lassen (letzte Zeile).

Alle Verfahren zeigen übereinstimmend, daß das Modell der skalaren Invarianz den Daten angemessen ist. Damit lassen sich Mittelwertunterschiede zwischen Ost- und Westdeutschen vergleichen. Insgesamt stehen die Ostdeutschen Migranten signifikant negativer gegenüber als die Westdeutschen. Der Unterschied beträgt bei den ökonomischen Bedrohungsgefühlen 0.7 und bei den kulturellen Bedrohungsgefühlen 0.4 Punkte. Dies entspricht in etwa einer halben \bzw{} einer viertel Standardabweichung.

MGCFA in LISREL/SIMPLIS

Auch in LISREL bzw. SIMPLIS ist es leicht möglich, eine MGCFA zu realisieren. Die Modelle müssen allerdings separat geschätzt und miteinander verglichen werden, da LISREL nicht über die postestimation-Fähigkeiten von Stata verfügt. Außerdem muß für jede Gruppe ein eigener Datensatz erstellt werden:

Vom Ausgangsbeispiel unterscheidet sich die Schätzung unter Annahme konfiguraler Invarianz (vollständiges Skript hier) vor allem dadurch, daß nun zwei Gruppen von Befragten definiert werden. Die Syntax, mit deren Hilfe festgelegt wird, welche Parameter über die Gruppen hinweg variieren können, ist weniger kompakt, dafür aber klarer als in Stata: Grundsätzlich muss jede Gleichung, deren Parameterschätzungen von denen der ersten Gruppe abweichen können, in der betreffenden Gruppe noch einmal wiederholt werden. Dies gilt auch für die impliziten Definitionen von Fehlervarianzen sowie Varianzen und Kovarianzen der latenten Variablen.

Group West
Raw Data From File ess-w1-mgcfa-west.lsf
Latent Variables: OEK CULT
Relationships
imtcjob = CONSTANT + 1*OEK
imbleco = CONSTANT + OEK
imueclt = CONSTANT + 1*CULT
imwbcnt = CONSTANT + CULT

Group Ost
Raw Data From File ess-w1-mgcfa-ost.lsf
Relationships
imtcjob = CONSTANT + 1*OEK
imbleco = CONSTANT + OEK
imueclt = CONSTANT + 1*CULT
imwbcnt = CONSTANT + CULT

Set the Error Variances of imtcjob-imwbcnt free
Set the Variances of OEK-CULT free
Set the Covariance between OEK and CULT free

End of Problem

Aus dieser Logik ergibt sich, wie die Annahme der metrischen Invarianz formuliert wird (Skript hier): Aus den Gleichungen im zweiten Teil müssen die Pfadkoeffizienten entfernt werden. Dies ist insofern verwirrend, als es sich nun optisch nicht mehr um Gleichungen handelt bzw. für den Wert der Indikatoren in Ostdeutschland scheinbar eine Konstante geschätzt wird. Tatsächlich bedeutet das Weglassen der Pfadkoeffizienten in der Syntax jedoch, dass für beide Gruppen ein gemeinsames Set von Parametern geschätzt werden soll.

Group West
Raw Data From File ess-w1-mgcfa-west.lsf
Latent Variables: OEK CULT
Relationships
imtcjob = CONSTANT + 1*OEK
imbleco = CONSTANT + OEK
imueclt = CONSTANT + 1*CULT
imwbcnt = CONSTANT + CULT

Group Ost
Raw Data From File ess-w1-mgcfa-ost.lsf
Relationships
imtcjob = CONSTANT 
imbleco = CONSTANT 
imueclt = CONSTANT 
imwbcnt = CONSTANT 

Set the Error Variances of imtcjob-imwbcnt free
Set the Variances of OEK-CULT free
Set the Covariance between OEK and CULT free

End of Problem

Um das Modell unter Annahme skalarer Invarianz schätzen zu können, sind weitere Veränderungen notwendig (Skript hier). Zum einen entfallen die Indikatorengleichungen in der zweiten Gruppe. Zum anderen müssen die Mittelwertdifferenzen zwischen den Faktorwerten in den beiden Gruppen modelliert werden. Zu diesem Zweck werden in der ersten Gruppe (Westdeutsche) Faktormittelwerte definiert, aber auf 0 gesetzt (Zeile 9 und 10). Bei den Ostdeutschen hingegen werden die Mittelwerte der Faktoren (parametrisiert als Abweichungen von Westdeutschland) frei geschätzt.

Group West
Raw Data From File ess-w1-mgcfa-west.lsf
Latent Variables: OEK CULT
Relationships
imtcjob = CONSTANT + 1*OEK
imbleco = CONSTANT + OEK
imueclt = CONSTANT + 1*CULT
imwbcnt = CONSTANT + CULT
OEK = 0*CONSTANT
CULT = 0*CONSTANT

Group Ost
Raw Data From File ess-w1-mgcfa-ost.lsf
OEK = CONSTANT
CULT= CONSTANT 

Set the Error Variances of imtcjob-imwbcnt free
Set the Variances of OEK-CULT free
Set the Covariance between OEK and CULT free


End of Problem

MGCFA in MPlus

In MPLus ist es wie in Stata nicht notwendig, getrennte Datensätze für die Gruppen anzulegen. Statt dessen definiert Grouping die Variable, die die Gruppenmitgliedschaft beschreibt. Zunächst wird das gemeinsame Modell definiert. Ohne weiteres Zutun würde MPlus ein Modell unter Annahme skalarer Invarianz schätzen; dies wird durch die folgenden Anweisungen geändert. Model ost: legt zunächst fest, daß sich die nächsten vier Zeilen auf die Gruppe der Osdetuschen beziehen. Die beiden nächsten Zeilen stellen noch einmal den Bezug zwischen den Indikatoren imbleco und imwbcnt und den Faktoren CULT und OEK her, damit die entsprechenden Parameter separat für beide Gruppen geschätzt werden. Die beiden Leitvariablen dürfen hingegen nicht noch einmal aufgeführt werden, da hier die Faktorladungen in beiden Gruppen auf den Wert von 1 festgelegt sind.

Die beiden letzten Zeilen erscheinen zunächst etwas kryptisch. In der MPlus-Syntax bezeichnen eckige Klammern den Achsenabschnitt einer Variablen. Dementsprechend werden hier für alle beobachteten Variablen – das Minuszeichen ermöglicht es wie in Stata und Simplis kompakt auf alle vier Variablen zu verweisen – die Schätzung eigener Achsenabschnitte für die zweite Gruppe angefordert. Analog dazu setzt die letzte Zeile die Mittelwerte der Faktoren auf den Wert 0. Der Mittelwert ist hier als “Achsenabschnitt” der Faktoren zu verstehen, deshalb werden wiederum eckige Klammern verwendet (Skript hier).

Data:
  File is ess-w1-mgcfa-raw.dat ;
Variable:
  Names are 
     imtcjob imbleco imueclt imwbcnt ost;
  Grouping is ost (0 = west 1 = ost)   ;
Model: 
       OEK  BY imtcjob imbleco ;
       CULT BY imueclt imwbcnt ;

Model ost:
       OEK  BY  imbleco ;
       CULT BY  imwbcnt ;
       [imtcjob-imwbcnt] ;
       [[email protected]] ;

Die Schätzung unter Annahme metrischer Invarianz läßt sich realisieren, indem zwei Zeilen aus dem Skript entfernt werden, die die Schätzung der entsprechenden Pfadkoeffizienten freigegeben hatten.

Data:
  File is ess-w1-mgcfa-raw.dat ;
Variable:
  Names are 
     imtcjob imbleco imueclt imwbcnt ost;
  Grouping is ost (0 = west 1 = ost)   ;
Model: 
       OEK  BY imtcjob imbleco ;
       CULT BY imueclt imwbcnt ;

Model ost:
       [imtcjob-imwbcnt] ;
       [[email protected]] ;

Skalare Invarianz schließlich ist die Voreinstellung. Das Skript enthält deshalb keine separaten Anweisungen mehr für Ostdeutschland.

Data:
  File is ess-w1-mgcfa-raw.dat ;
Variable:
  Names are 
     imtcjob imbleco imueclt imwbcnt ost;
  Grouping is ost (0 = west 1 = ost)   ;
Model: 
       OEK  BY imtcjob imbleco ;
       CULT BY imueclt imwbcnt ;

Daten: hier