Beispiel Strukturgleichungsmodelle: Latente Wachstumsmodelle als Mehr-Ebenen-Modelle

Seit der Jahrtausendwende haben neben den in diesem Buch behandelten Strukturgleichungsmodellen auch Mehr-Ebenen-Modelle immer mehr an Bedeutung für die politikwissenschaftliche Forschung gewonnen. Beide Verfahren sind enger verwandt, als es zunächst den Anschein hat. Auch Wachstumsmodelle können als Mehr-Ebenen-Modelle mit einer ungewöhnlichen Struktur verstanden werden: Personen bilden hier die obere, die einzelnen Messungen die untere Ebene.

Gegenüber den vorangegangen Beispielen ergibt sich daraus ein entscheidender Vorteil: Da die Zeit als individuelle Variable verstanden werden kann und nicht durch die Befragungswelle definiert werden muß, ist es nicht notwendig, daß alle Befragten am selben Tag befragt werden. Zudem ist es nicht erforderlich, auf eine balancierte Panelstruktur zurückzugreifen, d.h. Ausfälle in einzelnen Wellen sind unproblematisch.

Bei Bedarf kann die traditionelle Panelstruktur sogar ganz aufgegeben werden: In einem rollierenden Design können beispielsweise verschiedene Personen unterschiedlich häufig und zu verschiedenen Zeitpunkten befragt werden. Auch der Startpunkt des Wachstumsprozesses t=0 kann für jede Person individuell festgelegt werden, beispielsweise auf das Erreichen der Wahlberechtigung oder den Eintritt in eine politische Partei. Ein Nachteil der Mehr-Ebenen-Modellierung von Wachstumsprozessen besteht allerdings darin, dass diese univariat erfolgt. Die simultane Schätzung von Meß- und strukturellen Modellen lässt sich somit nicht realisieren.

Latente Wachstumsmodelle als Mehr-Ebenen-Modelle in Stata

Um den Wachstumsprozeß als Mehr-Ebenen-Modell zu schätzen, muß der Datensatz zunächst umstrukturiert werden. Paneldaten können in zwei unterschiedlichen Varianten gespeichert werden. Im “breiten” (wide) Format entspricht jede Zeile der Datenmatrix genau einem Fall. Die Beobachtungen aus den einzelnen Panelwellen werden jeweils in eigenen Variablen gespeichert, so daß der Datensatz mit jeder neuen Welle breiter wird. In der “langen”, für die Mehr-Ebenen-Modellierung geeigneten Form hingegen entspricht jede Zeile in der Datenmatrix einer Beobachtung. Mit jeder neuen Panelwelle wird der Datensatz länger. Deshalb wird zwingend eine Variable benötigt, die die Person identifiziert. Nur so lässt sich erkennen, welche Beobachtungen zusammengehören. Wenn eine Person an einer Panelwelle nicht teilnimmt, generiert dies in der breiten Form fehlende Werte bei den entsprechenden Variablen. In der langen Form fehlt einfach eine Zeile. In den ersten drei Zeilen des Programmcodes wird der Datensatz geladen, die Variablen int1 bis int5 erhalten längere Namen, um Verwechslungen mit dem Schlüsselwort int auszuschließen, und der Datensatz wird in die lange Form gebracht. Erst in der letzten Zeile wird mit dem Befehl mixed das eigentlich Modell spezifiziert. Der Teil vor dem ||-Zeichen entspricht einer normalen Regression des Interesses auf die Zeit. Der Ausdruck id: legt die Person als zweite Ebene fest und schätzt einen Achsenabschnitt, der auf dieser zweiten Ebene zufällig variiert. Die Variable tn wird auf dieser zweiten Ebene nochmals aufgeführt. Dies signalisiert, daß der Achsenabschnitt frei über die Personen variieren soll. Die Option cov(unstructured) schließlich legt fest, daß keine Annahmen über die Varianz-Kovarianzmatrix der beiden zufälligen Effekte getroffen werden sollen, sondern diese Parameter frei geschätzt werden. Ohne diese Option würde die Kovarianz zwischen beiden Effekten auf den Wert 0 fixiert.

use interesse-panel , clear
rename int* interesse*
reshape long tn interesse , i(id) j(wave)
mixed interesse tn || id:  tn , cov(unstructured)

Latente Wachstumsmodelle als Mehr-Ebenen-Modelle in Lisrel

Seit Version 9 können auch mit Lisrel Mehr-Ebenen-Modelle geschätzt werden. Diese können entweder interaktiv durch ein Menüsystem oder durch ein Skript definiert werden. Letzteres verwendet allerdings nicht die Simplis-Syntax, sondern wird vielmehr von Prelis verarbeitet. In Zeile 2 des Skriptes werden die Daten im Lisrel-internen Format eingelesen. Zeile 3 legt fest, daß die zweite Ebene durch die Personenkennung definiert wird. Zeile 4 benennt die abhängige Variable (deren Name auf acht Zeichen gekürzt wurde), während Zeile 5 und 6 das Modell auf der unteren Ebene beschreiben: Hier hängt das Interesse von einer allgemeinen Konstante intcept, der Zeit sowie der Residualvarianz ab. Zeile 7 enthält die zufälligen Variationen des Achsenabschnitts und der Steigung auf der oberen Ebene.

TITLE=ML-Wachstum;
SY='interesse-panel-long.LSF';
ID2=id;
RESPONSE=interess;
FIXED=intcept tn;
RANDOM1=intcept;
RANDOM2=intcept tn;

Latente Wachstumsmodelle als Mehr-Ebenen-Modelle in MPlus

Die Autoren von MPlus bevorzugen es, Wachstumsmodelle als Strukturgleichungsmodelle zu schätzen. Auf Wunsch lassen sich aber auch in MPlus die Ergebnisse für die Mehr-Ebenen-Variante reproduzieren. In Zeile 1 bis 8 werden die aus Stata exportierten Daten eingelesen und die Variablen definiert. Interessant sind hier nur Zeile 7 und Zeile 8, die festlegen, dass die Zeit auf der unteren Ebene des Modells gemessen wird und dass die Gruppen bzw. “cluster” durch die Personenkennung in der Variablen id identifiziert werden. Zeile 10 legt fest, dass das Modell zwei Ebenen und random effects haben soll.

Die eigentliche Modellstruktur wird dann in den Zeilen 12 bis 15 definiert. Dabei sind zwei Blöcke zu unterscheiden: Die Anweisungen unterhalb von %WITHIN% (Zeilen 12 und 13) beziehen sich auf die untere Ebene der Beobachtungen, während im %BETWEEN%-Block die Unterschiede zwischen den Gruppen (Personen) modelliert werden. Den Kern des Modells bildet Zeile 13, in der die lineare Beziehung zwischen politischem Interesse und der Zeit festgelegt wird. Die Anweisung =s | = in Kombination mit =ON bedeutet, daß der Effekt der Zeit zufällig über die Befragten hinweg variieren kann und daß der Achsenabschnitt ebenfalls zufällig variiert. Innerhalb des Ansatzes, auf dem Mplus basiert, ist s dabei als eine latente Variable zu verstehen, die den Effekt der Zeit beeinflußt und deren Name frei gewählt werden kann. In Zeile 15 wird darüber hinaus festgelegt, dass die Kovarianz zwischen der zufälligen Variation von Achsenabschnitt und Steigung frei geschätzt werden soll. Dies entspricht der Option cov(Unstructured) in Stata.

Data:
  File is latent-growth-ml.dat ;
Variable:
  Names are 
     id interesse tn;
  Missing are all (-9999) ; 
  WITHIN = tn ;
  CLUSTER = id ;
Analysis: 
  Type = TWOLEVEL RANDOM ;
Model:
  %WITHIN%      
  s | interesse ON tn ;
  %BETWEEN%
  interesse WITH s ;