Ranking- und Rating-Verfahren zur Messung von Wertorientierungen, untersucht am Beispiel des Inglehart-Index. Empirische Befunde eines Methodenexperiments

1. Einleitung und Problemstellung

Welches Abfrageformat für die Erhebung von Wertorientierungen angemessen ist, wird in der empirischen Sozialforschung seit jeher kontrovers diskutiert (vgl. u.a. Hicks 1970; Rokeach 1973; Munson/McIntyre 1979; Rankin/Grube 1980; Reynolds/Jolly 1980; van Deth 1983; Alwin/Krosnick 1985; Krosnick/Alwin 1988; Maag 1991; Bean/Papadikis 1994a,b; Bürklin/Klein/Ruß 1994, 1996; Hellevik 1994; Inglehart 1994; Russel/Gray 1994; Klein 1995; Inglehart/Klingemann 1996). Im Mittelpunkt steht dabei die Frage, ob die Indikatoren zur Erfassung der verschiedenen Werte von den Befragten einzeln in ihrer Wichtigkeit beurteilt werden sollen (Rating-Verfahren) oder ob es sinnvoller ist, die Wertindikatoren nach Maßgabe ihrer Wünschbarkeit rangordnen zu lassen (Ranking-Verfahren). In der Praxis der Umfrageforschung hat sich im wesentlichen das Ranking-Verfahren durchgesetzt. Dieses liegt auch dem wichtigsten Instrument zur Erfassung von Wertorientierungen zugrunde, dem sog. Inglehart-Index.

Im vorliegenden Beitrag werden wir die Ergebnisse eines Methodenexperiments berichten, in dessen Rahmen der Inglehart-Index sowohl über das Ranking- als auch über das Rating-Verfahren erhoben wurde. Für die 12-Item-Version des Inglehart-Index ist dies zwar bereits von anderen Autoren geleistet worden (van Deth 1983; Bean/Papadikis 1994), wir haben dieses Experiment im Rahmen einer zweiwelligen Panelbefragung nun aber auch für die in der Forschungspraxis sehr viel bedeutsamere 4-Item-Version wiederholt. In der zweiten Panelwelle haben wir darüber hinaus im Rahmen eines Split-half-Experiments die Antwortvorgaben rotiert, um empirisch prüfen zu können, ob sich die dem Ranking-Verfahren zugeschriebene Eigenschaft, reflektiertere Urteile der Befragungspersonen zu erzwingen, auch empirisch nachweisen läßt. Zunächst aber wollen wir kurz diskutieren, welche methodischen Vor- und Nachteile den beiden Erhebungsverfahren in der Literatur zugeschrieben werden und welche theoretischen Vorentscheidungen über die Struktur und die Funktion gesellschaftlicher Wertorientierungen ihnen jeweils zugrunde liegen.

2. Ranking- und Rating-Verfahren zur Messung von Wertorientierungen

2.1 Das Ranking-Verfahren

Der wichtigste methodische Vorteil des Ranking-Verfahrens wird darin gesehen, daß es sich nicht leicht “abarbeiten” läßt. “Using rankings instead of ratings prevents the respondents from taking the easy way of scoring everything as important” (van Deth 1983: 410). Aufgrund des “Forced-choice”-Formates müßten sich die Befragten vielmehr Gedanken über die relativen Wichtigkeiten der verschiedenen Werte machen. Das Ranking-Verfahren verlange von den Befragten also ein Mindestmaß an kognitivem Aufwand, der sich in reflektierteren Urteilen der Befragungspersonen niederschlage und somit zu einer besseren Datenqualität führe (Krosnick/Alwin 1988: 534; Alwin/Krosnick 1985: 537). Diese zeige sich u.a. in der für Ranking-Techniken geringfügig höheren Test-Retest-Stabilität (Munson/McIntyre 1979; Rankin/Grube 1980).

Als methodischer Nachteil des Ranking-Verfahrens wird angeführt, daß es den Befragten eine relativ komplizierte Aufgabe abverlangt, die unter Umständen eine Überforderung bedeute (Krosnick/Alwin 1988: 527). Ranking-Prozeduren sind darüber hinaus in der Erhebung zeitaufwendig und insofern umfragetechnisch eine relativ “teure” Lösung (Alwin/Krosnick 1985: 536). Als weiterer Nachteil ist anzusehen, daß Ranking-Verfahren im Rahmen von Telefoninterviews nur schwer umzusetzen sind, da die Rangordnungsaufgabe oftmals nur mit Hilfe visueller Unterstützung durch ein Kartenspiel möglich ist (Alwin/Krosnick 1985: 536).

Ein sehr viel grundlegenderer Einwand gegen das Ranking-Verfahren besteht darin, daß die Rangordnung von Items nur für das einzelne Individuum Bedeutung besitzt, nicht aber für den interindividuellen Vergleich (Hicks 1970; van Deth 1983: 411). Außerdem ist die Analyse von Ranking-Daten mit statistischen Problemen behaftet: Da die Summe der vergebenen Rangpositionen für jeden Befragten eine Konstante ergibt, handelt es sich beim Ranking um eine sog. ipsative Messung, d.h. die Meßwerte für die einzelnen Wertitems sind nicht unabhängig voneinander. Ist erst einmal ein Item auf den ersten Rangplatz gesetzt, können die anderen Items nur noch auf den verbleibenden niedrigeren Rangplätzen eingestuft werden, da Rangplatzbindungen (ties) nicht möglich sind. Dies bedeutet, daß zwischen den Rangpositionen der Items notwendigerweise negative Korrelationen auftreten müssen (Hicks 1970; Alwin/Krosnick 1985: 536; Krosnick/Alwin 1988: 528; Munson/McIntyre 1979: 49; van Deth 1983: 408; Rankin/Grube 1980: 234, 244). Diese Eigenschaft der Ranking-Skalen führt dazu, daß statistische Verfahren, die auf der Analyse von Kovarianzstrukturen basieren, nicht angewendet werden können. “In fact, hardly any statistical technique can be applied legitimately in these cases” (van Deth 1983: 411). Die Ipsativität der Messung führt außerdem zu Problemen bei der Bestimmung der Dimensionalität des Werteraumes, da sie die Differenzierung der Items entlang einer einzigen bipolaren Dimension forciert (Flanagan 1987).

Die theoretische Rechtfertigung des Ranking-Verfahrens wird darin gesehen, daß es den Bedingungen der Willensbildung im Bereich der Politik entspricht, weil das Wesen der Politik gerade darin bestehe, Entscheidungen zwischen wünschenswerten Alternativen treffen zu müssen (Inglehart/Klingemann 1996). In der Politik könne man eben nicht alles auf einmal haben. Oder, wie Inglehart es formuliert: “Politics is above all about choices” (Inglehart 1994: 290). Das Ranking-Verfahren zwinge die Befragten dementsprechend angemessenerweise zur Setzung von Prioritäten (vgl. auch Bauer-Kaase/Kaase 1998: 262). Dies entspreche der Definition gesellschaftlicher Wertorientierungen als internalisierte Konzeptionen des sozial Wünschenswerten, die für das Individuum in Entscheidungssituationen die Funktion von Selektionsstandards erfüllen. Die Messung von Wertorientierungen – so Inglehart (1982: 449) – sei daher auch nur in Konfliktsituationen möglich und sinnvoll, die durch das Ranking-Verfahren adäquat nachgebildet würden. Inglehart spricht vor diesem Hintergrund in seinen Arbeiten auch nicht von Wertorientierungen, sondern von Wertprioritäten.

2.2 Das Rating-Verfahren

Ein wichtiger methodischer Vorteil des Rating-Verfahrens besteht darin, daß es umfragetechnisch leichter zu administrieren und für die Befragten weniger anstrengend ist als das Ranking-Verfahren (Munson/McIntyre 1979: 49). Darüber hinaus ist es ökonomischer in der Durchführung: Empirische Untersuchungen haben gezeigt, daß eine Datenerhebung über Rating-Skalen in der Regel nur ein Drittel der Zeit in Anspruch nimmt, die für ein komplettes Ranking der Wertitems benötigt wird (Munson/McIntyre 1979: 49). Zudem sind Rating-Skalen in Telefoninterviews leichter zu erheben (Alwin/Krosnick 1985: 537).

Ein weiterer Vorteil ist in der Tatsache zu sehen, daß die Datenerhebung über Rating-Skalen einen höheren Informationsgehalt hat als eine Datenerhebung über Ranking (Russell/Gray 1994: 80). Während Rangplätze nur relativ zueinander interpretiert werden können, ermöglicht das Rating-Verfahren auch Aussagen über die absolute Wichtigkeit, die die Befragten den verschiedenen Werten zumessen (Russell/Gray 1980: 80). Rating-Skalen ermöglichen somit auch den interindividuellen Vergleich.

Der wichtigste methodische Nachteil des Rating-Verfahrens wird in seiner Anfälligkeit für Response-Sets, d.h. inhaltsunabhängiges Antwortverhalten gesehen. In diesem Zusammenhang ist zunächst die sog. Zustimmungstendenz der Befragten zu nennen (Hellevik 1994: 293). Diese verursacht ein sog. “end piling”, d.h. eine Ballung der vergebenen Skalenwerte am oberen Ende der Bewertungsskala (Munson/McIntyre 1979: 49). Über die verschiedenen Items hinweg läßt sich dann nur eine geringe Varianz der Wichtigkeitszuschreibungen beobachten (Bean/Papadikis 1994: 274; van Deth 1983: 410). Da das Ausmaß der Zustimmungstendenz von Person zu Person variiert, sind die verschiedenen Items in aller Regel untereinander positiv korreliert (Alwin/Krosnick 1985: 537; Krosnick/Alwin 1988: 528). Aufgrund der Tatsache, daß Response-Sets am wahrscheinlichsten bei Niedriggebildeten auftreten, werden außerdem u.U. substantielle positive Zusammenhänge der formalen Bildung mit bestimmten Wertorientierungen verdeckt (Krosnick/Alwin 1988: 530).

Die eben beschriebene Zustimmungstendenz kann im Extremfall so weit gehen, daß die Befragten komplizierte Entscheidungen über die relative Wichtigkeit der vorgegebenen Werte vollständig vermeiden und alle Werte als in gleichem Maße wünschenswert einstufen. Diesen Effekt bezeichnet man als Nicht-Differenzierung (Krosnick/Alwin 1988: 526). Nicht-Differenzierung wird von den Befürwortern des Ranking-Verfahrens als das Ergebnis unreflektierten Antwortverhaltens bzw. mangelnder Motivation auf seiten der Befragten gedeutet, was die Validität der Messung von Werten über Rating-Skalen in Frage stellt (z.B. Inglehart 1994; Inglehart/Klingemann 1996). Prinzipiell besteht aber auch die Möglichkeit, daß die Befragten wirklich alle abgefragten Werte als gleich wichtig einstufen, die Messung also valide ist (Krosnick/Alwin 1988: 536).

Die theoretische Rechtfertigung des Rating-Verfahrens wird darin gesehen, daß es keine trade-offs zwischen Werten erzwingt, wo materiell keine existieren (Alwin/Krosnick 1985: 549). Mit anderen Worten: “Likert-Scaling may be more isomorphic or ‘similar in form’ to reality than forced rank ordering” (Munson/McIntyre 1979: 49). Die Nicht-Existenz bzw. -Relevanz von Trade-off-Prozessen läßt sich inhaltlich wie folgt begründen: Zum einen implizieren Wertorientierungen als Konzeptionen des sozial Wünschenswerten noch nicht notwendigerweise Prioritätensetzungen (Klein 1995: 211). Vielmehr kommt es erst im politischen Prozeß der Umsetzung dieser Vorstellungen in Politikpräferenzen zu einer solchen Situation. Das Ranking-Verfahren ist also angemessen, wenn es um die Erhebung von Issueprioritäten geht, nicht aber, wenn man die Messung von Konzeptionen des Wünschenswerten intendiert (Bauer-Kaase/Kaase 1998: 262). Zum anderen sind die konkreten Ziele des Inglehart-Index nicht notwendigerweise kompetitiv, es sei denn, man behauptet eine generell eng begrenzte Problemverarbeitungskapazität des politischen Systems. Ansonsten aber läßt sich eine Trade-off-Beziehung zwischen beispielsweise dem Schutz des Rechts auf freie Meinungsäußerung und der Preisniveaustabilität theoretisch kaum begründen (vgl. Bürklin/Klein/Ruß 1996: 520f.).

3. Datenbasis und Operationalisierung

Die Daten, die wir im folgenden auswerten, wurden im Rahmen des Forschungsprojekts “Die Conjoint-Analyse als Instrument der empirischen Wahlforschung” erhoben (vgl. Arzheimer/Klein 1998a). Es handelt sich hierbei um eine zweiwellige schriftliche Panelbefragung, die wir anläßlich der Bürgerschaftswahl 1997 in Hamburg durchgeführt haben. Die Feldphase der ersten Welle startete Ende September 1997, die der zweiten Panelwelle Ende Februar 1998. Die Bruttostichprobe umfaßte 4.000 Personen, die vom Hamburger Amt für zentrale Meldeangelegenheiten sechs Wochen vor der Wahl zufällig aus der wahlberechtigten Bevölkerung ausgewählt worden waren. In der ersten Panelwelle erhielten wir 2.268 ausgefüllte Fragebögen zurück. Unter Berücksichtigung der stichprobenneutralen Ausfälle (Adreßfehler) betrug die Rücklaufquote 58,5 Prozent. Die Haltequote der zweiten Panelwelle betrug 87,1 Prozent, so daß uns insgesamt 1.882 auswertbare Fälle zur Verfügung stehen (zum Ablauf der Datenerhebung vgl. ausführlich Arzheimer/Klein 1998b). Da der für die folgenden Analysen zentrale “hybride” Inglehart-Index im Rahmen eines Split-half-Experiments nur einem zufällig ausgewählten Teil der Zielpersonen vorgelegt wurde, beschränken sich unsere Analysen in diesem Aufsatz auf eine Teilstichprobe von 1.127 Befragten in der ersten und 939 Befragten in der zweiten Panelwelle.

Um die beiden zur Diskussion stehenden Erhebungsformate miteinander vergleichen zu können, haben wir die vier Items des Inglehart-Index zunächst unabhängig voneinander über siebenstufige Ratingskalen bewerten lassen und die Befragten anschließend gebeten, diese Items außerdem in eine Rangordnung zu bringen (vgl. für ein ähnliches Vorgehen bei der 12-Item-Version des Inglehart-Index Bean/Papadikis 1994). Dieses Erhebungsformat machte eine Anpassung des Fragestimulus notwendig. In der Regel wird der Inglehart-Index mit dem Satz “Auch in der Politik kann man nicht alles auf einmal haben” eingeleitet. Da in unserem Fall die Befragten aber zunächst die Items unabhängig voneinander in ihrer Wichtigkeit bewerten sollten, war dieser Einleitungssatz unangemessen. Vor diesem Hintergrund haben wir uns für eine modifizierte Version des in den Eurobarometern der EU-Kommission verwendeten Fragestimulus entschieden (vgl. Krebs/Hofrichter 1989: 62). “Es wird in Deutschland gegenwärtig viel darüber geredet, welche Ziele die Politik in den nächsten Jahren verfolgen sollte. Hier sind einige Ziele genannt, die man in der Politik anstreben kann. Bitte geben Sie für jedes Ziel an, für wie wichtig Sie es halten, daß dieses Ziel in der Politik verfolgt wird.” Im Anschluß daran haben wir dann weiter gefragt: “Einmal angenommen, Sie müßten sich zwischen diesen vier Zielen entscheiden. Welches Ziel wäre Ihnen dann am wichtigsten, welches am zweitwichtigsten und welches am drittwichtigsten?” Es ist nicht zu erwarten, daß dieser veränderte Fragestimulus nennenswerte Verzerrungen der Messungen induziert, da die Befunde von Krebs und Hofrichter darauf hindeuten, daß unterschiedliche Frageformulierungen im Rahmen des Inglehart-Index keinen Einfluß auf die Meßergebnisse besitzen (Krebs/Hofrichter 1989).

4. Der empirische Befund

4.1 Die Wichtigkeit der Ziele des Inglehart-Index

Betrachten wir zunächst die absolute bzw. relative Wichtigkeit, die die Befragten den vier Zielen des Inglehart-Index zuweisen. Bei der absoluten Wichtigkeitszuschreibung über Rating-Skalen läßt sich deutlich die oben beschriebene Zustimmungstendenz beobachten (vgl. Tab. 1). Bei allen vier Zielen ist der am häufigsten vergebene Skalenwert (Modus) die “7”. Der Prozentanteil dieses Skalenwertes liegt bei den verschiedenen Zielvorgaben zwischen 34,6 und 60,6 Prozent, die zugehörigen arithmetischen Mittelwerte liegen im Bereich zwischen 5,5 und 6,2. Die Befragten halten also alle vier Ziele für wichtig, es sind aber durchaus Abstufungen in den absoluten Wichtigkeiten zu erkennen. Als wichtigstes politisches Ziel wird im Aggregat der Schutz des Rechts auf freie Meinungsäußerung angesehen, gefolgt von der Aufrechterhaltung von Ruhe und Ordnung und einem größeren Bürgereinfluß auf Regierungsentscheidungen. Der Kampf gegen steigende Preise wird mit deutlichem Abstand als am wenigsten wichtig eingestuft.

Tab. 1: Die absolute Wichtigkeit der Ziele des Inglehart-Index

	Prozentuale Häufigkeit der Skalenwerte
	1	2	3	4	5	6	7		Modus
A Ruhe und Ordnung	2,0	3,5	4,9	7,6	11,0	18,3	52,6	5,9	7
B Mehr Bürgereinfluß	0,9	1,1	3,6	9,7	17,5	23,5	43,8	5,9	7
C Kampf gegen steigende Preise	1,7	2,6	5,3	12,2	22,3	21,2	34,6	5,5	7
D Freie Meinungsäußerung	0,8	1,5	2,5	7,0	8,6	19,1	60,5	6,2	7

Beim Ranking-Verfahren wird auf individueller Ebene die Zuweisung relativer Wichtigkeiten durch das Abfrageformat erzwungen. Als wichtigstes politisches Ziel wird dabei am häufigsten die Aufrechterhaltung von Ruhe und Ordnung genannt; 47,5 Prozent der Befragten setzen dieses Ziel auf den ersten Rang (vgl. Tab. 2). Es folgen das Recht auf freie Meinungsäußerung, das von 27,7 Prozent der Befragten als am wichtigsten angesehen wird, der Bürgereinfluß auf Regierungsentscheidungen (17,5 Prozent) sowie der Kampf gegen steigende Preise (7,3 Prozent).

Je nachdem, ob man die über Rating oder die über Ranking erhobenen Daten heranzieht, unterscheidet sich also im Aggregat die relative Wichtigkeit der verschiedenen Zielvorstellungen. Im ersten Fall erweist sich das Recht auf freie Meinungsäußerung als am wichtigsten, im zweiten die Aufrechterhaltung von Ruhe und Ordnung. Dies widerspricht dem in der Literatur wiederholt berichteten Befund, daß Ratings und Rankings im Aggregat ähnliche Präferenzordnungen produzieren (vgl. u.a. Feather 1973; Moore 1975; Alwin/Krosnick 1985).

Tab. 2: Die relative Wichtigkeit der Ziele des Inglehart-Index (in Prozent)

	Rangplatz
	1	2	3	mittlerer Rangplatz
A Ruhe und Ordnung	47,5	20,4	14,9	2,0
B Mehr Bürgereinfluß	17,5	33,6	29,1	2,5
C Kampf gegen steigende Preise	7,3	24,6	29,9	3,0
D Freie Meinungsäußerung	27,7	21,4	26,0	2,5
Modus	A	B	C

Eine mögliche Erklärung für diesen Unterschied könnte darin bestehen, daß auch beim Ranking-Verfahren Response-Sets auftreten. So läßt sich in Tab. 2 erkennen, daß als wichtigstes Ziel am häufigsten “A” genannt wird, als zweitwichtigstes Ziel am häufigsten “B” und als drittwichtigstes Ziel am häufigsten “C”. Könnte es also bei der Rangordnungsaufgabe nicht eine Strategie der Befragten sein, unreflektiert einfach die Rangfolge “ABC” zu nennen, ohne sich Gedanken über die Inhalte der Items zu machen? Im nächsten Abschnitt wollen wir dieses Problem genauer untersuchen.

4.2 Die Existenz von Response-Sets

Beginnen wir mit der Verteilung der Antworten auf den Rating-Skalen. In Tab. 3 ist die Häufigkeit individuell gleicher Skalenpunktwahl dargestellt. Insgesamt zeigt sich, daß höhere Skalenpunkte mit einer sehr viel größeren Wahrscheinlichkeit gewählt werden als niedrigere Skalenpunkte. Als problematisch muß betrachtet werden, daß 19,1 Prozent der Befragten 4 mal den Skalenpunkt 7 wählen, also in ihrer absoluten Wichtigkeitszuschreibung überhaupt nicht zwischen den vier Items differenzieren. Weitere 1,6 Prozent der Befragten vergeben 4 mal einen der anderen Skalenwerte, so daß im Ergebnis 20,7 Prozent der Befragten eine Variationsbreite der Skalenausnutzung von 0 aufweisen. Diese Gruppe von Befragten wollen wir im folgenden Nicht-Differenzierer nennen.

Tab. 3: Häufigkeit individuell gleicher Skalenpunktwahl bei den
Rating-Skalen

	Prozentuale Häufigkeit der Wahl
	0 mal	1 mal	2 mal	3 mal	4 mal
Skalenpunkt 1	95,9	3,3	0,3	0,2	0,2
Skalenpunkt 2	92,1	7,1	0,6	0,1	0,0
Skalenpunkt 3	86,2	11,6	2,0	0,1	0,1
Skalenpunkt 4	69,4	25,1	5,1	0,3	0,1
Skalenpunkt 5	56,3	30,6	10,6	2,3	0,2
Skalenpunkt 6	47,6	29,5	17,0	4,8	1,0
Skalenpunkt 7	19,0	24,2	22,4	15,4	19,1

Wenn es sich bei den Nicht-Differenzierern tatsächlich um Befragte handelt, die den kognitiven Aufwand bei der Beantwortung des Fragebogens durch eine Ja-Sage-Strategie zu reduzieren versuchen, dann sollte der Anteil der Nicht-Differenzierer unter Niedriggebildeten höher sein als unter Hochgebildeten, da letztere eher das kognitive Rüstzeug besitzen, die Rating-Aufgabe differenziert zu erfüllen (Krosnick/Alwin 1988: 529f). Tatsächlich zeigt sich, daß unter den Hauptschulabsolventen 37,5 Prozent den Nicht-Differenzierern zuzurechnen sind, während dieser Anteil bei den Realschulabsolventen nur 21,4 Prozent und bei den Abiturienten gar nur 6,9 Prozent beträgt. Außerdem steht zu erwarten, daß Response-Sets um so eher auftreten, je geringer das Interesse am Thema der Befragung ist. Und in der Tat: Während unter den Personen mit einem hohen oder sehr hohen Politikinteresse nur 17,8 Prozent der Befragten nicht zwischen den Items differenzieren, ist der Anteil der Nicht-Differenzierer bei den Befragten mit einem geringen oder sehr geringen politischen Interesse mit 32,4 Prozent fast doppelt so hoch.

Die Befürworter des Ranking-Verfahrens argumentieren nun, daß diejenigen Befragten, die im Rahmen des Rating-Formats schwierigen Entscheidungen durch Nicht-Differenzierung ausweichen, in der durch das Ranking-Format definierten Forced-choice-Situation gezwungen werden, reflektierte Urteile abzugeben. Diese Erwartung ist nicht unbedingt plausibel. Wenn Befragte mit einem nur gering ausgeprägten kognitiven Differenzierungsvermögen bereits durch das Rating-Verfahren überfordert werden, so kann vermutet werden, daß sie durch das komplexere Ranking erst recht überfordert sind. Als erster Beleg für eine solche Interpretation kann angeführt werden, daß unter den Nicht-Differenzierern 7,6 Prozent die Rangordnungsaufgabe vollständig verweigern, während dies von den restlichen Befragten nur 2,7 Prozent tun. Dieser Unterschied ist statistisch signifikant (p < 0.01).

Darüber hinaus sollte man erwarten können, daß Nicht-Differenzierer mit einer höheren Wahrscheinlichkeit auch bei der Erfüllung der Ranking-Aufgabe stereotyp antworten, also beispielsweise das erstgenannte Ziel auch auf den ersten Platz setzen. Wir haben deshalb im Rahmen unserer Panelbefragung ein Methodenexperiment durchgeführt, das es uns ermöglicht, solche Response-Sets zu identifizieren. Dazu haben wir in der zweiten Panelwelle im Rahmen eines Split-Half-Experiments der einen Hälfte der Befragten wieder den ursprünglichen hybriden Inglehart-Index vorgelegt, während wir der anderen Hälfte der Befragten eine Version mit rotierten Itemvorgaben vorlegten, bei dem jeweils das erste und das zweite sowie das dritte und das vierte Ziel miteinander vertauscht wurden. Wenn sich hierbei nachweisen läßt, daß die Reihenfolge der Nennung der Ziele einen Einfluß auf deren Chance hat, als wichtigstes politisches Ziel genannt zu werden, dann ist dies als Beleg für die Existenz von Response-Sets auch im Rahmen des Ranking-Verfahrens zu werten. Unter den Nicht-Differenzierern der ersten Panelwelle sollte dieser Plazierungseffekt besonders deutlich ausfallen.

Die Ergebnisse dieses Methodenexperiments sind in Tab. 4 dokumentiert. Als wichtigster Befund ist festzuhalten, daß ein signifikanter Plazierungseffekt auftritt: Das Ziel “Mehr Einfluß der Bürger auf die Entscheidungen der Regierung” wird von 13,9 Prozent der Befragten als wichtigstes politisches Ziel genannt, wenn es im Fragebogen an zweiter Stelle steht, hingegen von 21,3 Prozent der Befragten, wenn es die Liste der politischen Ziele anführt. Betrachtet man das Antwortverhalten der Differenzierer und Nicht-Differenzierer der 1. Panelwelle getrennt voneinander, so zeigt sich, daß der Plazierungseffekt bei den Nicht-Differenzierern stärker ausfällt. Bei ihnen erhöht sich der Anteil der Befragten, der das Ziel “Mehr Bürgereinfluß” auf den ersten Rangplatz setzt, nach der Itemrotation von 12,1 auf 25 Prozent, während die entsprechenden Prozentsätze beim Rest der Befragten 14,6 und 19,8 betragen. Die eben beschriebenen Plazierungseffekte sind in den durch die ersten beiden Zeilen von Tab. 4 definierten Teiltabellen jeweils auf dem 5%-Niveau statistisch signifikant.

Tab. 4: Response-Sets im Rahmen des Ranking-Verfahrens

	alle Befragten der 2. Panelwelle		Differenzierer der 1. Panelwelle		Nicht- Differenzierer der 1. Panelwelle
1. Rangplatz	original	rotiert	original	rotiert	original	rotiert
Ruhe und Ordnung	51,3	44,8	47,1	41,7	68,1	57,6
Mehr Bürgereinfluß	13,9	21,3	14,6	19,8	12,1	25,0
Kampf gegen steigende Preise	8,3	8,0	8,1	7,8	8,8	8,7
Freie Meinungsäußerung	26,5	25,9	30,3	30,7	11,0	8,7
N=	460	451	357	348	91	92
Zusammenhang (Cramer’s V)
(für die beiden erstgenannten Ziele)	V= .12 (p= .003)		V= .10 (p= .046)		V= .18 (p= .027)

Anmerkung: Eintragungen sind der Prozentanteil der Befragten, die das jeweilige politische
Ziel auf den ersten Rangplatz setzen.

Die Nicht-Differenzierer müssen unter den Bedingungen des Ranking-Verfahrens aber nicht notwendigerweise eine systematische Response Strategie wählen. Mindestens genauso plausibel erscheint die Annahme, daß ein Teil der Befragten die Rangplätze zufällig vergibt, ohne sich Gedanken über den konkreten Inhalt der verschiedenen Ziele zu machen. Wenn dieses Muster vorliegen würde, dann müßte die Test-Retest-Stabilität der über das Ranking-Verfahren gemessenen Wertorientierungen in der Gruppe der Nicht-Differenzierer sehr viel niedriger liegen als in der Gruppe der Differenzierer. Wir haben daher auf der Grundlage der vergebenen Rangplätze die gängige Einteilung in Materialisten, Mischtypen und Postmaterialisten vorgenommen und die Stabilität dieser Zuordnung über die beiden Panelwellen hinweg analysiert. Um die eben diskutierten Plazierungseffekte auszuschalten, haben wir uns dabei auf die Gruppe der Befragten beschränkt, die in beiden Panelwellen den unrotierten Inglehart-Index vorgelegt bekam. Die Stabilität der Zuordnung haben wir über das ordinale Assoziationsmaß g gemessen. Für die Gruppe der Differenzierer betrug dieses g =0,84, bei den Nicht-Differenzierern hingegen nur g =0,57.

4.3 Die Zuordnung der Befragten zu den Wertetypen

Wenden wir uns abschließend der Frage nach der Verteilung der unterschiedlichen Wertetypen in Abhängigkeit vom zugrundeliegenden Erhebungsverfahren zu. Bei den Ranking-Daten erfolgt die Zuordnung der Befragten zu den drei Wertetypen nach den altbekannten Regeln. Bei den Rating-Daten haben wir all diejenigen Befragten als Postmaterialisten klassifiziert, die beiden postmaterialistischen Zielen jeweils höhere Wichtigkeiten zuschreiben als den beiden materialistischen Zielen. Bei den Materialisten sind wir analog verfahren. Als Mischtypen haben wir alle übrigen Befragten klassifiziert. Diese Art der Skalenbildung lehnt sich insofern eng an die Konzeption Ingleharts an, als sie die vergebenen Skalenwerte nur relativ zueinander interpretiert.

Tab. 5 zeigt, wie sich die empirischen Randverteilungen der zwei eben beschriebenen alternativen “Inglehart-Indizes” darstellen. Im Rahmen des originalen Inglehart-Index werden 19,4 Prozent der Befragten als Materialisten, 60,6 Prozent als Mischtypen und 20,1 Prozent als Postmaterialisten ausgewiesen. Die entsprechenden Anteile auf der Grundlage der Rating-Skalenwerte betragen 5,2 Prozent, 82,1 Prozent und 12,7 Prozent. Daß der Anteil der Mischtypen im Rahmen des Rating-Formates deutlich höher liegt, entspricht den Erwartungen: Da das Rating-Format keine “Forced-choice”-Situation darstellt, ist es naheliegend, daß mehr Befragte gemischte Wertpräferenzen zu erkennen geben als im Rahmen des Ranking-Verfahrens.

Tab. 5: Die Verteilung der Wertetypen in Abhängigkeit vom
Erhebungsformat (in Prozent)

	Ranking	Rating
Materialist	19,4	5,2
Mischtyp	60,6	82,1
Postmaterialist	20,1	12,7
N =	1037	1080

Aufschlußreich ist darüber hinaus der Zusammenhang zwischen den beiden Varianten des Inglehart-Index. A priori kann man die Erwartung formulieren, daß bei konsistentem Antwortverhalten der Befragten kein Wechsel zwischen den Extremkategorien zu beobachten sein sollte, d.h. niemand, der im Rahmen des Ranking-Verfahrens Postmaterialist ist, sollte im Rahmen des Rating-Verfahrens plötzlich zum Materialisten mutieren und umgekehrt. Wie Tab. 6 zeigt, entspricht diese Erwartung der Realität. Darüber hinaus sollte von den im Rahmen des Ranking-Verfahrens als Mischtyp klassifizierten Befragten der allergrößte Teil auch im Rahmen des Ratings wieder in die Mischkategorie fallen, da Befragte, die bereits unter Forced-choice-Bedingungen differenzierte Prioritäten erkennen lassen, dies im Rahmen des unrestringierten Rating-Formates erst recht tun sollten. Und tatsächlich werden nur 4,8 Prozent der Mischtypen des originalen Inglehart-Index im Rahmen des Rating-Formates einem der beiden reinen Wertetypen zugeordnet.

Tab. 6: Die Beziehung zwischen dem über das Ranking-Verfahren erhobenen
und dem über das Rating-Verfahren erhobenen Inglehart-Index

	Ranking-Verfahren
Rating-Verfahren	Materialist	Mischtyp	Postmaterialist	S
Materialist	21,64,2	1,61,0	0,00,0	5,2
Mischtyp	78,415,1	95,257,8	44,78,9	81,8
Postmaterialist	0,00,0	3,21,9	55,311,1	13,0
S	100,019,3	100,060,7	100,020,0	100,0

Bedeutende Abweichungen zwischen den beiden unterschiedlichen Erhebungsverfahren treten nur dort auf, wo man sie auch erwartet: Von den reinen Wertetypen des originalen Inglehart-Index fallen im Rahmen des Rating-Formates 55,3 Prozent (Postmaterialisten) bzw. 78,4 Prozent (Materialisten) in die Kategorie mit gemischten Werteorientierungen. Nur an dieser Stelle machen Unterschiede zwischen den beiden Erhebungsverfahren auch theoretisch Sinn. Wer beispielsweise im Rahmen des Ranking-Verfahrens zwei materialistische Ziele an die Spitze seiner Prioritätenliste gesetzt hat, muß den postmaterialistischen Zielen notgedrungenerweise eine geringere relative Wichtigkeit zuweisen, auch wenn er sie eigentlich als gleich wichtig ansieht. Im Rahmen eines weniger restriktiven Erhebungsverfahrens besteht diese Notwendigkeit hingegen nicht.

Insgesamt handelt es sich bei den eben beschriebenen “Wechslern” um 24,1 Prozent aller Befragten. Dieser Anteil entspricht in etwa dem Anteil der weiter oben beschriebenen Nicht-Differenzierer. Dies legt die Vermutung nahe, daß diese beiden Gruppen weitgehend identisch sind, daß also die Personen, die im Rahmen des Rating-Verfahrens nicht zwischen den vier Zielen differenzieren und deshalb dort dem Mischtyp zugeordnet werden, aufgrund des Forced-choice-Formates des Rankings nun zur Offenbarung differenzierter Präferenzen gezwungen werden. Empirisch zeigt sich aber, daß von den “Wechslern” nur 29,9 Prozent zur Gruppe der “Nicht-Differenzierer” gehören. Zwar liegt dieser Anteil signifikant höher als bei den restlichen Befragten (16,9 Prozent), doch sind 70,1 Prozent der “Wechsler” offensichtlich in der Lage, auf den Rating-Skalen differenziert zu antworten. Dies läßt sich dahingehend interpretieren, daß die abweichende Randverteilung des auf der Grundlage der Rating-Daten definierten Inglehart-Index in der Hauptsache darauf zurückzuführen ist, daß das Ranking den Befragten Restriktionen auferlegt, die ihnen die Offenbarung ihrer “wahren” Präferenzen unmöglich machen. Als weiterer Beleg für eine solche Interpretation läßt sich außerdem anführen, daß auch unter den Abiturienten 21,6 Prozent der Befragten zu den Wechslern gehören. Diese Befragten sind kognitiv in der Regel durchaus differenzierungsfähig und antworten auch auf den Rating-Skalen nicht stereotyp. Offensichtlich kann diese Personengruppe den vollen Umfang ihrer Differenzierungsfähigkeit im Rahmen des restringierten Ranking nicht adäquat zum Ausdruck bringen.

4.4 Die Zusammenhänge mit dem Alter und der Bildung

Die Entscheidung für eines der beiden untersuchten Erhebungsverfahren bewirkt deutliche Unterschiede in den substantiellen Befunden, die man erzielt. Dies zeigt sich, wenn man die beiden Varianten des Inglehart-Index zu den wichtigsten Determinanten gesellschaftlicher Wertorientierungen, dem Alter und der Bildung, in Beziehung setzt (vgl. Tab. 12). Beim Ranking-Verfahren stehen die reinen Wertetypen jeweils in einem deutlichen Zusammenhang mit diesen Variablen: der Anteil der Materialisten steigt mit höherem Alter und geringerer Bildung an, während gleichzeitig der Anteil der Postmaterialisten sinkt. Demzufolge zeigen sich auch starke Zusammenhänge des Alters und der Bildung mit der von Inglehart in seinen Analysen als abhängige Variable verwendeten Prozentpunktdifferenz zwischen dem Anteil der Postmaterialisten und dem Anteil der Materialisten (PPM).Tab. 12: Die Zusammenhänge der beiden Varianten des Inglehart-Index
mit der Bildung und dem Alter

	formale Bildung			Alter in Jahren
	Haupt	Real	Abi	18-24	25-34	35-49	50-64	65+

Inglehart-Index (Ranking)
Materialist	26,2	21,6	13,3	8,1	16,8	15,6	21,7	31,5
Mischtyp	63,3	63,5	56,4	59,3	58,8	54,4	65,1	63,5
Postmaterialist	10,5	14,9	30,3	32,6	24,4	30,0	13,2	5,1
PPM	-15,7	-6,7	17,0	24,5	7,6	14,4	-8,5	-26,4
Inglehart-Index (Rating)
Materialist	4,4	6,3	5,2	4,7	4,5	7,1	5,1	4,6
Mischtyp	90,5	82,9	75,0	77,6	74,6	75,4	87,5	92,8
Postmaterialist	5,1	10,9	19,8	17,6	20,9	17,5	7,4	2,6
PPM	0,7	4,6	14,6	12,9	16,4	10,4	2,3	-2,0

Anmerkungen: PPM = Prozentpunktdifferenz zwischen dem Anteil der Postmaterialisten und dem Anteil der Materialisten.

Anders stellt sich die Situation dar, wenn man den auf der Grundlage der Rating-Skalen konstruierten Inglehart-Index betrachtet. Hier besteht weder ein Zusammenhang zwischen dem Alter und dem Anteil der Materialisten noch zwischen der formalen Bildung und dem Anteil der Materialisten. Diese Zusammenhänge kommen bei der Analyse der Ranking-Daten offensichtlich nur dadurch zustande, daß Materialismus und Postmaterialismus nicht unabhängig voneinander gemessen werden. Da Alter und Bildung im Falle der Rating-Daten jeweils nur mit dem Anteil der Postmaterialisten korrelieren, schwächen sich auch ihre Zusammenhänge mit dem PPM erkennbar ab (vgl. Tab. 12). Der Wertewandel erscheint so deutlich weniger gravierend als bei den über das Ranking-Verfahren erhobenen Daten. Auch die von Inglehart vorgeschlagene theoretische Erklärung des Wertewandels wird bei der Analyse der Rating-Daten fragwürdig, denn der Trend des Wertewandels geht in diesem Fall nicht von den reinen Materialisten hin zu den reinen Postmaterialisten, sondern von den Mischtypen hin zu den reinen Postmaterialisten.

5. Zusammenfassung und Schlußfolgerungen

Der dem Ranking-Verfahren gemeinhin zugeschriebene methodische Vorteil, die Befragten zu reflektierten Urteilen zu zwingen, läßt sich empirisch nicht bestätigen. Es existiert vielmehr ein signifikanter Einfluß der Reihenfolge, in der die Wertitems präsentiert werden, auf die von den Befragten offenbarte Präferenzordnung. Dieser Einfluß ist bei Personen, die im Rahmen des Rating-Verfahrens allen Werten die gleiche Wichtigkeit zuschreiben (Nicht-Differenzierer), besonders stark. In dieser Personengruppe liegt zudem die Test-Retest-Stabilität des über ein Rangordnungsverfahren erhobenen Inglehart-Index deutlich niedriger als bei den übrigen Befragten.

Diese Befunde lassen sich auf zweierlei Art und Weise deuten: Entweder antworten die Nicht-Differenzierer sowohl auf die Rating- als auch auf die Ranking-Fragen unreflektiert. Der beim Rating auftretende Nicht-Differenzierungs-Effekt könnte dann nicht länger als Argument für die Überlegenheit des Ranking angeführt werden. Oder aber die Nicht-Differenzierer messen wirklich allen Zielen die gleiche Bedeutung zu. Dann könnten diese Personen ihre wahren Präferenzen im Rahmen des Ranking-Formates nicht adäquat zum Ausdruck bringen und würden deshalb dort stereotyp oder zufällig antworten (Krosnick/Alwin 1988: 536). Im ersten Fall hätte das Ranking-Verfahren also keine Vorteile gegenüber dem Rating, im zweiten Fall wäre es ihm sogar unterlegen. Daß der zweite Fall der wahrscheinlichere ist, zeigt sich daran, daß auch 20 Prozent der Hochgebildeten gemischte Wertorientierungen offenbaren, wenn das unrestringierte Rating-Format verwendet wird, während sie im Rahmen des restriktiveren Ranking-Verfahrens “reine” Wertorientierungen zu erkennen geben. Unserer Ansicht nach spricht somit alles dafür, sich bei der Erhebung von Wertorientierungen für das Rating-Verfahren zu entscheiden, da dieses auf die Einschränkung individueller Freiheitsgrade der Bewertung verzichtet (Bürklin/Klein/Ruß 1996: 521). Darüber hinaus ermöglicht es außerdem die Anwendung komplexer statistischer Analyseverfahren sowie eine unverzerrte Bestimmung der Dimensionalität des Werteraums.

Zur Begründung der Überlegenheit des Ranking-Verfahrens lassen sich also bestenfalls noch theoretische Argumente ins Feld führen. Daß diese in der Regel nicht besonders überzeugend sind, haben wir weiter oben bereits ausgeführt. Doch selbst wenn man diese theoretischen Argumente teilt, ergibt sich daraus noch nicht notwendigerweise, daß Rating-Skalen unangemessen sind. “It is not difficult to justify assessing priorities, but that certainly does not automatically justify the use of ipsative measures. As indicated, every set of scored items reveals an ordering of those items, provided some variance is observed in the scores (to break ties). The only reason why ipsative measures are selected so frequently when priorities are relevant seems to be the expectation that insufficient variance will be obtained when independent evaluations are asked. However, that is an empirical and not a theoretical consideration” (van Deth 1983: 411).

Zieht man schließlich in Betracht, daß nicht nur das von Inglehart verwendete Erhebungsformat, sondern auch sein Fragestimulus und seine Items defizitär sind (vgl. zuletzt Bauer-Kaase/Kaase 1998; Clarke et al. 1998), dann kann man mit Bauer-Kaase und Kaase abschließend nur konstatieren, “daß die gängige Operationalisierung der Materialismus-Postmaterialismus-Dimension in einer Weise defekt ist, die eine Neuorientierung unabweisbar macht” (1998: 272).

Literaturverzeichnis

Alwin, Duane F. / Krosnick, Jon A., 1985: The Measurement of Values in Surveys: A Comparison of Ratings and Rankings. In: Public Opinion Quaterly, 49, S. 535-552.

Arzheimer, Kai / Klein, Markus, 1998a: Die Conjoint-Analyse als Instrument der empirischen Wahlforschung. Papier für die Tagung “Wahlen und Wahlforschung: Kontinuität und Wandel” des Arbeitskreises “Wahlen und politische Einstellungen” der DVPW vom 14. bis 15. Mai 1998 in Mainz. [www.uni-mainz.de/~arzheim/conjoint/Conjoint.html]

Arzheimer, Kai / Klein, Markus, 1998b: Die Wirkung materieller Incentives auf den Rücklauf einer schriftlichen Panelbefragung. In: ZA-Information, 43, S. 6-31.

Bauer-Kaase, Petra / Kaase, Max, 1998: Werte und Wertewandel – ein altes Thema und eine neue Facette. In: Galler, Heinz P. / Wagner, Gerd (Hrsg.): Empirische Forschung und wirtschaftspolitische Beratung. Festschrift für Hans-Jürgen Krupp zum 65. Geburtstag. Frankfurt/Main; New York: Campus Verlag (=Reihe “Wirtschaftswissenschaft”; Bd. 38); S. 256-274.

Bean, Clive / Papadikis, Elim, 1994a: Polarized Priorities or Flexible Alternatives? Dimensionality in Inglehart´s Materialism-Postmaterialism-Scale. In: International Journal of Public Opinion Research, 6, S. 264-288.

Bean, Clive / Papadikis, Elim, 1994b: Polarized Priorities and Flexible Alternatives: Response to Inglehart and Hellevik. In: International Journal of Public Opinion Research, 6, S. 295-297.

Bürklin, Wilhelm / Klein, Markus / Ruß, Achim, 1994: Dimensionen des Wertewandels. Eine empirische Längsschnittanalyse zur Dimensionalität und der Wandlungsdynamik gesellschaftlicher Wertorientierungen. In: Politische Vierteljahresschrift, 35, S. 579-606.

Bürklin, Wilhelm / Klein, Markus / Ruß, Achim, 1996: Postmaterieller oder anthropozentrischer Wertewandel? Eine Erwiderung auf Ronald Inglehart und Hans-Dieter Klingemann. In: Politische Vierteljahresschrift, 37, S. 517-536.

Clarke, Harold D. / Kornberg, Allan / McIntyre, Chris with Bauer-Kaase, Petra / Kaase, Max, 1998: Measuring Value Change and the “Conversation in Context” Critique: A Note with new Experimental Evidence. Unpublished Paper.

Feather, N. T., 1973: The Measurement of Values: Effects of Different Assessment Procedures. In: Australian Journal of Psychology, 25, S. 221-231.

Flanagan, Scott C., 1987: Value Change in Industrial Societies. In: American Political Science Review, 81, S. 1303-1319.

Hellevik, Ottar, 1994: Measuring Cultural Orientations: Rating versus Ranking. In: International Journal of Public Opinion Research, 6, S. 289-297.

Hicks, L. E., 1970: Some properties of ipsative, normative and forced-choice normative measurement. In: Psychological Bulletin, 74, S. 167-184.

Inglehart, Ronald, 1982: Changing Values in Japan and the West. In: Comparative Political Studies, 14, S. 445-480.

Inglehart, Ronald, 1994: “Polarized Priorities or Flexible Alternatives? Dimensionality in Inglehart´s Materialism-Postmaterialism-Scale”: A Comment. In: International Journal of Public Opinion Research, 6, S. 289-297.

Inglehart, Ronald / Klingemann, Hans-Dieter, 1996: Dimensionen des Wertewandels. Theoretische und methodische Reflexionen anläßlich einer neuerlichen Kritik. In: Politische Vierteljahresschrift, 37, S. 319-340.

Jackson, David J. / Alwin, Duane F., 1980: The Factor Analysis of Ipsative Measures. In: Sociological Methods & Research, 9, S. 218-238.

Klein, Markus, 1995: Wieviel Platz bleibt im Prokrustesbett? Wertewandel in der Bundesrepublik Deutschland zwischen 1973 und 1992 gemessen anhand des Inglehart-Index. In: Kölner Zeitschrift für Soziologie und Sozialpsychologie, 47, S. 207-230.

Krebs, Dagmar / Hofrichter, Jürgen, 1989: Materialismus-Postmaterialismus: Effekte unterschiedlicher Frageformulierungen bei der Messung des Konzepts von Inglehart. In: ZUMA-Nachrichten, 24, S. 60-72.

Krosnick, Jon A. / Alwin, Duane F., 1988: A Test of the Form-Resistant Correlation Hypothesis. Ratings, Rankings, and the Measurement of Values. In: Public Opinion Quaterly, 52, S. 526-538.

Maag, Gisela, 1991: Gesellschaftliche Werte. Strukturen, Stabilität und Funktion. Opladen: Westdeutscher Verlag (=Beiträge zur sozialwissenschaftlichen Forschung Bd. 120).

Moore; Michael, 1975: Rating versus Ranking in the Rokeach Value Survey: An Israeli comparison. In: European Journal of Social Psychology, 5, S. 405-408.

Munson, J. Michael / McIntyre, Shelby H., 1979: Developing Practical Procedures for the Measurement of Personal Values in Cross-Cultural Marketing. In: Journal of Marketing Research, 16, S. 48-52.

Rankin, William L. / Grube, Joel W., 1980: A comparison of ranking and rating procedures for value system measurement. In: European Journal of Social Psychology, 10, S. 233-246.

Reynolds, Thomas J. / Jolly, James P., 1980: Measuring Personal Values: An Evaluation of Alternative Methods. In: Journal of Marketing Research, 17, S. 531-536.

Rockeach, Milton 1973: The Nature of Human Values. New York: The Free Press.

Russell, P.A. / Gray, C.D., 1994: Ranking or Rating? Some data and their implications for the measurement of evaluative response. In: British Journal of Psychology, 85, S. 79-92.

Strobel, Martin, 1979: Evaluation einiger moderner statistischer Analyseverfahren zur Messung von Werthaltungen. In: Klages, Helmut / Kmieciak, Peter (Hrsg.): Wertwandel und gesellschaftlicher Wandel. Frankfurt/New York: Campus, S. 485-504.

van Deth, Jan W., 1983: Ranking the Ratings: The Case of Materialist and Postmaterialist Value Orientations. In: Political Methodology, 11, S. 63-79.

van Deth, Jan W./ Scarbrough, Elinor,1995: The Concept of Values. In: Dies. (Hrsg.): The Impact of Values. Beliefs in Government Volume Four. Oxford: Oxford University Press, S. 21-47.

Share this: