Die zehn Gebote für Demoskopiekonsumenten

1. Der fromme, aber faule Spruch vom repräsentativen Querschnitt

2. Die Interview- und Modellfehler werden nie berücksichtigt

3. Die Launen des Zufalls

4. Quanifizierung der Lotterieschäden

5. Unterschlagung der Fehlerbandbreiten

6. Dichtung und Gewichtung

    Tabelle: Dichtung und Gewichtung im Politbarometer des ZDF
    Grafik: Wie Wahlprognosen gemacht werden

7. Wie werden Wahlprognosen gemacht?

8. Der zeitliche Trend

9. Das falsche statistische Modell

10. Finale

 

 

 

 

 

 

 

 

1. Der fromme, aber faule Spruch vom repräsentativen Querschnitt

Für eine handelsübliche Umfrage - wie z.B. das Politbarometer im Zweiten Deutschen Fernsehen (ZDF) oder die "Wahlhoroskope" von Frau Prof. Noelle-Neumann in der Frankfurter Allgemeinen (FAZ) - wurden früher rund 1 000 Wahlberechtigte in der BRD befragt, ein sogenannter repräsentativer Querschnitt. (Heute werden zusätzlich rund 1000 Wahlberechtigte in den neuen Bundesländern befragt, was von wenig statistischem Sachverstand zeugt, weil es im Westen rund vier mal so viele Wahlberechtigte gibt wie im Osten.) Aus Kostengründen kann nämlich nur ein winziger Bruchteil der Bevölkerung befragt werden. Der repräsentative Querschnitt wird aber nicht, wie die geschickte Wortwahl suggeriert, als Miniaturbild zusammengestellt, sondern per Lotterie - siehe untenstehender Kasten. Ein bunt zusammengewürfelter Haufen also, je zufälliger desto besser. Jeder Wahlbürger soll die gleiche Chance haben, in den repräsentativen Querschnitt aufgenommen zu werden - wenn auch im Westen nur einer aus 45000 befragt wird und in der ehemaligen DDR einer aus 12000.
Der repräsentative Querschnitt als Miniaturbild der wahlberechtigten Bevölkerung ist allerdings eine mathematisch-statistische Utopie, die auf dieser Erde nicht realisiert werden kann. Aber diese Assoziation ist ein geschickt orchestrierter Etikettenschwindel um Umfrageergbnisse als zuverläßig und genau zu vermarkten.
Die Auswahl per Zufall hat zur Folge, daß bei verschiedenen Auslosungen des "repräsentativen" Querschnittes immer etwas andere Umfrageegebnisse herauskommen. Die dadurch verursachten Abweichungen - die sogenannten "Lotterieschäden" - sind zwar kleiner als der erschreckte Laie sich vorstellt. Er glaubt ja zunächst, die Lotterieauswahl hätte zur Folge, daß Umfrageresultate und Lottozahlen dasselbe seien, was aber nicht der Fall ist. Doch die Lotterieschäden bei Umfrageergebnissen sind weit größer als die Propaganda der Prognoseindustrie zugibt, falls sie überhaupt erwähnt werden. Von Lotterieschäden spricht natürlich niemand - wenn schon - dann spricht man gelehrt von "Vertrauensintervallen" . Eine Sprachregelung a la Wilhelm Busch: "Was beliebt, ist auch erlaubt."

Was ist ein repräsentativer Querschnitt?

Prof. Dr. Noelle-Neumann
Leiterin des Instituts für Demoskopie Allensbach
Klaus Liepelt
Chef des Instituts für angewandte Sozialforschung INFAS
Forschungsgruppe Wahlen
Politbarometer West, Mai 1993
Umfragen in der Massengesellschaft, S 132-135, (Rowohlt 1963) Journal Mobil, WDR III Dortmund (Aktuelle Stunde), 27.9.1989 Seite 184/185: Informationen zur Stichprobe (im Westen)
... "Man arbeitet für jeden Interviewer, der an der Umfrage beteiligt ist, eine "Quote" aus: wieviel Männer und Frauen er befragen soll, wieviel Angehörige der verschiedenen Altersgruppen, wieviel Berufstätige, wieviel Personen aus den verschiedenen Berufsgruppen und wieviel nichtberufstätige Angehörige in den verschiedenen Berufskreisen. ...
Die Repräsentanz der Quoten-Stichprobe wird nicht gesichert, indem bestimmte "quotierte" Merkmale - Geschlecht, Alter usw. genauso verteilt sind wie in der Grundgesamtheit (=Population). ...
Die wirkliche Funktion der Quoten ist: sie sollen den Interviewer zu einer Zufallsauswahl veranlassen, bei der jedes Mitglied der Grundgesamtheit praktisch die gleiche Chance hat, in die Stichprobe zu gelangen; ohne das Wirken eines solchen Zufallsmechanismus ist die Bildung einer repräsentativen Stichprobe nicht möglich. Erst in zweiter Linie wirken die Quoten außerdem wie eine "Schichtung" bei Random-Stichproben, indem sie in bestimmten Merkmalen die Übereinstimmung zwischen Stichprobe und Universum sichern." ...
Interviewerin: "Nun heißt es ja, Sie befragen einen repräsentativen Querschnitt der Bevölkerung, aber ist das wirklich ein Spiegelbild der Bevölkerung, das Sie da befragen?"
Liepelt: "Wenn es ein repräsentativer Querschnitt ist, muß es ein Spiegelbild sein. Es ist manchmal sehr schwer, Repräsentativität herzustellen, das ist die Aufgabe dieser Umfragen, das möglichst solide zu tun."
Interviewerin: "Es gibt Kritiker, die sagen, es wäre mehr eine Zufallsauswahl, ein Lotteriespiel."
Liepelt: "Nein, es ist eine Zufallsauswahl, es ist ein Lotteriespiel. Und gerade weil man wie im Lotto sozusagen den Zufall walten läßt, trifft es mal den oder mal den, der dort befragt wird. Wenn das nicht der Fall wäre, dann wäre es keine repräsentative Umfrage." ...
Die Stichprobe wurde aus der Gesamtheit der Wahlberechtigten gezogen, die in Privathaushalten mit Telefonanschluß leben.
Für die Stichprobe wurde eine zweifach geschichtete Zufallsauswahl verwendet. Zunächst wurden Haushalte ausgewählt, dann eine Person eines jeden Haushalts. ...
Die gewichtete Umfrage ist unter Berücksichtigung der wahrscheinlichkeitstheoretischen Grundlagen von Stichproben repräsentativ für die wahlberechtigte Bevölkerung Westdeutschlands. Da es sich um eine Zufallsstichprobe handelt, kann für jedes Stichprobenergebnis ein Vertrauensbereich angegeben werden, innerhalb dessen der wirkliche Wert des Merkmals in der Gesamtheit mit einer bestimmten Wahrscheinlichkeit liegt.
Für die Erhebung ergeben sich folgende Vertrauensbereiche: Bei einem Merkmalswert von 50% liegt der wahre Wert mit einer Wahrscheinlichkeit von 95% bei einer Stichprobengröße von n=1000 zwischen 46,8% und 53,2%. Beträgt die Merkmalsausprägung 10%, so liegt der wahre Wert zwischen 8,1% und 11,9% ...

2. Die Interview- und Modellfehler werden nie berücksichtigt.

Was die Fehler betrifft, so muß man zwischen drei Ebenen unterscheiden.

Der Interviewfehler entsteht dadurch, daß die beim Interview gegebene Antwort nicht mit dem übereinstimmt, was der Befragte am Wahltag dann tatsächlich tut. Zum Beispiel, weil er seine Meinung geändert hat, er dem Interviewer nicht die richtige Antwort geben wollte, er sich noch nicht entschieden hat, er nicht zur Urne gehen wollte und dann doch ging oder umgekehrt. Außerdem gibt rund ein Drittel der Ausgelosten keine Antwort oder sie können vom Interviewer nicht erreicht werden. Ferner spielt die weit verbreitete Unkenntnis über die Unterscheidung von Erst- und Zweitstimme eine wichtige Rolle. Es kommt auch vor- allerdings nicht sehr häufig -, daß der Interviewer den Fragebogen selbst ausfüllt, weil dies viel schneller geht und die Bezahlung nicht gerade fürstlich ist.
Der Modellfehler entsteht dadurch, daß das Auswahlverfahren für den repräsentativen Querschnitt nicht auf einer echten Lotterie basiert. Es ist in der Praxis sehr schwierig und kostenaufwendig, eine Zufallsauswahl zu realisieren. Im Prinzip setzt dies voraus, daß man alle Wahlberechtigten vorher erfaßt, damit man jedem die gleiche Chance geben kann, ausgewählt zu werden. Das ist natürlich unmöglich. Aus Kostengründen werden bei der Zufallsauswahl schwerwiegende Qualitätsabstriche gemacht. Die in der Meinungsforschung verwendeten Notlösungen - z.B. Telephonauswahl - haben mit einer echten Lotterie ungefähr soviel gemeinsam wie eine Kokosnuß mit einem idealen Würfel.
Die Größe des Interview- und Modellfehlers ist nicht feststellbar. Sie kann aber gigantisch sein und in der Größenordnung von fünf Prozent und mehr liegen, wie aus eklatanten Fehlprognosen hervorgeht. In der demoskopischen Werbung hingegen wird unentwegt der repräsentative Querschnitt als Miniaturbild besungen.

3. Die Launen des Zufalls

Um den Leser mit den Problemen und Launen des Zufalls vertrauter zu machen, haben wir an der Universität auf dem Computer die Auslosung von einer Million repräsentativen Querschnitten unter idealen Bedingungen simuliert. Wir haben angenommen, die ausgelosten (alias "repräsentativ ausgesuchten") Bundesbürger würden wie in einer gut organisierten Volksdemokratie den ausgefüllten Stimmzettel für den Interviewer bereithalten, den sie am 25. Januar 1987 in die Wahlurne legten, insbesondere auch jenes Drittel von Wahlberechtigten, die üblicherweise die Auskunft verweigern oder nicht aufzuspüren sind. Dieses Vorgehen bietet gegenüber den gängigen Methoden der Umfrageforschung einige Vorteile: Es kostet fast nichts, die Resultate liegen innerhalb einiger Stunden vor und jedermann merkt bald, welche Aussagefähigkeit "der repräsentative Querschnitt" besitzt. Das amtliche Bundestagswahlergebnis vom 25. Januar 1987 lautete bekanntlich:

CDU/CSU SPD FDP Grüne
44,3% 37,0% 9,1% 8,3%
Tabelle 1:
  CDU/CSU SPD FDP Grüne
1. Institut 40,3% 41,4% 8,6% 9,0%
2. Institut 44,1% 38,4% 8,7% 7,7%
3. Institut 43,9% 38,5% 8,8% 8,2%
4. Institut 47,1% 35,6% 7,8% 8,3%
5. Institut 43,1% 37,4% 9,5% 8,8%
6. Institut 47,0% 36,3% 8,4% 6,9%
7. Institut 44,5% 34,3% 10,3% 9,4%
8. Institut 43,5% 38,9% 8,4% 7,7%
9. Institut 42,0% 37,9% 10,8% 8,1%
10. Institut 43,7% 38,9% 8,7% 6,9%

In Tabelle 1 sind die Resultate der ersten zehn ausgelosten repräsentativen Querschnitte, die wir jeweils einem Meinungsforschungsinstitut zuordnen, abgedruckt. Dem Institut Nr. 1 wird der erste repräsentative Querschnitt zugeordnet, Institut Nr. 2 der zweite usw. Wie man sieht, reichten diese zehn Meinungsforschungsinstitute bereits aus, um in der damaligen Republik jedermann glücklich zu machen. Bundeskanzler Helmut Kohl fühlte sich beim Institut Nr. 4 in guten Händen, denn es garantierte ihm 47,1% und hielt gleichzeitig die FDP mit 7,8% in Schach. Die SPD wurde vom Institut Nr. 1 mit dem Traumresultat von 41,1% beglückt, was zusammen mit den Grünen (9,0%) eine hauchdünne Mehrheit ergab, und so durfte Oskar Lafontaine versuchen, das grünrote Mißverständnis in eine Regierungsmehrheit für Wackelkontakte umzufunktionieren. Die Grünen, jedenfalls die Realos, hielten sich ebenfalls an Institut Nr. 1, während die Fundis mit Institut Nr. 7 besser fuhren, dort wurde ihnen nicht nur 9,4% verbrieft, sondern es wurde ihnen auch weisgemacht, daß die SPD mit 34,3% in den letzten Zügen lag. Die FDP schließlich berief sich auf Institut Nr. 9, nach welchem Strauß & Kohl mit 42,0% reif für Botschafterposten in Monaco und Liechtenstein waren, während Genscher mit 10,8% zum Quasi-Bundeskanzler und zur Integrationsfigur für den Rest der Union wurde.
Wie man sieht, hat der repräsentative Querschnitt viele Facetten. Man beachte dabei, daß die zehn Institute weder gepfuscht noch geschummelt haben. Im Gegenteil, ihre Repräsentativumfragen - nämlich die obigen zehn Auslosungen - sind unter idealen Bedingungen zustandegekommen. Die Abweichungen (Lotterieschäden) sind die Folge der Zufallsauswahl und lassen sich grundsätzlich nicht vermeiden.

Sind solche Abweichungen extrem?
Nein, sie sind normal! Die Institute arbeiteten optimal. Der Modellfehler war praktisch Null, die Kokosnuß wurde durch den Zufallszahlengenerator auf einem Großrechner ersetzt. Es wurden alle Befragungsfehler eliminiert und unsere "repräsentativ ausgesuchten" Bundesbürger hatten keine Möglichkeit, zwischen dem Interview und dem Wahltag ihre Meinung zu ändern. Wir haben deshalb die Demoskopen für unsere Auswertung auf Kurzarbeit gesetzt und sie nur zum Stimmenzählen eingesetzt. Ihre Gewichtungskünste wurden überflüssig, denn Stimmzettel in einer Wahlurne braucht man nicht mehr zu gewichten. Man muß sie nur auslosen und zählen. Den faulen Ausreden der Wahlforscher, die sie jeweils anführten, wenn sie bei einer Wahl einen Reinfall erlebten - zum Beispiel ein "Meinungsumschwung" in letzter Minute -, wurde damit die Grundlage entzogen. Unversehrt blieb einzig die Zufallsauswahl: eine reine Lotterie!
Und diese beerdigt jede Illusion, daß mit Repräsentativumfragen der Wahlausgang in der BRD auf wissenschaftlicher Basis vorausgesagt werden kann. Dafür ist dieses Instrumentarium in einer Situation, wo seit Jahrzehnten Verschiebungen von wenigen Prozenten wahlentscheidend sind, viel zu ungenau. Wahlhoroskope haben dieses Problem natürlich nicht.

4. Quantifizierung der Lotterieschäden

Die Methoden der Demoskopie, die statistisch gesehen auf dem schwachen Gesetz der großen Zahl beruhen, lassen grundsätzlich nur Aussagen mit einer gewissen Fehlerbandbreite für Lotterieschäden zu, die von der gewählten Sicherheitswahrscheinlichkeit und von der Anzahl der Befragten abhängen. Man kann eben nicht ungestraft von 1000 oder 2000 auf 60 Millionen hochrechnen. Jedes Ding hat seinen Preis.
Je größer die Fehlerbandbreite gewählt wird, umso gröfser wird die Sicherheitswahrscheinlichkeit und umgekehrt. Werden mehr Leute befragt, dann wird die Fehlerbandbreite für Lotterieschäden kleiner. Im Prinzip könnte man die Fehlerbandbreite so klein machen, daß sie praktisch keine Rolle mehr spielt. Dann müßte man allerdings ganze Divisionen befragen, aber wer soll das bezahlen, wer hat so viel Geld..-? Das Problem der Zuverlässigkeit und Genauigkeit von Umfrageresultaten wäre aber damit nicht aus der Welt geschafft. Mit Mega-Umfragen könnte man zwar das letzte statistische Haar aus der Suppe fischen, doch der Interview- und Modellfehler bliebe als Balken im demoskopischen Auge zurück.

Wie eingangs erwähnt, ließ das ZDF-Politbarometer im August 1994 auf Grund einer sogenannten Repräsentativumfrage bei 1000 Ossis und 1000 Wessis verkünden, die Bundesbürger würden am nächsten Sonntag wie folgt abstimmen:

CDU/CSU SPD FDP Grüne PDS Republikaner
41% 36% 6% 9% 4% 2%

Im Gegensatz zu dieser polierten Show würden Wahlprognosen in wissenschaftlich vertretbarer Form, das heißt unter Angabe der Lotterieschäden, nur Kopfschütteln auslösen.
Die statistische Auswertung von einer Million ausgelosten repräsentativen Querschnitten zu je 1000 Befragten im Westen und im Osten zeigt Folgendes: Selbst wenn der Fragebogen nur die Sonntagsfrage bezüglich CDU/CSU, SPD, FDP, Grüne/Bündnis 90, PDS und Republikanern enthielte, beliefen sich bei einer Wahlbeteiligung von 75% die Lotterieschäden für die großen Parteien (CDU/CSU und SPD) auf etwa acht Prozent, für die kleinen Parteien (FDP, Grüne/Bündnis 90, PDS und Republikaner) auf etwa zwei bis fünf Prozent (bei einer statistischen Sicherheitswahrscheinlichkeit von 95%). Wer ist schon an einer Prognose der Form:

CDU/CSU SPD FDP Grüne PDS Republikaner
37% - 45% 32% - 40% 4% - 8% 6,5% -11,5% 2,5% - 5,5% 1% - 3%

interessiert und würde dafür zig-tausend Mark hinblättern? Etwa das ZDF, wenn es sein Politbarometer unter die Lupe nähme?

Geht es wirklich nicht besser?
Die Antwort ist nein. Würden die Wahlforscher den Spielraum für die Lotterieschäden mit Gewalt halbieren - für die großen Parteien duf 4% und für die kleinen auf 1% bis 2,5% - und versuchen, Prognosen in der Form:

CDU/CSU SPD FDP Grüne PDS Republikaner
39% - 43% 34% - 38% 5% - 7% 7,8% -10,2% 3,3% - 4,7% 1,5% - 2,5%

zu lancieren, dann sind diese aus mathematisch-statistischen Gründen mit einer Wahrscheinlichkeit von über 50% (!) falsch. Mit Knobeln fährt man besser, da hat man wenigstens eine Chance von 50%.

5. Unterschlagung der Fehlerbandbreiten

Eine "Repräsentativumfrage" ohne gleichzeitige Angabe von Fehlerbandbreite für Lotterieschäden und Sicherheitswahrscheinlichkeit ist so irreführend wie die Reklame einer Landeslotterie, durch den Kauf von Losen werde man Millionär.
Aber diese entscheidenden Informationen zur Beurteilung der Aussagefähigkeit von Umfrageergebnissen erreicht den Demoskopie-Endverbraucher nie. Vor allem im politischen Bereich fallen die Fehlerbandbreiten einer Symbiose von Politikern, Medien und Meinungsforschungsinstituten zum Opfer. Wer würde eine Prognose mit einer Fehlerbandbreite von 8% für die großen und 2% bis 5% für die kleinen Parteien veröffentlichen? Etwa der SPIEGEL, der STERN, die WELT, die FAZ, die SÜDDEUTSCHE ZEITUNG oder gar die BILD-Zeitung? Etwa das Politbarometer des ZDF oder der Meinungsreport der ARD? Die BILD-Zeitung, der STERN, die WELT und duch DER SPIEGEL wollen ihre Auflage verkaufen und nicht einstampfen. An Einschaltquote Null für sein politisches Barometer ist daS ZDF nicht interessiert. Das wissen die Datenhändler, welche die Medien mit Zahlenmaterial eindecken, ganz genau. Zwei Beispiele:

Die Demoskopen wissen ganz genau, daß sie mit ihren Meßmethoden grundsätzlich nicht in der Lage sind, gesicherte Prozentzahlen zu ermitteln. Doch sie täuschen vor, sie könnten mit ihrer Elle aus Gummi - dem repräsentativen Querschnitt - Millimeterbruchteile messen, als hätten sie eine Schieblehre.

Wenn ein Wahlforscher oder Meinungsforscher nackte Prozentzahlen ohne FehIerbandbreiten lanciert, mit oder ohne Nachkommastelle, und solche dem Auftraggeber zum öffentlichen "Gebrauch" überläßt, dann ist dies statistischer Betrug.
Das ist zwar nicht Betrug im Sinne von StGB §263, rückt aber den Tatbestand in die Nähe von §108a über Wählertäuschung.

"Wer durch Täuschung bewirkt, daß jemand bei der Stimmabgabe ... irrt, oder, ... nicht oder ungültig wählt, wird mit Freiheitsstrafe bis zu zwei Jahren oder Geldstrafe bestraft."

Lügnerische Wahlpropaganda (von Politikern, Parteien, Medien usw .) soll damit nicht erfaßt werden. Aber es ist nicht anzunehmen, daß Wahlforscher für ihre Prognosetätigkeit diese juristische Qualifikation in Anspruch nehmen möchten, denn sie geben ja vor, die Volksmeinung objektiv zu messen.
In der Begründung zu §108a wird das damit verfolgte Ziel genauer beschrieben (vgl. Bundestagsdrucksache 1. Wahlperiode Nr. 1307 betreffend des damaligen Paragraphen 107a; Urteil des BGH, BGHSt 9, 338):

"In erster Linie Schutz des einzelnen Wählers gegen eine Täuschung, die den Verlust seines Stimmrechts zur Folge hat, mittelbar aber auch Vorsorge gegen eine Verfälschung des Wahlergebnisses entgegen dem wirklichen Willen der Wählergesamtheit."

Der Tatbestand der Täuschung, "Erstellung oder Vorspiegelung falscher Tatsachen bzw. Unterdrückung wahrer Tatsachen", ist durch die Unterschlagung der Fehlerbandbreite bei der Sonntagsfrage und die Angabe pseudoexakter Zahlen unmittelbar vor der Wahl zweifellos erfüllt. Damit wird der sogenannte taktische Wähler, der sein Wahlverhalten aufgrund solcher Zahlen ändert, irregeführt. Durch eine entsprechende Rechtsprechung oder - falls dies juristisch notwendig ist - eine präzisere Formulierung von §108a gemäß der ursprünglichen Absicht des Gesetzgebers könnte damit die Täuschung dieses Teils der Wählerschaft erfaßt werden.

Beeinflussen Wahlprognosen die Wähler?

Prof. Dr. Noelle-Neumann
Chefin des Instituts für Demoskopie Allensbach
Klaus Liepelt
Chef des Instituts für angewandte Sozialforschung INFAS
Wolfgang G. Gibowski,
Gründungsmitglied der Forschungsgruppe Wahlen
Der Spiegel Nr. 11, 1993 Journal Mobil, WDR III Dortmund (Aktuelle Stunde), 27.9.1989 Schwetzinger Zeitung, 8. November 1990
SPIEGEL: ... "Ganz allgemein gefragt: Hat es eine Wirkung auf die Wähler, ob der FDP von den Meinungsforschern 4 oder 5, ob ihr gar 6 oder 8 Prozent zugesprochen werden?"
NOELLE-NEUMANN: "Davon bin ich überzeugt. In England spricht man von taktischen Wählern, die gibt es auch in Deutschland. Sie wählen nicht nur mit dem Herzen, sondern überlegen sehr genau, wie ihre Stimmen am besten genutzt werden. Sehr viele Splittingwähler gehören zu dieser Gruppe, deren Verhalten mit Umfragedaten stark beeinflußt werden kann."
SPIEGEL: "Würden Sie ein Verbot der Veröffentlichung von Umfragen eine Woche bis vier Wochen vor der Wahl bejahen ?"
NOELLE-NEUMANN: "Nein, es ist ohnehin zweifelhaft, ob ein solches Verbot mit den in der Verfassung garantierten Grundrechten vereinbar wäre, aber ich bezweifle auch, ob es realisierbar wäre. ..."
INTERVIEWERIN: "Herr Liepelt, ist es denn nicht schon so, daß die Wahlprognosen an sich schon die Wahl beeinflussen ?"
LIEPELT: "Nein natürlich beeinflussen Prognosen ebensowenig eine Wahl wie das, was Sie als Journalisten über den Wahlkampf berichten oder was die Parteigeschäftsführer an Werbung herausgeben, sondern es ist einfach so: Die Meinungsumfragen gehören nun einmal zum öffentlichen Leben dazu, jeder möchte gerne wissen: 'Wie sind die Chancen des Machtwechsels? Soll ich eine Regierung stützen oder stürzen helfen?'. Das ist ja für mich die Frage als Wähler. Also möchte ich auch Informationen haben, wie der Stand nun eigentlich ist, damit ich mein Urteil auch daran orientieren kann. Insofern ist die Meinungsumfrage ein Hilfsmittel zur Orientierung des Wählers, was aus einer normalen Demokratie gar nicht mehr wegzudenken ist." ...
"Ein Thema wie die absolute Mehrheit oder das Erreichen einer FünfProzent-Hürde wird, wenn es öffentlich erörtert wird, eine Diskussion auslösen, die in der Regel das Eintreten des Ereignisses verhindert. Je intensiver in der Öffentlichkeit diskutiert wird, ob die CDU/CSU die absolute Mehrheit erreicht oder nicht, desto wahrscheinlicher ist es, daß sie diese nicht erreicht. Genauso wahrscheinlich ist, daß eine Partei nicht an der Fünf-Prozent-Hürde scheitert, wenn in der Öffentlichkeit kurz vor der Wahl heftig erörtert wird, daß diese Partei knapp vor dieser Hürde steht. Es handelt sich hier um sich selbstzerstörende Prophezeiungen, die, vermittelt durch die Medien, in der Öffentlichkeit diskutiert werden und deswegen einen Stimmungswandel herbeiführen können." ...

6. Dichtung und Gewichtung

    Tabelle: Dichtung und Gewichtung im Politbarometer des ZDF
    Grafik: Wie Wahlprognosen gemacht werden

Das Dilemma unserer Wahlforscher besteht also darin, daß Meinungsumfragen betreffend der Sonntagsfrage bei Berücksichtigung der Fehlerbandbreiten für Lotterieschäden - vom Interview- und Modellfehler ganz zu schweigen - nur lächerlich vage Resultate zu liefern vermögen, die angesichts der politischen Stabilität in der BRD niemanden interessieren würden. In dieser Notlage erfanden unsere Wahlforscher eine magische Formel, das statistische Ei des Columbus. Damit können lotteriegeschädigte und mit Interviewfehlern gesegnete Umfrageergebnisse wieder gesundgedoktert werden. Eine Umgewichtungsprozedur, deren alchimistischer Gehalt unverkennbar ist, ermöglicht es, den "Vertrauensintervallen" die Luft abzulassen. Alsdann schlüpfen "exakte" Zahlen aus der Retorte, bis hin zur Stelle nach dem Komma. Unsere Wahlforscher reden feierlich von Gewichtungskunst. In Anbetracht der unkontrollierbaren Lotterieschäden und der unvermeidlichen Interviewfehler erfordert dieses Abenteuer jene unverkennbare Mischung von grenzenlosem Selbstvertrauen und unerschütterlicher Ahnungslosigkeit, die nun einmal zum Rüstzeug eines praktizierenden Wahlforschers gehört.
Leider entpuppt sich das statistische Ei des Columbus im demoskopischen Alltag als Kuckucksei. Die alchimistische Recall-Formel produziert nicht selten surrealistische Resultate, so daß weitere Meinungsklima-Kuren vonnöten sind, bis etwas Vermarktbares entsteht.
Frau Noelle-Neumann sieht dies natürlich ganz anders. Dem SPIEGEL (Nr. 11, 1983, S. 43) erklärte sie dies so:

" ... das Verfahren der Gewichtung ist streng formalisiert, es verläuft nach einem Programm, es gibt nicht die geringste Beliebigkeit dabei. Es geschieht buchstäblich nichts, was nicht nachvollzogen und nachgeprüft werden kann. Hexenküche ist deshalb ein ganz falsches Wort. ... "

Nur: das Gewichtungsprogramm und die Rohzahlen erblicken fast nie das Licht der Außenwelt. Der Hexenküche entsteigen nur sorgfältig präparierte Zahlen, denn auf die SPIEGEL-Frage


"Wären Sie grundsätzlich bereit, die 'Rohzahlen' zu veröffentlichen, die ihren 'gewichteten Zahlen' zugrundeliegen?"

antwortete Frau Noelle-Neumann:

"Nein. Die Bevölkerung und auch die Jouralisten erklären sich schon jetzt für verwirrt. Warum sollten wir sie noch weiter verwirren? ..."

Die Qualität der Arbeit eines Institutes, so führte sie im weiteren aus, lasse sich nur mit dem fertigen Produkt - den Wahlprognosen auf der Basis von gewichteten Umfrageergebnissen - beweisen.
Nur bei einem Institut, der Forschungsgruppe Wahlen, die im Auftrag des ZDF die Unterlagen für das Politbarometer erstellt, sind Rohzahlen und Gewichtung mit einigem Aufwand eruierbar. Sie liefert nämlich die Rohdaten dem Sozialarchiv der Universität Köln, sodaß man durch Vergleich der ZDF-Sendungen mit den Originaldaten eine genaue Vorstellung darüber bekommt, was sich in diesen Hexenküchen abspielt. Deshalb nehme ich im folgenden ausschließlich das ZDF-Politbarometer unter die Lupe. Es muß aber an dieser Stelle betont werden, daß die Forschungsgruppe Wahlen sich stets gegen die Gewichtung gesträubt hat, sie aber durch politischen Druck im Frühjahr 1986 dazu gezwungen wurde. 1) In der auf der folgenden Doppelseite abgebildeten Tabelle 'Wahlforschung in der Praxis: Dichtung und Gewichtung im ZDF-Politbarometer' sind die Umverteilungen bei den Prozentzahlen seit der Einführung der politischen Gewichtung im März 1986 bis heute (September 1994) dargestellt. Als Bonus wird bezeichnet, was das ZDF-Politbarometer aus der hohlen Hand beisteuert, als Malus, was es unter den Tisch fallen läßt. Man erkennt auf den ersten Blick, daß in der ZDF-Politbarometer-Show

Das Feinbild enthüllt weit mehr:

Eine so systematische Gewichtungsprozedur riecht nach politischer Manipulation. Ich glaube aber, daß der Schein trügt. Wahlforscher sind primär darauf bedacht, mit ihren Prognosen nicht falsch zu liegen 2). Sie mögen, wie ein jeder Bürger, auch ein politisches Herz haben, aber die eigene Kasse geht vor, und diese übt einen gewissen Zwang in Richtung politischer Neutralität aus. Die Erklärung für diese Art von systematischen Verfälschungen liegt anderswo, wie im folgenden Abschnitt gezeigt wird. Die Wahlforscher sind Gefangene ihrer Versprechungen geworden. Sie kehrten die Lotterieschäden und Interviewfehler unter den Teppich und gaukelten vor, sie könnten die Volksmeinung betreffend der Sonntagsfrage genügend genau bestimmen. Als sie merkten, daß die Resultate von Repräsentativumfragen für Wahlprognosen unbrauchbar waren 3), suchten sie nach einem Ausweg und fanden ihn auch:

Die politische Stabilität der BRD

Wolfgang Gibowski, damals Betreiber des ZDF-Politbarometers, formulierte dies 1986 so: "Überhaupt sind die Bundestagswahlergebnisse der letzten 20 Jahre recht stabil, stabiler jedenfalls als Umfrageergebnisse der Sonntagsfrage." (Handelsblatt, 1.3.1986)

    Tabelle: Dichtung und Gewichtung im Politbarometer des ZDF
    Grafik: Wie Wahlprognosen gemacht werden

7. Wie werden Wahlprognosen gemacht?

Man nehme das letzte Wahlresultat und passe es Pi mal Daumen der aktuellen Situation an. Der geneigte Leser möge sein Glück als Politbarometerfrosch zwischen zwei Bundestagswahlen selbst versuchen: Er nehme das Wahlresultat vom 25.1.1987

CDU/CSU SPD FDP Grüne
45% 37% 9% 8%

und mache nun eine Prognose für den Februar 1987. Was soll sich geändert haben? Nichts! Also lautet seine Prognose für die nächste Bundestagswahl kurz und bündig:

CDU/CSU SPD FDP Grüne
45% 37% 9% 8%

Ein großes Risiko geht er dabei kaum ein, denn erstens unterscheidet sich seine Prognose kaum vom letzten Wahlresultat, und die nächste Wahl liegt ja in weiter Ferne. Das ZDF-Politbarometer hingegen hat es nicht so leicht, denn es führt zum Preis von runden 30.000 DM im Februar 1987 drei Wochen nach der Wahl eine repräsentative Nachbefragung durch, mit dem Resultat:

CDU/CSU SPD FDP Grüne
47% 40% 6% 7%
(+2%) (+3%) (-3%) (-1%)

Ein Blutbad bei der FDP (-3%), der ein Drittel der Wähler davonläuft, und beträchtliche Gewinne für SPD (+3%) und die Union ( + 2%). Wie soll man das im ZDF-Politbarometer der verdutzten Öffentlichkeit erklären? Es ist ja nichts passiert! Aber halt, da gibt es noch die Gewichtung. Und die erweist sich als der Retter in der Not:
Die FDP erhält ihren Verlust von 3% aus der Gemeinschaftskasse rückerstattet und ebenso die Grünen 1 %, während die SPD und die CDU/CSU einen Solidarbeitrag von 3% bzw. 2% entrichten, wie einst zur Zeit der großen Koalition. Die gewichtete Politbarometer-Prognose kommt also zum gleichen Schluß wie der geneigte Leser. Mit einem kleinen, aber feinen Unterschied: Er - der geneigte Leser - möge es einmal versuchen, dem ZDF runde 30000 DM für diese Weisheit abzuknöpfen... .
Wie es weiterging, kann man der Graphik "Wie werden Wahlprognosen gemacht?" entnehmen. Egal, was die "Repräsentativumfrage" der Forschungsgruppe Wahlen auch ergab, es wurden der CDU/CSU und der FDP 1987 monatelang 45% bzw. 9% auf den ZDF-Bildschirm geschrieben, es wurde einfach entsprechend umgewichtet, bis das Wahlresultat herauskam, konkret:

  CDU/CSU FDP
März +1% +2%
April -3% +1%
Mai 0% +2%
Juni +2% +1%
August +1% +2%

Entsprechend erhielten SPD und Grüne zusammen immer 45%. Als die gemessenen Zahlen für die CDU/CSU in den Keller gingen und die der SPD in den Himmel stiegen, da gab das ZDF-Politbarometer dem Druck der Straße schließlich nach, wenn auch behutsam und völlig verzerrt:
Z.B. waren die Union und die SPD laut ZDF-Politbarometer im Mai 1988 erstmals gleich stark (bzw. schwach) , beide erhielten 42%, mit dem Unterschied, daß die Union zu diesem Resultat ganze 36% beisteuerte, während der SPD von der gemessenen absoluten Mehrheit von 51% volle 9% abgezwackt wurden.
Als im Sog der Wiedervereinigungseuphorie die Zahlen der Union 1989/90 wieder anstiegen und die SPD ins Bodenlose fiel, wurde mit der Gewichtung prächtig gegengesteuert: Als der Einheitskanzler im Oktober 1990 gar 49% verbuchte, während den Einheitsquertreibern der SPD das historische Tief von 32% beschert wurde, da ersparte das ZDF-Politbarometer der Union wieder einmal das Odium der absoluten Mehrheit und gab ihr eine Schmerzspritze von -2%, während der desolaten SPD mit +3% unter die Arme gegriffen wurde. Nur einen Monat später wurde das Resultat der Union von 45% auf 45,5% aufgebessert, die SPD hingegen von 36% auf 35% beschnitten.
Wie man sieht, spielen die aktuellen Umfrageergebnisse in der Politbarometer-Hexenküche kaum eine Rolle, aber eine große Hexerei ist diese Sache nicht, und von Giftmischerei kann keine Rede sein.

Die ergreifende Weisheit besteht darin, die alten Zahlen behutsam abzuschreiben und sie mit der Zeit manchmal ein klein wenig nach unten oder oben zu korrigieren, ±1%, in Ausnahmefällen auch einmal ±2%.

Daß allein die Lotterieschäden bei einer "Repräsentativumfrage" zu größeren Veränderungen führen - von den Interviewfehlern ganz zu schweigen -, wird einfach ignoriert, sie werden beide "freihändig" weggedoktert. Der Geschäftsführer von Basisresearch meinte dazu philosophisch: "Eine fundierte theoretische, wissenschaftliche Grundlage dafür gibt es nicht. Das läuft rein pragmatisch ab" (Wirtschaftswoche 2.1.1987, S. 29). Das einzig Sichere bei diesem Geschäft ist, daß diese 'Pragmatiker', die mit beiden Füßen fest in der Luft stehen, uns wohlerhalten bleiben, solange Nachfrage und Glauben an Prognosezahlen bestehen.
Es ist klar, daß dieses Vabanquespiel entlang der historischen Leitplanken genau so lange funktioniert, wie sich die politische Landschaft nicht wesentlich ändert. Wahlprognosen treffen dann ins Schwarze, wenn das neue Wahlergebnis dem alten gleicht wie ein Ei dem andern. Der Unterschied zwischen den Meinungsforschungsinstituten in der Wahlforschung besteht hauptsächlich darin, daß die einen mit mehr Glück und einem etwas besseren Riecher als die anderen spekulieren, wobei nicht zu bestreiten ist, daß Frau Noelle-Neumann der Konkurrenz manchmal um eine Nasenbreite voraus ist 4). Aber Spekulation bleibt es allemal. Mit Wissenschaft hat das ganze nichts zu tun, sie dient nur als Aushängeschild.
Die Meinungsforscher schaffen sich hier einen Freiraum, von dessen Existenz und Ausmafß die Öffentlichkeit keine Ahnung hat.
Kein Meinungsforscher hat das Recht, die Unzulänglichkeiten seiner Meßmethoden mit Hilfe gefälschter Daten zu verheimlichen.
Diese Praktiken müssen nicht nur an den Pranger gestellt werden, nach meiner Meinung müßten diese Leute vor Gericht gestellt werden. Nicht weil sie spekulieren - das darf jeder -, sondern weil sie vorgeben, sie könnten und würden die Volksmeinung objektiv messen. Die strafrechtliche Erfassung hiervon wäre wie erwähnt über StGB §108a betreffend Wählertäuschung möglich, gegebenenfalls nach einer Anpassung dieses Gesetzesparagraphen. Die Täuschung des taktischen Wählers besteht darin, daß er glaubt, die "Wahlforscher" würden ihm kurz vor der Wahl die gemessene Volksstimmung vermitteln während sie ihm in Wirklichkeit eine Fortschreibung der alten Wahlresultate aufs Auge drücken.

8. Der zeitliche Trend

Es versteht sich auf Grund der Zufallsauswahl von selbst, daß Trendangaben keinen Bezug zur Realität haben, weil sie durch Lotterieschäden von zwei Meinungsumfragen bis zur Unkenntlichkeit entstellt werden. Wie kann ein Wahlforscher auf der Basis von Meinungsumfragen von einem "Trend" reden, wenn er diesen nicht von einem Pseudo-Trend unterscheiden kann? Haben sich die Parteistärken nicht geändert, dann täuschen nämlich zwei aufeinanderfolgende Meinungsumfragen von je 1000 Befragten im Westen und im Osten (bei einer Wahlbeteiligung von 75%) mit einer Wahrscheinlichkeit von rund 50% vor, daß für mindestens eine Partei eine markante Veränderung eingetreten ist. Das heißt, entweder ist (bzw. sind)

die CDU/CSU um mindestens 2,9%
oder die SPD um mindestens 2,8%
oder die FDP um mindestens 1,4%
oder Grüne/Bünd. 90 um mindestens 1,7%
oder die PDS um mindestens 1,2%

gestiegen oder gefallen, während sich in Wirklichkeit nichts geändert hat!

Will ein Wahlforscher mit der üblichen statistischen Sicherheit von 95% ausschließen, daß die von ihm ermittelten Trends nicht eine Laune des Zufalls darstellen, dann muß er gegenwärtig für mindestens eine Partei eine erdrutschartige Veränderung feststellen. Das heißt, entweder muß (bzw. müssen)

die CDU/CSU um mindestens 5,7%
oder die SPD um mindestens 5,6%
oder die FDP um mindestens 2,8%
oder Grüne/Bünd. 90 um mindestens 3,3%
oder die PDS um mindestens 2,3%

gestiegen oder gefallen sein. Um es boshaft auszudrücken:

Die "Gunst" des Zufalls beschert den Wahlforschern für mindestens eine Partei laufend Neuigkeiten und Schlagzeilen.

Was sich wirklich abspielt, das weiß kein Mensch, und die von den Meinungsforschungsinstituten gelieferten Daten über das zeitliche Auf und Ab der Parteistärken haben
reinen "Horoskopcharakter".
Sie täuschen Veränderungen vor, die quantitativ mit an Sicherheit grenzender Wahrscheinlichkeit falsch sind und die häufig nicht einmal qualitativ richtig sind.

9. Das falsche statistische Modell

Die statistischen Grundlagen von Wahlprognosen und Meinungsumfragen basieren u.a. auf dem "schwachen Gesetz der großen Zahl", vor allem aber auf dem unersättlichen Bedarf der zahlengläubigen Demoskopie-Endverbraucher. Hilfreich bei diesem Unterfangen ist ein falsches statistisches Modell. Da wird unverfroren angenommen, der ganze Fragebogen bestehe aus einer einzigen Frage, die mit ja oder nein zu beantworten ist (Binomialmodell). Dabei weiß jede Hausfrau, daß der Interviewer, der sich an einem schönen Nachmittag unvermittelt in ihrem Wohnzimmer festsetzt, ihr einen Fragebogen auf Endlos-Papier vorlegt und daß jede Frage einen Rattenschwanz von mäglichenAntworten offen läßt (Multinomialmodell). Doch das statistische Weltbild bleibt davon unberührt, es vererbt sich von einer Generation von bekennenden Demoskopen auf die nächste, wie ein Fluch bis ins dritte und vierte Geschlecht. Das richtige statistische Modell basiert nicht auf der Binomialverteilung, sondern auf Dutzenden von Multinomialverteilungen, die gleichzeitig betrachtet werden müssen, was praktisch nur mit einer Computersimulation möglich ist.
Die Berechnung von Lotterieschäden (alias Vertrauensintervallen) bei Umfragen mit Hilfe der handelsüblichen Methoden erinnert an jenen Metzger, der eine Wurst in ein Rudel von Hunden wirft und dann jedem Besitzer den Schmaus in Rechnung stellt. Gewiß kann kein Besitzer beweisen, daß es nicht sein Hund war, der die Wurst erwischte. Dennoch ist unser Metzger kein Vorbild für Integrität. Solche "Vertrauensintervalle" haben die Funktion von statistischen Alibiübungen und Milchmädchenrechnungen.

Unter der Glut der Computersimulationsonne schmelzen ganze Berge von harten Daten wie Butter. Allein die Lotterieschäden bei den handelsüblichen Meinungsumfragen sind fast doppelt so groß wie bisher angenommen, sie hängen nicht nur von der Anzahl der Interviews sondern auch von der Anzahl der Fragen und der Anzahl der möglichen Antworten ab.

(In statistischem Fachjargon heißt dies: De facto ist die Multinomialverteilung ein Produkt von Binomialverteilungen.)

10. Finale

Statistische Methoden und Modelle - und dazu gehören Meinungsumfragen - stellen ein nützliches und unentbehrliches Instrumentarium dar. Aber hinter den lautstark feilgebotenen Zahlen, mit welchen die Öffentlichkeit verrückt gemacht wird - das gilt von AIDS und Gesundheitsrisiken aller Art, von Einschaltquoten über Popularitätswerte von Politikern bis hin zu Wahlprognosen - verbirgt sich oft nur ein Minimum an gesicherter Information. Würden die Unsicherheiten und Spekulationen der Modellrechnungen ebenfalls quantifiziert, dann würde Vieles entdramatisiert und aus den Schlagzeilen verschwinden, so z. B. Wahlprognosen in der BRD und ein guter Teil der quantophrenen Weltuntergangswissenschaft.
Bürger, Politiker, Wähler, die zahlenhungrige Wirtschaft und insbesondere die schlagzeilenorientierte Wissenschaft müssen lernen, wo die Aussagekraft der Zahlen endet und wo die Geschäftstüchtigkeit, der missionarische Eifer oder gar die Manipulation beginnt.
Das Ausmaß der Zahlen- und Demoskopiehörigkeit der deutschen Politiker, die in Scharen hinter den demoskopischen Rattenfängern herlaufen, sei (stellvertretend) an Bundeskanzler Helmut Kohl anläßlich der Bundestagswahl 1987 illustriert.
Nachdem sich am Wahlabend aufgrund der Hochrechnungen für die Union ein Resultat von knapp 44% abzeichnete (gegenüber 49% bei der Wahl 1983), zeigte er sich in einer ersten Stellungnahme im ZDF tief enttäuscht:

"Wir in der Union haben unser Ziel nicht erreicht. Ich selbst habe gerechnet in einer Größenordnung von 46%, wir sind deutlich unter dieser Zahl geblieben. Das ist betrüblich. Wir haben Verluste erlitten, Verluste, mit denen niemand in diesem Umfang gerechnet hat."

Aus dieser Aussage geht hervor, daß er bzw. seine demoskopischen Ratgeber unter der Vorstellung litten (und wohl heute noch leiden), der Unterschied von 46% und 44% sei so eklatant, daß er einem Demoskopen unmöglich entgehen könne...
Die laufende Produktion von Popularitätswerten von Politikern ist ein weiteres Beispiel eines demoskopischen Zirkusaktes, der den Meinungsforschern Betriebsamkeit beschert und einen üppigen Lebensunterhalt verbürgt. Gespannt wie Schüler erwarten deutsche Politiker die Zensuren, die ihnen ein "repräsentativer" Querschnitt von Wahlberechtigten monatlich auf Geheiß der Demoskopen erteilen darf, und die dann von den Medien - dem ZDF-Politbarometer, der Süddeutschen Zeitung etc. - als demokratisches Urteil breitgetreten werden. Die Frage, ob diese Popularitätswerte überhaupt eine meßbare (d.h. reproduzierbare) Größe darstellen und mit welchen Lotterieschäden sie behaftet sind, wird erst gar nicht gestellt. Die Noten werden einfach brühwarm serviert und konsumiert. Dabei könnte man sie über weite Bereiche - und insbesondere ihr zeitliches Auf und Ab - ebensogut mit dem Würfel bestimmen. Das wäre erstens billiger und zweitens wäre damit klargestellt, um was es geht: um ein Unterhaltungsspiel im Fernsehen, Füllmaterial in den Zeitungen und einen Prostitutionsakt der deutschen Demoskopie.
Wenn der berühmte Psychologe Carl Gustav Jung - der Entdecker und Erforscher des kollektiven Unbewußten - noch lebte, würde er sich genötigt sehen, zwei weitere Archetypen psychoanalytisch therapierbar zu machen:

Zahlengläubigkeit und statistischer Übermut

Die Alchimisten vergangener Zeiten würden ihre heutigen Kollegen in der Prognoseindustrie beneiden. Was jenen während Jahrhunderten mangels geeigneter Stoffe und Knowhow versagt blieb, ist für unsere Meinungsforscher zur Routine geworden:

Aus Prozentzahlen und Aberglauben eine Goldgrube zu machen.

weiter zum Nachwort

Über diese Publikation
zum Archiv