Experimente und Statistik in der Psychologie und Linguistik
Es sind aufregende Zeiten. Wirklich! Gerade musste das Reproducibility Project der University of Virginia feststellen, dass sie über 60 Prozent von 100 psychologischen Experimenten aus drei hochrangigen Journals nicht replizieren konnten (siehe auch den Artikel in Science dazu). Was bedeutet das für die experimentelle Forschung, die ja auch in der Linguistik keine unerhebliche Rolle mehr spielt?
Exkurs: Replizierbarkeit versus Reproduzierbarkeit
Als Replikation bezeichnet man die Wiederholung eines Experiments unter gleichen Voraussetzungen und denselben Stimuli und (hoffentliche) den gleichen Ergebnissen. Daher ist eine lückenlose Dokumentation bei Experimenten äußerst wichtig. Eine Reproduktion dagegen ist eine annähernde Wiederholung eines Experiments, die dasselbe Phänomen untersuchen will. Dafür werden vergleichbare Daten durch vergleichbare Verfahrensweisen gewonnen: „Reproduzierbarkeit von Ergebnissen weist darauf hin, dass das Phänomen, das man untersucht, existiert“ (Felix Golcher & Anke Lüdeling).
Bei der lückenlosen Dokumentation von Experimenten hapert es leider sehr häufig, sodass es oft wirklich schwierig ist, ein Experiment wirklich zu replizieren. Oder erinnert sich jemand daran, mal in einem Paper wirkliche alle Stimuli abgedruckt gesehen zu haben? Natürlich gibt es hier mittlerweile auch Datenbanken, die versuchen das nachzuholen und in den Naturwissenschaften gibt es sogar Videojournals, die Videos von Experimenten bereithalten. Aber selbst, wenn wir eine vollständige Dokumentation hätten, wäre es oft wohl schwer möglich, ein Experiment exakt zu replizieren. Irgendetwas wird immer anders sein. Daher führt auch die Psychologieprofessorin Lisa Feldman Barrett in einem Artikel in der New York Times aus, dass es ganz logisch sei, dass sich Experimente (egal ob psychologisch oder naturwissenschaftlich) nicht immer replizieren lassen, weil zu viele Kontextfaktoren eine Rolle spielten. Vielmehr glaubt sie, dass das zum Wesen der Wissenschaft gehöre. Eine Wissenschaftlerin oder ein Wissenschaftler, der oder dem es nicht gelingt, ein Experiment zu wiederholen, sollten sich daher fragen, warum dies nicht der Fall ist, anstatt nur festzustellen, dass dies so ist. Und sie hat natürlich nicht unrecht, wenn sie schreibt:
Science is not a body of facts that emerge, like an orderly string of light bulbs, to illuminate a linear path to universal truth. Rather, science (to paraphrase Henry Gee, an editor at Nature) is a method to quantify doubt about a hypothesis, and to find the contexts in which a phenomenon is likely. Failure to replicate is not a bug; it is a feature. It is what leads us along the path — the wonderfully twisty path — of scientific discovery.
Allerdings muss man sich dennoch die Frage gefallen lassen, ob die experimentelle Forschung in der Psychologie und verwandten Fächern in einer Krise steckt – auch wenn Feldman das abstreitet. Die Diskussion um p-hacking, also einer Vorgehensweise, bei der alles getan wird, um ein statistisch signifikantes Ergebnis zu erhalten, ist nicht neu. Auch nicht neu, wenn auch nicht so bekannt wie p-hacking ist das sogenannte HARKing (Hypothesizing After the Results are Known), bei dem zu den nicht zur Hypothese passenden Resultate einfach eine neue Hypothese erfunden wird (eine Praxis, die es dringend einzudämmen gilt!). Rolf Zwaan hat diese Entwicklungen auf seinem Blog letztes Jahr in einer Geschichte über eine Stadt namen Psytown auf den Punkt gebracht:
Something needs to change in Psytown. The people need to know what’s right and what’s wrong. Maybe they need to get together to devise a system of rules. Or maybe a new sheriff needs to ride into town and lay down the law.
Neue Standards sollten also her, Wissenschaftler aufhören, Signifikanzen hinterherzulaufen. Wobei eigentlich das Problem ist, dass ein Experiment ohne signifikante Ergebnisse einfach kaum zu publizieren ist und Wissenschaftler/-innen nun mal immer an ihre Karriere und den nächsten Vertrag denken müssen. Also brauchen sie signifikante Ergebnisse, Standards hin oder her. Wir brauchen schlicht ein Umdenken, was genau Wissenschaft ausmacht und mehr Projekte, wie das Journal of Unsolved Questions, das (peer-reviewed) Nullergebnisse publiziert.
Gleichzeit geriet jedoch dennoch der klassische Nullhypothesentest (NHST) in Verruf. Und das geschah aus dem gleichen Grund, wie der, der zu Beginn dieses Artikels angeführt wurde: Nämlich aus der Feststellung heraus, dass die Ergebnisse vieler wissenschaftlicher Studien nicht replizierbar sind. Ursprünglich ging es jedoch nicht um die Psychologie, sondern um die Medizin. Dennoch kamen diese Ergebnisse schnell in der Psychologie an und führten zur Forderung: Do not trust any p value! Dieser Satz ist nur einer von 25 Vorschlägen von Geoff Cumming, der dazu auffordert, das p-hacking endlich sein zu lassen und stattdessen auf seine New Statistics zu vertrauen.
Die beiden Journals Psychological Science und das Journal of Research in Personality haben beide schnell auf solche Kritik reagiert, die New Statistics verpflichtend eingeführt und den klassischen p-Wert in die Verbannung geschickt. Das ist insofern interessant, weil Psychological Science das einflussreichste Journal der Psychologie überhaupt ist. Kürzlich zog dann auch das Basic and Applied Social Psychology nach und ging dabei sogar noch einen Schritt weiter: klassisches NHST wird nicht mehr akzeptiert, genauso wenig Konfidenzintervalle, Bayesianische Statistik wird zwar akzeptiert, ist jedoch auch nicht unbedingt willkommen.
Dazu sei gleich angemerkt, dass die New Statistics natürlich keine neue Statistik ist, sondern nur die Aufforderung, schon lange bekannte Methoden, endlich zum Standard zu erheben. Neben der Verwendung von Konfidenzintervallen und der Verbannung von NHST geht es Cumming aber auch darum, möglichst viele Replikationen durchzuführen. Und das wäre wirklich grandios! Vor allem für die Linguistik! Immer wieder fällt mir auf, dass bei vielen Ergebnissen der Sprachwissenschaft, die durch Experimente gewonnen oder durch solche belegt wurden, immer und immer wieder nur eine einzige Quelle angegeben wird (am besten eine aus den 1960er oder 1970er Jahren mit drei Probanden – um es mal überspitzt zu sagen). Wir brauchen dringend eine Kultur der Replikation und Reproduktion (das klingt jetzt nicht so, wie es gemeint ist). Aber das wird natürlich nicht einfach werden, denn das Ansehen von Replikationsstudien ist extrem gering, für das Erklimmen der wissenschaftlichen Karriereleiter sind sie nicht gerade die beste Wahl. Um es einmal vorsichtig zu sagen. Und zitiert werden sie garantiert auch nicht so häufig. Und die Anzahl der Zitate ist nun mal eine harte Währung.
Was wir aber mindestens ebenso dringend brauchen, ist eine Verankerung von statistischen Seminaren extrem früh in unseren Studienplänen. Ich schließe mich da nicht aus, wenn ich sage, dass es vielen Linguistinnen und Linguisten an statistischem Wissen mangelt. Das Wissen, das vermittelt werden muss, besteht nicht nur aus dem klassischen NHST, sondern wir brauchen weitaus mehr. Wir brauchen auch mehr als New Statistics, denn auch die steht massiv in der Kritik (ich empfehle folgende Links: hier, hier und hier noch eine Verteidigung der klassischen Methode). Wir brauchen auch Bayesianische Statistik und ein allgemeines Umdenken, dass es uns ermöglicht auch Nullresultate zu veröffentlichen. Und ich muss zugeben, dass die meisten meiner letzten Experimente genau das produziert haben. Aber darüber schreibe ich bald mehr.
Update: Links
Ich habe beschlossen, hier noch ein paar interessante Links zum Thema zu sammeln:
- Die New-Statistics-Video-Serie auf Youtube
- Blog-Beitrag von Sanjay Srivastava über die Rolle von hidden moderators in Replikationsstudien
- Can we life without inferential statistics? Blog-Beitrag von Rolf Zwaan
- Psychology journal bans P values. Beitrag auf nature.com