Replikationskrise: Unterschied zwischen den Versionen

Aus FreeWiki
Wechseln zu: Navigation, Suche
[gesichtete Version][gesichtete Version]
Zeile 12: Zeile 12:
 
=== Insgesamt ===
 
=== Insgesamt ===
  
Laut einer Umfrage von 1.500 Wissenschaftlern im Jahr 2016 berichteten 70% von ihnen, dass sie es versäumt hatten, mindestens ein anderes Experiment eines Wissenschaftlers zu reproduzieren (50% hatten es versäumt, eines ihrer eigenen Experimente zu reproduzieren).<ref>{{cite web|title=Is There a Reproducibility Crisis in Science?|url=https://www.scientificamerican.com/video/is-there-a-reproducibility-crisis-in-science/|publisher=Nature Video, Scientific American|date=28 May 2016|accessdate=15 August 2019}}</ref> Im Jahr 2009 haben 2% der Wissenschaftler, die zur Fälschung von Studien zugelassen wurden, mindestens einmal und 14%, die zur persönlichen Kenntnisnahme von jemandem, der dies tat, zugelassen wurden. Fehlleitungen wurden von medizinischen Forschern häufiger gemeldet als andere.<ref>{{cite journal|title=How Many Scientists Fabricate and Falsify Research? A Systematic Review and Meta-Analysis of Survey Data|first=Daniele|last=Fanelli|date=29 May 2009|journal=PLOS ONE|volume=4|issue=5|pages=e5738|doi=10.1371/journal.pone.0005738|pmid=19478950|pmc=2685008|bibcode=2009PLoSO...4.5738F}}</ref>
+
Laut einer Umfrage von 1.500 Wissenschaftlern im Jahr 2016 berichteten 70% von ihnen, dass sie es versäumt hatten, mindestens ein anderes Experiment eines Wissenschaftlers zu reproduzieren (50% hatten es versäumt, eines ihrer eigenen Experimente zu reproduzieren).<ref>{{cite web|title=Is There a Reproducibility Crisis in Science?|url=https://www.scientificamerican.com/video/is-there-a-reproducibility-crisis-in-science/|publisher=Nature Video, Scientific American|date=28 May 2016|accessdate=15 August 2019}}</ref> Im Jahr 2009 haben 2% der Wissenschaftler, die zur Fälschung von Studien zugelassen wurden, mindestens einmal und 14%, die zur persönlichen Kenntnisnahme von jemandem, der dies tat, zugelassen wurden. Fehlverhalten wurde häufiger von medizinischen Forschern gemeldet als von anderen.<ref>{{cite journal|title=How Many Scientists Fabricate and Falsify Research? A Systematic Review and Meta-Analysis of Survey Data|first=Daniele|last=Fanelli|date=29 May 2009|journal=PLOS ONE|volume=4|issue=5|pages=e5738|doi=10.1371/journal.pone.0005738|pmid=19478950|pmc=2685008|bibcode=2009PLoSO...4.5738F}}</ref></br>
 +
Ein weiterer wesentlicher Aspekt der Krise ist, dass der Sinn und die Brauchbarkeit des Signifikanzwertes p, nach welchem seit Jahrzehnten alle wissenschaftlichen Arbeiten als statistisch relevant oder wertlos beurteilt werden, grundlegend in Zweifel gezogen wird. In der Zeitschrift Nature<ref>Amrhein, V., Greenland, S., & MCShane, B. , 2019. Retire statistical significance. Nature, 567, p. 305-307</ref> haben kürzlich hunderte ForscherInnen einen Appell veröffentlicht, die übliche Signifikanzgrenze von 0,05 gänzlich in den Ruhestand zu schicken und statt dessen andere wissenschaftliche Kriterien zur Bewertung der Gültigkeit von in Studien gefundenen Effekten heranzuziehen.<ref>Dieser Zusammenhang wird ausführlich und gut verständlich erklärt von Harald Walach in seinem Blog: [https://harald-walach.de/2019/03/27/der-signifikanz-mythos-broeckelt/ Der Signifikanz-Mythos bröckelt.]</ref>  
  
 
=== Psychologie ===
 
=== Psychologie ===

Version vom 19. September 2019, 08:46 Uhr

Unterstützen Sie FreeWiki

Der folgende Textabschnitt basiert auf dem Artikel „Replication Crisis“ aus Wikipedia, gelesen am 31.8.2019, und steht unter der Lizenz Creative Commons CC-BY-SA 3.0 Unported (Kurzfassung). In der Wikipedia ist auf der genannten Seite eine Liste der Autoren verfügbar. Änderungen möglich.

Dieser Artikel ist eng mit dem Artikel über den Decline Effect verbunden, welcher Teil dieser Krise ist. Für weitere Erklärungen und Material siehe auch dort.

Die Replikationskrise (oder Wiederholbarkeitskrise oder Reproduzierbarkeitskrise) ist eine andauernde (2019) methodische Krise, in der festgestellt wurde, dass viele wissenschaftliche Studien schwer oder unmöglich zu reproduzieren oder zu wiederholen sind. Die Replikationskrise betrifft die Sozial- und Biowissenschaften am stärksten, [1][2], während die exakten Wissenschaften immer noch zögern, sich dem Problem überhaupt zu stellen und in ihrer Forschung meistens nicht einmal Verblindung verwenden.[3] Die Krise hat langjährige Wurzeln. Der Begriff selbst wurde Anfang 2010 geprägt[4] als Teil eines wachsenden Problembewusstseins. Die Replikationskrise bildet in der Wissenschaftstheorie einen wichtigen Forschungsgegenstand. [5]

Da die Reproduzierbarkeit von Experimenten ein wesentlicher Bestandteil der wissenschaftlichen Methode ist,[6] hat die Unmöglichkeit, die Studien anderer zu replizieren, potenziell schwerwiegende Folgen für viele Wissenschaftsbereiche, in denen bedeutende Theorien auf nicht reproduzierbaren experimentellen Arbeiten basieren. Die Replikationskrise wurde insbesondere im Bereich der Psychologie (insbesondere der Sozialpsychologie) und in der Medizin diskutiert, wo eine Reihe von Bemühungen unternommen wurden, klassische Ergebnisse neu zu untersuchen und zu versuchen, sowohl die Zuverlässigkeit der Ergebnisse als auch, wenn sie sich als unzuverlässig erweisen, die Gründe für das Scheitern der Replikation zu bestimmen.[7][8]

Umfang der Krise

Insgesamt

Laut einer Umfrage von 1.500 Wissenschaftlern im Jahr 2016 berichteten 70% von ihnen, dass sie es versäumt hatten, mindestens ein anderes Experiment eines Wissenschaftlers zu reproduzieren (50% hatten es versäumt, eines ihrer eigenen Experimente zu reproduzieren).[9] Im Jahr 2009 haben 2% der Wissenschaftler, die zur Fälschung von Studien zugelassen wurden, mindestens einmal und 14%, die zur persönlichen Kenntnisnahme von jemandem, der dies tat, zugelassen wurden. Fehlverhalten wurde häufiger von medizinischen Forschern gemeldet als von anderen.[10]
Ein weiterer wesentlicher Aspekt der Krise ist, dass der Sinn und die Brauchbarkeit des Signifikanzwertes p, nach welchem seit Jahrzehnten alle wissenschaftlichen Arbeiten als statistisch relevant oder wertlos beurteilt werden, grundlegend in Zweifel gezogen wird. In der Zeitschrift Nature[11] haben kürzlich hunderte ForscherInnen einen Appell veröffentlicht, die übliche Signifikanzgrenze von 0,05 gänzlich in den Ruhestand zu schicken und statt dessen andere wissenschaftliche Kriterien zur Bewertung der Gültigkeit von in Studien gefundenen Effekten heranzuziehen.[12]

Psychologie

Mehrere Faktoren sind zusammengekommen und haben die Psychologie in den Mittelpunkt der Kontroverse gebracht.[13] Ein Großteil des Fokus lag dabei auf dem Bereich der Sozialpsychologie,[14] obwohl andere Bereiche der Psychologie wie die klinische Psychologie,[15][16] Entwicklungspsychologie,[17] und Bildungsforschung ebenfalls einbezogen wurden.[18][19] According to a 2018 survey of 200 meta-analyses, "psychological research is, on average, afflicted with low statistical power".[20]

Erstens wurden fragwürdige Forschungspraktiken („questionable research practices“ = QRPs) als üblich im Bereich.[21] Solche Praktiken, obwohl sie nicht absichtlich betrügerisch sind, beinhalten die Nutzung der Grauzone akzeptabler wissenschaftlicher Praktiken oder die Nutzung der Flexibilität bei der Datenerfassung, -analyse und -berichterstattung, oft in dem Bestreben, ein gewünschtes Ergebnis zu erzielen. Beispiele für QRPs sind selektive Berichterstattung oder teilweise Veröffentlichung von Daten (nur einige der Studienbedingungen oder gesammelte abhängige Messungen in einer Publikation), optionales Stoppen (Wahl, wann die Datenerhebung gestoppt werden soll, oft basierend auf der statistischen Signifikanz von Tests), p-Wertrundung (Aufrunden der p-Werte auf 0.05, um statistische Signifikanz nahezulegen), den Schubladeneffekt (Nichtveröffentlichung von Daten), das Post-Hoc-Storytelling (Framing explorativer Analysen als Bestätigungsanalysen) und die Manipulation von Ausreißern (entweder das Entfernen von Ausreißern oder das Belassen von Ausreißern in einem Datensatz, um einen statistischen Test signifikant wirken zu lassen).[21][22][23][24] Eine Umfrage unter über 2.000 Psychologen ergab, dass eine Mehrheit der Befragten die Verwendung mindestens eines QRP zugelassen hat.[21] Falsch positive Schlussfolgerungen, die sich oft aus dem Druck zur Veröffentlichung oder des eigenen „confirmation bias“ des Autors ergeben, sind eine inhärente Gefahr für das Feld und erfordern ein gewisses Maß an Skepsis seitens der Leser.[25]

Zweitens haben sich insbesondere die Psychologie und die Sozialpsychologie im Mittelpunkt mehrerer Skandale wiedergefunden. bei denen es um echten Forschungsbetrug ging, vor allem die eingestandene Erfindung von Daten durch Diederik Stapel[26] sowie Vorwürfe gegen andere. Die meisten Wissenschaftler erkennen jedoch an, dass Betrug vielleicht der geringere Beitrag zu Replikationskrisen ist.

Drittens haben sich mehrere Effekte in der Psychologie bereits vor der aktuellen Replikationskrise als schwer reproduzierbar erwiesen. So hat beispielsweise die Fachzeitschrift "Judgment and Decision Making" im Laufe der Jahre mehrere Studien veröffentlicht, die die Theorie des unbewussten Denkens nicht unterstützen konnten. Replikationen erscheinen besonders schwierig, wenn Forschungsstudien vorregistriert und von Forschergruppen durchgeführt werden, die für die fragliche Theorie nicht sehr stark engagiert sind.

Diese drei Elemente zusammen haben zu einer erneuten Aufmerksamkeit für die Replikation geführt, die vom Psychologen Daniel Kahneman unterstützt wird.[27] Die Untersuchung vieler Effekte hat gezeigt, dass einige Kernüberzeugungen schwer zu replizieren sind. Eine aktuelle Sonderausgabe der Zeitschrift Sozialpsychologie, die sich auf Replikationsstudien konzentrierte, und eine Reihe von bisher vertretenen Überzeugungen erwiesen sich als schwer zu replizieren.[28] Eine Sonderausgabe der Zeitschrift Perspectives on Psychological Science aus dem Jahr 2012 konzentrierte sich auch auf Themen, die vom publication bias bis zur Null-Aversion reichen und zu den Replikationskrisen in der Psychologie beitragen.[29] Im Jahr 2015 wurde die erste offene empirische Studie zur Reproduzierbarkeit in der Psychologie veröffentlicht, das so genannte Reproduzierbarkeitsprojekt. Forscher aus der ganzen Welt arbeiteten zusammen, um 100 empirische Studien aus drei führenden psychologischen Zeitschriften zu replizieren. Bei weniger als der Hälfte der versuchten Replikationen war es gelungen, statistisch signifikante Ergebnisse in den erwarteten Richtungen zu erzielen, obwohl die meisten der versuchten Replikationen Trends in die erwarteten Richtungen hervorriefen.[30]

Viele Forschungsstudien und Metaanalysen werden durch schlechte Qualität und Interessenkonflikte beeinträchtigt, an denen sowohl Autoren als auch professionelle Interessenvertretungen beteiligt sind, was zu vielen falsch Positiven in Bezug auf die Wirksamkeit bestimmter Arten von Psychotherapie führt.[31]

Obwohl die britische Zeitung The Independent schrieb, dass die Ergebnisse des Reproduzierbarkeitsprojektes zeigen, dass ein Großteil der veröffentlichten Forschung nur "Psycho-Gequatsche" ist,[32] bedeutet die Replikationskrise nicht unbedingt, dass Psychologie unwissenschaftlich ist.[33][34][35] Vielmehr ist dieser Prozess ein gesunder, wenn auch manchmal bitterer Teil des wissenschaftlichen Prozesses, in dem alte Ideen oder solche, die einer sorgfältigen Prüfung nicht standhalten können, beschnitten werden,[36][37] auch wenn dieser Stutzungsprozess nicht immer effektiv ist.[38][39] Die Konsequenz ist, dass einige Bereiche der Psychologie, die einst als solide angesehen wurden, wie z.B. Social Priming, aufgrund gescheiterter Replikationen zunehmend unter die Lupe genommen werden.[40]

Der Nobelpreisträger und emeritierte Professor für Psychologie Daniel Kahneman argumentierte, dass die Originalautoren an der Replikation beteiligt werden sollten, da die veröffentlichten Methoden oft zu vage sind.[41] Andere wie Dr. Andrew Wilson sind anderer Meinung und argumentieren, dass die Methoden im Detail beschrieben werden sollten.[41] Eine Untersuchung der Replikationsraten in der Psychologie im Jahr 2012 ergab höhere Erfolgsraten in Replikationsstudien, wenn es zu Überschneidungen mit den Originalautoren einer Studie kam[42] (91,7% erfolgreiche Replikationsraten in Studien mit Autorenüberschneidungen im Vergleich zu 64,6% erfolgreichen Replikationsraten ohne Autorenüberschneidungen).

Replikationsraten in der Psychologie

Ein Bericht der Open Science Collaboration vom August 2015, der von Brian Nosek koordiniert wurde, schätzte die Reproduzierbarkeit von 100 psychologischen Studien aus drei hochrangigen psychologischen Zeitschriften.[43] Insgesamt lieferten 36% der Replikationen signifikante Ergebnisse (p Wert unter 0,05) im Vergleich zu 97% der ursprünglichen Studien, die signifikante Effekte hatten. Die mittlere Effektgröße in den Replikationen war etwa halb so groß wie die in den Originalstudien berichteten Effekte.

Im gleichen Beitrag wurden die Reproduzierbarkeitsraten und Effektgrößen nach Zeitschriften untersucht (Journal of Personality and Social Psychology[JPSP], Journal of Experimental Psychology: Learning, Memory, and Cognition [JEP:LMC], Psychological Science [PSCI]) und nach Disziplinen (Sozialpsychologie, kognitive Psychologie). Die Replikationsraten der Studien lagen bei 23% für JPSP, 38% für JEP:LMC und 38% für PSCI. Studien im Bereich der kognitiven Psychologie hatten eine höhere Replikationsrate (50%) als Studien im Bereich der Sozialpsychologie (25%).

Eine Analyse der Publikationsgeschichte in den Top-100-Psychologiezeitschriften zwischen 1900 und 2012 ergab, dass etwa 1,6% aller psychologischen Publikationen Replikationsversuche waren.[42] Artikel wurden als Replikationsversuch betrachtet, wenn der Begriff "Replikation" im Text erschien. Eine Teilmenge dieser Studien (500 Studien) wurde nach dem Zufallsprinzip für weitere Untersuchungen ausgewählt und ergab eine geringere Replikationsrate von 1,07% (342 der 500 Studien [68,4%] waren tatsächlich Replikationen). In der Teilmenge von 500 Studien zeigte die Analyse, dass 78,9% der veröffentlichten Replikationsversuche erfolgreich waren. Die Rate der erfolgreichen Replikation war signifikant höher, wenn mindestens ein Autor der Originalstudie Teil des Replikationsversuchs war (91,7% gegenüber 64,6%).

Eine 2018 in der Zeitschrift Nature Human Behaviour veröffentlichte Studie versuchte, 21 sozial- und verhaltenswissenschaftliche Arbeiten aus Nature und Science zu replizieren, wobei festgestellt wurde, dass nur 13 erfolgreich repliziert werden konnten.[44][45] Ebenso in einer Studie, die unter der Schirmherrschaft des Center for Open Science, ein Team von 186 Forschern aus 60 verschiedenen Labors (die 36 verschiedene Nationalitäten aus 6 verschiedenen Kontinenten repräsentieren), Replikationen von 28 klassischen und zeitgenössischen Erkenntnissen in der Psychologie durchführte.[46] Der Fokus der Studie lag nicht nur darauf, ob die Ergebnisse aus den Originalarbeiten repliziert wurden oder nicht, sondern auch darauf, inwieweit die Ergebnisse in Abhängigkeit von Variationen in Proben und Kontexten variierten. Insgesamt konnten 14 der 28 Befunde trotz erheblicher Stichprobengröße nicht repliziert werden. Wenn ein Befund jedoch repliziert wurde, wurde er in den meisten Stichproben repliziert, während er, wenn er nicht repliziert wurde, mit geringer Variation zwischen Stichproben und Kontexten nicht repliziert werden konnte. Dieser Nachweis steht im Widerspruch zu einer populären Erklärung, dass Versäumnisse bei der Replikation in der Psychologie wahrscheinlich auf Änderungen in der Stichprobe zwischen Original- und Replikationsstudie zurückzuführen sind.[47]

Ein soziales Dilemma der ganzen Disziplin

Im Versuch, die soziale Struktur herauszuarbeiten, die die Replikation in der Psychologie verhindert, zählten Brian D. Earp und Jim A. C. Everett fünf Punkte auf, warum Replikationsversuche ungewöhnlich sind:[48][49]

"#Unabhängige, direkte Replikationen der Ergebnisse anderer können für den replizierenden Forscher zeitaufwendig sein.

  1. "[Replikationen] werden wahrscheinlich Energie und Ressourcen direkt von anderen Projekten abziehen, die das eigene ursprüngliche Denken widerspiegeln.
  2. "[Replikationen] sind im Allgemeinen schwieriger zu veröffentlichen (größtenteils, weil sie als unoriginell angesehen werden).
  3. "Selbst wenn [Replikationen] veröffentlicht werden, werden sie wahrscheinlich als "Maurerarbeiten" angesehen, und nicht als wichtige Beiträge zum Thema.
  4. "[Replikationen] bringen ihren Autoren weniger Anerkennung und Belohnung und sogar weniger grundlegende Karrieresicherheit"[50]

Aus diesen Gründen halten die Autoren dafür, dass sich die Psychologie als Disziplin in einem sozialen Dilemma befindet, in dem die Interessen der Disziplin im Widerspruch zu den Interessen des einzelnen Forschers stehen.

Medizin

Medizinische Forscher gehörten zu den ersten, die Alarm schlugen, als es um die mangelnde Reproduzierbarkeit von vorklinischen Studien zu Arzneimitteln ging, die für den industriellen Einsatz bestimmt waren.[51] Dieser Mangel an Reproduzierbarkeit und damit an Zuverlässigkeit in der Forschung begann für Pharmaunternehmen zu einem wachsenden Problem zu werden, da ihre Entscheidungen, in welche Arzneimittelziele sie Geld für teure klinische Forschung investieren wollen, hauptsächlich von solchen Studien abhängen.

Von 49 medizinischen Studien von 1990-2003, mit mehr als 1000 Zitierungen, behaupteten 45, dass die studierte Therapie wirksam sei. Von diesen Studien wurden 16% durch Folgestudien widerlegt, 16% hatten stärkere Effekte gefunden als Folgestudien, 44% wurden repliziert, und 24% blieben weitgehend unangefochten.[52] Die US Food and Drug Administration fand in den Jahren 1977-1990 Fehler in 10-20% der medizinischen Studien.[53] In einer 2012 veröffentlichten Arbeit stellten Glenn Begley, ein Biotech-Berater, der bei Amgen arbeitet, und Lee Ellis von der University of Texas fest, dass nur 11% der vorklinischen Krebsstudien repliziert werden könnten.[54][55]

Ein Artikel vonJohn Ioannidis, Professor für Medizin und Gesundheitsforschung und -politik an der Stanford University School of Medicine und Professor für Statistik an der Stanford University School of Humanities and Sciences, ging 2016 darauf ein , „warum die meiste klinische Forschung nichts nützt“ ("Why Most Clinical Research Is Not Useful")".[56] Im Artikel legte Ioannidis einige der Probleme dar und forderte eine Reform mit bestimmten Charakteristika, damit die medizinische Forschung wieder nützlich sei; ein Beispiel dafür war die Notwendigkeit, dass die Medizin "patientenzentriert" sein müsse (z.B. in Form des Patient-Centered Outcomes Research Institute) anstelle der derzeitigen Praxis, sich hauptsächlich um "die Bedürfnisse von Ärzten, Forschern oder Sponsoren" zu kümmern. Ioannidis ist seit der 2005 erschienenen Arbeit "Why Most Published Research Findings Are False"[57] bekannt für seinen Forschungsschwerpunkt auf der Wissenschaft selbst.

Marketing

Marketing ist eine weitere Disziplin mit einem "dringenden Bedarf" an Replikation.[58] Viele berühmte Marketingstudien können beim Replikationsversuch nicht wiederholt werden, ein bemerkenswertes Beispiel ist der "too-many-choices"-Effekt, bei dem eine hohe Anzahl von Produktwahlen die Kaufwahrscheinlichkeit für einen Verbraucher verringern soll.[59] Zusätzlich zu den oben genannten Argumenten sind Replikationsstudien im Marketing erforderlich, um die Anwendbarkeit von Theorien und Modellen über Länder und Kulturen hinweg zu untersuchen, was aufgrund möglicher Einflüsse der Globalisierung besonders wichtig ist.[60]

Wirtschaftswissenschaften

Eine Studie aus dem Jahr 2016 in der Zeitschrift Science ergab, dass ein Drittel von 18 experimentellen Studien aus zwei hochrangigen Wirtschaftszeitschriften (American Economic Review und dem Quarterly Journal of Economics) nicht erfolgreich repliziert werden konnte.[61][62] Eine Studie aus dem Jahr 2017 im Economic Journal schlug vor, dass "die Mehrheit der durchschnittlichen Effekte in der empirischen Wirtschaftsliteratur um den Faktor 2 und mindestens ein Drittel um den Faktor 4 oder mehr übertrieben sind".[63]

Sportwissenschaften

Eine Studie aus dem Jahr 2018 stellte das Gebiet der Bewegungs- und Sportwissenschaften vor die Aufgabe, unzureichende Replikationsstudien, begrenzte Berichterstattung über Nullergebnisse und triviale Ergebnisse sowie unzureichende Forschungstransparenz zu liefern.[64] Statistiker haben die Sportwissenschaft für die allgemeine Anwendung einer umstrittenen statistischen Methode namens "magnitude-based inference" kritisiert, die es Sportwissenschaftlern ermöglicht hat, scheinbar signifikante Ergebnisse aus dem Datenrauschen zu extrahieren, wo normale Hypothesentests keine gefunden hätten.[65]

Hydrologie

Eine Studie aus dem Jahr 2019 in der Zeitschrift "Scientific Data" ergab, dass nur eine kleine Anzahl von Artikeln in Zeitschriften für Hydrologie und Wasserressourcen aufgrund der Nichtverfügbarkeit von Daten reproduziert werden können. Die Studie "schätzte mit 95%iger Sicherheit, dass die Ergebnisse nur für 0,6% bis 6,8% aller 1.989 Artikel reproduziert werden können".[66][67][68]
Diese Studie bezieht sich vor allem auf die Qualität der Dokumentation von origninalem Material, die offensichtlich nur wenig oder gar nicht gegeben ist. Da keine Rohdaten vorliegen, kann die faktische Validität der wissenschaftlichen Artikel nicht abgeschätzt werden, aber die wissenschaftliche Nicht-Reproduzierbarkeit ist damit nicht nachgewiesen.

Exakte Wissenschaften

Im Gegensatz zu den Sozial- und Biowissenschaften würden die meisten davon ausgehen, dass die "exakten Wissenschaften" – Physik, Chemie, Biologie, Astronomie, etc. – von dieser Krise nicht betroffen seien. Dennoch scheint es dort auch einige Probleme zu geben. "Sogar die Physik ist betroffen, wie William Wilson feststellt. "Zwei der am meisten gepriesenen physikalischen Ergebnisse der letzten Jahre – die angekündigte Entdeckung sowohl der kosmischen Inflation als auch der Gravitationswellen beim BICEP2-Experiment in der Antarktis und die vermeintliche Entdeckung von superluminalen Neutrinos an der schweizerisch-italienischen Grenze – wurden nun zurückgezogen, und das mit weitaus weniger Fanfare als bei ihrer ersten Veröffentlichung." Siehe dies über das erstere und dies über das letztere.”[69]

Naturkonstanten

Eine der Säulen der Physik und aller Wissenschaften, die auf den in der Physik beschriebenen Gesetzen basieren, ist die Annahme einer Beständigkeit der Naturkonstanten. Diese Konstanz ist eine allgemeine Annahme, da sie grundsätzlich nicht nachgewiesen werden kann. Man kann nur sagen, dass sie einigermaßen konstant waren, solange der Mensch sie messen kann, was im Vergleich zum Alter des Universums eine extrem kurze Zeitspanne ist.
Dennoch gibt es guten Grund, selbst an dieser Grundannahme der Physik zu zweifeln: "Ende 1998 hat die CODATA sogar beschlossen, die Unsicherheit des akzeptierten Wertes für die Gravitationskonstante von 128 ppm auf 1500 ppm zu erhöhen. Dieser bemerkenswerte Schritt, die Unsicherheit zu erhöhen, anstatt sie zu verringern, wurde unternommen, um die Diskrepanzen zwischen den jüngsten Experimenten wiederzuspiegeln, die einen weiten Bereich von mehr als 0,7 % umfassen."[70]
Und in seiner Arbeit "The Science Delusion - Freeing the Spirit of Enquiry" diskutiert der Biologe und Philosoph Rupert Sheldrake[71] dieses Problem und gibt viele Beispiele dafür, dass die fundamentalen Konstanten nicht so ewig sein können, wie gedacht, sondern sich mit der Zeit ändern. Er sieht die "Konstanten" eher als Gewohnheiten der Natur denn als ewige Gesetze. Sheldrake weist darauf hin, dass die grundlegenden physikalischen Konstanten künstlich als konstant gehalten werden, indem man sie so definiert, alle Messungen auf den Mittelwert reduziert und stark abweichende Messungen von der Zählung eliminiert. Tatsächlich liefern wissenschaftliche Messungen der Konstanten ständig ganz unterschiedliche Ergebnisse, die vom Committee on Data for Science and Technology (CODATA) gesammelt und normiert werden, um per Definition immer konstant zu bleiben.[72].

Ursachen der Krise

Schlechte Wissenschaft

Die Sokal-Affäre und die anschließende Diskussion haben deutlich gezeigt, dass es ein großes Problem gibt, nicht zwischen echter und gefälschter Wissenschaft zu unterscheiden.[73]
Der Chefredakteur der renommierten medizinischen Zeitschrift Lancet[74] Richard Horton schreibt über "scheinbare Endemie schlechten Forschungsverhaltens" und "schlechte wissenschaftliche Praktiken", wenn er darauf hinweist, dass "ein Großteil der wissenschaftlichen Literatur, vielleicht die Hälfte, einfach unwahr sein kann". Als Herausgeber der wohl wichtigsten medizinischen Fachzeitschrift ist er in der Lage, das Problem zu erkennen.

Hohe Publikationsraten

Tatsächlich lassen sich einige Vorhersagen über eine mögliche Krise des Qualitätskontrollmechanismus der Wissenschaften mehrere Jahrzehnte zurückverfolgen, insbesondere unter Wissenschaftlern der Naturwissenschaften und Technik (STS). Derek de Solla Price - als Vater der "Scientometrics" - prognostizierte, dass die Wissenschaft durch ihr eigenes exponentielles Wachstum "Senilität" erreichen könnte.[75] Einiges in der heutigen Literatur scheint diese "overflow"-Prophezeiung zu rechtfertigen und beklagt den Verfall sowohl in Aufmerksamkeit als auch in Qualität ref name="Siebert-al2015">Siebert, S.; Machesky, L. M. & Insall, R. H. (2015). "Overflow in science and its implications for trust". eLife. 4: e10825. doi:10.7554/eLife.10825. PMC 4563216. PMID 26365552.</ref>[76]

Der Philosoph und Wissenschaftshistoriker Jerome R. Ravetz prophezeite in seinem Buch Scientific Knowledge and Its Social Problems, dass die Wissenschaft – beim Übergang von der kleinen Wissenschaft aus begrenzten Gemeinschaften von Wissenschaftlern zu großen Wissenschaften oder Techno-Wissenschaften – große Probleme in ihrem internen System der Qualitätskontrolle erleiden würde. Ravetz erwartete, dass das System der modernen Wissenschaft zur Belohnung von Wissenschaftlern für die Forschung dysfunktional werden könnte, mit der gegenwärtigen Herausforderung des "Publish or Perish" umzugehen, was perverse Anreize zur Veröffentlichung von so zweifelhaften Ergebnissen schaffen könnte. Für Ravetz bleibt die Qualität in der Wissenschaft erhalten, wenn es eine Gemeinschaft von Wissenschaftlern gibt, die durch Normen und Standards verbunden sind, und die Bereitschaft, zu diesen zu stehen.

Der Historiker Philip Mirowski hat in jüngster Zeit in seinem Buch Science Mart (2011) eine ähnliche Diagnose gestellt).[77] 'Mart' ist hier ein Hinweis auf den Handelsriesen Walmart und eine Anspielung auf die Vermarktung der Wissenschaft. In der Analyse von Mirowski bricht die Qualität der Wissenschaft zusammen, wenn sie zu einer auf einem Markt gehandelten Ware wird. Mirowski begründet dies, indem er den Niedergang der Wissenschaft auf die Entscheidung der Großunternehmen zurückführt, ihre hauseigenen Labors zu schließen und ihre Arbeit an Universitäten auszulagern, und anschließend ihre Forschung von den Universitäten auf noch billigere Auftragsforschungsinstitute (CRO) zu verlagern.

Unzureichende Kontrolle

Die Krise des Qualitätssicherungssystems der Wissenschaft wirkt sich auf die Nutzung der Wissenschaft für die Politik aus. Dies ist die These einer aktuellen Arbeit einer Gruppe von STS-Wissenschaftlern, die in der "evidenzbasierten (oder -informierten) Politik" einen Punkt der gegenwärtigen Spannung identifizieren.[78][79][80][81] Der WIrtschaftswissenschaftler Noah Smith schlägt vor, dass ein Faktor in der Krise die Überbewertung der Forschung in der Wissenschaft und die Unterbewertung der Lehrkapazitäten war, insbesondere in Bereichen mit wenigen großen jüngsten Entdeckungen.[82] Der Autor John Bohannon erklärt in seinem Artikel “Who’s Afraid of Peer Review?”[83] in der „Science“ das Problem der wachsenden Zahl von Open-Access-Zeitschriften und des Fehlens eines effektiven Peer Reviews. Von 300 gefälschten Artikeln, die mit offensichtlichen Fehlern und Unsinn gefüllt waren und an ebenso viele verschiedene Online-Zeitschriften verschickt wurden, wurde mehr als die Hälfte ohne angemessene Kritik akzeptiert.

„Publication bias”

Eine weitere Hauptursache ist der sogenannte „Publication bias”, also die Tatsache, dass positive Ergebnisse eher veröffentlicht werden als negative (oder null) Ergebnisse. Dies kann zur Kanonisierung falscher Annahmen als Fakten führen [84].

Grundlegende Ursachen im wissenschaftlichen Paradigma

Alle oben genannten Gründe für die mangelnde Reproduzierbarkeit haben eines gemeinsam: Sie sind Folgen von menschlichem Verschulden, Fehlverhalten oder Fehlern und könnten theoretisch durch Disziplin, Korrektheit und bessere Kontrolle korrigiert werden.
Dennoch bleibt die Möglichkeit bestehen, dass es – abgesehen von all diesen Überlegungen und Beobachtungen, die an sich richtig sind, – auch grundlegendere Probleme des Axioms der Wiederholbarkeit und der Konstanz der Natur als solcher geben könnte. Der Biologe, Philosoph und Wissenschaftstheoretiker Rupert Sheldrake hat darauf hingewiesen, dass es reichlich Grund gibt, den Glauben an die volle Replizierbarkeit und Zuverlässigkeit auch der exakten Wissenschaften zu bezweifeln und dass es ein Problem mit der Annahme der Replizierbarkeit als solcher geben könnte.[85]

Auf jeden Fall deutet der Decline effect (siehe Hauptartikel) auf allgemeine Probleme der Replizierbarkeit hin, da dieser durch die bisher vorgeschlagenen Ursachen nicht vollständig erklärt werden kann. Er wurde von J.B.Rhine in den 20er Jahren des letzten Jahrhunderts entdeckt, lange vor der aktuellen Krise und unter völlig anderen Umständen. Rhine fand die Wirkung in seiner eigenen Forschung, auch in Bereichen, deren statistische Validität er selbst zuvor überprüft hatte.

Die öffentliche Reaktion

Politische Auswirkungen

In den USA ist die Reproduzierbarkeitskrise der Wissenschaft in Verbindung mit dem Versuch, die Vorschriften – z.B. die Schadstoffemissionen – zu verringern, zu einem politischen Streitpunkt geworden, mit dem Argument, dass diese Vorschriften auf nicht reproduzierbarer Wissenschaft beruhen würden.[86][81] Frühere Versuche mit dem gleichen Ziel beschuldigten Studien, intransparent zu sein.[87]

Öffentliche Diskussion

Abgesehen von Studien und Artikeln in wissenschaftlichen Zeitschriften gab es bisher wenig öffentliche Diskussionen über die Replikationskrise und nur wenige Berichte in den Massenmedien. Die meisten Diskussionen beziehen sich nur auf statistische, ökonomische und soziologische Gründe.[88]
Die Frage, ob hinter diesen Erkenntnissen auch ein allgemeines Problem der Replizierbarkeit steckt, ist bisher noch nicht angegangen worden. Und es gab sehr wenig Anstrengungen in den exakten Wissenschaften, sich mit dem Problem der Replikation zu befassen, da es einen Konsens zu geben scheint, dass das Problem nur eines der Sozial- und Biowissenschaften sei.

Umgang mit der Replikationskrise

Die Replikation wurde als "der Eckpfeiler der Wissenschaft" bezeichnet".[89][90] Replikationsstudien versuchen zu bewerten, ob die veröffentlichten Ergebnisse wahre Ergebnisse oder Falschpositive widerspiegeln. Die Integrität der wissenschaftlichen Erkenntnisse und die Reproduzierbarkeit der Forschung sind wichtig, da sie die Wissensgrundlage bilden, auf der zukünftige Studien aufbauen.

Wissenschaftstheorie

Wissenschaftstheorie ist die Verwendung wissenschaftlicher Methoden, um die Wissenschaft selbst zu untersuchen. Wissenschaftstheorie ist bestrebt, die Qualität der wissenschaftlichen Forschung zu verbessern und gleichzeitig die Verschwendung zu reduzieren. Sie wird auch als "Forschungsforschung" und "Wissenschaft der Wissenschaft" bezeichnet, da sie mit Forschungsmethoden untersucht, wie die Forschung durchgeführt wird und wo Verbesserungen vorgenommen werden können. Wissenschaftstheorie beschäftigt sich mit allen Forschungsbereichen und wurde als " Wissenschaft aus der Vogelperspektive" bezeichnet.[91] Mit den Worten von John Ioannidis: "Wissenschaft ist das Beste, was dem Menschen passiert ist.... aber wir können es besser machen."[92]

Es wird weiterhin Wissenschaftstheorie und Forschung an der Wissenschaft selbst betrieben, um die Ursachen der Krise zu identifizieren und anzugehen. Zu den Methoden zur Bewältigung der Krise gehören die Vorregistrierung von wissenschaftlichen Studien und klinischen Studien sowie die Gründung von Organisationen wie CONSORT und dem EQUATOR Network, die Richtlinien für Methodik und Berichterstattung herausgeben. Es werden weitere Anstrengungen unternommen, um das System der akademischen Anreize zu reformieren, den Peer-Review-Prozess zu verbessern, den Missbrauch von Statistiken zu verringern, Verzerrungen in der wissenschaftlichen Literatur zu bekämpfen und die Gesamtqualität und Effizienz des wissenschaftlichen Prozesses zu erhöhen.

Bekämpfung von „Publication bias” mit Vorregistrierung von Studien

Eine jüngste Innovation in der wissenschaftlichen Publizistik zur Bewältigung der Replikationskrise ist die Verwendung von registrierten Berichten.[93][94] Das registrierte Berichtsformat verlangt von den AutorInnen, vor der Datenerhebung eine Beschreibung der Studienmethoden und Analysen einzureichen. Sobald die Methode und der Analyseplan durch Peer-Review überprüft wurden, ist die Veröffentlichung der Ergebnisse vorläufig gewährleistet, je nachdem, ob die Autoren das vorgeschlagene Protokoll einhalten. Ein Ziel der registrierten Berichte ist es, den „Publication bias” zu signifikanten Ergebnissen zu umgehen, der zur Anwendung fragwürdiger Forschungspraktiken führen kann, und Förderung der Veröffentlichung von methodisch strengeren Studien.

Die Zeitschrift 'Psychologische Wissenschaft hat die Vorregistrierung von Studien und die Berichterstattung über Wirkungsgrößen und Konfidenzintervalle gefördert.[95] Der Chefredakteur stellte auch fest, dass die Redaktion die Wiederholung von Studien mit überraschenden Ergebnissen aus Untersuchungen mit kleinen Stichprobenumfängen fordern wird, bevor die Manuskripte veröffentlicht werden können.

Darüber hinaus hat nur ein sehr kleiner Teil der wissenschaftlichen Zeitschriften in der Psychologie und den Neurowissenschaften ausdrücklich erklärt, dass sie Einreichungen von Replikationsstudien in ihrem Ziel und Umfang oder Anweisungen an Autoren begrüßen.[96][97] Dieses Phänomen fördert nicht die Berichterstattung über oder gar die Durchführung von Replikationsstudien.

Hervorhebung von Replikationsversuchen im Unterricht

Basierend auf Kursarbeiten zu experimentellen Methoden am MIT und in Stanford wurde vorgeschlagen, dass Methodenkurse in der Psychologie eher Replikationsversuche als Originalstudien betonen sollen.[98][99]Ein solcher Ansatz würde den Studierenden helfen, wissenschaftliche Methodik zu erlernen und zahlreiche unabhängige Replikationen von sinnvollen wissenschaftlichen Erkenntnissen zu liefern, die die Wiederholbarkeit von wissenschaftlichen Erkenntnissen testen würden. Einige haben empfohlen, dass DoktorandInnen vor dem Abschluss einen qualitativ hochwertigen Replikationsversuch zu einem Thema ihrer Doktorarbeit veröffentlichen müssen.[49]

Reduzierung des p-Wertes, der für die Aussagekraft neuer Ergebnisse erforderlich ist

Viele Veröffentlichungen erfordern einen p-Wert von p < 0,05, um die statistische Signifikanz zu beanspruchen. Das Papier "Redefine statistical significance",[100], das von einer großen Anzahl von Wissenschaftlern und Mathematikern unterzeichnet wurde, schlägt vor, dass wir in "Bereichen, in denen die Schwelle für die Definition der statistischen Signifikanz für neue Entdeckungen P' < 0,05 beträgt, eine Änderung zu P < 0,005 vorschlagen. Dieser einfache Schritt würde die Reproduzierbarkeit der wissenschaftlichen Forschung in vielen Bereichen sofort verbessern."

Ihre Begründung ist, dass "eine der Hauptursachen für die Nicht-Reproduzierbarkeit (ist, dass die) statistischen Beweisstandards für die Inanspruchnahme neuer Entdeckungen in vielen Wissenschaftsbereichen einfach zu niedrig sind. Die Zuordnung von "statistisch signifikanten" Befunden zu "P" < 0,05 führt zu einer hohen Rate an Falschpositiven, auch wenn keine anderen experimentellen, prozeduralen und Berichtsprobleme vorliegen".

Behebung der Fehlinterpretation von p-Werten

Obwohl Statistiker einhellig der Meinung sind, dass die Verwendung des p < 0,05 schwächere Beweise liefert, als allgemein angenommen wird, fehlt es an Einigkeit darüber, was dagegen getan werden sollte. Einige haben sich dafür ausgesprochen, dass Bayes'sche Methoden die p-Werte ersetzen sollten. Dies ist nicht in großem Umfang geschehen, teils weil es kompliziert ist, teils weil viele Benutzer der Spezifikation früherer Distributionen misstrauen, weil es keine exakten Daten gibt. Eine vereinfachte Version des Bayes'schen Arguments, basierend auf dem Testen einer Nullhypothese wurde von Colquhoun (2014, 2017) vorgeschlagen).[101][102] Die logischen Probleme der induktiven Inferenz wurden in "The problem with p-values" (2016) diskutiert).[103]

Die Gefahren des Vertrauens auf p-Werte wurden betont, indem darauf hingewiesen wurde, dass selbst die Beobachtung von p = 0,001 nicht unbedingt ein starker Beweis für die Nullhypothese war.[102] Trotz der Tatsache, dass das Wahrscheinlichkeitsverhältnis zugunsten der alternativen Hypothese über die Null nahe bei 100 liegt, hätte selbst die Beobachtung von p = 0.001 ein falsch positives Risiko von 8 Prozent, wenn die Hypothese unplausibel wäre, mit einer vorherigen Wahrscheinlichkeit eines realen Effekts von 0,1. Sie würde nicht einmal das Niveau von 5 Prozent erreichen.

Es wurde empfohlen,[102] die Begriffe "signifikant" und "nicht signifikant" nicht zu verwenden. p-Werte und Vertrauensintervalle sollten weiterhin angegeben werden, aber sie sollten von einem Hinweis auf das Risiko für Falschpositive begleitet werden. Es wurde vorgeschlagen, dass der beste Weg, dies zu tun, darin bestehe, die vorherige Wahrscheinlichkeit zu berechnen, die notwendig wäre, um ein falsch positives Risiko von beispielsweise 5% zu erreichen. Die Berechnungen können mit R-Skripten durchgeführt werden, die zur Verfügung gestellt werden,[102] oder, einfacher gesagt, mit einem Online-Rechner.[104] Dieser sogenannte umgekehrte Bayes'sche Ansatz, der von Matthews (2001) vorgeschlagen wurde),[105] ist eine Möglichkeit, das Problem zu vermeiden, dass die vorherige Wahrscheinlichkeit selten bekannt ist.

Ermutigung zu größeren Stichproben

Um die Qualität der Replikationen zu verbessern, werden oft größere Stichproben benötigt als in der Originalstudie[106] Größere Stichproben sind erforderlich, da Schätzungen der Effektgrößen in veröffentlichten Arbeiten oft übertrieben sind, da sie durch „Publication bias” und große Stichprobenvariabilität im Zusammenhang mit kleinen Stichprobengrößen in einer Originalstudie verursacht werden.[107][108][108][109] Weiterhin führt die Verwendung von Signifikanz-Schwellen in der Regel zu überhöhten Effekten, da gerade bei kleinen Stichprobengrößen nur die größten Effekte signifikant werden.[110]

Gemeinsame Nutzung von Rohdaten in Online-Depots

Online-Depots, in denen Daten, Protokolle und Ergebnisse gespeichert und von der Öffentlichkeit ausgewertet werden können, sollen die Integrität und Reproduzierbarkeit der Forschung verbessern. Beispiele für solche Depots sind das Open Science Framework, das Registry of Research Data Repositories und Psychfiledrawer.org. Websites wie das Open Science Framework bieten Marken für die Verwendung von Open Science Praktiken, um Wissenschaftler zu motivieren. Es wurde jedoch befürchtet, dass diejenigen, die ihre Daten und ihren Code am ehesten für Analysen zur Verfügung stellen, die Forscher sind, die wahrscheinlich ohnehin die anspruchsvollsten sind.[111] John Ioannidis an der Stanford University schlug vor, dass "das Paradoxon entstehen kann, dass die akribischsten und anspruchsvollsten und methodisch versiertesten und vorsichtigen Forscher anfälliger für Kritik- und Reputationsangriffe von Reanalyzern werden können, die nach Fehlern suchen, egal wie geringfügig diese Fehler sind".[111]

Bessere Finanzierung von Replikationsstudien

Im Juli 2016 stellte die Niederländische Organisation für wissenschaftliche Forschung 3 Millionen Euro für Replikationsstudien zur Verfügung. Die Finanzierung erfolgt für die Replikation auf der Grundlage der Reanalyse bestehender Daten und für die Replikation durch Sammlung und Analyse neuer Daten. Gefördert werden die Bereiche Sozialwissenschaften, Gesundheitsforschung und Gesundheitsinnovation.[112]

Im Jahr 2013 finanzierte die Laura and John Arnold Stiftung den Start des Open Center for Open Science mit einem Zuschuss von 5,25 Millionen Dollar und stellte bis 2017 weitere 10 Millionen Dollar zur Verfügung.[113] Sie finanzierte auch die Gründung des Meta-Research Innovation Center at Stanford at Stanford at Stanford University unter der Leitung von Ioannidis und Steven Goodman, um Wege zur Verbesserung der wissenschaftlichen Forschung zu untersuchen.[113] Es wurden auch Mittel für die AllTrials Initiative unter der Leitung von Ben Goldacre bereitgestellt.[113]

Betonung einer Triangulation, nicht nur der Replikation

Marcus R. Munafò und George Davey Smith argumentieren in einer von Nature veröffentlichten Arbeit, dass die Forschung die Triangulation und nicht nur die Replikation in den Vordergrund stellen sollte. Sie stellen fest, dass

Wiederholung allein uns nur begrenzt weit bringen wird (und) die Sache tatsächlich verschlimmern könnte...... Wir glauben, dass ein wesentlicher Schutz vor fehlerhaften Ideen die Triangulation ist. Dies ist die strategische Nutzung mehrerer Ansätze zur Lösung einer Frage. Jeder Ansatz hat seine eigenen, voneinander unabhängigen Annahmen, Stärken und Schwächen. Ergebnisse, die zwischen verschiedenen Methoden übereinstimmen, sind weniger wahrscheinlich Artefakte ..... Vielleicht ist ein Grund, warum die Replikation so viel Interesse erregt hat, die oft wiederholte Vorstellung, dass die Falsifikation im Mittelpunkt des wissenschaftlichen Ansatzes stehe. Diese Idee wurde durch Karl Poppers Maxime aus den 1950er Jahren populär gemacht, dass Theorien nie bewiesen, sondern nur falsifiziert (widerlegt) werden können. Doch eine Überbetonung der Wiederholungsexperimente könnte ein unbegründetes Gefühl der Gewissheit hinsichtlich von Ergebnissen geben, die auf einem einzigen Ansatz beruhen. .... Wissenschaftsphilosophen haben sich seit Popper weiterentwickelt. Bessere Beschreibungen der tatsächlichen Arbeitsweise von Wissenschaftlern beinhalten das, was der Erkenntnistheoretiker Peter Lipton 1991 als "Schlussfolgerung aus der besten Erklärung" bezeichnete".[114]

Weiterführende Literatur

Fußnoten

  1. Schooler, J. W. (2014). "Metascience could rescue the 'replication crisis'". Nature. 515 (7525): 9. Bibcode:2014Natur.515....9S. doi:10.1038/515009a. PMID 25373639.
  2. Smith, Noah. "Why 'Statistical Significance' Is Often Insignificant". Bloomberg. Retrieved 7 November 2017.
  3. Rupert Sheldrake: The Science Delusion – Freeing the Spirit of Enquiry; London 2012, Hodder& Stoughton, ISBN 978 1 444 72795 1. Chapter 11. Illusions of Objectivity.
  4. Pashler, Harold; Wagenmakers, Eric Jan (2012). "Editors' Introduction to the Special Section on Replicability in Psychological Science: A Crisis of Confidence?". Perspectives on Psychological Science. 7 (6): 528–530. doi:10.1177/1745691612465253. PMID 26168108.
  5. Fidler, Fiona; Wilcox, John (2018). "Reproducibility of Scientific Results". The Stanford Encyclopedia of Philosophy. Metaphysics Research Lab, Stanford University. Retrieved 19 May 2019.
  6. Staddon, John (2017) Scientific Method: How science works, fails to work or pretends to work. Taylor and Francis.
  7. Gary Marcus (May 1, 2013). "The Crisis in Social Psychology That Isn't". The New Yorker.
  8. Jonah Lehrer (December 13, 2010). "The Truth Wears Off". The New Yorker.
  9. "Is There a Reproducibility Crisis in Science?". Nature Video, Scientific American. 28 May 2016. Retrieved 15 August 2019.
  10. Fanelli, Daniele (29 May 2009). "How Many Scientists Fabricate and Falsify Research? A Systematic Review and Meta-Analysis of Survey Data". PLOS ONE. 4 (5): e5738. Bibcode:2009PLoSO...4.5738F. doi:10.1371/journal.pone.0005738. PMC 2685008. PMID 19478950.
  11. Amrhein, V., Greenland, S., & MCShane, B. , 2019. Retire statistical significance. Nature, 567, p. 305-307
  12. Dieser Zusammenhang wird ausführlich und gut verständlich erklärt von Harald Walach in seinem Blog: Der Signifikanz-Mythos bröckelt.
  13. Achenbach, Joel. "No, science's reproducibility problem is not limited to psychology". The Washington Post. Retrieved 10 September 2015.
  14. Dominus, Susan (2017-10-18). "When the Revolution Came for Amy Cuddy". The New York Times (in English). ISSN 0362-4331. Retrieved 2017-10-19.
  15. Leichsenring, Falk; Abbass, Allan; Hilsenroth, Mark J.; Leweke, Frank; Luyten, Patrick; Keefe, Jack R.; Midgley, Nick; Rabung, Sven; Salzer, Simone; Steiner, Christiane (April 2017). "Biases in research: risk factors for non-replicability in psychotherapy and pharmacotherapy research". Psychological Medicine. 47 (6): 1000–1011. doi:10.1017/S003329171600324X. PMID 27955715.
  16. Hengartner, Michael P. (February 28, 2018). "Raising Awareness for the Replication Crisis in Clinical Psychology by Focusing on Inconsistencies in Psychotherapy Research: How Much Can We Rely on Published Findings from Efficacy Trials?". Frontiers in Psychology. Frontiers Media. 9: 256. doi:10.3389/fpsyg.2018.00256. PMC 5835722. PMID 29541051.
  17. Frank, Michael C.; Bergelson, Elika; Bergmann, Christina; Cristia, Alejandrina; Floccia, Caroline; Gervain, Judit; Hamlin, J. Kiley; Hannon, Erin E.; Kline, Melissa; Levelt, Claartje; Lew-Williams, Casey; Nazzi, Thierry; Panneton, Robin; Rabagliati, Hugh; Soderstrom, Melanie; Sullivan, Jessica; Waxman, Sandra; Yurovsky, Daniel (9 March 2017). "A Collaborative Approach to Infant Research: Promoting Reproducibility, Best Practices, and Theory‐Building" (PDF). Infancy. 22 (4): 421–435. doi:10.1111/infa.12182. hdl:10026.1/9942. Retrieved 19 December 2018.
  18. Tyson, Charlie (14 August 2014). "Failure to Replicate". Inside Higher Ed. Retrieved 19 December 2018.
  19. Makel, Matthew C.; Plucker, Jonathan A. (1 August 2014). "Facts Are More Important Than Novelty: Replication in the Education Sciences". Educational Researcher. 43 (6): 304–316. doi:10.3102/0013189X14545513. Retrieved 19 December 2018.
  20. Stanley, T. D.; Carter, Evan C.; Doucouliagos, Hristos (2018). "What meta-analyses reveal about the replicability of psychological research". Psychological Bulletin (in English). 144 (12): 1325–1346. doi:10.1037/bul0000169. ISSN 1939-1455. PMID 30321017.
  21. 21,0 21,1 21,2 John, Leslie K.; Loewenstein, George; Prelec, Drazen (2012-05-01). "Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling" (PDF). Psychological Science. 23 (5): 524–532. doi:10.1177/0956797611430953. ISSN 0956-7976. PMID 22508865.
  22. "The Nine Circles of Scientific Hell". Perspectives on Psychological Science. 7 (6): 643–644. 2012-11-01. doi:10.1177/1745691612459519. ISSN 1745-6916. PMID 26168124.
  23. "Research misconduct - The grey area of Questionable Research Practices". www.vib.be. Retrieved 2015-11-13.
  24. Fiedler, Klaus; Schwarz, Norbert (2015-10-19). "Questionable Research Practices Revisited". Social Psychological and Personality Science. 7: 45–52. doi:10.1177/1948550615612150. ISSN 1948-5506.
  25. Simmons, Joseph; Nelson, Leif; Simonsohn, Uri (November 2011). "False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant". Psychological Science. 22 (11): 1359–1366. doi:10.1177/0956797611417632. ISSN 0956-7976. PMID 22006061.
  26. Shea, Christopher (13 November 2011). "Fraud Scandal Fuels Debate Over Practices of Social Psychology". The Chronicle of Higher Education.
  27. Kahneman, Daniel. "A New Etiquette for Replication" – via Scribd.
  28. "Link to issue". Social Psychology. Hogrefe Publishing. 45 (3). 2014. Archived from the original on 30 May 2014.
  29. Inhaltsverzeichnis
  30. Open Science Collaboration (2015). "Estimating the reproducibility of Psychological Science" (PDF). Science. 349 (6251): aac4716. doi:10.1126/science.aac4716. hdl:10722/230596. PMID 26315443.
  31. Coyne, James (April 15, 2014). "Are meta analyses conducted by professional organizations more trustworthy?". Mind the Brain. Retrieved September 13, 2016.
  32. Connor, Steve (27 August 2015). "Study reveals that a lot of psychology research really is just 'psycho-babble'". The Independent. London.
  33. Meyer, Michelle N.; Chabris, Christopher (31 July 2014). "Why Psychologists' Food Fight Matters" – via Slate.
  34. "Psychology Is Starting To Deal With Its Replication Problem". 27 August 2015.
  35. "Science Isn't Broken". 19 August 2015.
  36. Etchells, Pete (28 May 2014). "Psychology's replication drive: it's not about you". The Guardian.
  37. Wagenmakers, Eric-Jan; Wetzels, Ruud; Borsboom, Denny; Maas, Han L. J. van der; Kievit, Rogier A. (2012-11-01). "An Agenda for Purely Confirmatory Research". Perspectives on Psychological Science. 7 (6): 632–638. doi:10.1177/1745691612463078. ISSN 1745-6916. PMID 26168122.
  38. Ioannidis, John P. A. (2012-11-01). "Why Science Is Not Necessarily Self-Correcting". Perspectives on Psychological Science. 7 (6): 645–654. doi:10.1177/1745691612464056. ISSN 1745-6916. PMID 26168125.
  39. Pashler, Harold; Harris, Christine R. (2012-11-01). "Is the Replicability Crisis Overblown? Three Arguments Examined". Perspectives on Psychological Science. 7 (6): 531–536. doi:10.1177/1745691612463401. ISSN 1745-6916. PMID 26168109.
  40. Bartlett, Tom (30 January 2013). "Power of Suggestion". The Chronicle of Higher Education.
  41. 41,0 41,1 Chambers, Chris (10 June 2014). "Physics envy: Do 'hard' sciences hold the solution to the replication crisis in psychology?". The Guardian.
  42. 42,0 42,1 Makel, Matthew C.; Plucker, Jonathan A.; Hegarty, Boyd (2012-11-01). "Replications in Psychology Research How Often Do They Really Occur?". Perspectives on Psychological Science. 7 (6): 537–542. doi:10.1177/1745691612460688. ISSN 1745-6916. PMID 26168110.
  43. Collaboration, Open Science (2015-08-28). "Estimating the reproducibility of psychological science" (PDF). Science. 349 (6251): aac4716. doi:10.1126/science.aac4716. hdl:10722/230596. ISSN 0036-8075. PMID 26315443.
  44. "The Science Behind Social Science Gets Shaken Up—Again". WIRED (in English). Retrieved 2018-08-28.
  45. Camerer, Colin F.; Dreber, Anna; et al. (27 August 2018). "Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015" (PDF). Nature Human Behaviour. 2 (9): 637–644. doi:10.1038/s41562-018-0399-z. PMID 31346273.
  46. Klein, R.A. (2018). "Many Labs 2: Investigating Variation in Replicability Across Samples and Settings". Advances in Methods and Practices in Psychological Science. 1 (4): 443–490. doi:10.1177/2515245918810225.
  47. Witkowski, Tomasz (2019). "Is the glass half empty or half full? Latest results in the replication crisis in Psychology". Skeptical Inquirer. 43 (2): 5–6.
  48. See also Earp and Trafimow, 2015
  49. 49,0 49,1 Everett, Jim Albert Charlton; Earp, Brian D. (2015-01-01). "A tragedy of the (academic) commons: interpreting the replication crisis in psychology as a social dilemma for early-career researchers". Frontiers in Psychology. 6: 1152. doi:10.3389/fpsyg.2015.01152. PMC 4527093. PMID 26300832.
  50. "Resolving the replication crisis in social psychology? A new proposal". Society for Personality and Social Psychology. Retrieved 2015-11-18.
  51. Believe it or not: how much can we rely on published data on potential drug targets? by Florian Prinz, Thomas Schlange & Khusru Asadullah, in: Nature Reviews Drug Discovery volume10, page712 (2011)
  52. Ioannidis JA (13 July 2005). "Contradicted and initially stronger effects in highly cited clinical research". JAMA. 294 (2): 218–228. doi:10.1001/jama.294.2.218. PMID 16014596.
  53. Glick, J. Leslie (1 January 1992). "Scientific data audit—A key management tool". Accountability in Research. 2 (3): 153–168. doi:10.1080/08989629208573811.
  54. Begley, C. G.; Ellis, L. M. (2012). "Drug Development: Raise Standards for Preclinical Cancer Research". Nature. 483 (7391): 531–533. Bibcode:2012Natur.483..531B. doi:10.1038/483531a. PMID 22460880.
  55. Begley, C. G. (2013). "Reproducibility: Six red flags for suspect work". Nature. 497 (7450): 433–434. Bibcode:2013Natur.497..433B. doi:10.1038/497433a.
  56. Ioannidis, JPA (2016). "Why Most Clinical Research Is Not Useful". PLoS Med. 13 (6): e1002049. doi:10.1371/journal.pmed.1002049. PMC 4915619. PMID 27328301.
  57. Ioannidis, John P. A. (August 1, 2005). "Why Most Published Research Findings Are False". PLoS Medicine. 2 (8): e124. doi:10.1371/journal.pmed.0020124. ISSN 1549-1277. PMC 1182327. PMID 16060722.
  58. Hunter, John E. (2001-06-01). "The desperate need for replications". Journal of Consumer Research. 28 (1): 149–158. doi:10.1086/321953.
  59. Armstrong, J. S.; Green, Kesten (30 January 2017). "Guidelines for Science: Evidence and Checklists". Working Paper.
  60. Aichner, Thomas; Coletti, Paolo; Forza, Cipriano; Perkmann, Urban; Trentin, Alessio (2016-03-22). "Effects of Subcultural Differences on Country and Product Evaluations: A Replication Study". Journal of Global Marketing. 29 (3): 115–127. doi:10.1080/08911762.2015.1138012.
  61. Camerer, Colin F.; Dreber, Anna; Forsell, Eskil; Ho, Teck-Hua; Huber, Jürgen; Johannesson, Magnus; Kirchler, Michael; Almenberg, Johan; Altmejd, Adam (2016-03-25). "Evaluating replicability of laboratory experiments in economics". Science (in English). 351 (6280): 1433–1436. Bibcode:2016Sci...351.1433C. doi:10.1126/science.aaf0918. ISSN 0036-8075. PMID 26940865.
  62. "About 40% of economics experiments fail replication survey". Science (in English). 2016-03-03. Retrieved 2017-10-25.
  63. Ioannidis, John P. A.; Stanley, T. D.; Doucouliagos, Hristos (2017-10-01). "The Power of Bias in Economics Research". The Economic Journal (in English). 127 (605): F236–F265. doi:10.1111/ecoj.12461. ISSN 1468-0297.
  64. Halperin, Israel; Vigotsky, Andrew D.; Foster, Carl; Pyne, David B. (2018-02-01). "Strengthening the Practice of Exercise and Sport-Science Research". International Journal of Sports Physiology and Performance. 13 (2): 127–134. doi:10.1123/ijspp.2017-0322. ISSN 1555-0273. PMID 28787228.
  65. "How Shoddy Statistics Found A Home In Sports Research". FiveThirtyEight (in English). 2018-05-16. Retrieved 2018-05-16.
  66. Stagge, James H.; Rosenberg, David E.; Abdallah, Adel M.; Akbar, Hadia; Attallah, Nour A.; James, Ryan (2019-02-26). "Assessing data availability and research reproducibility in hydrology and water resources". Scientific Data (in English). 6: 190030. Bibcode:2019NatSD...690030S. doi:10.1038/sdata.2019.30. ISSN 2052-4463. PMC 6390703. PMID 30806638.
  67. https://www.nature.com/articles/sdata201930#f2
  68. https://replicationnetwork.com/2019/03/01/surveying-reproducibility/
  69. [ https://fabiusmaximus.com/2016/04/19/replication-crisis-in-science-95394/ The replication crisis in science has just begun. It will be big.] by Larry Kummer, Editor Science & Nature 19 April 2016 on Fabius Maximus website, here referring to W.Wilson – Scientific Regress (siehe unter weiterführender Literatur unten)
  70. Ulf Kleinevoß: Bestimmung der Newtonschen Gravitationskonstanten, Dissertation Januar 2002, Wuppertal, S.1, Abstract; [1]
  71. Rupert Sheldrake: The Science Delusion - Freeing the Spirit of Enquiry; London 2012, Hodder& Stoughton, ISBN 978 1 444 72795 1 Kapitel 3: Are the Laws of Nature Fixed?
  72. [2] und Sheldrake, Science Delusion
  73. Peter Boghossian, Ed.D. (aka Peter Boyle, Ed.D.), James Lindsay, Ph.D. (aka, Jamie Lindsay, Ph.D.): Der konzeptuelle Penis als soziales Konstrukt: Ein Sokal-Stil-Hokuspokus über Geschlechterforschung. SKEPTIC, 19.05.2017. [3]; Alexander Durin: Fehler im System mancher Wissenschaften. Telepolis, Heise, 02.03.2014. (https://www.heise.de/tp/features/Fehler-im-System-mancher-Wissenschaften-3502557.html); Alan D. Sokal: Die Grenzen überschreiten: Auf dem Weg zu einer transformativen Hermeneutik der Quantengravitation. Sozialtext 46/47:217-252, 1996. [4].
  74. Richard Horton - Offline: Was ist das 5-Sigma der Medizin? In: Die Lanzette VOLUME 385, Ausgabe 9976, P1380, 11. APRIL, 2015; [5]
  75. De Solla Price; Derek J. (1963). Little science big science. Columbia University Press.
  76. Della Briotta Parolo, P.; Kumar Pan; R. Ghosh; R. Huberman; B.A. Kimmo Kaski; Fortunato, S. (2015). "Attention decay in science". Journal of Informetrics. 9 (4): 734–745. arXiv:1503.01881. Bibcode:2015arXiv150301881D. doi:10.1016/j.joi.2015.07.006.
  77. Mirowski, P. (2011). Science-Mart: Privatizing American Science. Harvard University Press.
  78. Saltelli, A.; Funtowicz, S. (2017). "What is science's crisis really about?". Futures. 91: 5–11. doi:10.1016/j.futures.2017.05.010.
  79. Benessia, A.; Funtowicz, S.; Giampietro, M.; Guimarães Pereira, A.; Ravetz, J.; Saltelli, A.; Strand, R.; van der Sluijs, J. (2016). The Rightful Place of Science: Science on the Verge. Consortium for Science, Policy and Outcomes at Arizona State University.
  80. Saltelli, Andrea; Ravetz, Jerome R. & Funtowicz, Silvio (25 June 2016). "A new community for science". New Scientist. No. 3079. p. 52.
  81. 81,0 81,1 Andrea, Saltelli (December 2018). "Why science's crisis should not become a political battling ground". Futures. 104: 85–90. doi:10.1016/j.futures.2018.07.006.
  82. Smith, Noah (2016-12-14). "Academic signaling and the post-truth world". Noahpinion. Stony Brook University. Retrieved 5 November 2017.
  83. John Bohannon: Who’s Afraid of Peer Review?, Science 04 Oct 2013: Vol. 342, Issue 6154, pp. 60-65; DOI: 10.1126/science.342.6154.60
  84. Nissen, Silas Boye; Magidson, Tali; Gross, Kevin; Bergstrom, Carl (December 20, 2016). "Research: Publication bias and the canonization of false facts". eLife. 5: e21451. arXiv:1609.00494. doi:10.7554/eLife.21451. Retrieved 9 June 2019.
  85. Rupert Sheldrake: How the Universal Gravitational Constant Varies; The Replicability Crisis in Science; Science Set Free: 10 Paths to New Discovery, ISBN-13: 978-0770436704, Publ. Deepak Chopra; 1st ed. (4. September 2012); The Science Delusion, ISBN-13: 978-1444727944, Publisher: Coronet (6 Dec. 2012)
  86. Oreskes, N. (2018). "Beware: Transparency rule is a trojan horse". Nature. 557 (7706): 469. Bibcode:2018Natur.557..469O. doi:10.1038/d41586-018-05207-9. PMID 29789751.
  87. Michaels, D. (2008). Doubt is their product: How industry's assault on science threatens your health. Oxford University Press.
  88. Siehe die gesamte zitierte Literatur.
  89. Moonesinghe, Ramal; Khoury, Muin J.; Janssens, A. Cecile J. W. (2007-02-27). "Most Published Research Findings Are False—But a Little Replication Goes a Long Way". PLoS Med. 4 (2): e28. doi:10.1371/journal.pmed.0040028. PMC 1808082. PMID 17326704.
  90. Simons, Daniel J. (2014-01-01). "The Value of Direct Replication". Perspectives on Psychological Science. 9 (1): 76–80. doi:10.1177/1745691613514755. ISSN 1745-6916. PMID 26173243.
  91. Ioannidis, John P. A.; Fanelli, Daniele; Dunne, Debbie Drake; Goodman, Steven N. (2015-10-02). "Meta-research: Evaluation and Improvement of Research Methods and Practices". PLOS Biology. 13 (10): –1002264. doi:10.1371/journal.pbio.1002264. ISSN 1545-7885. PMC 4592065. PMID 26431313.
  92. Bach, Author Becky (8 December 2015). "On communicating science and uncertainty: A podcast with John Ioannidis". Scope. Retrieved 20 May 2019.
  93. "Registered Replication Reports". Association for Psychological Science. Retrieved 2015-11-13.
  94. Chambers, Chris (2014-05-20). "Psychology's 'registration revolution'". The Guardian. Retrieved 2015-11-13.
  95. Lindsay, D. Stephen (2015-11-09). "Replication in Psychological Science". Psychological Science. 26 (12): 1827–32. doi:10.1177/0956797615616374. ISSN 0956-7976. PMID 26553013.
  96. Yeung, Andy W. K. (2017). "Do Neuroscience Journals Accept Replications? A Survey of Literature". Frontiers in Human Neuroscience (in English). 11: 468. doi:10.3389/fnhum.2017.00468. ISSN 1662-5161. PMC 5611708. PMID 28979201.
  97. Martin, G. N.; Clarke, Richard M. (2017). "Are Psychology Journals Anti-replication? A Snapshot of Editorial Practices". Frontiers in Psychology (in English). 8: 523. doi:10.3389/fpsyg.2017.00523. ISSN 1664-1078. PMC 5387793. PMID 28443044.
  98. Frank, Michael C.; Saxe, Rebecca (2012-11-01). "Teaching Replication". Perspectives on Psychological Science. 7 (6): 600–604. doi:10.1177/1745691612460686. ISSN 1745-6916. PMID 26168118.
  99. Grahe, Jon E.; Reifman, Alan; Hermann, Anthony D.; Walker, Marie; Oleson, Kathryn C.; Nario-Redmond, Michelle; Wiebe, Richard P. (2012-11-01). "Harnessing the Undiscovered Resource of Student Research Projects". Perspectives on Psychological Science. 7 (6): 605–607. doi:10.1177/1745691612459057. ISSN 1745-6916. PMID 26168119.
  100. Benjamin, Daniel. "Redefine statistical significance". PsyArXiv.
  101. Colquhoun, David (2015). "An investigation of the false discovery rate and the misinterpretation of p-values". Royal Society Open Science. 1 (3): 140216. arXiv:1407.5296. Bibcode:2014RSOS....140216C. doi:10.1098/rsos.140216. PMC 4448847. PMID 26064558.
  102. 102,0 102,1 102,2 102,3 Colquhoun, David (2017). "The reproducibility of research and the misinterpretation of p-values". Royal Society Open Science. 4 (12): 171085. doi:10.1098/rsos.171085. PMC 5750014. PMID 29308247.
  103. Colquhoun, David. "The problem with p-values". Aeon Magazine. Retrieved 11 December 2016.
  104. Longstaff, Colin; Colquhoun, David. "Calculator for false positive risk (FPR)". UCL.
  105. Matthews, R. A. J. (2001). "Why should clinicians care about Bayesian methods?". Journal of Statistical Planning and Inference. 94: 43–58. doi:10.1016/S0378-3758(00)00232-9.
  106. Maxwell, Scott E.; Lau, Michael Y.; Howard, George S. (2015). "Is psychology suffering from a replication crisis? What does "failure to replicate" really mean?". American Psychologist. 70 (6): 487–498. doi:10.1037/a0039400. PMID 26348332.
  107. IntHout, Joanna; Ioannidis, John P. A.; Borm, George F.; Goeman, Jelle J. (2015). "Small studies are more heterogeneous than large ones: a meta-meta-analysis". Journal of Clinical Epidemiology. 68 (8): 860–869. doi:10.1016/j.jclinepi.2015.03.017. PMID 25959635.
  108. 108,0 108,1 Button, Katherine S.; Ioannidis, John P. A.; Mokrysz, Claire; Nosek, Brian A.; Flint, Jonathan; Robinson, Emma S. J.; Munafò, Marcus R. (2013-05-01). "Power failure: why small sample size undermines the reliability of neuroscience". Nature Reviews Neuroscience. 14 (5): 365–376. doi:10.1038/nrn3475. ISSN 1471-003X. PMID 23571845.
  109. Greenwald, Anthony G. (1975). "Consequences of prejudice against the null hypothesis". Psychological Bulletin (in English). 82 (1): 1–20. doi:10.1037/h0076157.
  110. Amrhein, Valentin; Korner-Nievergelt, Fränzi; Roth, Tobias (2017). "The earth is flat (p > 0.05): significance thresholds and the crisis of unreplicable research". PeerJ. 5: e3544. doi:10.7717/peerj.3544. PMC 5502092. PMID 28698825.
  111. 111,0 111,1 Ioannidis, John P. A. (2016). "Anticipating consequences of sharing raw data and code and of awarding badges for sharing". Journal of Clinical Epidemiology. 70: 258–260. doi:10.1016/j.jclinepi.2015.04.015. PMID 26163123.
  112. "NWO makes 3 million available for Replication Studies pilot". NWO. Retrieved 2 August 2016.
  113. 113,0 113,1 113,2 Apple, Sam (January 22, 2017). "The Young Billionaire Behind the War on Bad Science". Wired.
  114. Munafò, Marcus R.; Smith, George Davey (January 23, 2018). "Robust research needs many lines of evidence". Nature. 553 (7689): 399–401. Bibcode:2018Natur.553..399M. doi:10.1038/d41586-018-01023-3. PMID 29368721.