  Inference for correlations van Albers
  False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant by Simmons a.o.
  Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling van John e.a.


Statistiek II RUG Psychologie samenvatting bij het artikel van dhr. Albers (Inferentie voor Correlaties, 2015)
False-positive psychology: Undiscovered flexibility in data collection and analysis allows presenting anything as significant - Simmons et al. - 2011 - Article

A false positive is likely the most costly error that can be made in science. A false positive is the incorrect rejection of a null hypothesis.

Despite empirical psychologists’ nominal endorsement of a low rate of false-positive findings (≤ .05), flexibility in data collection, analysis, and reporting dramatically increases actual false-positive rates. In many cases, a researcher is more likely to falsely find evidence that an effect exists than to correctly find evidence that it does not.

Many researchers often stop collecting data on the basis of interim data analysis. Many researchers seem to believe that this practice exerts no more than a trivial influence on the false-positive rates.

Solutions for authors

The authors of this article offer six requiremets for authors as a solution to the problem of false-positive publications:

  1. Before the collection of data begins, authors must decide the rule for terminating data collection and they should report this rule in the article.
  2. At least 20 observations per cell must be collected by the author or else the author should provide a compelling cost-of-data-collection justification.
  3. All variables collected in a study must be listed.
  4. All experimental conditions must be reported, including failed manipulations.
  5. If observations are eliminate, authors must also report what the statistical results are if those observations are included.
  6. Authors must report the statistical results of the analysis without the covariate, if an analysis includes a covariate.

Guidelines for reviewers

The authors of this article also offer four guidelines for reviewers:

  1. Reviewers must make sure that authors follow the requirements.
  2. Reviewers should be more tolerant of imperfections in results.
  3. Reviewers must make possible that authors are able to demonstrate that their results do not hinge on arbitrary analytic decisions.
  4. Reviewers should require the authors to conduct an exact replication, if justifications of data collection or analysis are not compelling.


The solution offered does not go far enough in the sense that it does not lead to the disclosure of all degrees of freedom. It cannot reveal those arising from reporting only experiments that ‘work’ (i.e., the file-drawer problem).

The solution offered goes too far in the sense that it might prevent researchers from conducting exploratory research. This does not have to be the case if researchers are required to report exploratory research as exploratory research. This also does not have to be the case if researchers are required to complement it with confirmatory research consisting of exact replications of the design and analysis that ‘worked’ in the exploratory phase.

The authors considered a number of alternative ways to address the problem of reasearcher degrees of freedom. The following are considered and rejected:

  • Correcting the alpha levels. A researched could consider adjusting the critical alpha level as a function of the number of researcher degrees of freedom employed in each study.
  • Using Bayesian statistics. This approach has many virtues, it actually increases researcher degrees of freedom by offering new set of analyses and by requiring to make additional judgments on a case-by-case basis.
  • Conceptual replications. They are misleading as a solution to the problem at hand, because they do not bind researchers to make the same analytic decisions across studies.
  • Posting materials and data. This would impose too high a cost on readers and reviewers to examine the credibility of a particular claim.

The goals of researchers is to discover the truth, and not to publish as many articles as they can. For different reasons researchers could lose sight of this goal.

Measuring the prevalence of questionable research practices with incentives for truth telling - John, Loewenstein & Prelec - 2012 - Artikel

Measuring the prevalence of questionable research practices with incentives for truth telling - John, Loewenstein & Prelec - 2012 - Artikel

Wat zijn questionable research practices?

Wanneer wetenschappers zich misdragen, wordt daar vaak veel aandacht aan besteed. Maar behalve grove misdragingen bestaan er ook twijfelachtige onderzoekspraktijken, uitbuitingen van het grijze gebied binnen de wetenschap. Deze worden ook wel ‘questionable research practices’ (QRP) genoemd. Deze zouden op de lange termijn meer schade kunnen aanrichten binnen de wetenschappelijke wereld dan ronduit grote misdragingen. Twijfelachtige onderzoekspraktijken bedreigen de waarde van het onderzoek, zorgen voor onrealistische resultaten en leiden uiteindelijk tot onjuiste conclusies. Een voorbeeld van een twijfelachtige onderzoekspraktijk is het uitsluiten van datapunten op basis van post hoc criteria. Hiermee wordt de kans op het vinden van bewijs dat de hypothese ondersteund enorm vergroot. QPR creëren ruimte voor rationaliseringen en zelfdeceptie. Tevens brengen ze wetenschappers die zich strikt aan de regels houden op een competitieve achterstand.

Wat voor methoden kunnen gebruikt worden om onetisch gedrag te onderzoeken?

Wanneer men onethisch of sociaal-gestigmatiseerd gedrag onderzoekt, is een onderrepresentatie van zelfgerapporteerde data te verwachten. Buiten de eigen goede wil van de respondenten om hebben zij weinig aanmoediging om eerlijke antwoorden te geven. In dit onderzoek probeert men realistische schattingen te verkrijgen over QRP. Zij doen dit via een nieuwe bevragingsmethode waarbij expliciete respons-afhankelijke prikkels zijn ingebouwd die de respondenten aanmoedigen om de waarheid te vertellen. Daarnaast moesten de respondenten twee onpersoonlijke schattingen geven over elke QRP. De eerste schatting betreft de prevalentieschatting. Dit is de schatting van de respondenten over het percentage van andere psychologen die zich wel eens schuldig hebben gemaakt aan QRP. De tweede schatting is de erkenningschatting. Dit is de schatting van de respondenten over het percentage van andere psychologen dat zal toegeven dat zij wel eens gebruik hebben gemaakt van QRP. Wanneer respondenten aangaven dat zij wel eens gebruik hebben gemaakt van QRP konden zij aangeven of zij hun gedrag kunnen verdedigen, en zo ja, op welke basis.

‘Bayesian truth serum’

Het Bayesian truth serum is een algoritme dat gebruikt maakt van de antwoorden van de groep als input voor een waarheidbelonende scoreformule. Compensaties konden niet direct worden gelinkt aan de individuele antwoorden door de vereiste voor anonimiteit. Daarom werd aan de respondenten verteld dat de onderzoekers een gift zouden doen aan een liefdadigheidsinstelling. De waarde van deze gift was afhankelijk van de waarachtigheid van de antwoorden zoals bepaald door het scoresysteem. Aan de hand van dit systeem probeerden de onderzoekers de morele inzet te versterken.

Wat is de schatting van de werkelijke prevalentie?

Aan de hand van de zelfgerapporteerde data, de prevalentieschatting en de erkenningschatting kon een schatting van de werkelijke prevalentie worden gemaakt. Als de respondenten eerlijk zijn over de zelfgerapporteerde data, dan zal deze data de werkelijke prevalentie weergeven. Als de gemiddelde prevalentieschatting accuraat is, dan zal deze de werkelijke prevalentie weergeven. Als de erkenningschatting accuraat is dan kan de werkelijke prevalentie worden geschat door het berekenen van de verhouding van het aantal toegevingen/erkenningschatting.

Wat voor resultaten kwamen er uit het onderzoek naar valse gegevens?

Uit de resultaten blijkt dat één op de tien onderzoekspsychologen valse gegevens in wetenschappelijke rapporten introduceerde. De meerderheid van hen ondernamen praktijken zoals selectieve rapportering bij onderzoeken, het niet rapporteren van alle metingen, het verzamelen van extra data, het als verwacht rapporteren van onverwachte data en het post hoc uitsluiten van gegevens.

Wat is het grijze gebied van de wetenschap?

Binnen het grijze gebied van de wetenschap bestaan er items die nooit gerechtvaardigd kunnen worden, zoals het vervalsen van gegevens. Maar dit kan niet over alle items gezegd worden. Bijvoorbeeld wanneer een onderzoeker besluit niet alle metingen van een onderzoek te rapporteren, omdat de twee metingen voor eenzelfde construct dezelfde patronen opleveren die niet gemakkelijk kunnen worden gecombineerd tot één. Veel van de onderzoekers die zich schuldig hadden gemaakt aan QRP vonden dat hun acties verdedigbaar zijn, ook al werd in vervolgonderzoek hetzelfde gedrag als onacceptabel beoordeeld.

Wat is het afname-effect?

Het afname-effect is de neiging van effectgroottes om af te nemen bij daaropvolgende pogingen tot replicatie. De auteur Jonah Lehrer concludeerde dat de conventionele verklaringen van het afname-effect, zoals publicatiebias, onvolledig kunnen zijn. Het afname-effect zou ook veroorzaakt kunnen worden door het niet publiceren van bepaalde gegevens. Deze hypothese wordt door de resultaten van het huidige onderzoek ondersteund.






