Zelfreflectie voor wetenschappers
Wetenschap is een gemeenschap van mensen van de homo sapiens species: tweevoeters met de capaciteit om aan zelfreflectie te doen. Dit impliceert
dat de wetenschap als gemeenschap onderhevig is aan alle gebruikelijke patronen van menselijk gedrag, inclusief een veelheid aan vertekeningen op het
individuele en collectieve niveau (Kahneman, 2011; Shleifer, 2012). Bekende voorbeelden op het individuele niveau zijn hoogmoed, voorkeur voor bevestiging
en drang naar het nieuwe (of het omgekeerde: angst voor het nieuwe). Dat betekent bijvoorbeeld dat “When an experiment is not blinded, the chances are that
the experimenters will see what they ‘should’ see” (The Economist, 2013). Met vereende krachten leiden deze vertekeningen tot type I- en type
II-fouten in het beoordelen van onderzoek, zowel dat van onszelf als dat van anderen. Zonder adequate correctiemechanismen is het resultaat dat
gepubliceerd onderzoek sterk vertekend zal zijn in de richting van het rapporteren van bewijs dat in overeenstemming is met de theorie.
‘Peer review’ als correctiemechanisme
De eerste verdedigingslinie van de wetenschap wordt gevormd door processen van beoordeling op het microniveau van individuele studies. Helaas: het
beoordelingsproces – al dan niet dubbelblind – is alles behalve foutloos; integendeel, dat proces staat ook bol van de vertekeningen (voor een kritische
discussie binnen de managementdiscipline zie bijvoorbeeld Bedeian, 2003; Starbuck, 2003; Tsui & Hollenbeck, 2009). Dat is geen verrassing omdat het
beoordelingsproces in handen is van exemplaren van diezelfde homo sapiens species die niet kunnen ontsnappen aan al die vertekeningen die hiervoor
zijn aangestipt (plus een hele reeks andere). Met name in de geneeskunde is uitvoerig aangetoond dat de huidige beoordelingspraktijken falen als de
effectieve filtermechanismen die zij geacht worden te zijn (zie bijvoorbeeld Jefferson et al., 2002). Neem de onthullende studie van Callaham en McCulloch
(2011). Op basis van een steekproef van 14.808 beoordelingen door 1.499 referenten gewaardeerd door 84 redacteuren over een 14-jarige periode komen zij tot
de conclusie dat de kwaliteit gestaag daalt over de tijd, waarbij het tempo van deze daling positief is gecorreleerd met de ervaring van de beoordelaar.
Deze bevinding is weerspiegeld in het resultaat dat referenten, gemiddeld genomen, niet in staat blijken te zijn om fatale fouten uit manuscripten te
filteren, hetgeen het gevaar van publicatie van valse positieven (“false positives”) versterkt (Callaham & Tercier, 2007; Schroter et al., 2008).
Collectieve correctiemechanismen
Vanwege de vertekeningen die onvermijdelijk zijn verbonden met de werking van het menselijke brein, zou de wetenschappelijke gemeenschap – als collectief –
een reeks van correctieprincipes op macroniveau moeten handhaven als tweede verdedigingslinie. Hiervan is vermoedelijk het Popperiaanse
falsificatieprincipe veruit de bekendste. De buitengewoon invloedrijke wetenschapsfilosofie van Karl Popper (1959) stoelt op het argument dat
wetenschappelijke vooruitgang tot stand komt in een wereld waarin een onderzoeker voortdurend pogingen onderneemt om haar of zijn eigen ongelijk te
bewijzen: wij, als onderzoekers, moeten telkens op zoek gaan naar bewijzen dat we het aan het verkeerde eind hebben. Als we bewijs vinden dat onze theorie
inderdaad niet correct is, kunnen we verder werken aan de ontwikkeling van een nieuwe theorie die beter bij de data past. We moeten de nieuwe generaties
van jonge onderzoekers daarom leren dat zij blij in plaats van teleurgesteld moeten zijn indien zij hun hypothesen niet kunnen bevestigen. Deze
zoektocht naar falsificatie is uitermate belangrijk omdat, in de woorden van Ioannidis (2012: 646), “Efficient and unbiased replication mechanisms are
essential for maintaining high levels of scientific credibility.” Handhaving van het falsificatieprincipe vergt een traditie van replicatiestudies in
combinatie met de publicatie van niet-significante en contraresultaten, of zogenaamde nullen (“nulls”) en negatieven (“negatives”), gesteund door
systematische meta-analyses.
Publicatiepraktijken
De huidige publicatiepraktijken in de bedrijfskundige onderzoekgemeenschap zijn echter overmatig anti-Popperiaans, wat de productie van wetenschappelijke
vooruitgang fundamenteel frustreert (Bettis, 2012; Hubbard & Vetter, 1996). Niemand is werkelijk geïnteresseerd in de replicatie van wat dan ook, en
meta-analyses zijn beschamend zeldzaam. Slechts een kleine fractie van de gepubliceerde studies heeft van doen met replicaties of meta-analyses. Daar komt
bij dat tijdschriftredacteuren, -beoordelaars en -lezers geen belangstelling hebben voor nullen en negatieven. Deze tweeledige handicap – het
replicatiedefect en de publicatievertekening – betekent een serieuze crisis omdat het essentiële Popperiaanse falsificatieprincipe de facto is gedeponeerd
in de vuilnisbak van de wetenschappelijke gemeenschap. Wij, als collectief, schenden basale wetenschappelijke principes door:
(1) voornamelijk positieve bevindingen te publiceren (dat wil zeggen: resultaten die onze hypothesen ondersteunen); en
(2) ons zelden te verlagen tot replicatiestudies (vanwege onze blinde obsessie met nieuwigheid).
Achter de façade van al die zogenaamde nieuwe ontdekkingen gaat een veelheid van valse positieven schuil, evenals een lange reeks dubieuze
onderzoekpraktijken (John et al., 2012) die worden ingezet om al die vermeende doorbraken en nieuwigheden te produceren. Zo is HARKing (=
Hypothesizing After the Results are Known) een veelvoorkomende praktijk.
Steun het manifest
In een recent manifest, met de titel “What Happened to Popperian Falsification?”, beargumenteer ik uitgebreid wat ik denk dat fout gaat, waarom dat het
geval is, en wat we eraan kunnen doen. Dit manifest is vooral, maar zeker niet exclusief, gericht aan de adres van de bedrijfskundige onderzoekgemeenschap. Het is echter overduidelijk dat de
bedrijfskunde niet de enige discipline is die aan dit kwalijke euvel lijdt. Recente schandalen in de geneeskunde, natuurwetenschappen en psychologie
getuigen daarvan. Als u, als lezer, mijn zorgen deelt, dan zou ik het bijzonder op prijs stellen indien u uw steun expliciet maakt door de petitie te tekenen.
Met behulp van deze petitie is het misschien mogelijk een hervormingsbeweging te mobiliseren; ook kan zodoende een begin worden gemaakt met een
uitwisseling van ideeën op zoek naar oplossingen. Dat het anders moet, is wel duidelijk. Replicatiestudies en meta-analyses moeten normaal worden. Data en
analyseprotocollen moeten publiek beschikbaar worden gesteld. Pre-registratie van onderzoekontwerpen moet worden gefaciliteerd. Significatie alleen moet
niet langer heilig zijn. Et cetera. Op allerlei plaatsen en in veel disciplines wordt daaraan gewerkt, maar dat zet nog veel te weinig zoden aan de dijk.
Verander de publicatiepraktijk
De bestaande publicatiepraktijk kan worden veranderd. Die bestaande praktijk is geënt op archaïsche gewoonten en ouderwetse technologieën. Ik pleit voor
een nieuwe en dynamische manier van publiceren, beoordelen en discussiëren, voorlopig Scientific Wikipedia gedoopt. Studies worden direct geplaatst indien
zij aan minimumvereisten voldoen, zonder verder commentaar. Daarna publiceren niet-anonieme referenten commentaren. Dat kan aanleiding zijn de
oorspronkelijke publicatie te herzien. Bijbehorend materiaal, inclusief databestanden en –protocollen, zijn doorklikbaar beschikbaar. Bij elke publicatie
loopt automatisch een teller mee met het aantal “downloads” en citaties. Open toegang is gegarandeerd. Een onderzoekteam voert regelmatig replicaties uit.
Enzovoorts. Mijn hoop is dat door deze dialoog te initiëren, een aantal van de maatregelen die ik in mijn manifest voorstel inderdaad ook geïmplementeerd
zal worden; en dat andere, mogelijk veel effectievere maatregelen, in de loop van de tijd daaraan zullen worden toegevoegd. Het is hoog tijd om die mooie
en wonderlijke wereld van het (bedrijfskundig) onderzoek flink op de schop te nemen. Collectieve actie is geboden.
Referenties:
Bedeian, A. G. (2003). The Manuscript Review Process: The proper roles of authors, referees, and editors, Journal of Management Inquiry, 12:
331-338.
Bettis, R. A. (2012). The Search for Asterisks: Comprised statistical tests and flawed theories, Strategic Management Journal, 33: 108-113.
Callaham, M. and C. McCulloch (2011). Longitudinal Trends in the Performance of Scientific Peer Reviewers, Annals of Emergency Medicine, 57:
141-148.
Callaham, M. L. and J. Tercier (2007). The Relationship of Previous Training and Experience of Journal Peer Reviewers to Subsequent Review Quality, PLoS Medicine, 4: 0032-0040.
Hubbard, R. and D. E. Vetter (1996). An Empirical Comparison of Published Replication Research in Accounting, Economics, Finance, Management, andMarketing, Journal of Business Research, 35: 153-164.
Ioannidis, J. P. A. (2012). Why Science Is Not Necessarily Self-Correcting, Perspectives on Psychological Science, 7: 645-654.
Jefferson, T., P. Alderson, E. Wagner, and F. Davidoff (2002). Effects of Editorial Peer Review: A systematic review, Journal of the American Medical Association, 287 (21): 1-4.
John, L. K., G. Loewenstein, and D. Prelec (2012). Measuring the Prevalence of Questionable Research Practices with Incentives for Truth-Telling, Psychological Science, 23: 524-532.
Kahneman, D. (2011). Thinking, Fast and Slow, New York: Farrar, Straus, and Giroux.\
Popper, K. (1959). The Logic of Scientific Discovery. Oxford: Routledge.
Schroter, S., N. Black, S., Evans, F., Godlee, L., Osorio, L., and R. Smith (2008). What Errors Do Peer Reviewers Detect, and Does Training Improve theirAbility to Detect Them?, Journal of the Royal Society of Medicine, 101: 507-514.
Shleifer, A. (2012). Psychologists at the Gate: A review of Daniel Kahneman’s Thinking, Fast and Slow, Journal of Economic Literature,
50: 1080-1091.
Starbuck, W. H. (2003). Turning Lemons into Lemonade: Where is the value in peer reviews?, Journal of Management Inquiry, 12: 344-351.
The Economist
(2013). Trouble at the Lab, (accessed on July 30 2015).
Tsui, A. S. and J. R. Hollenbeck (2009). Successful Authors and Effective Reviewers Balancing Supply and Demand in the Organizational Sciences, Organizational Research Methods, 12: 259-275.