Mede dankzij inspanningen van het Innovation Growth Lab is
er wereldwijd steeds meer oog voor experimenteren met economisch beleid.
Dat dit ook in Nederland speelt blijkt bijvoorbeeld uit de aandacht die
eraan wordt besteed op het
Kennis en Beleid Congres 2018
“Vormgeving van experimenten voor beter beleid”, op 19 juni. Eén van de
vele sprekers is de DG van het Ministerie van Economische Zaken en Klimaat
(EZK), Maarten Camps, die zich al eerder hard maakte voor
beleidsexperimenten (zie ESB, 2017). Sinds
enkele jaren is het ministerie zich hier nadrukkelijker op gaan toeleggen,
onder meer op het gebied van innovatie (Roelandt & Van der Wiel, 2017).
Nederland heeft een traditie als het gaat om het verkennen van nieuwe
beleidsaanpakken. Interventies die hier bedacht of sterk aangescherpt zijn
omvatten onder andere de innovatievouchers waarmee bedrijven expertise
kunnen inwinnen bij kennisinstelingen, de de PPS-toeslag (voorheen
TKI-toeslag) voor publiek-privaat onderzoek, en de
Topsectorenaanpak
. Het concept van beleidsexperimenten gaat echter verder dan het
uitproberen van iets nieuws. Essentieel is de ambitie om niet enkel
achteraf te controleren of een interventie gewerkt heeft, maar om veel
eerder en intensiever te leren over wat beleid teweegbrengt en op welke
punten het bijgesteld kan worden. De grote belofte van beleidsexperimenten
is tijdige inzage in de potentiële effectiviteit van interventies, en
daarmee gerichtere inzet van beleidsmiddelen en bruikbaardere uitkomsten.
Inmiddels zijn er enkele ervaringen met het implementeren en onderzoeken
van dergelijke experimenten. Kijkend naar de ontwikkelde
beleidsinitiatieven onderscheid ik drie hoofdvarianten. In dit stuk zet ik
kort uiteen wat er komt kijken bij het toepassen van de diverse varianten,
en wat ze elkaar te bieden hebben.
Varianten van beleidsexperimenten
Onderstaand kader biedt handvatten om te onderscheiden welke variëteit in
beleidsexperimenten er bestaat. De centrale leidraad wordt gevormd door de
fasen in de beleidsketen (van prikkel tot uitkomst) waarop experimenten
betrekking kunnen hebben. De drie varianten die hier besproken worden
hebben ieder hun voor- en nadelen.
Figuur 1: Drie soorten beleidsexperimenten en hun voornaamste accenten
Pilots
Wellicht de meest traditionele variant van experimenteren met beleid is het
kleinschalig uittesten ervan met behulp van een pilot. De eerste versie van
de innovatiestimulerende MIT-regeling was bijvoorbeeld een officiële pilot
(in 2014), en momenteel loopt er in Zuid-Holland een pilot met een
regionale editie van de IPC-regeling (InnovatiePrestatieContracten).
Kenmerkend is dat een nieuwe regeling eerst wordt uitgeprobeerd op een
fractie van de uiteindelijk beoogde doelgroep; dit kan door de pilot alleen
open te stellen voor een specifieke regio, thema of sector.
Als het gaat om wat we kunnen leren ligt de focus primair op praktische en
juridische aspecten van de beleidsuitvoering, inclusief
zaken als het ontwikkelen van een goede wervingsstrategie en tevredenheid
van de gebruikers. Ook is van belang welk deel van de beoogde doelgroep
interesse toont, een aanvraag doet, en tenslotte (bij honorering) de
prikkel gebruikt. Omdat de uiteindelijk gewenste impact vaak even op zich
laten wachten ligt er doorgaans wat minder nadruk op het onderzoeken van
gedragseffecten en gerealiseerde uitkomsten.
Bij pilots is de kunst om ze op een representatieve en efficiënte manier
vorm te geven. Is de eerste versie van een interventie toegespitst op een
specifieke context waarin ze waarschijnlijk toch wel werkt, zoals bij
bedrijven die duidelijk een bepaald innovatieprobleem hebben, dan kunnen
opgedane ervaringen maar beperkt gegeneraliseerd worden. Wat betreft de
efficiëntie: wanneer proefbeleid formeel net zo zwaar wordt vormgegeven als
regulier beleid heeft dit mogelijk relatief hoge uitvoeringskosten tot
gevolg. Essentieel is dat experimenten wel de geijkte manier zijn om
verspilling van (veel aanzienlijkere) beleidsmiddelen te voorkomen. Deze
redenering geldt uiteraard alleen als de pilot werkelijk voldoende zicht
geeft op hoe een instrument aanslaat.
Randomized controlled trials (RCT’s)
Kenmerkend voor RCT’s is dat op basis van loting bepaald wordt wie welke
mate van ‘behandeling’ krijgt, inclusief geen behandeling. Het evidente
voordeel is dat gemeten prestaties niet beïnvloed raken door de
zelfselectie-bias die ontstaat wanneer uitgerekend de meest succesvolle
bedrijven van een bepaald instrument gebruikmaken; zij zijn immers niet
goed te vergelijken met niet-gebruikers. Door dit probleem te verhelpen
worden RCT’s dikwijls gezien als de heilige graal van effectmeting (Commissie Theeuwes, 2012).
Wereldwijd is er nog maar weinig ervaring met het toepassen van RCT’s in
innovatiebeleid. Vanuit het Behavioural Insights Team van het Ministerie
van EZK worden er momenteel enkele initiatieven ondernomen op het vlak van
gedragsveranderingen, bijvoorbeeld met het oog op effectievere communicatie
over beleidsinstrumenten. Het opzetten van trials waarbij bedrijven actief
een aanvraag moeten doen voor een concreet beleidsinstrument is nog een
stuk ingewikkelder. Wanneer de verstrekte prikkel zelf maar gering is zijn
aanvragers lang niet altijd bereid om te accepteren dat ze mogelijk worden
uitgeloot. Vervolgens is het ook nog eens zaak dat zowel de in- als
uitgelote bedrijven blijven participeren in de metingen ten behoeve van
monitoring en evaluatie.
Lokale ‘living labs’
De term living labs wordt vaak gehanteerd als verzamelnaam voor
initiatieven waarin beleidsmakers en maatschappelijke stakeholders als
kennisinstellingen, burgers en bedrijven samen werken aan een lokaal
vraagstuk. Living labs worden geacht een prominente rol te hebben in het
oplossen van complexe maatschappelijke opgaven. In een recent
advies over de energietransitie pleit de SER bijvoorbeeld voor experimenten waarbij lokaal momentum wordt
benut. Hier ligt dan ook de kracht van dit type experiment; de
gerealiseerde uitkomsten leiden tot kennis over nieuwe (technologische) oplossingen en de socio-economische systemen waarin die
oplossingen het beste tot hun recht komen.
Een belangrijke keerzijde van living labs, en de transitie-experimenten die
daarin plaatsvinden, is dat uitkomsten vaak als erg context-afhankelijk
worden gezien. De rol van beleidsprikkels blijft onderbelicht vanuit de
gedachte dat wat werkt op de ene plek elders niet hoeft te werken. Hierdoor
komt de nadruk te liggen op het proberen van nieuwe dingen (variatie
creëren), en minder om het leren en uitrollen van successen (replicatie en
retentie). Ook het Rathenau Instituut komt in haar
rapport over Living Labs tot de conclusie dat er een grote uitdaging ligt als het gaat om het
documenteren en delen van lessen.
Ruimte voor het uitbreiden van Pilots en RCT’s
Op basis van een beschrijving van de drie typen beleidsexperimenten kunnen
we vaststellen welke ruimte er is om respectievelijke sterkten te benutten
en beperkingen te verhelpen.
De meest voor de hand liggende combinatie is het mengen van Pilots met de
RCT-benadering. Als er toch iets nieuws gelanceerd wordt is het verstandig
om zo veel mogelijk een gecontroleerde opzet te benaderen voor betrouwbare
effectmeting. Mocht dat niet lukken, e.g. bij gebrek aan deelname, dan kan
het accent van beleidsleren alsnog terugvallen op implementatie en vooral
doelgroepbereik. Dat klinkt misschien als een second-best aanpak, maar
juist dat laatste is hard nodig op het moment dat (zelfs) een bescheiden
pilot onvoldoende aanslaat.
Eigenlijk geldt bij RCT’s altijd dat de aandacht niet exclusief uit moet
gaan naar doeltreffendheid; zaken als doelgroepbereik zijn essentieel om
echt te weten of resultaten te generaliseren zijn. Binnen de groep van
deelnemers kan weliswaar vergeleken worden of ingelote partijen zich anders
gaan gedragen dan uitgelote partijen, maar als alle aanvragers tot een
kopgroep behoren is de generaliseerbaarheid (en daarmee bruikbaarheid) van
dergelijke ‘harde’ effecten gering.[1]
Zowel bij Pilots als RCT’s is het aan te bevelen om verder te kijken dan
eerste-orde gedragseffecten, en ook de uitkomsten te onderzoeken. Hoewel
dergelijke experimenten primair draaien om het onderzoeken van prikkels, is
de vraag natuurlijk ook wat effectieve prikkels ons uiteindelijk opleveren.
Er kan vanuit maatschappelijk oogpunt nogal wat verschil bestaan in de
wenselijkheid en impact van beleidsuitkomsten. Of innovaties met succes
verwezenlijkt worden is pas na jaren te zeggen, maar in eerdere stadia is
het wel mogelijk om te kijken of er nieuwe kennis aan te pas komt, of die
voor anderen relevant is, of die kennis zich ook verspreidt, etc.[2]
Om zicht te krijgen op wat een Pilot of RCT precies doet, en hoe dat
doorwerkt, is het verstandig om monitorings- en evaluatieraamwerken te
baseren op een ‘theory of change’. Dit betreft de keten van beoogde
effecten, van besluitvorming tot aan uitkomst. Een voorbeeld hiervan is het
Service Innovation Maturity-model uit een recent beleidsexperiment met ‘service design vouchers’. Dit model (waar ook de effectmeting op gebaseerd is) omvat de
verschillende stadia van bewustzijn, strategieverandering,
gedragsverandering, uitkomst, en het succes daarvan.
Living Labs op basis van Pilot- en RCT-principes
Voor living lab-achtige experimenten geldt dat die meer vormgegeven kunnen
worden volgens de principes en aandachtsgebieden van Pilots en RCT’s. Een
zuivere RCT-aanpak is uiteraard wat veel gevraagd. Zeker bij transities is
het cruciaal om momentum te genereren, dus dan is het uitsluiten van
geïnteresseerden contraproductief. Wat wel kan is het vergelijken van
dynamiek in regio’s of steden die iets ondernemen, afgezet tegen plekken
die dat niet doen. Leerkansen zijn dan afhankelijk van het vermogen om een
goede counterfactual te identificeren en van indicatoren over de
respectievelijke nul-situaties.
Het benaderen van een RCT-aanpak wil geenszins zeggen dat er op grote
schaal uniform gemodelleerde labs uitgerold moeten worden. Integendeel.
Binnen de ontwikkelingseconomie woedt al jaren een discussie over de
mogelijkheid om juist van lokaal gespecificeerde kort-cyclische
experimenten te leren. Bij ‘problem-driven iterative adaption’ is het mogelijk om te loten, maar de opzet van de interventies telkens te
laten variëren afhankelijk van de omstandigheden waarin deze worden
geïmplementeerd. Op die manier ontstaat snel inzicht in processen en
factoren die bepalen of verstrekte prikkels aanslaan. Tegenover de beperkte
validiteit van die inzichten staat dat ze wel enorm kunnen inspireren.
Ook als er niet geloot wordt, is het op zijn minst interessant om
gelijksoortige initiatieven te vergelijken, liefst op alle fasen uit de
beleidsketen van Figuur 1. Bijzonder aan living labs is dat het initiatief
vanuit burgers, steden of bedrijven zelf komt, en dat ze meewerken aan het
creëren van prikkels om andere partijen mee te krijgen. De bijkomende
governance en belangenafwegingen zijn bij uitstek onderwerpen waar andere
labs hun voordeel mee kunnen doen, nog los van de uitkomsten die het
uiteindelijk genereert (in termen van oplossingen). Het is overigens zeker
de moeite om ook met deze bril te kijken naar beleid waarin met maatwerk en
parallelle programma’s gewerkt wordt, zoals de Topsectorenaanpak,
PPS-toeslag, MIT-regeling, Fieldlabs, Greendeals en het
Valorisatieprogramma.
Conclusie
Vanuit het perspectief van evidence based policy is het erg
positief dat er meer aandacht komt voor beleidsexperimenten, vooral als de
mogelijkheden en beperkingen goed overwogen worden. Daar komt nog eens bij
dat experimenten ook gelegenheid bieden om te leren over implementatie- en
governance-vraagstukken die ingewikkelder liggen naarmate innovatiebeleid
zich meer gaat richten op maatschappelijke uitdagingen. De hier beschreven
drie archetypische experiment-vormen kennen ieder hun eigen accenten als
het gaat om de vragen hoe beleid ingevuld wordt en ontvangen wordt, óf en
hoe het werkt, en wat het vervolgens oplevert. Om de nog geringe inzet van
experimenten aan te zwengelen is het goed om te erkennen dat die accenten
op allerlei manieren gecombineerd kunnen worden.
Het Kennis en Beleid Congres 2018 “Vormgeving van experimenten voor beter beleid” vindt plaats op 19 juni in Den Haag. Dialogic is één van de partners van dit congres.
Voetnoten
[1] Het opzetten van een repliceerbare onderzoeksaanpak is slechts een manier om externe validiteit te waarborgen. Of bevindingen een algemene geldigheid hebben hangt af van of er nog meer partijen zijn die op de onderzochte populatie lijken. Zo niet, dan is de ecologische validiteit in het geding.
[2] Zie de lopende discussie over het meten van spillovers en systeemeffecten (Janssen, 2018).
Referenties
Camps, M. (2017), Durf te leren, ESB, 102 (4745), 6-9.
Roelandt, T. & van der Wiel, H. (2017), Durf te meten: Hoe evalueren wehet Nederlandse innovatiebeleid?, Me Judice, 11 september 2017.
Commissie Theeuwes (2012), Durf te meten: Eindrapport Expertwerkgroep Effectmeting.
Janssen, M. (2018), Effect transformatief innovatiebeleid lastig te meten, ESB, 104 (4762).