Onze 10 data science trends voor 2021

Met 2020 achter ons (eindelijk!) wordt het zo langzamerhand tijd om weer vooruit te kijken. Van het afgelopen jaar hebben we geleerd dat sommige dingen niet te voorspellen zijn, maar dat weerhoudt ons er niet van toch een poging te wagen. Onze trendwatchers hielden hun ogen goed open, en in deze blog delen wij onze voorspellingen voor de belangrijkste ontwikkelingen voor het nieuwe jaar op het gebied van data science in het algemeen en de datagedreven overheid in het bijzonder. We identificeren technologische trends die interessant zijn voor de datagedreven overheid, maar bespreken ook belangrijke maatschappelijke ontwikkelingen die het gebruik van data beïnvloeden.

1. Machine learning: lessen uit de coronacrisis en AutoML

Machine learning is al lang geen noviteit meer. Het wordt voor allerlei toepassingen gebruikt. Het wordt bijvoorbeeld gebruikt om met steeds grotere nauwkeurigheid voorspellingen over het weer te kunnen doen. Ook deepfakes, de even fascinerende als beangstigende neppe videobeelden die ontwikkeld worden met behulp van deep learning algoritmes, zijn het resultaat van machine learning, Een belangrijke ontwikkeling op het gebied van machine learning is AutoML: automated machine learning. Bij AutoML gaat het om het automatiseren van het leerproces (machine learning experts zijn gek op automatiseren). Nu is het ‘voeden’ van een machine learning algoritme een arbeidsintensief proces dat veel menselijke expertise vraagt. Het kunnen automatiseren van dit proces zou betekenen dat machine learning in 2021 vaker en makkelijker toegepast kan worden, wat interessante gevolgen kan hebben voor haar vele toepassingsgebieden.

A MacBook with lines of code on its screen on a busy desk

Machine learning wordt gebruikt voor een enorme range aan voorspellingen. Het afgelopen jaar zal een interessante les zijn voor experts in de wereld van machine learning: de Corona pandemie heeft laten zien dat voorspellingen heel kwetsbaar kunnen zijn, en dat de waarde van een voorspelling snel kan verdwijnen als de omstandigheden onverwachts veranderen. De robuustheid van voorspellende modellen is dus behoorlijk aan de tand gevoeld het afgelopen jaar. De economische crisis van 2008 leidde tot veel interessante onderzoeksvragen, zoals de vraag of we kunnen identificeren welke bedrijven het minst en het meest kwetsbaar zijn voor allerlei soorten externe shocks. De huidige crisis zal ongetwijfeld ook aanzetten tot nieuwe vragen over de kwaliteit en robuustheid van de voorspellende modellen die we gebruiken.

2. Netwerkanalyse en graph databases: voorbij het sociale netwerk

Sociale media zijn niet meer weg te denken uit ons dagelijks leven. Hierdoor heeft iedereen wel een beeld bij het begrip ‘sociale netwerken’. Zulke netwerken worden al jaren op grote schaal geanalyseerd. Bij sociale netwerken zijn de ‘bolletjes’ mensen, en de ‘streepjes’ de relatie tussen die mensen. Zo’n relatie kan van alles zijn: vriendschap of collega’s, maar ook bijvoorbeeld of ze samen in een film hebben gespeeld. Netwerken kan je analyseren om vragen te beantwoorden zoals ‘welke personen zijn centraal in dit netwerk?’ of ‘wat zou er gebeuren als er iemand uit het netwerk valt?’. Dat zijn niet zomaar vragen: stel je je een netwerk van terroristen of drugshandelaren voor, dan kan het aanpakken van de juiste persoon ervoor zorgen dat het hele netwerk uiteenvalt. Sociale netwerken worden al jaren geanalyseerd, maar er is zoveel meer. Wat gebeurt er bijvoorbeeld met een lange supply chain wanneer er een belangrijke schakel failliet gaat? Wat is het gevolg van de Coronacrisis voor het transactienetwerk van banken? Waar gaan mensen naartoe nadat ze op een specifieke plek in de stad zijn geweest? Hoe verhoudt een malafide bedrijf zich tot andere bedrijven? De ‘bolletjes’ in een netwerk kunnen dus ook bedrijven zijn, of gebouwen, of producten of iets anders, en de ‘lijntjes’ kunnen staan voor transacties, bewegingen, causaties, en eigenlijk iedere soort interactie zijn. Door data te zien als een netwerk (een ‘graph database’) in plaats van als een tabel, zoals we vaak gewend zijn te doen, komen er nieuwe interessante vragen aan het licht. Wij verwachten dat in 2021 de vraag naar netwerkanalyses flink zal groeien, en we deze aanpak steeds vaker kunnen toepassen in verschillende maatschappelijke domeinen.

A Network of Networks | Anna Lindh Foundation

3. Kansen voor ‘X analytics’

‘X marks the spot’, en kan hier voor van alles staan. Het analyseren van nette, gestructureerde datasets gebeurt natuurlijk al heel lang. Het analyseren van andere dingen, zoals teksten uit krantenartikelen of boeken, video’s, afbeeldingen, geluidsfragmenten en taal, is zich ook sterk aan het ontwikkelen. Vul ieder van die dingen maar in op de X! In de wetenschap zijn er al veel inspirerende voorbeelden van text analytics, sound analytics en natural language processing. Mijn persoonlijke favorieten zijn een analyse van de tekst uit populaire volksverhalen die laten zien welke oude volksstammen met elkaar in contact waren en hoe ze over de wereld migreerden, en deze analyse die muziekfragmenten ziet als stukjes DNA. In de zakelijke en maatschappelijke wereld wordt er nog een stuk minder gebruik gemaakt van al deze verschillende soorten analyses. De potentie is er wel: wat als we geluidsfragmenten van uitgaansgebieden kunnen gebruiken om veiliger uit te gaan? Welke inzichten kunnen we krijgen als we op grote, structurele schaal social media en review sites gaan analyseren? Wat ons betreft valt er op dit gebied nog veel te ontdekken, en zou het zeer de moeite waard zijn om hier in 2021 verder in te duiken.

4. De Cloud blijft hangen

Waar ‘de Cloud’ eerst een hip buzzword was voor alles wat met internet te maken had, is het nu een begrip dat volwassen aan het worden is. Cloud computing is een manier van werken waarbij je geen gebruik maakt van je lokale machine, maar werkt met on-demand beschikbare servers waarop je bijvoorbeeld je data op kan slaan. Werken in de cloud biedt mogelijkheden voor ‘software as a service’ en ‘data as a service’: een businessmodel waarbij een product niet lokaal bij een klant geïnstalleerd wordt, maar wordt aangeboden als een dienst en waarbij je betaalt naar gebruik. De klant is daarmee dus niet eigenaar van het product. Deze manier van werken heeft een aantal serieuze voordelen voor zo’n klant: de service is makkelijk op- of af te schalen, er zijn geen aanschafkosten, en de maandelijkse of jaarlijkse kosten zijn heel inzichtelijk.  Misschien wel het belangrijkste voordeel is dat onderhoud, uitbreidingen, klachten en storingen niet door de klant behandeld worden maar door de leverancier. Dat is handig, maar zorgt er vooral voor dat de leverancier er belang bij heeft om te zorgen dat de dienst goed werkt, gebruiksvriendelijk is, weinig storingen heeft, en lang meegaat. Heel wat anders dan het gemiddelde koffiezetapparaat, dus. Om die reden is het ‘XaaS’ (‘anything as a service’) businessmodel is niet alleen populair in de IT-wereld, maar wordt het ook steeds vaker gebruikt om bijvoorbeeld de mobiliteitswereld en de productie-industrie te verduurzamen. Voor data-projecten is het erg geschikt omdat het het mogelijk maakt om grote datasets en zware analyses uit te voeren zonder toegang tot een supersterke computer. De cloud is dus here to stay, en de mogelijkheden die dit biedt zullen in 2021 ongetwijfeld verder verkend worden.

white clouds

5. Focus op transparantie in modellen en analyses

Op technisch vlak zijn de mogelijkheden voor complexe modellen en geavanceerde analysemethodes bijna eindeloos. We kunnen onze computers zó vlijtig aan het werk zetten zodat zelfs de beste ontwikkelaar niet meer begrijpt wat er achter de schermen precies gebeurt. Zulke algoritmes zitten in een ‘black box’. Parallel aan de technologische ontwikkeling loopt ook een andere ontwikkeling: het maatschappelijke debat over of we dat eigenlijk wel moeten willen. Er wordt over de hele linie gepleit voor transparante AI, in twee vormen. In de eerste plaats is dat transparantie binnen algoritmes, waarbij het erom gaat dat algoritmes begrijpelijk blijven (‘explainable AI’, of XAI – ja, weer die X!). Daarmee voorkomen we besluitvorming op basis van black boxes, zorgen we ervoor dat menselijke experts kunnen blijven meedenken met het algoritme (‘human in the loop’) en de resultaten van een algoritme kunnen verantwoorden, en voorkomen we kwalijke zaken als biases in algoritmes. Een charmant voorbeeld van transparantie binnen algoritmes is de ‘waarom zie ik dit?’-knop die Facebook dit jaar toevoegde aan haar gepersonaliseerde advertenties. In de tweede plaats gaat het maatschappelijke debat over transparantie over algoritmes: welke algoritmes worden er eigenlijk gebruikt, en hoe beïnvloeden die onze levens? Eind september lanceerden Amsterdam en Helsinki samen het eerste algoritme register ter wereld, waarin de steden bijhouden welke algoritmes voor welke doelen gebruikt worden, en hoe deze algoritmes gebruikt, beveiligd en gecontroleerd worden. Zowel transparantie binnen algoritmes als transparantie over algoritmes staan echt nog in de kinderschoenen, en wij verwachten dat hier in 2021 veel aandacht voor zal zijn.

AI has a black box explainability problem - can outcome analysis play a role?

6. Verantwoordelijke artificial intelligence

Een stap verder dan transparante AI is ‘responsible AI’ (je raad het al: RAI). Hierbij gaat het niet alleen om transparantie, maar ook om zaken als eerlijkheid, veiligheid, het waarborgen van privacy. De vele discussies over de Corona-app, met vragen als ‘kunnen we mensen verplichten tot het gebruiken van deze app?’ en ‘hoeveel moet zo’n app van ons weten om nuttig te zijn?’, lieten zien dat deze thema’s belangrijk en nog niet uitgekristalliseerd zijn. De vraag hoe eerlijk een algoritme is, wordt niet altijd expliciet gesteld. Het boek ‘Invisble Women: exposing data bias in a world designed for men’ dat het afgelopen jaar enorm populair was, benadrukte dat blinde vlekken of verkeerde aannames vaak aan de basis liggen van onbedoeld oneerlijke algoritmes. Wij verwachten dat er in 2021 veel aandacht gaat komen voor de vraag hoe we met data kunnen werken op een eerlijke, veilige en verantwoorde manier.

In Nederland lijkt de sinds 2018 geldende AVG langzaam volwassen te worden. Gemeentes werken met privacy officers, en voor projecten die met data van doen hebben zijn protocollen opgesteld. De komende jaren zal gaan blijken in welke situaties deze aanpak goed werkt, en waar nieuwe kansen liggen. Ook internationaal verwachten we veel aandacht voor responsible AI. De fascinerende maar soms ook shockerende voorbeelden van ‘deep fakes’ die ik al eerder noemde laten zien dat er ook internationale aandacht nodig is voor het verantwoordelijk gebruiken van data en algoritmes, en voor het beschermen van personen en hun identiteit.

private signage door

7. Design thinking koppelt data aan maatschappelijke vraagstukken

Design thinking is een werkwijze die populair is in de design-hotspots van de wereld, zoals Silicon Valley en ons eigen Eindhoven. Onze Design Sprints zijn er een goed voorbeeld van. Design thinking is een iteratieve aanpak waarbij de gebruiker centraal staat, en waarbij oplossingen voor uitdagingen gezocht worden door eerst het probleem vanuit verschillende perspectieven te bekijken. Het is een interessante aanpak, omdat het uitnodigt om ‘om te denken’ en bestaande aannames tegen het licht te houden. Dat is belangrijk, gegeven de grote hoeveelheid aandacht voor eerlijke en ‘explainable’ algoritmes en veilig gebruik van data. Omdat het een werkwijze is die de gebruiker centraal stelt en die veel aandacht besteedt aan het integraal belichten van op te lossen maatschappelijke problemen, verwachten wij dat design thinking een steeds grotere rol gaat spelen.

Gerelateerd hieraan is de trend ‘van dashboard naar story’ die wij steeds vaker horen: waar het de afgelopen jaren populair was om instrumenten te ontwikkelen waarbij gebruikers zelf met data kunnen werken om hun eigen visualisaties te maken, wordt de vraag naar ‘data stories’ steeds groter. Men is zich er steeds meer van bewust dat data altijd een verhaal vertelt, en dat het belangrijk is om dit verhaal zorgvuldig te interpreteren, in de juiste context te plaatsen, en te laten passen bij de doelgroep. Vandaar dat wij verwachten dat het dashboard, de zandbak waarin gebruikers zelf bouwen, steeds vaker plaats zal maken voor data stories, waarbij data in dienst staat van een maatschappelijk doel.

8. Versmelting van ‘harde’ en ‘zachte’ data

Van oudsher zijn de werelden van de mens en de wereld van de techniek behoorlijk gescheiden. Je kan psychologie, sociologie of geschiedenis studeren om de mens te bestuderen, en werktuigbouwkunde of computer science om de techniek te begrijpen. Er zijn maar weinig plekken waar je leert over de interactie tussen mens en techniek. Op dezelfde manier was ook de wereld van de ‘kwalitatieve data’, de wereld van boeken en interviews, gescheiden van de wereld van de ‘kwantitatieve data’, de wereld van tabellen en grafieken. Nu zien we steeds meer dat die werelden naar elkaar toe beginnen te groeien. Aan de ene kant komt dat doordat kwantitatieve data op zo’n grote schaal wordt verzameld, ingezet en gecommuniceerd dat niemand er nog omheen kan. Ook iemand die liever alles wat eruitziet als spreadsheets zoveel mogelijk vermijdt, moet nu enige datageletterdheid hebben om te kunnen deelnemen aan maatschappelijke discussies. Aan de andere kant zorgen diezelfde maatschappelijke discussies ervoor dat we van algoritmebouwers verwachten dat zij op de hoogte zijn van meer dan alleen de techniek: zij moeten ook meekunnen als het gaat om gebruiksvriendelijkheid, privacy, hun eigen aannames, en het effect dat het gebruik van hun algoritmes heeft op het gedrag van mensen en de maatschappij. Ook in onze data-applicaties zien wij mens en techniek naar elkaar toe groeien. Zo horen we bijvoorbeeld steeds vaker dat onze gebruikers een plek zoeken om naast ‘harde data’ ook ‘zachte data’ met elkaar te delen: conclusies uit gesprekken, voornemens tot maatregelen en andere inzichten geven onmisbare context aan modellen die op basis van ‘harde data’ zijn ontwikkeld. De twee werelden zijn geheel complementair, en we zien deze ontwikkeling zich graag voortzetten in 2021.

person holding white marker

9. Van data science naar beleid

De toepassing van data science technologieën raakt steeds verder verankerd in besluitvormende processen. Dat wil natuurlijk niet zeggen dat er beleid geformuleerd wordt puur op basis van voorspellingen uit modellen. Het is wel zo dat in veel fases in het besluitvormingsproces een informerende rol voor data science is weggelegd. In de eerste plaats begint de verkenning van nieuw beleid vaak met de (logische) vraag ‘wat is de huidige situatie rondom dit thema?’ Het slim inventariseren en visualiseren van beschikbare data speelt steeds vaker een rol bij het beantwoorden van die vraag. Daarmee is dan direct ook een tweede vraag beantwoord: ‘wat is de status van beschikbare informatie/data rondom dit thema?’ Dat is een relevante vraag, want een goede datahuishouding biedt vaak nieuwe mogelijkheden om die data te gebruiken om een maatschappelijk probleem op te lossen, of ten minste om geen tijd te verspillen aan inefficiënt werken. Ten tweede is er een duidelijke rol voor data-analyse weggelegd in het monitoren en evalueren van beleid. Ten derde kan data science helpen bij het identificeren van vruchtbare gronden voor nieuw beleid. Zo kan een statistische analyse aangeven of er een relatie is tussen twee factoren, en of die relatie positief of negatief is. Zo’n analyse kan inzicht geven in mogelijke effecten van een nieuwe maatregel. Gezien de complexiteit en onvoorspelbaarheid van maatschappelijke problemen denken wij dat het gebruik van scenario’s geïnformeerd door data science een vlucht gaat nemen in 2021. Het gebruik van scenario’s sluit namelijk ook uitstekend aan bij de trend richting data stories, en lijkt ons ook gewoon hartstikke interessant!

10. Doorbreken van silo’s

Het inventariseren, analyseren en visualiseren van data is natuurlijk al interessant en nuttig in zichzelf. Naast dat dit tot interessante nieuwe inzichten kan leiden, zien wij ook steeds vaker dat data-analyse kan bijdragen aan het doorbreken van silo’s. Ik noemde al eerder dat wij merken dat onze data-applicaties de werelden van de ‘harde’ en de ‘zachte’ data dichter bij elkaar brengt. Op dezelfde manier geloven wij dat data ook verschillende domeinen bij elkaar kan brengen. Zo draagt data bij aan een integrale aanpak van maatschappelijke problemen, wat goed past bij domein-overstijgende thema’s zoals gebiedsgericht werken. We horen bijvoorbeeld vaak dat verschillende gemeentelijke domeinen ieder hun eigen ‘taal’ hanteren. Door je gezamenlijk te buigen over data-inventarisatie en data-visualisatie, worden in de eerste plaats deze verschillen zichtbaar en kunnen we ervoor zorgen dat er een gedeeld begrip gaat ontstaan. Ook hierbij verwijzen we terug naar ons eerdere punt over design thinking en data stories: hoe kunnen we door middel van data een verhaal vertellen dat aansluit bij de leefwereld van anderen, en zo onze werelden wat dichter bij elkaar brengen? In onze recentere projecten zien wij dit in de praktijk, en we hopen van harte dat deze ontwikkeling zich doorzet in 2021.

Tijdens mijn onderzoek naar trends en ontwikkelingen in data science voor deze blog viel het mij op hoeveel van deze trends te maken hebben met het bij elkaar brengen van verschillende werelden, en de belangrijke rol die data daarin kan spelen. Dat lijkt mij een ambitie die in haar geheel mee mag naar 2021, en een uitstekende gedachte om deze blog mee af te sluiten! Dus, moge 2021 het jaar zijn waarin verschillende werelden (weer) voor je open gaan dan wel samen komen!

Meer digitale content

Wil je automatisch op de hoogte blijven van onze digitale content? Abonneer je dan op ons Youtube kanaal of stuur ons bericht via dit formulier en vink de ‘blog’ optie aan!

Relevante links

Whitepapers

Blogs

Academy

Testimonials

Masterclasses

Foto (boven) credits: Samuel Chenard op Unsplash