Berichten

Masterclass – Het opsporen van verdachte netwerken in gemeentelijke data

Deze maand zijn we gestart met een serie video’s waarin we onze kennis delen onder de noemer: Shintō Labs Masterclass. In iedere editie komt een expert aan het woord om over een specifiek onderwerp zijn of haar kennis te delen. We gaan in op verschillende vraagstukken rondom datagedreven werken en data analytics in de overheid. Onderwerpen kunnen variëren van innovatie methodiek, privacy, ethiek maar ook meer technische onderwerpen als text analytics en graph databases.

Het opsporen van verdachte netwerken in gemeentelijke data

In deze editie vertelt data scientist Wesley Brants over over het opsporen van verdachte netwerken in gemeentelijke data. Aanbod komen onderwerpen zoals netwerktheorie, netwerk analyse, crime scripts en organized crime lab. Naast uitleg over de werking van graph databases worden ook voorbeelden uit onze praktijk besproken zoals de case Ondermijning & Fraude bij de gemeente Zaanstad en onze Risico Radar Ondermijning.

Vragen en feedback

Heb je een vraag of opmerkingen over de vodcast van Wesley? Laat het ons dan weten via onderstaand formulier!


Abonneren

Wil je automatisch op de hoogte blijven van nieuwe edities van de Shintō Labs Masterclass? Abonneer je dan op ons Youtube kanaal of stuur ons bericht via bovenstaand formulier en vink de ‘blog’ optie aan!

De slides

Master-Class-Netwerkanalyse

 

Relevante links

Andere masterclasses

Blogs

 

Hoe je als gemeente kan vernieuwen met data en technologie in 5½ tips

Naast haar werk voor Shintō Labs, verdedigt Mignon Wuestman op 26 juni a.s. haar proefschrift over de evolutie van innovaties voor de Universiteit Utrecht. Zij deed vier jaar lang onderzoek naar de ‘stambomen’ van (wetenschappelijke) innovaties, en werkte op het raakvlak van onder andere complexiteitstheorie, economische geografie en sociologie. In deze blog deelt ze een aantal inzichten uit haar promotieonderzoek en gerelateerde onderzoeken, specifiek binnen de context van de lokale overheid.

Innovatie is een belangrijke drijvende kracht achter bedrijven, overheden en andere maatschappelijke spelers. Het helpt namelijk om maatschappelijke en technische problemen op te lossen, productiekosten te verlagen, je te onderscheiden van anderen, of nieuwe markten aan te boren. Daarnaast speelt innovatie natuurlijk een enorme rol in de wetenschap en in de kunst.

Het bedenken van nieuwe ideeën, het selecteren van goede ideeën, en het daadwerkelijk tot uitvoering brengen van die ideeën is echter niet eenvoudig. Dat komt doordat innovatie per definitie onzekerheid met zich meebrengt. De (maatschappelijke) problemen die we willen oplossen zijn over het algemeen namelijk zo complex dat het onmogelijk is om ze volledig te overzien. Daarnaast kunnen we niet in de toekomst kijken om goed te beoordelen wat het effect van een bepaalde innovatie zal zijn. Het gevolg daarvan is dat het vaak niet mogelijk is om volledig rationele beslissingen te maken, zoals vaak door economen wordt verondersteld. Om ondanks deze onzekerheid toch te kunnen innoveren is dus een belangrijke vraag: hoe kunnen overheden het beste omgaan met de onzekerheid van innovatie?

Innovatie is staan op de schouders van reuzen

In het kort zijn innovaties op de markt gebrachte inventies. Het kan daarbij gaan om producten die je vastlegt in patenten en in een winkel verkoopt, maar ook om wetenschappelijke ontdekkingen die opgeschreven en gepubliceerd worden, of bijvoorbeeld nieuw beleid dat ingevoerd wordt.

Figuur 1: stamboom van innovaties

Het ontstaan van innovatie wordt vaak vergeleken met de evolutie van planten en dieren. Net als in de biologie, zijn termen als ‘mutatie’, ‘fitness’, en ‘selectieomgeving’ ook relevant bij innovaties. Net als in de biologie, is het ook bij innovaties zo dat je verschillende generaties kan onderscheiden, en wordt er informatie doorgegeven van generatie op generatie. In de biologie heb je het dan over DNA, in de innovatietheorie gaat het bijvoorbeeld om producteigenschappen. Waar je in de biologie dus met stambomen, of ‘genealogieën’ kan werken om deze ontwikkeling te visualiseren, kan dat met innovaties dus ook (figuur 1). In het kort geldt voor dat soort netwerken:

  • Ieder bolletje stelt een idee (een innovatie) voor. Zo’n idee kan zijn vastgelegd in een patent, een wetenschappelijk artikel, een beleidsstuk of het brein van een slimme uitvinder of het collectieve brein van een team
  • Ieder lijntje staat voor het erven van bepaalde eigenschappen van idee naar idee
  • Ideeën kunnen eigenschappen erven van meerdere bestaande ideeën. Dat noemen we ‘recombinatie’.
  • Door dit proces ontstaan er paden die divergeren en convergeren, en die daarmee iets zeggen over de evolutie van ideeën.

Precies dit soort netwerken vinden we terug onder wetenschappelijke artikelen en patenten (figuur 2), teams van jazzmuzikanten (figuur 3), en in het geval van mijn thesis, wiskundigen (figuur 4). Naast netwerken van patenten, papers, teams of individuen zijn dit dus ook netwerken van innovaties.

Figuur 2: Citatienetwerk van Ethernet-patenten 1977-2002 (Fontana et al., 2009)

Figuur 3: Netwerk van steden verbonden door jazzmuzikanten-mobiliteit (Phillips et al., 2011)

Figuur 4: Mentorschapsgenealogie van Nederlandse wiskundigen (Wuestman et al., 2020)

Er zijn veel voorbeelden te geven van overheidsprocessen die de recombinatorische aard van innovatie illustreren. Kruisbestuivingen tussen verschillende lokale overheden, afdelingen of teams zijn een goed voorbeeld. Individuele werknemers nemen ook ideeën mee uit eerdere projecten of banen.

Nu je weet dat innovaties voortkomen uit het recombineren van eerdere innovaties, is het niet moeilijk om je voor te stellen hoeveel innovaties er mogelijk zijn. In theorie kan ieder ‘bolletje’ gecombineerd worden met ieder ander bolletje. We kunnen er echter niet vanuit gaan dat ieder van die combinaties ook een goed idee oplevert (of, in evolutionaire termen: een hoge ‘fitness’ heeft). Sterker nog, dikke kans dat de overgrote meerderheid geen goed idee is. Als innovator ben je dus op zoek naar een speld in een hooiberg. Hoe voorkom je dat je je blind staart op het hooi, en zo snel mogelijk die speld vindt?

1. Bepaal je doel

Er zijn verschillende types innovaties. Grofweg onderscheiden we er twee: incrementele en radicale innovaties.

Incrementele innovaties zijn kleine veranderingen die ons idee over ‘hoe de wereld in elkaar steekt’ in stand houden. Het zijn verbeteringen aan bestaande eigenschappen die bijvoorbeeld de gebruiksvriendelijkheid vergroten of het productieproces versnellen. Als we incrementele innovaties bekijken vanuit het evolutionaire perspectief dat ik hierboven heb uitgelegd, kun je incrementele innovaties vaak zien als recombinaties van ideeën die op elkaar lijken. Combineer bijvoorbeeld de goede eigenschappen van bolletje #9 met de goede eigenschappen van bolletje #10 met elkaar. In lokale overheden komen natuurlijk veel innovaties voor, waaronder veel incrementele innovaties. Zo kan een gemeente bijvoorbeeld de aanpak van een andere gemeente overnemen, maar deze aanpassen naar de lokale omstandigheden.

Radicale innovaties zijn grote veranderingen die wel onze aannames over de wereld op het spel zetten. Radicale innovaties leiden tot nieuwe paradigma’s. Vanuit evolutionair perspectief kan je zeggen dat radicale innovaties tot belangrijke nieuwe vertakkingen in een netwerk van ideeën leiden. Vaak zijn radicale innovaties tot stand gekomen door recombinaties van heel diverse ideeën: bolletjes die in het netwerk heel ver uit elkaar liggen, zoals bolletjes #10 en #16. Natuurlijk komen ook radicale innovaties voor in de overheid. Dit gebeurt bijvoorbeeld wanneer een overheidsorganisatie methoden uit de start-up wereld gebruikt om toe te passen op overheidsproblematiek.

Incrementele innovaties komen dus vaak tot stand door recombinaties van ideeën die op elkaar lijken, terwijl radicale innovaties recombinaties zijn van ideeën die niet op elkaar lijken. Dit gegeven kan je gebruiken wanneer je wil innoveren. Het kan nuttig zijn om jezelf af te vragen of je uit bent op een kleine verbetering of op een rigoureuze doorbraak. Zoals ik eerder zei, kan je je het netwerk van ideeën namelijk ook voorstellen als een netwerk van mensen. Als je het zo bekijkt, zou je kunnen concluderen dat incrementele innovaties vaak bedacht worden door teams van mensen die op elkaar lijken, zoals experts op het product dat verbeterd moet worden, terwijl radicale innovaties vaak bedacht worden door diverse teams die in staat zijn inzichten uit verschillende werelden te combineren.

Tip 1: radicale innovaties vragen om diversere ‘inputs’ dan incrementele innovaties.

Een consequentie van het combineren van ideeën die ver uit elkaar liggen is niet alleen dat ze een grotere kans hebben om tot een doorbraak te leiden. Ideeën die zo ver uit elkaar liggen zijn namelijk waarschijnlijk veel moeilijker te combineren dan ideeën die op elkaar lijken. Dat kan komen doordat niemand eerder zoiets geprobeerd heeft, of omdat de ideeën zo verschillend zijn dat ze nauwelijks compatibel zijn. Het is daarom aannemelijk dat incrementele innovaties tot een relatief kleine opbrengst leiden, maar ook minder risicovol zijn, terwijl radicale innovaties een enorme opbrengst kunnen leveren, maar ook een grotere kans hebben om op niks uit te draaien. Ook dat is iets om rekening mee te houden wanneer je wil innoveren!

Tip 2: diversiteit aan inputs is ‘high risk, high gain, dus kies waar je voor wil gaan.

Survival of the fittest bij start-ups en spin-offs

Neem bijvoorbeeld het concept van ‘spin-offs’. Spin-offs zijn kleine, nieuwe bedrijven die ontstaan vanuit grotere, gevestigde bedrijven. Vaak is het zo dat een werknemer bij een gevestigd bedrijf vertrekt omdat zij een idee heeft dat niet past binnen het gevestigde bedrijf, en besluit haar eigen bedrijf te beginnen. De kans is groot dat zij daarbij toch een aantal aspecten van het gevestigde bedrijf zal meenemen, zoals de kennis die zij daar heeft opgedaan. Deze kennis ‘erft’ het nieuwe bedrijf dus van het oude bedrijf. Niet alle spin-offs zullen lang blijven bestaan: alleen die spin-offs die het lukt om zich zo te ontwikkelen dat zij goed aansluiten bij de markt en relevante productieketens zal het lukken om succesvol te zijn. In andere woorden: die bedrijven die zich het best weten aan te passen aan hun selectieomgeving. U ziet het al aankomen: survival of the fittest.

2. Fail fast

Om snel tot dat ene goede idee tussen de 99 slechte ideeën te komen is het natuurlijk belangrijk om zo min mogelijk tijd, geld en frustratie te besteden aan ideeën die uiteindelijk niet blijken te werken. Dat is natuurlijk behoorlijk intuïtief, maar er is ook een innovatietheoretische reden om niet te veel te investeren in ideeën die zichzelf nog niet bewezen hebben. Dat heeft te maken met ‘padafhankelijkheid’.

Padafhankelijkheid betekent dat wanneer we eenmaal een bepaalde route zijn ingeslagen in het netwerk van innovaties, het heel lastig is om nog van die route af te wijken. Daar zijn een aantal redenen voor. Ten eerste is het door de recombinatorische aard van innovaties zo dat onze opties op dit moment worden bepaald door onze keuzes uit het verleden. Je kan immers alleen combinaties maken van ideeën die er al zijn. Als je veel investeert in een bepaald pad, vorm je daarmee dus een belangrijk deel van je bibliotheek aan ideeën. Ten tweede raken we vaak ‘locked-in’ in ideeën waar we als maatschappij veel in geïnvesteerd hebben. Ter illustratie: in tegenstelling tot u misschien denkt is ons QWERTY-toetsenbord helemaal niet ontworpen om zo snel mogelijk te kunnen typen. Het QWERTY toetsenbord komt uit de tijd van de typemachines, en is zo ontworpen dat lettercombinaties die vaak voorkomen ver uit elkaar geplaatst zijn, zodat de hamertjes van de typemachine niet in de knoop raken. Het toetsenbord is voor ons dus suboptimaal en helpt ons niet om snel te typen. Het lukt ons echter niet om over te stappen naar een sneller of ergonomischer toetsenbord, want probeer maar eens opnieuw te leren typen. Iets soortgelijks geldt ook voor de overstap van benzine- en dieselauto’s naar elektrische auto’s, waarvoor er nog niet zo’n gedegen infrastructuur bestaat als voor benzineauto’s. Nationale en lokale overheden hebben bij uitstek te maken met dit soort ‘interdependencies’, omdat zij verantwoordelijk zijn voor het beheer van hele systemen en niet, zoals vaak in de bedrijfswereld voorkomt, van individuele producten.

Het gevolg van padafhankelijkheid is dat het belangrijk is om veel te leren over verschillende alternatieve oplossingen voor een probleem, zodat je kan voorkomen dat je je committeert aan een suboptimale oplossing. Lock-ins kan je niet helemaal voorkomen omdat je niet kan weten of een optimale oplossing op dit moment in de toekomst nog steeds de beste oplossing is, maar het helpt zeker om op de hoogte te blijven van nieuwe ontwikkelingen en gekozen oplossingen altijd te blijven valideren. Investeer dus niet te veel in die 99 slechte ideeën. Zet in op leren, en wees bereid om van richting te veranderen als dat nodig is.

Tip 3: voorkom dat je vastzit in een suboptimale oplossing door veel te experimenteren

Tip 4: begin vroeg met valideren, en blijf valideren.

3. Denk modulair

Maatschappelijke en technische problemen zijn vaak niet alleen complex in de zin van ‘ingewikkeld’, maar ook in de zin van ‘complexe systemen’. Complexe systemen zijn systemen die bestaan uit heel veel kleine, relatief eenvoudige, onderdeeltjes. Door de interactie tussen die onderdeeltjes ontstaan patronen die bijna niet te verklaren zijn. Denk bijvoorbeeld aan het dansen van een zwerm spreeuwen, auto’s die files vormen, onze hersenen en de zenuwcellen daarbinnen, of het ecosysteem in een bos. Het ingewikkelde daaraan is dat je bij een complex systeem nooit helemaal kan overzien wat de gevolgen van een interventie zijn. Als je te veel zwijnen in een bos uit zou zetten, zou er door de interactie van die zwijnen met andere onderdelen van het systeem zomaar een onvoorziene insectenplaag kunnen ontstaan. Bij innovatie in onze maatschappij werkt het net zo: wanneer je één onderdeel van de maatschappij verandert, zou dat kunnen betekenen dat een heel ander onderdeel niet meer werkt of anders werkt.

Stambomen van gereedschappen

Over de hele wereld worden de meeste antropologische musea ingericht per bevolkingsgroep of werelddeel. Het Pitt Rivers Museum in Oxford, waar ik vaak kwam toen ik voor mijn promotieonderzoek een paar maanden te gast was aan de universiteit, besloot het anders aan te pakken. Meneer Rivers hield bij zijn (enigszins omstreden) collectie gebruiksvoorwerpen geen geografische indeling maar een evolutionaire indeling aan. Hij verzamelde bijvoorbeeld alle knuppels die hij had, en vormde hiermee een soort stamboom. In het plaatje hieronder is prachtig te zien hoe het ontwerp van de knuppel varieerde van plek tot plek, en door de tijd heen steeds verder divergeerde. Dat is op zich niet gek, want knuppels zijn een cultureel product dat door mensen wordt gemaakt en wordt aangepast aan hun lokale omgeving. Dat is toch fascinerend?

Figuur 5: Evolutionaire indeling knuppels (Pitt Rivers Museum Oxford)

In de wereld van de criminaliteitsbestrijding is er bijvoorbeeld sprake van het ‘waterbedeffect’: wanneer er druk wordt uitgeoefend op een vorm van criminaliteit op een bepaalde plek, zoals witwassen in een specifieke gemeente, kan dat als gewenst gevolg hebben dat die vorm van criminaliteit afneemt. Een onvoorzien bij-effect kan echter zijn dat er een toename ontstaat van criminaliteit op een andere plek, of van andere soorten criminaliteit, omdat de criminele activiteit zich verplaatst.

Soms kan dit soort complexiteit verholpen worden door het probleem op te delen in verschillende geïsoleerde modules. In dat geval spelen de complexe afhankelijkheden alleen binnen een module, en niet tussen modules onderling. Dan kunnen modules afzonderlijk geoptimaliseerd worden, en dat is veel makkelijker dan het optimaliseren van het hele systeem. In onze complexe samenleving is dat helaas makkelijker gezegd dan gedaan. In zo’n geval geldt: wees je bewust van de complexiteit van het probleem dat je probeert op te lossen. Staar je niet blind op een specifiek voorval, maar bestudeer de context waarin dit voorval plaatsvindt en verken welke mogelijke bij-effecten kunnen optreden bij een interventie.

Tip 5: denk en experimenteer op onderdelen, en niet op het geheel.

Tip 5: als Tip 5 niet lukt, wees je dan tenminste bewust van complexiteit.

Vodcast

Zie ook de vodcast van Mignon over dit onderwerp:

Relevante links

Credits

Photo by Diz Play on Unsplash

 

Onderzoek: hoe geodemografie kan helpen om data ‘eerlijker’ weer te geven

De afgelopen elf maanden ben ik ondergedompeld in de wereld van data. Via de ‘track’ Data Science als onderdeel van Information Studies aan de UvA kwam ik in contact met allerlei toffe algoritmes en maakte ik kennis met de problematiek achter de technische hoogstandjes. Een van deze problemen was gericht op ondermijning in Amsterdam en bij het zoeken naar vergelijkbare projecten kom je dan al snel uit bij Shintō Labs.

Met zwetende handjes heb ik een voorzichtig mailtje gestuurd naar het ‘Shinteam’ of ik ‘heel misschien’ en ‘alleen als het uitkomt’  langs mocht komen om de mogelijkheid tot een afstudeerstage te bespreken. Wat ik niet verwachtte is dat de daaropvolgende uitnodiging zo relaxed en soepel verliep dat ik direct verkocht was.  Daar wil ik graag mijn thesis schrijven! Inmiddels zijn we vijf maanden verder en is het papiertje op zak en ik kan wel stellen dat ik geen spijt heb van deze keuze. Natuurlijk was het hard buffelen, maar het waren ook enorm leerzame maanden waarbij ik vanaf dag één door het team ben opgenomen. Ook nam ik deel aan de Design Sprint met het RIEC Rotterdam en Bureau Beke op het thema Risico Radar Ondermijning, waarbij we op basis van open bronnen de mogelijke hotspots inzichtelijk maken. In deze sprint kon ik mijn onderzoek mooi toepassen.

In deze blog beschrijf ik mijn onderzoeksopzet en de eerste resultaten. In de onderstaande video kun je ook de presentatie zelf zien.


 

De casus

De core business van Shintō Labs bestaat uit het maken van datagedreven applicaties voor overheidsinstellingen. Vaak bevat een applicatie een dashboard met een kaart waarop dan data is geplot. In verband met privacy wordt die data vaak gepresenteerd per postcode, buurt of wijk (en dus niet per huis of gebouw).

De keuze voor het type gebiedsindeling kan echter een vertekenend beeld geven van de werkelijkheid. In figuur 1 zie je bijvoorbeeld drie representaties van exact dezelfde data, maar met verschillende gebiedsindelingen. Dit probleem staat in de boeken bekend als MAUP – The Modifiable Area Unit Problem. Dit fenomeen doet zich ook voor wanneer we data presenteren per postcode, buurt of wijk: hoe meer variatie er in zo een gebied plaats vindt, hoe meer informatie wordt weggegooid wanneer de data wordt geaggregeerd.

Figuur 1 Voorbeeld van ‘The Modifiable Area Unit Problem’

Een manier om dit probleem aan te pakken is door gebiedsindelingen datagestuurd te maken. Als we de bestaande wijken/buurten loslaten en kijken naar de achterliggende data, dan kunnen we gebieden creëren die de mensen in het gebied zo veel mogelijk vertegenwoordigen.  Dit doen we door middel van geodemografie;  ‘The study of people by where they live’ (Harris, 2005).

Geodemografie

Zoals de naam al prijs geeft is dit vakgebied een combinatie van geografie en demografie, waarmee de data ook direct complex wordt. In geodemografie word er gezocht naar betekenisvolle bundels om de mensen in een gebied te kunnen beschrijven. Deze bundels worden in de literatuur ook wel micro-communes of urban neighbourhoods genoemd. Door middel van algoritmen worden mensen ingedeeld in clusters, die vervolgens worden geplot op een kaart. In principe volgt iedere geodemografische clustering ruwweg hetzelfde proces van datapreparatie, algoritmeselectie en parameterselectie, maar het probleem ontstaat bij de evaluatie. Want wat zijn betekenisvolle clusters? Dat is een bijna filosofische vraag, die niet zomaar beantwoord kan worden. Voor de fijnproevers raad ik het paper van ‘What are true clusters’ aan van Christian Hennig.

Figuur 2. Voorbeeld van een geodemografische clustering van Eindhoven. Bron: CBS

Geodemografische cluster-evaluatie

In tegenstelling tot standaard ‘gesuperviseerde methoden’ is het valideren van een geodemografische clustering een schemerig gebied tussen kunst en wetenschap, het kwantitatieve en het kwalitatieve, objectiviteit en subjectiviteit (Harris, 2005). Zoals mijn docent het noemt, is cluster-evaluatie in feite een vorm van zwarte magie. 

Binnen de geodemografie is er wel een idee van enkele eigenschappen die een clustering betekenisvol maken, waarvan de belangrijkste eigenschap is, dat de clustering aansluit bij het doel en de context van het clusterprobleem. Om dat doel meetbaar te maken gebruiken we interne en/of externe criteria die helpen bij het maken van de keuze van het algoritme en de parameter instellingen.

De externe criteria bestaan soms uit vergelijkingen met referentieclassificaties of een zogenoemde ground truth. Veel vaker worden subjectieve criteria opgelegd met behulp van experts of de eindgebruikers. De interne evaluatie van een clustering bestaat uit het meten van een bepaalde regel die de data beschrijft zoals ‘hoe compact zijn de clusters?’ of ‘wat is de ratio tussen de gemiddelde inter en intra clusterafstand?’. Hoewel deze regels objectief zijn, is het wel de vraag hoeveel waarde je moet hechten aan de resulterende waarden en hebben deze regels zeker niet altijd toegevoegd nut. Over het algemeen wordt interne evaluatie daarom vooral gebruikt om het cluster proces te sturen en niet te leiden (Alexiou, 2017).

De interne evaluatie regels hebben nog een extra uitdaging, want deze methoden zijn over het algemeen niet aangepast aan geodemografische clustering. De meest gebruikelijke metrieken (zoals de Within-cluster sum-of-squares en de Silhouette index) worden alleen toegepast op de demografische data en niet op de geografische data. Dit terwijl ´echte’ microcommunes samenhang lijken te vertonen in zowel de geografische als demografische ruimte (Wolf et al., 2019).

De kern

In mijn onderzoek heb ik geprobeerd een regel op te stellen die speciaal geadapteerd is voor geodemografische data. Deze regel is gebaseerd op de Silhouette score, maar met een speciale functie die afstand kwantificeert als combinatie van geo- en demografische data. Er zitten aan een dergelijke functie nog flink wat haken en ogen: hoe verhoudt bijvoorbeeld geografie zich tot demografie? Uiteindelijk hebben we als ‘proof of concept’ de aanpak van Wolf et al. overgenomen (inmiddels liep de onderzoeksperiode al tegen het einde).

Uit een kleinschalig experiment komt naar voren dat de geodemografische score wel degelijk wat interessante patronen vertoont. Zeker ten opzichte van de conventionele (non-geografische) Silhouette score lijkt de nieuwe regel een stuk minder triviale patronen weer te geven. Dit bleek ook uit de validatie (feedback van gebruikers) van het prototype van de Risico Radar Ondermijning zoals ik die heb gerealiseerd voor het RIEC Rotterdam.

Lessons learned

Het voorgaande stuk ging vrij snel de diepte in en eindigt tamelijk theoretisch. Maar wat zijn nu de take home wijsheden die we tijdens het onderzoek zijn tegengekomen?

Een van de belangrijkste redenen om interne evaluatie regels te zoeken is om subjectiviteit in geodemografie te verminderen. We willen graag goed gefundeerde keuzes maken tijdens het clusterproces en idealiter is geodemografie zo transparant mogelijk. In de praktijk blijven de objectieve evaluatie technieken slechts een onderdeel van het clusterproces, waar de keuzes voor het algoritme en de parameter instellingen uiteindelijk worden gemaakt door mensen. Het maken van een geodemografische clustering is niet moeilijk, maar een goede geodemografische clustering maken is een flinke uitdaging, die ook afhangt van de context.

Hoe nu verder?

Tot nu toe hebben we een paar keer genoemd dat interne validatie regels vooral ‘betekenis’ krijgen in het kader van een context en met een expert/gebruiker om de context te interpreteren. Hoewel mijn thesis vooral de theorie van geodemografische evaluatie beslaat, zijn we natuurlijk erg benieuwd of de interne regels ook echt hulp bieden tijdens het clusteren. Daarom ben ik met het Shintō Labs team begonnen aan een interactieve module waarmee je je eigen (geodemografische) data kan clusteren. De module geeft adviezen op basis van de interne evaluatie regels, maar uiteindelijk is het aan de gebruiker om de waarde van de clustering in te schatten. Voor nu blijft het dashboard bij een prototype, maar mocht je interesse hebben in deze applicatie, neem dan contact op met het Shintō Labs.

Figuur 3. Prototype van het dashboard

Referenties

  • Alexiou, A. (2017). Putting ’Geo’ into Geodemographics: evaluating the performance of national classification systems within regional contexts. PhD thesis, University of Liverpool.
  • Harris, R., Sleight, P., and Webber, R. Geodemographics, GIS and Neighbourhood Targeting. Wiley, London, UK, 2005
  • Hennig, C. (2015). What are the true clusters?. Pattern Recognition Letters64, 53-62.
  • Wolf, L., Knaap, E., and Rey, S. J. (2019). Geosilhouettes: geographical measures of cluster fit.

Relevante links

Webinars

Casebeschrijving

Blog

Research

5 praktische handvatten om ‘algoritmekramp’ tegen te gaan

‘De gemeente Rotterdam stopt omstreden fraudeonderzoek met SyRi,’ kopte de Volkskrant op 4 juli jl. Een van de vele berichten de afgelopen tijd waarin het gebruik van data-analyse of erger ‘algoritmes’ negatief in het nieuws komt. Recent publiceerde de NOS nog een fraai artikel getiteld ‘Overheid gebruikt op grote schaal voorspellende algoritmes, ‘risico op discriminatie’. Ook hier ontstaat (in ieder geval door de kop) het beeld dat er sprake is van wildgroei en het ‘kwaad’ zich verder verspreidt zonder dat er grip op is. De begeleidende podcast van de journalisten geeft een genuanceerder beeld. We horen de journalist zelfs zeggen dat het begrijpelijk en goed is dat de overheid gebruik maakt van moderne technologie.

De discussie is terecht. Het gebruik van algoritmes kent risico’s. Maar het lijkt niet goed te lukken om het gesprek over algoritmes genuanceerd en goed geïnformeerd te voeren. Alleen al het woord algoritme zorgt voor een soort verkramping in de discussie en lijkt de gebruiker ervan in het beklaagdenbankje te zetten. Als bedrijf dat de overheid helpt om datagedreven te werken, waren we ons vanaf het begin bewust van de risico’s en ontwerpen en ontwikkelen we op een verantwoorde manier oplossingen. Niet omdat de publieke opinie daarom vraagt, maar omdat we een eigen moreel kompas hebben.

Omdat we vaker vragen krijgen over de ethische kanten van het gebruik van algoritmes hebben we een aantal handvatten op een rij gezet. Geen doorgrond essay, of concreet raamwerk, maar een aantal ervaringen uit onze praktijk. Omdat we open zijn over hoe wij omgaan met de risico’s van het gebruik van algoritmes.

1. Gebruik geen voorspellende algoritmes (als het niet nodig is)!

Ik geeft toe. Een beetje een dooddoener. Het begint natuurlijk bij de vraag: wat zijn voorspellende algoritmes? Ik ga er vanuit dat hiermee bedoeld wordt het begrip ‘predictive analytics’. Een methode waarmee veelal op basis van machine learning voorspellingen worden gedaan. Maar de wereld van data-analyse is breder dan alleen voorspellende algoritmes. Sterker nog: in onze praktijk zetten we predictive analytics vaak niet eens in. Zeker niet in onze oplossingen in het domein van toezicht & handhaving of veiligheid & openbare orde. Waarom niet? Omdat we geloven in ‘waardegestuurde’ ontwikkeling. Zie ook ons blog ‘Van datagestuurd naar waardegestuurd werken’. In het kort: zet het probleem en de gebruiker centraal en kijk van daaruit welke pijn het grootst is. Keer op keer blijkt dat de meeste waarde in eerste instantie wordt toegevoegd met een ‘beschrijvende analyse’. Niks voorspellingen op basis van machine learning dus, of in ieder geval niet vóór dat we weten waar de waarde zit, wat de feitelijke situatie is (beschrijvende analyse) en waar het probleem zit (diagnostisende analyse). Pas als aan die voorwaarden is voldaan kan er voorzichtig gekeken worden naar voorspellingen. Tot die tijd: gebruik geen voorspellende algoritmes!

Bron: Gartner

2. Wees transparant over data en modellen!

Zoals je in het artikel van de Volkskrant kunt lezen is een van de grootste obstakels bij SyRi dat voor de gebruiker niet duidelijk is op basis van welke datasets en indicatoren er een inzicht wordt verschaft. Omdat wij onze oplossingen ontwerpen vanuit gebruikersperspectief herkennen we hun behoefte om te weten op basis waarvan het systeem ergens een ‘rood puntje laat knipperen’. Zo zijn we voor de gemeente Zaanstad een data applicatie aan het ontwikkelen die de gemeente helpt bij het opsporen van o.a. woonfraude waarbij vanuit de applicatie inzichtelijk is welke datasets zijn gebruikt en op basis waarvan een indicatie wordt gegeven.

Screenshot prototype Ondermijning met beschrijving datasets en indicatoren

Screenshot prototype Ondermijning met beschrijving datasets en indicatoren

3. Gebruik indicatoren op basis van gedegen onderzoek!

Een veelgehoorde vrees is dat data-applicaties inzichten bieden die discrimineren. Data is immers niet objectief! Zeker bij het gebruik van ‘feedback loops’ zal een model leren op basis van ervaringen (data) uit het verleden en dat verleden bevestigen en versterken. Wat is dus een deugdelijk indicatie om bijvoorbeeld een pand te onderzoeken of daar iets mis is? Vaak vertalen we indicatoren van de (vak)mensen uit de praktijk naar het model maar proberen dat ook te onderbouwen door (wetenschappelijk) onderzoek. Zo hebben we met het RIEC Rotterdam een Risico Radar Ondermijning ontwikkeld waarbij Bureau Beke op basis van literatuuronderzoek en expert interviews een lijst van 52 indicatoren samengesteld die wij hebben gebruikt om zicht te krijgen op risico’s op ondermijning door bedrijven. In september organiseren we samen met het RIEC en Bureau Beke een webinar waarin we hier meer over vertellen. Zijn deze indicatoren daarmee allemaal 100% objectief? Nee, maar wel binnen de normen van de (gedrags-)wetenschap als significant bestempeld.

Jurriaan Souer (Shintō Labs) in actie met dr. Henk Ferwerda van Bureau Beke, onderzoeksbureau voor criminologische vraagstukken

4. Laat systemen niet beslissen, maar help de expert!

Er zijn (soms schrijnende) voorbeelden van Kafkaëske situaties waarbij de overheid besluiten neemt waar de mens geen grip meer op heeft. ‘Computer says no.’ De angst is dat voorspellende algoritmes besluiten nemen zonder dat er een mens aan te pas komt. Als ik dan roep dat zoiets nooit moet kunnen, dan zegt mijn collega Jurriaan relativerend tegen me: ‘Dus ook niet bij slimme vuilnisbakken die automatisch opdracht geven aan de vuilnisophaaldienst om geleegd te worden?’. Tja, daar natuurlijk wel. Maar in onze praktijk komt het zelden voor dat gebruikers één antwoord willen, laat staan een geautomatiseerd besluit. Ze willen een instrument dat ze helpt om op basis van hun eigen expertise makkelijker of sneller inzicht te krijgen dan nu het geval is. We kennen voorbeelden van beleidsambtenaren uit het veiligheidsdomein die na een melding soms anderhalve dag kwijt zijn om in 15 systemen te kijken om te bepalen of er iets aan de hand is. Het enige dat we doen is de data sneller aanleveren dan nu en deze zodanig visualiseren dat de expert kan besluiten om al dan niet tot actie over te gaan. We helpen dus bij het maken van een risico inschatting.

5. Realiseer je dat ‘bias’ in de mens zit en daarmee ook in de data

Tijdens onze Design Sprints, het startpunt van onze ontwikkeling, nemen we veel tijd om gebruikers te laten vertellen over het vraagstuk. We willen weten hoe ze daar nu mee omgaan, dus zonder data-analyse en algoritmes. Als wij met mensen uit de wereld van toezicht en handhaving praten en ze vragen waar risico op een overtreding is, dan kunnen ze zo een lijstje van risicoindicatoren oplepelen. Hoe ze daarbij komen? Ervaring. Als jij bij controles meerdere keren fraude aantreft bij een bepaald soort bedrijven dan word je als handhaver alerter en controleer je vaker bij dat soort bedrijven. Is dat terecht? Misschien wel, misschien niet. In iedere geval heel menselijk. Dataprojecten versterken niet de bias. Ze leggen die juist bloot.

Bron: https://dilbert.com/

Tot slot

Ik zat laatst het radioprogramma BNR Digitaal te luisteren toen ik Rudy van Belkom hoorde zeggen: ‘We hebben het altijd over ‘explainable AI’ maar hoe ‘explainable’ is menselijk gedrag eigenlijk?’ Een mooi inzicht wat mij betreft. Geen complexer neuraal netwerk dan het menselijk brein. Discriminatie is een product daarvan. Laten we ons dus met of zonder algoritmen daarvan bewust blijven. Waar het om gaat, is dat we de uitwassen tot een minimum beperken.

P.s. binnenkort zal onze Chief Data Scientist Eric een vervolg op dit blog schrijven hoe we in technische zin het risico op ‘bias’ proberen te minimaliseren. Wil je automatisch bericht ontvangen via email als dat blog verschijnt? Schrijf je dan hier in.

Relevante links

Credits top photo: Alexandra Gorn (via Unsplash.com)

 

Gemeente Helmond kiest voor de Woningbouw Monitor

In 2017 heeft de gemeente Helmond na een Design Sprint een datagedreven applicatie ontwikkeld voor het snel toetsen van initiatieven tot bouw. Voor haar woonbeleid werkt de gemeente samen in het Stedelijk Gebied Eindhoven. Daar kwam zij in aanraking met de Woningbouw Monitor die de gemeente Eindhoven heeft ontwikkeld en gebruikt. Voor de gemeente Helmond aanleiding om ook gebruik te gaan maken van deze toepassing.

Snel up-and-running

Zoals veel gemeenten hield ook de gemeente Helmond data over woningvoorraad en -productie bij in een Access database. Los van de kwetsbaarheid hiervan betekende dit ook veel handwerk, zeker als het ging om rapportages naar de provincie die periodiek moeten worden doorgestuurd. Omdat de gemeente al gebruik maakte van de software van Shintō Labs was er ook nog eens een kostenvoordeel. Maak je immers gebruik van de software voor een applicatie dan kan een volgende applicatie voor de helft van de kosten in gebruik worden genomen. Toen Helmond de data beschikbaar had was de acceptatie omgeving binnen enkele dagen up-and-running.

Kansen voor het Stedelijk Gebied

De gemeente Helmond werkt op diverse beleidsterreinen samen in het Stedelijk Gebied Eindhoven. Dit is een samenwerkingsverband van 9 gemeenten in de Brainport regio rond de gemeente Eindhoven. De gemeenten hebben hun krachten gebundeld en werken zij samen op drie thema’s: ‘Wonen’, ‘Werken’ en ‘Voorzieningen’, alsof zij één gemeente zijn. Door samenwerking en afstemming zetten de gemeenten in op oplossingen die passen bij de behoeften van hun inwoners. De gemeente Helmond ziet de Woningbouw Monitor als interessante voorziening in dit verband. Meerdere gemeenten in het Stedelijk Gebied hebben ook interesse getoond in de Woningbouw Monitor.

Realtime antwoord op vragen

De Woningbouw Monitor bestaat uit het een digitaal dashboard waarin verschillende bronnen slim gecombineerd en gepresenteerd worden. De analisten kunnen realtime door de data zoeken en filteren en complexe data op eenvoudige wijze combineren tot heldere inzichten. Dit sluit aan op de vaak uiteenlopende vragen die men krijgt (bijvoorbeeld hoeveel eengezinswoningen zijn er in wijk X en hoeveel worden er de komende jaren bijgebouwd?).

Flexibel rapporteren

De toepassing biedt ook de mogelijkheid om standaardrapportages te genereren. De gemeente moet bijvoorbeeld periodiek aan de provincie rapporteren. Dit was eerst een tijdrovende klus maar kan nu met 1 druk op de knop worden gegenereerd. Ook is de basis gelegd om inschattingen over de ontwikkeling van de woningvoorraad te vergelijken met de actuele woningvoorraad, om te zien hoe de planning zich verhoudt tot de realiteit.

Samen Organiseren

Shintō Labs heeft de oplossing omgezet in een clouddienst die beschikbaar is voor andere gemeenten. Doorontwikkeling zal gezamenlijk gebeuren, waarbij gemeenten profiteren van elkaars investeringen. Dit past in het beleid van de Vereniging van Nederlandse Gemeenten (VNG) onder de noemer ‘Samen Organiseren’. De VNG heeft al contact gehad met Shintō Labs om hierin ondersteuning te bieden bijvoorbeeld door vermelding op de website Pilotstarter.nl.

Relevante links

Evenementen

Niets Gevonden

Uw zoekopdracht leverde helaas geen artikelen op