Tag Archief van: ai

Vertrouwen vergroten door middel van Explainable Artificial Intelligence (XAI)

Om een master af te ronden moet je een scriptie schrijven. Niet helemaal mijn ding, heel veel lezen, heel veel schrijven maar gelukkig bestaat er ook de optie om voor een afstudeerstage te kiezen. Nog steeds een scriptie schijven maar dan in samenwerking met een bedrijf over een fenomeen dat niet alleen maar theoretisch van toepassing is. Met mijn interesse in artificial intelligence (AI) en explainable artificial intelligence (XAI) ben ik dus opzoek gegaan naar een bedrijf om een afstudeerstage bij te doen.

Dave Emons

Tot mijn geluk reageerde een oud-student en data scientist van Shintō Labs op mijn oproep op LinkedIn. Hij vertelde me over Shintō Labs die data gedreven oplossingen ontwikkelen voor de overheid. En over een AI toepassing op het gebied van document classificatie waar de eindgebruikers een enigszins sceptische houding tegenover hadden aangenomen. Dat klinkt als de ideale casus: vergroot het vertrouwen door met XAI inzicht te bieden in de redenering van de document classificatie AI. Bij de eerste kennismaking kon ik al proven van de sfeer en mentaliteit van Shintō Labs, veel autonomie, no-nonsense en een drive om door te blijven groeien. Alles leek eigenlijk te mooi om waar te zijn. Gek genoeg was het allemaal gewoon waar.

Vakken volgen aan de universiteit vond ik eigenlijk maar saai. Het verliep allemaal soepel en ik kwam gewoon opdagen maar ik verveelde me vooral. Mijn afstudeeropdracht bood hierin de uitkomst. Hier had ik zelf de touwtjes in handen en kon ik mijn ei helemaal in kwijt. De wekelijkse meetings met data scientist Wesley hielpen mij enorm om niet te hard van stapel te lopen, een planning te maken en bij te sturen waar nodig. Naast een hoop gezelligheid had ik ook genoeg sparring partners en was er ook de ruimte om zelf ideeën aan te dragen. Tot mijn verbazing werd ik zelfs meegenomen in de werking van heel het bedrijf met de maandelijkse Shinteam meetings en voelde ik me echt onderdeel van het team. Zo kon ik ook nog een beetje proeven van wat me te wachten stond na de universiteit wat alleen maar motiveerde. Al met al, voor mij de ideale plek voor een afstudeerstage.

In dit blog vertel ik graag meer over mijn onderzoek, wat ik geleerd heb en wat de resultaten zijn. Of check de video waarin ik erover vertel.

De casus

Toen ik net begon werd mij verteld dat de AI een ‘multiclass large-scale natural language processing text classification probleem oplost met een multilayer perceptron gebaseerd op word count’. Een hoop gegoogle en een afstudeer project verder, weet ik inmiddels wel wat dit allemaal betekent maar zal ik pogen het hier simpeler uit te leggen.

Sommige gemeentes krijgen meer dan 10,000 documenten binnen per maand. Deze documenten krijgen allemaal een zaaktype toegewezen zoals “kapvergunning”, “aangifte” of “informatieverzoek”. Voorheen werd dit met de hand gedaan door gemeente medewerkers. De AI ontwikkeld door Shintō Labs scant een document en telt hoe vaak ieder woord voorkomt. Dit wordt vergeleken met voorgaande documenten en zo wordt een van de 243 zaaktypes gesuggereerd. Nu hoeft de gemeentemedewerker enkel nog de AI te controleren aangezien zij verantwoordelijk blijven voor het eindresultaat.

 

multi layer perceptron

Figuur 1: Illustratie van een MLP architectuur (Rodriquez, 2020)

In deze situatie werken de medewerker en de AI als het ware samen in een team. Hoe goed dit team fungeert hangt voornamelijk af van hoe goed de medewerker is in het accepteren van correcte suggesties van de AI en het corrigeren van foutieve suggesties. De belangrijkste factor in dit team is een gekalibreerd vertrouwen in de AI. Mocht de medewerker te veel vertrouwen hebben in de AI dan worden te veel foutieve suggesties geaccepteerd zonder kritisch na te denken. Mocht er te weinig vertrouwen zijn dan worden te veel correcte suggesties genegeerd.

Vertrouwen in mens-AI teams ontwikkelt zich ongeveer hetzelfde als vertrouwen tussen mensen. Stel je vraagt een collega om eenmalig een taak van je over te nemen maar je collega verprutst dit, dan ben je minder snel geneigd deze collega in de toekomst wederom een taak toe te vertrouwen. Doet je collega het goed, dan bevestigd dat het vertrouwen dat je in hen plaatst en vraag je ze in de toekomst misschien weer. Op een soortgelijke manier als mensen een AI een fout zien maken daalt hun vertrouwen. Pas na lange periodes dat de AI het goed doet bouwt het vertrouwen langzaam op. Het grootste verschil tussen mens-AI vertrouwen en vertrouwen tussen mensen is dat vertrouwen in AI veel harder daalt wanneer er een fout wordt gemaakt.

Om dit fenomeen tegen te gaan suggereert literatuur om uitleg te bieden naast AI suggesties. Inzicht in hoe een AI anders informatie verwerkt dan mensen (woorden tellen i.p.v. zinnen lezen), de interne werking van een AI en de redenering gebruikt door de AI zijn effectief gebleken in het kalibreren van vertrouwen. Nu is een multilayer perceptron een vorm van een neuraal netwerk, een AI model dat ook beschreven wordt als een black-box model. Hoewel het in theorie mogelijk is alle berekeningen die de AI doet met de hand te doen, wordt je daar niet gelukkig van, dankjewel Business Analytics ☹️, bovendien word je er ook niks wijzer van. Deze laatste eigenschap maakt het een black-box model. Explainable artificial intelligence technieken zijn ontworpen om toch inzicht te krijgen in de werking van black-box modellen.

SHAP en Natural Language Processing

Een computer kan niet lezen, in ieder geval niet op de manier hoe wij mensen dit doen. In plaats daarvan telt de AI hoe vaak ieder woord voorkomt in een document in verhouding tot in hoeveel documenten dit woord ten minste een keer voorkomt. Doet noemt men term-frequency inverse-document-frequency (tf-idf) wat een waarde produceert tussen de 0 en 1 voor ieder woord. Een hoge waarde geeft aan dat dit woord vaak voorkomt in dit document en zelden in andere documenten. Dit geeft een indicatie dat dit woord definiërend is voor dat document. Ieder document wordt gecodeerd als tf-idf waardes voor alle woorden in het vocabulaire van de AI (16,618 woorden). Deze waardes worden vervolgens door de multilayer perceptron (het neuraal netwerk) gebruikt om te berekenen welk van de 243 zaaktypes het meest waarschijnlijk is.

Hoewel tf-idf waardes een indicatie geven welke woorden belangrijk zijn voor een bepaald document, geeft het geen inzicht in welke woorden de AI uiteindelijk gebruikt om tot een suggestie te komen. Om daar achter te komen is SHAP (SHapley Additive exPlanations) toegepast. SHAP is gebaseerd op shapley values, een concept uit speltheorie dat gebruikt wordt om een spelers contributie binnen een team tot een bepaald doel te bepalen. In ons geval berekent SHAP de contributie van ieder woord tot de uiteindelijke suggestie.

Figuur 2 is een voorbeeld van wat SHAP doet. In dit geval is de AI 95.4% zeker dat een document “gemeenteplek peuteropvang aanvraag” betreft. Het woord dat hier het meeste aan bijdraagt is “kdv” (kinderdagverblijf) en is verantwoordelijk voor 9% van de 95.4% zekerheid.

Figuur 2: SHAP simuleert de AI besluitvorming en berekent de bijdrage van ieder woord aan de zekerheidspercentage

De intuïtie is dat gemeentemedewerkers bovenstaande informatie zien en denken “dat klinkt logisch, dit kan ik vertrouwen”. Maar ook wanneer de AI een fout maakt is het op deze manier mogelijk om te zien welke woorden de AI op een dwaalspoor zette. Hier inzicht in krijgen schept hopelijk meer begrip naar de AI en zorgt er voor dat vertrouwen minder hard daalt wanneer het een fout maakt.

De resultaten

Eindgebruikers hebben deelgenomen aan een experiment waarin ze suggesties van de AI te zien krijgen met of zonder SHAP uitleg. Bij iedere suggestie hebben zij de keuze om de suggestie te accepteren of af te wijzen. De helft van de suggesties zijn correct zodat iemand die simpelweg zou gokken 50% correct zou accepteren en afwijzen. Deelnemers met uitleg behalen een score van 52.7% tegenover een score van 45% zonder uitleg. Dit klinkt veelbelovend maar wegens het kleine aantal deelnemers (n=8) is er geen statistisch significant verschil (eenzijdige proportie test, P<0.3).

Wegens het kleine aantal deelnemers en een grote variatie in ervaring met de AI is het niet mogelijk conclusies te trekken of uitleg ervoor zorgt dat deelnemers vaker de AI vertrouwen of dat het vertrouwen minder daalt wanneer de AI een fout maakt. Het valt wel op dat deelnemers met meer ervaring met de AI het veel minder vertrouwen. Zij accepteren 36.7% van de suggesties tegenover 77.8% van deelnemers met weinig tot geen ervaring met de AI (eenzijdige proportie test, P<0.0005). Deze bevinding is in lijn met bestaande literatuur en de gerapporteerde sceptische houding van de medewerkers.

Het lijkt er dus op dat naarmate mensen meer ervaring hebben in samenwerken met AI ze de AI meer fouten zien maken en steeds minder gaan vertrouwen. Uitleg toevoegen aan AI suggesties lijkt een mogelijke oplossing te zijn maar er is meer data nodig om hier betrouwbare conclusies over te trekken.

De noodzaak om iets te doen aan het dalende vertrouwen binnen mens-AI teams is duidelijk. Zelf denk ik nog steeds dat XAI hier een veelbelovende rol in kan spelen. Het helpt mij als ingenieur in ieder geval om duidelijk te krijgen dat de AI het probleem oplost dat ik wil dat het oplost. Ik verwacht veel van wat ik tijdens dit project geleerd te heb toe te kunnen passen nu ik een carrière in de industrie begin. Verder hoop ik vooral dat Shintō Labs hier ook iets aan hebben en doorgaan met betekenisvolle datagedreven oplossingen maken.

Foto credits: Shahadat Rahman on Unsplash

Masterclass – Text Analytics en Machine Learning in de overheid

Deze maand starten we met een serie video’s waarin we onze kennis delen onder de noemer: Shintō Labs Masterclass. In iedere editie komt een expert aan het woord om over een specifiek onderwerp zijn of haar kennis te delen. We gaan in op verschillende vraagstukken rondom datagedreven werken en data analytics in de overheid. Onderwerpen kunnen variëren van innovatie methodiek, privacy, ethiek maar ook meer technische onderwerpen als netwerkanalyses en graph databases.

Text Analytics en Machine Learning in de overheid

In deze editie vertelt data scientist Martijn Heijstek over een toepassing van Text Analytics en Machine Learning in de overheid. Hij behandelt de case waarin content automatisch wordt geclassificeerd in het verlengde van een zaaksysteem: in dit geval Djuma van Visma|Circle.

Vragen en feedback

Heb je een vraag of opmerkingen over de vodcast van Martijn? Laat het ons dan weten via onderstaand formulier!


Abonneren

Wil je automatisch op de hoogte blijven van nieuwe edities van de Shintō Labs Masterclass? Abonneer je dan op ons Youtube kanaal of stuur ons bericht via bovenstaand formulier en vink de ‘blog’ optie aan!

Relevante links

Andere masterclasses

Blogs

 

 

5 praktische handvatten om ‘algoritmekramp’ tegen te gaan

‘De gemeente Rotterdam stopt omstreden fraudeonderzoek met SyRi,’ kopte de Volkskrant op 4 juli jl. Een van de vele berichten de afgelopen tijd waarin het gebruik van data-analyse of erger ‘algoritmes’ negatief in het nieuws komt. Recent publiceerde de NOS nog een fraai artikel getiteld ‘Overheid gebruikt op grote schaal voorspellende algoritmes, ‘risico op discriminatie’. Ook hier ontstaat (in ieder geval door de kop) het beeld dat er sprake is van wildgroei en het ‘kwaad’ zich verder verspreidt zonder dat er grip op is. De begeleidende podcast van de journalisten geeft een genuanceerder beeld. We horen de journalist zelfs zeggen dat het begrijpelijk en goed is dat de overheid gebruik maakt van moderne technologie.

De discussie is terecht. Het gebruik van algoritmes kent risico’s. Maar het lijkt niet goed te lukken om het gesprek over algoritmes genuanceerd en goed geïnformeerd te voeren. Alleen al het woord algoritme zorgt voor een soort verkramping in de discussie en lijkt de gebruiker ervan in het beklaagdenbankje te zetten. Als bedrijf dat de overheid helpt om datagedreven te werken, waren we ons vanaf het begin bewust van de risico’s en ontwerpen en ontwikkelen we op een verantwoorde manier oplossingen. Niet omdat de publieke opinie daarom vraagt, maar omdat we een eigen moreel kompas hebben.

Omdat we vaker vragen krijgen over de ethische kanten van het gebruik van algoritmes hebben we een aantal handvatten op een rij gezet. Geen doorgrond essay, of concreet raamwerk, maar een aantal ervaringen uit onze praktijk. Omdat we open zijn over hoe wij omgaan met de risico’s van het gebruik van algoritmes.

1. Gebruik geen voorspellende algoritmes (als het niet nodig is)!

Ik geeft toe. Een beetje een dooddoener. Het begint natuurlijk bij de vraag: wat zijn voorspellende algoritmes? Ik ga er vanuit dat hiermee bedoeld wordt het begrip ‘predictive analytics’. Een methode waarmee veelal op basis van machine learning voorspellingen worden gedaan. Maar de wereld van data-analyse is breder dan alleen voorspellende algoritmes. Sterker nog: in onze praktijk zetten we predictive analytics vaak niet eens in. Zeker niet in onze oplossingen in het domein van toezicht & handhaving of veiligheid & openbare orde. Waarom niet? Omdat we geloven in ‘waardegestuurde’ ontwikkeling. Zie ook ons blog ‘Van datagestuurd naar waardegestuurd werken’. In het kort: zet het probleem en de gebruiker centraal en kijk van daaruit welke pijn het grootst is. Keer op keer blijkt dat de meeste waarde in eerste instantie wordt toegevoegd met een ‘beschrijvende analyse’. Niks voorspellingen op basis van machine learning dus, of in ieder geval niet vóór dat we weten waar de waarde zit, wat de feitelijke situatie is (beschrijvende analyse) en waar het probleem zit (diagnostisende analyse). Pas als aan die voorwaarden is voldaan kan er voorzichtig gekeken worden naar voorspellingen. Tot die tijd: gebruik geen voorspellende algoritmes!

Bron: Gartner

2. Wees transparant over data en modellen!

Zoals je in het artikel van de Volkskrant kunt lezen is een van de grootste obstakels bij SyRi dat voor de gebruiker niet duidelijk is op basis van welke datasets en indicatoren er een inzicht wordt verschaft. Omdat wij onze oplossingen ontwerpen vanuit gebruikersperspectief herkennen we hun behoefte om te weten op basis waarvan het systeem ergens een ‘rood puntje laat knipperen’. Zo zijn we voor de gemeente Zaanstad een data applicatie aan het ontwikkelen die de gemeente helpt bij het opsporen van o.a. woonfraude waarbij vanuit de applicatie inzichtelijk is welke datasets zijn gebruikt en op basis waarvan een indicatie wordt gegeven.

Screenshot prototype Ondermijning met beschrijving datasets en indicatoren

Screenshot prototype Ondermijning met beschrijving datasets en indicatoren

3. Gebruik indicatoren op basis van gedegen onderzoek!

Een veelgehoorde vrees is dat data-applicaties inzichten bieden die discrimineren. Data is immers niet objectief! Zeker bij het gebruik van ‘feedback loops’ zal een model leren op basis van ervaringen (data) uit het verleden en dat verleden bevestigen en versterken. Wat is dus een deugdelijk indicatie om bijvoorbeeld een pand te onderzoeken of daar iets mis is? Vaak vertalen we indicatoren van de (vak)mensen uit de praktijk naar het model maar proberen dat ook te onderbouwen door (wetenschappelijk) onderzoek. Zo hebben we met het RIEC Rotterdam een Risico Radar Ondermijning ontwikkeld waarbij Bureau Beke op basis van literatuuronderzoek en expert interviews een lijst van 52 indicatoren samengesteld die wij hebben gebruikt om zicht te krijgen op risico’s op ondermijning door bedrijven. In september organiseren we samen met het RIEC en Bureau Beke een webinar waarin we hier meer over vertellen. Zijn deze indicatoren daarmee allemaal 100% objectief? Nee, maar wel binnen de normen van de (gedrags-)wetenschap als significant bestempeld.

Jurriaan Souer (Shintō Labs) in actie met dr. Henk Ferwerda van Bureau Beke, onderzoeksbureau voor criminologische vraagstukken

4. Laat systemen niet beslissen, maar help de expert!

Er zijn (soms schrijnende) voorbeelden van Kafkaëske situaties waarbij de overheid besluiten neemt waar de mens geen grip meer op heeft. ‘Computer says no.’ De angst is dat voorspellende algoritmes besluiten nemen zonder dat er een mens aan te pas komt. Als ik dan roep dat zoiets nooit moet kunnen, dan zegt mijn collega Jurriaan relativerend tegen me: ‘Dus ook niet bij slimme vuilnisbakken die automatisch opdracht geven aan de vuilnisophaaldienst om geleegd te worden?’. Tja, daar natuurlijk wel. Maar in onze praktijk komt het zelden voor dat gebruikers één antwoord willen, laat staan een geautomatiseerd besluit. Ze willen een instrument dat ze helpt om op basis van hun eigen expertise makkelijker of sneller inzicht te krijgen dan nu het geval is. We kennen voorbeelden van beleidsambtenaren uit het veiligheidsdomein die na een melding soms anderhalve dag kwijt zijn om in 15 systemen te kijken om te bepalen of er iets aan de hand is. Het enige dat we doen is de data sneller aanleveren dan nu en deze zodanig visualiseren dat de expert kan besluiten om al dan niet tot actie over te gaan. We helpen dus bij het maken van een risico inschatting.

5. Realiseer je dat ‘bias’ in de mens zit en daarmee ook in de data

Tijdens onze Design Sprints, het startpunt van onze ontwikkeling, nemen we veel tijd om gebruikers te laten vertellen over het vraagstuk. We willen weten hoe ze daar nu mee omgaan, dus zonder data-analyse en algoritmes. Als wij met mensen uit de wereld van toezicht en handhaving praten en ze vragen waar risico op een overtreding is, dan kunnen ze zo een lijstje van risicoindicatoren oplepelen. Hoe ze daarbij komen? Ervaring. Als jij bij controles meerdere keren fraude aantreft bij een bepaald soort bedrijven dan word je als handhaver alerter en controleer je vaker bij dat soort bedrijven. Is dat terecht? Misschien wel, misschien niet. In iedere geval heel menselijk. Dataprojecten versterken niet de bias. Ze leggen die juist bloot.

Bron: https://dilbert.com/

Tot slot

Ik zat laatst het radioprogramma BNR Digitaal te luisteren toen ik Rudy van Belkom hoorde zeggen: ‘We hebben het altijd over ‘explainable AI’ maar hoe ‘explainable’ is menselijk gedrag eigenlijk?’ Een mooi inzicht wat mij betreft. Geen complexer neuraal netwerk dan het menselijk brein. Discriminatie is een product daarvan. Laten we ons dus met of zonder algoritmen daarvan bewust blijven. Waar het om gaat, is dat we de uitwassen tot een minimum beperken.

P.s. binnenkort zal onze Chief Data Scientist Eric een vervolg op dit blog schrijven hoe we in technische zin het risico op ‘bias’ proberen te minimaliseren. Wil je automatisch bericht ontvangen via email als dat blog verschijnt? Schrijf je dan hier in.

Relevante links

Credits top photo: Alexandra Gorn (via Unsplash.com)

 

Tag Archief van: ai

Niets gevonden

Uw zoekopdracht leverde helaas geen artikelen op