Djumalytics

De Opdrachtgever

De opdrachtgever was Visma | Circle

De Challenge

Gemeentes krijgen veel post binnen, fysiek en digitaal. Het efficiënt classificeren (wat is het?) en koppelen aan persoon of bestaande zaak (van wie is het?) is een omvangrijk probleem. De challenge van dit project was of we dit autoclassificatie probleem konden aanpakken met hulp van machine learning technieken en kunstmatige intelligentie.

De Aanpak

Voor dit traject is samengewerkt met Visma | Circle om eerst te onderzoeken of het technisch realiseerbaar is en of de klanten hier interesse in hebben. Met hulp van een Design Sprint is dit proces ingevuld en na een positieve validatie vanuit techniek, inhoud en klantervaring is dit omgezet in een werkende oplossing.

Het Resultaat

Djumalytics is opgezet met hulp van een neurale netwerk en Microsoft Cognitive Service en kan ingekomen post herkennen en automatisch registreren, maar ook documenten en e-mails die behandelaars aan een zaak toe willen voegen. Inmiddels maken vele gemeentes gebruik van Djumalytics in hun dagelijkse werkzaamheden.

Lees meer

300000

Hoeveelheid documenten getraind voor het model

159475

Te trainen parameters

800

pagina’s dagelijks geclassificeerd

200

Zaaktypen in de trainingset

Maatschappelijk vraagstuk

Wat krijg je als een modern SaaS-based zaaksysteem combineert met kunstmatige intelligentie en deep learning technologie? Dat was de vraag die onderzocht werd samen met Visma | Circle. De uitdaging waar veel gemeentes voor staan is hoe de grote hoeveelheden inkomende post efficiënt en effectief vewerkt kunnen worden. De vragen die altijd spelen zijn:

Van wie komt het document ? (en dat kan zowel een persoon als een organisatie zijn)
Waar heeft het document betrekking op ? (wat is het onderwerp? heeft het betrekking op een lopende zaak?)
Wat is het ’type’ document ? (de classificatie: een aanvraag? een melding? etc).

Dit is een kennisintensief probleem en vraagt veel van de medewerkers bij gemeentes. Veel soorten documenten lijken namelijk behoorlijk op elkaar. Bovendien komen documenten in alle soorten en maten binnen: van e-mails tot handgeschreven brieven.

De vraag was dan ook of automatische beeldherkenning en machine learning technieken gebruikt kunnen worden om deze documenten te classificeren en voor te sorteren op een snellere en correctere afhandeling door de medewerkers.

Dat was het doel van Djumalytics: slimme software om documenten foutloos, snel en steeds beter (zelflerend) te laten registreren.

Meer informatie?

Bekijk het Webinar:

Trainen van het model
Om Djumalytics Autoclassificatie te laten werken moet het systeem eerst getraind worden. Deze training is een vorm van de supervised learning waarbij Djumalytics gebruikt maakt van een grote hoeveelheid gelabelde data om het neurale netwerk te laten trainen. Dit kan gebeuren op basis van historische data of op nieuwe data terwijl gebruik wordt gemaakt van de NAW herkenning.
NAW herkenning
Naast autoclassificatie heeft Djumalytics ook NAW herkenning. Deze herkenning is op basis van beeldherkenning en zorgvuldig opgebouwde business rules die geoptimaliseerd zijn. De NAW herkenning maakt gebruik van Microsoft Cognitive Services om documenten te ontleden en van coordinaten te voorzien. Ons slimme algoritme en regels halen vervolgens de juiste gegevens uit het document. Hier is geen trainingperiode voor nodig en kan direct gebruikt worden. Ook kan dit het vertrekpunt zijn om later het model te trainen.
Opgeleverd
- Autoclassificatie en NAW herkenning op basis van machine learning en kunstmatige intelligentie.
- Diepe integratie met Djuma: Djumalytics maakt volledig onderdeel uit van Djuma – een state-of-the-art en cloudgebaseerd zaaksysteem.
- Intetratie met basisregistraties: Djumalytics zoekt zelf de gegevens van een persoon of bedrijf op en doet een suggestie om welk persoon of bedrijf het gaat. Dit op basis van het informatie uit het document en jullie gekoppelde basisregistraties. Zo bevraagt Djumalytics automatisch de Basisregistratie van Personen als ook het Nationale Handelsregister
- Djumalytics leert van de correcties op zijn suggesties.

Het Resultaat

Automatisch herkennen van documenten
Djumalytics vergelijkt de binnenkomende post met de vele documenten waarop het model getraind is en geeft de gebruiker een suggestie voor classificatie terug.
NAW herkenning
Djumalytics herkent de afzender (persoon of bedrijf) van de post. Om dit te optimaliseren wordt er in de verschillende lagen gebruik gemaakt van integraties met basisregistrsties, zoals de BAG, het Handelsregister en de BRP.
Diepe integratie met Djuma
Djumalytics maakt volledig onderdeel uit van Djuma en dit betekent dat de integratie een stukje verder gaat dan met bijvoorbeeld een slimme scanstraat. Bij het registreren van een document staan gegevens zoals zaaktype, omschrijving, titel en documenttype al ingevuld.

Technologie

Machine Learning

Machine Learning is een breed onderdeel van kunstmatige intelligentie dat zich bezighoudt met de ontwikkeling van algoritmes en technieken waarmee computers kunnen leren. In Djumalytics wordt veel gebruik gemaakt van Machine Learning om de data te analyseren en kennis uit documenten te abstratheren. Er worden zowel deterministische methodes gebruikt (die op basis van regels altijd tot een antwoord leiden) als probabilistische methodes (die gebruik maken van statistische methoden om de beste oplossing te berekenen met een bepaalde kans).

In de kern zit een neurale netwerk dat door middel van interconnected layers opzoek naar non lineare verbanden binnen de data. Dit alles is als een webservice beschikbaar zodat het zaaksysteem Djuma hier gebruik van kan maken. Voor de eindgebruiker is het puur functioneel: Djuma geeft bij een document aan welk type het is en wat relevante kenmerken zijn.

Sleutel woorden: Python, Keras, Text Analytics, Optical Character Recognition (OCR), Natural Language Processing (NLP), Lemmatization, TF-IDF, Multilayer Perceptron (MLP), skewed datasets.

Natural Language Processing (NLP)

Djumalytics maakt gebruik van Natural Language Processing (NLP) technieken die als doel hebben menselijke taal begrijpelijk te maken voor machines. In het bijzonder wordt er gebruik gemaakt van kunstmatige neurale netwerken voor het trainen van de autoclassificatie. Kunstmatige neurale netwerken zijn een onderdeel van Deep Learning en ontworpen om het menselijk denken te simuleren. Het neurale netwerk gaat uit van een input layer, een of meerdere hidden layers, en een output layer. Neurale netwerken zijn afhankelijk van grote hoeveelheden trainingdata om hun nauwkeurigheid te eren en in de loop van de tijd te verbeteren. Een neuraal netwerk is een krachtige hulpmiddel in de kunstmatige intelligentie om gegevens met hoge snelheid kunnen classificeren en clusteren.

Lemmatization

Djumalytics maakt veel gebruik van Lemmatization: In de computerlinguïstiek is dit het algoritmische proces van het bepalen van het lemma van een woord op basis van de bedoelde betekenis. In tegenstelling tot stemming hangt lemmatisering af van het correct identificeren van de bedoelde woordsoort en betekenis van een woord in een zin, evenals binnen de grotere context rond die zin, zoals aangrenzende zinnen of zelfs een heel document. Als gevolg hiervan is het ontwikkelen van efficiënte lemmatiseringsalgoritmen een open onderzoeksgebied.

TF–IDF

In de text analytics is TF-IDF – een afkorting voor Term Frequency–Inverse Document Frequency – een statische methode die bedoeld is om aan te geven hoe belangrijk een woord is voor een document in een verzameling. Het wordt vaak gebruikt als een wegingsfactor bij het zoeken naar informatie, tekstmining en gebruikersmodellering. De tf–idf-waarde neemt evenredig toe met het aantal keren dat een woord in het document voorkomt en wordt gecompenseerd door het aantal documenten dat het woord bevat, wat helpt om te corrigeren voor het feit dat sommige woorden in het algemeen vaker voorkomen.

De Data

Bij het bepalen van de NAW maakt djumalytics gebruik van de volgende databronnen:

BAG

Voor het toetsen van adressen

Handelsregister

Voor het toetsen van bedrijfsadressen

BRP

Voor het bepalen van personen en huisadressen

Wil je meer weten?

Neem gerust contact met ons op voor meer informatie:

Misschien vind je dit ook interessant

Webinars

Casebeschrijving

Casebeschrijving Ondermijning, fraude en uitbuiting

Blog

Research

De Opdrachtgever

De Challenge

De Aanpak

Het Resultaat

Maatschappelijk vraagstuk

Meer informatie?

Trainen van het model

NAW herkenning

Opgeleverd

Het Resultaat

Technologie

De Data

BAG

Handelsregister

BRP

Wil je meer weten?

Misschien vind je dit ook interessant

Zicht op mensen met een (psychische) kwetsbaarheid

Maatschappelijke Opvang – inzicht in daklozen en thuislozen

Dataplatform Sociaal Domein

Djumalytics – Automatische Documentclassificatie met hulp van Machine Learning en AI

Aanpak Ondermijnende Criminaliteit: Vastgoedfraude

Aanpak van ondermijnende criminaliteit in het buitengebied

Monitor Vitale Vakantieparken: Veiligheid en leefbaarheid op vakantieparken

Aanpak van illegaal kamerverhuur en woonsplitsing

Aanpak Ondermijnende Criminaliteit: Risico Radar Ondermijning

Aanpak Ondermijnende Criminaliteit: Woon- en adresfraude

Datagedreven milieutoezicht & -handhaving en grip op de Wet milieubeheer

Leefbaarheid en sociale veerkracht in de buurt

Kennisbank

Platform

Products

Over ons

Contact