Robotic Document Recognition stuwt herkenning naar grootse hoogte

Het einde der tijden voor ‘platte OCR’?

Met sites als www.stopmetocr.nl en www.leaveocr.com laat Business Software Group (BSG) er geen enkele twijfel over bestaan: het einde der tijden voor ‘platte OCR’ is nakend. CIM Robot, met als kern de Robotic Document Recognition (RDR-) technologie is dé sleutel voor betere, efficiëntere (en een foutloze) geautomatiseerde verwerking van inkomende facturen. Zou het dan toch….?

De crux zit hem in het feit dat het proces van achteruit wordt benaderd, aldus Gerard Hofman, directeur van BSG, de ontwikkelaar van deze robotic engine. ‘Wanneer je uitgaat van het document als geheel waarbij op basis van aard, type, uitvoering en herkomst van het document specifieke waarden aanwezig moeten zijn, kom je verder dan wanneer je die specifieke gegevens gaat zoeken, terwijl je feitelijk nog niet weet of die er wel opstaan. Klinkt heel theoretisch, maar de praktijk is dat deze benadering een veel hoger rendement heeft dan de traditionele OCR-techniek die bedrijven en organisaties tot nu toe gebruikten.’

RPA boost voor de markt
De opkomst van Robotic Process Automation (RPA) betekent een enorme boost voor de markt van input management oplossingen, zoals capturing. Zelfs de concurrentie volgt de ontwikkelingen van BSG met argusogen, volgens Hofman. Vooral uit ontevredenheid. ‘Dat komt doordat de verkoop en installatie van de standaard OCR-toepassingen steeds minder lucratief wordt. Er zijn veel aanbieders en het onderscheid tussen de oplossingen is naar de buitenwereld steeds moeilijker duidelijk te maken. Dan wordt het veelal een kwestie van prijs en daarmee snijd je al snel in eigen vlees. Met deze nieuwe ontwikkeling wordt het een stuk interessanter – zowel voor partners als voor eindgebruikers - om projecten te doen waarbij inkomende documenten (om te beginnen facturen, orders, pakbonnen et cetera) geautomatiseerd worden verwerkt. Ze worden via die RDR-engine herkend als document, de gegevens ervan worden automatisch geëxtraheerd en als metadata naar het achterliggende financiële systeem overgezet. De bestanden worden tegelijkertijd als XML-file gevalideerd beschikbaar gemaakt. Dat kan met gescande documenten, maar ook met pdf-bestanden die via specifieke applicaties zijn gegenereerd. Die pdf’s bestaan uit twee lagen: de laag met het image (de lijnen) en de laag met de tekst. Het gaat ons om de pure tekst. Daar staan uiteraard alle relevante gegevens in. De getallen leiden tot een XML-bestand en wat dan nog volgt, is de validatie van wat in de XML staat. In Nederland wordt het leeuwendeel van facturen elektronisch gegenereerd en aangeleverd en daar werkt het perfect. Voor gescande documenten doen we een eerste herkenningsstap vóór we de documenten naar de RDR-engine sturen voor verdere verwerking. Het systeem is op deze manier niet alleen in staat om de wat meer algemene gegevens (naam bedrijf, BTW-nummer, et cetera) te herkennen en te verwerken, maar het kan tot op regelniveau een factuur helemaal ontleden en zo bijvoorbeeld matchen met een inkooporder, een contract of verkooporders. Alle relevante gegevens worden in een vooraf gedefinieerde workflow in het geschikte formaat aangeleverd aan het financiële systeem van de klant. Het validatieproces om de XML-output te controleren geeft de gebruiker nog eens extra vertrouwen dat alles klopt, maar ook zonder dat klopt het. In deze toepassingen draait echter alles om zekerheid en vertrouwen, dus die die functionaliteit hebben we ingebouwd.’

Innovatie niet in OCR
‘Er blijft altijd innovatie nodig om een markt op gang te houden en nieuwe mogelijkheden te bieden. Maar de innovatie zit niet (meer) in de verdere ontwikkeling van OCR als techniek om informatie uit een digitaal (gemaakt) bestand te lezen’, aldus Hofman. ‘Die techniek is inmiddels zo’n 25 jaar oud en de laatste twaalf jaar is er eigenlijk niets in veranderd. Daar blijft altijd nog wel een of andere vorm van visuele controle noodzakelijk. Dat kost tijd en dus geld en is niet zo interessant. De winst zit in de ontwikkeling van een engine die de context van documenten herkent, verwerkt en direct de gegevens als XML-file beschikbaar maakt. Voor de klanten is het een kwestie van de documenten via een streng beveiligde e-mail aanleveren naar onze secure server en daar wordt alles als een blackbox-oplossing verwerkt. De klant krijgt bijna per ommegaande de betreffende gegevens voor in zijn financiële systeem terug geleverd. Uitzonderingen worden door het systeem zelf herkend en alsnog verwerkt. Bij elke volgende input van die uitzondering kan die direct als ‘normaal’ format worden verwerkt.’

Bibliotheek is het goud
Het succes van de CIM Robot, zoals het product officieel heet, is in de praktijk gebaseerd op documenten van de klant zelf. Op basis van een stapel documenten uit de dagelijkse praktijk wordt een verwerkingsbibliotheek aangemaakt. Die bibliotheek is uiteraard het goud van het systeem. De opbouw van deze uitgebreide bibliotheek vindt plaats door middel van de combinatie van alle toepassingen die BSG voor haar klanten doet. Ieder levert zo steeds een bijdrage die tot wederzijds voordeel wordt ingezet: de klant krijgt een steeds betere en snellere herkenning en het systeem leert zelf hoe elk document in elkaar steekt. Er komen daardoor steeds minder ‘verrassingen’ en het proces verloopt steeds sneller. Het opzetten van zo’n door de praktijk ingestoken proef kan in een halve dag gerealiseerd zijn. ‘En dan kan de toepassing aan het werk gezet worden’, aldus Hofman. ‘Het systeem is bovendien ook nog eens taalonafhankelijk. We hoeven alleen de benaming van de tabellen maar aan te passen. Dat is minimaal werk. De rest is immers in alle talen hetzelfde.’

Aandacht getrokken
De aanpak van BSG met de CIM Robot heeft zelfs internationaal de aandacht getrokken. Hofman vindt dat niet vreemd: ‘In verreweg de meeste capture toepassingen zit onder de radar nog aardig wat handwerk, zoals het ‘omkaderen’ van de delen van het document die herkend moeten worden. Daar hoor je nooit iemand over, maar het betekent wel tijd, moeite en geld. Met deze toepassing behoort dat definitief tot het verleden. Het matchen aan inkooporders idem dito: bij inkoop wordt een keer een foutje gemaakt, maar de administratie mag het verderop in het proces oplossen. Nu kan een en ander direct worden gematcht via de CIM Robot. De koppeling met een ERP-systeem levert voor elke organisatie een direct voordeel op, maar in de praktijk ontbreekt die koppeling vaak nog. Hier is die koppeling wel. Deze oplossing kan bovendien vóór bestaande capture applicaties van concurrenten worden gezet, die daarmee een hogere accuratesse en efficiency bereiken. We zitten zo niemand in de weg en doen geen afbreuk aan gedane investeringen. De CIM Robot zorgt voor hogere kwaliteit input en daarmee een hogere doorloopsnelheid van essentiële bedrijfsprocessen, omdat een ‘goed bestand’ wordt aangeleverd om een boeking te kunnen verwerken. Het doel is perfecte data aanleveren door betere herkenning. Met de CIM Robot komen we wel heel dicht bij die perfectie. Als dat geen toegevoegde waarde betekent voor een organisatie…’

BSG is op zoek naar partners om de doorbraak van de CIM Robot verder te versnellen. Die partners kunnen desgewenst de engine op hun eigen servers in de cloud draaien. Hofman: ‘Voor mijn part geven ze het product een eigen naam om in de markt te zetten. We hebben een verrekenmodel op basis van verwerkte documenten, dus dat levert geen problemen op.’