Focus op ongestructurerde informatie

Van? Naar!

Informatie verzamelen, daar zijn we heel goed in geworden de afgelopen jaren. De vraag is of dat ook in alle gevallen zinvolle informatie is die we kunnen gebruiken voor het oplossen van vraagstukken en het maken van beleid. Dit informatiegestuurd werken is alleen mogelijk wanneer je weet wat je allemaal in huis hebt aan informatie, en hoe je dit structureert. Het antwoord is: met de juiste focus. Hoe je dat doet, lees je in dit artikel. Enig idee hoeveel data we met zijn allen verzamelen?

Bedenk een groot getal aan bytes en vermenigvuldig dit maar alvast met een factor 1000. Doe de uitkomst dan toch nog maar keer 1000. Voor de zekerheid. Tien tegen een dat je dan nog niet komt aan het getal 5.000.000.000.000.000.000 bytes. Dit bedrag van 5 exabyte produceerden we in totaal tot ongeveer 2003. Nu produceren we dit aantal bytes aan informatie elke twee dagen. Op zich is  dat helemaal niet zo’n probleem. Er is opslagcapaciteit genoeg en die wordt ook steeds goedkoper. Het echte probleem is dat verreweg het grootste deel ongestructureerd is. Zo’n vier vijfde van de totale databerg bestaat uit ‘dark data’, informatie waarvan we niet weten dat we die ooit verzameld hebben, laat staan dat we weten wat erin zit.

Negeren? (Nee!)
NEGEREN? (NEE!)Je kunt net doen of het er niet is, want je gebruikt het toch niet (meer). Deze ongestructureerde informatie is verzameld door allerlei programma’s, maar ook door sensoren, camera’s en servers. Maar negeren is een slecht idee. Omdat je niet weet wat erin zit, kun je ook niet weten of je misschien wel de privacywetten overtreedt. Voordat je het weet is er een lek en ligt er gevoelige informatie op straat. En omgekeerd: als je geacht wordt persoonsgegevens te verwijderen in het kader van de AVG, hoe weet je dan waar je moet zoeken? Het is dus maar beter om een begin te maken met het organiseren van je ongestructureerde data. Maar wat is dan precies ongestructureerd en hoe krijg je dit gestructureerd?

Heilige graal
Ongestructureerde informatie bestaat uit gegevens die zich niet laten vangen in een database. Er is geen datamodel voor, en met de conventionele analysemethoden kun je er geen chocola van maken. Voor zover deze informatie niet uit automatische processen en sensoren komt, gaat het om alles wat de mens zelf produceert, en wat ergens, vrijwel onzichtbaar, wordt opgeslagen: activiteiten op sociale media, online opslag als Google Drive en Dropbox, netwerkschijven, Office 365, en de vele andere cloudapplicaties die tegenwoordig gebruikt worden.

Netwerkschijven
Interessant is nog om te melden dat de grootste pijn vrijwel altijd zit in de opslag, met name op de netwerkschijven. Hier ontstaat na verloop van tijd een wildgroei aan mappen en bestandsnamen. Omdat er geen informatiebeleid of -beheer is, heeft niemand een overzicht over welke gegevens erop staan, en of die er nog wel op mogen staan (en niet allang vernietigd hadden moeten worden). Persoonsgegevens, een heet hangijzer sinds de invoering van de AVG, zijn nergens centraal te vinden, dus een verzoek om informatie is bij voorbaat kansloos. Laat staan dat ze gemakkelijk gewist kunnen worden.

Kop en staart
Daartegenover staat uiteraard gestructureerde informatie: gegevens met een kop en een staart, keurig opgeslagen in een traditionele database, geïdentificeerd, gelabeld én vooral gemakkelijk toegankelijk. Daarmee wordt het verwerken en interpreteren van de juiste   informatie eenvoudig. En ligt de heilige graal, informatiegestuurd werken, binnen handbereik.

Om van ongestructureerde gegevens gestructureerde informatie te maken, hanteren we een stappenplan dat ervoor zorgt dat je focus aan kunt brengen in je gegevens. Focus op drie basisonderdelen: compliance, risk management en governance.

 1. Pak een afdeling van je organisatie, of desnoods één proces, liefst een waarvan jeverwacht dat er wat nodig is aan structurering(dat is dus bijna altijd). De HR-afdeling iseen dankbaar onderwerp voor het in kaartbrengen van de informatie.
 2. De output kun je vervolgens labelen – betekenis geven – in termen van compliance,risk management en governance.
 3. En dan? Vervolgens kun je een gefundeerde beslissing nemen over de geïnventariseerdeen geanalyseerde informatie:
  > Fijn dat we dit nu weten, maar deze informatieis niet bedreigend voor een van de fundamenten,en we hoeven dus verder geen actie teondernemen.
  > Hm, er zaten wel wat vreemde dingen in,misschien is het een goed idee om nog eenander deel van de gegevens te analyseren,bijvoorbeeld van een andere afdeling of eenander proces.
  > De uitkomst is enigszins verontrustend; hetlijkt ons beter om maar meteen de héleorganisatie onder de loep te nemen.
  > We zijn helemaal overtuigd van deze aanpaken gaan voor een integrale aanpak van onzeongestructureerde gegevens. Kortom, begin met het analyseren van een klein deel van de ongestructureerde informatie,weeg de uitkomst daarvan en bepaal de vervolgstappen.Kan best zijn dat die er niet zijn,maar dat kun je dan in elk geval gefundeerd uitleggen.En dan kun je naar stap 4.
 4. Ga met een gerust geweten slapen.