Een stevig informatiehuis begint bij architectuur
Bij het bouwen van een huis is het niet alleen belangrijk dat het er mooi uitziet, maar ook dat het goed functioneert. Het dak mag bijvoorbeeld niet te zwaar zijn voor de fundering en uit de kranen moet water komen. Gelukkig hoef je als toekomstige huiseigenaar niet zelf de draagkracht van de muren te berekenen. Je kunt een architect inschakelen om jouw huis op maat te laten ontwerpen. De architect gaat aan de slag met jouw wensen en legt eventuele keuzes voor. Als huiseigenaar kun je redelijk goed begrijpen wat de impact is van de gemaakte keuzes
Dit scenario is ook van toepassing op een gemeente die meer datagedreven wil werken, maar de ICT heeft uitbesteed. Als opdrachtgever begrijp je de functionele behoeften, maar hoef je niet alle technische details te kennen. Toch is het prettig om in gesprek met de uitvoering de inhoud van de terminologie te begrijpen. Dit artikel gaat in op de meest belangrijke bouwstenen van een data-architectuur en probeert zo handvatten te geven.
Wensen, schetsen, bouwen
Vergelijkbaar met het bouwen van een huis, begint datagedreven werken met een wens die wordt uitgewerkt tot een concreet plan voordat de stenen worden gekocht. Hoewel dit artikel zich richt op de techniek, is het belangrijk te benadrukken dat datagedreven werken niet begint bij de technologie zelf, maar bij de functionele behoeften die de koers bepalen.
De bouwstenen hebben geen vaste plek of vorm in de architectuur, wat betekent dat ze flexibel kunnen worden ingezet ter ondersteuning van de functionele wensen. Bij een huis kan immers een steen aan de buitenkant van de muur, maar kan ook binnen als decoratieve wand gebruikt worden. Het blijft een steen, maar de functie en vorm verschillen.
De fundering
De basisfunctie van een data-architectuur is om inzichtelijk te maken hoe de data door de verschillende bouwstenen verloopt, van de bron naar visualisatie. De architectuur geeft nog niet weer wat de kwaliteit is van de data en de uitkomst, maar wel waar de data vandaan komt, hoe de data worden getransformeerd en opgeslagen, om uiteindelijk gevisualiseerd te worden.
Bouwmateriaal
Gegevensbron
De data die we nodig hebben, halen we uit een gegevensbron. Dit kan bijvoorbeeld het zaaksysteem, een los Excel in SharePoint of een andere externe bron zijn. In de architectuur staat niet alleen waar de data vandaan komt, maar wordt ook de vorm van de data aangeven. Gaat het om een Excel, een video of om een API-verbinding. Het type brongegeven heeft invloed op wijze van opslaan en nodige bewerking.
Opslag
De data waarmee gevisualiseerd wordt, wil je niet bij de bron bewerken. Dit betekent dat de data op een andere plek opgeslagen wordt zodat de werkprocessen en dataprocessen elkaar niet negatief beïnvloeden.
In de hele data-flow wordt de data op verschillende punten in de architectuur opgeslagen en bewerkt. Zo kunnen de brongegevens beginnen als ongestructureerde data, denk aan een filmpje, maar door bewerkingen eindigen als gestructureerde data, denk aan tabellen. Beide vormen vragen om een ander type opslag.
Database
Een database is het meest geschikt voor het verwerken van operationele data. Dus data waarmee dagelijks en “realtime” gewerkt wordt. Wanneer data geanalyseerd moet worden, komen de andere type opslag naar voren. Een database slaat gestructureerde data op, vaak uit één enkele bron. Hierdoor is de data minder complex en geschikt voor snelle en efficiënte dataverwerking.
Voorbeeld: een standaard uitdraai, csv-bestand, vanuit het zaaksysteem met betalingen wordt in de database opgeslagen. Vervolgens pakt het financieel systeem de csv op en leest hem in om de betalingen klaar te zetten.
Datawarehouse, datalake & datalakehouse
Dit type opslag is geschikt voor het opslaan van grote hoeveelheden gecombineerde data uit verschillende bronnen en analyses op uit te voeren. Zo is het mogelijk om analyses uit te voeren op de historie van deze gecombineerde data.
Voorbeeld: vanuit het financieel systeem en het zaaksysteem komen verschillende gegevens, samen vormen ze een nieuw tabel die gebruikt wordt voor de visualisatie. Die tabel kan geautomatiseerd aangemaakt worden en zo bouwt er binnen de opslag een historie op van de gecombineerde data waar analyses opgemaakt kunnen worden.
Ook zit er een verschil tussen een datawarehouse, datalake en datalakehouse. Dit zit hem in het type data, gestructureerd of ongestructureerd:
- Een datawarehouse bevat gestructureerde data en is geschikt voor analyses op grote hoeveelheden gegevens met bijvoorbeeld een BI-tool.
- Een datalake is bedoeld om veel data (uit verschillende bronnen) in oorspronkelijke vorm op te slaan, met name ongestructureerde data. Een datalake gebruik je bijvoorbeeld wanneer je aan de slag gaat met machine learning en geavanceerde data-analyses.
- Een datalakehouse is een combinatie van beide.
ETL (Extract, Transform, Load)
Ook wel ‘Extraheren, Transformeren en Laden’. Een ETL kan meerdere keren terugkomen in een architectuur. Zo wordt er vaak gewerkt met verschillende stadia van het inladen van de data. Hiervoor worden de termen ‘Brons’, ‘Zilver’ en ‘Goud’ gebruikt. Tussen elk stadium zit een ETL om naar een hoger stadium te komen.
Extract
Het ophalen van de data uit de bron. Dit kan bijvoorbeeld uit de database zijn, maar ook vanuit de datawarehouse.
Transform
Data moet getransformeerd worden om te gebruiken. Zo wil je overbodige data verwijderen, data verrijken of de vorm aanpassen. Dit gebeurt allemaal tijdens het transformeren.
Load
De getransformeerde data moet opgeslagen worden. Hiervoor is het handig om keuzes te maken in type opslag maar ook het stadium waar de data in valt.
Voorbeeld: data vanuit het zaaksysteem en het financiële systeem worden door een ETL opgeslagen in een datalakehouse, dit is ‘Brons’. Vervolgens wordt er een verbeterslag op de data gedaan via een ETL, maar blijft de data opgeslagen in de datalakehouse. Dit is het zilveren stadium. Voor het gouden stadium wordt de zilveren data via een ETL opgehaald en een laatste keer getransformeerd om in de datawarehouse op te slaan. In het gouden stadium staat de data klaar om verwerkt te worden in de analyse of visualisatie.
Analyse
Met de getransformeerde data kan geanalyseerd worden. Welke patronen worden ontdekt, of hoe is het met de datakwaliteit gesteld. De analyse kan in verschillende tools gedaan worden. Dit hangt af van het type data. Voor gemeenten gaat het met name om Business Intelligence (BI), hiervoor zijn vaak al applicaties in huis.
Visualisatie
Uiteindelijk dient de data zo opgesteld te worden dat de beoogde doelgroep iets kan doen met de inzichten. Hetzij een bestuur dat besluiten neemt op basis van een rapportage of team dat de werkdruk beter wil verdelen. De visualiseer tool ondersteunt bij het modelleren van de data tot bijvoorbeeld een dashboard of rapport. De analyse applicatie kan hetzelfde zijn als de visualisatie applicatie.
De handleiding en garantie van het huis
Bij de oplevering van een huis krijg je als huiseigenaar de sleutels en maak je afspraken met de andere bewoners over het afsluiten van het huis voor vertrek. Bij datagedreven werken dient de datagovernance als handleiding met afspraken die gemaakt zijn.
Geen technische bouwsteen, maar wel belangrijk voor het behoud en beveiliging van de architectuur. Daarnaast beschrijft het een strategie hoe je gegevens toegankelijk zijn en veilig worden beheerd. Een eigen datagovernance opstellen? Het DAMA (Data Management Association) raamwerk biedt richtlijnen en hulpmiddelen die je ondersteunen bij het implementeren van datagovernance.
Wat heb je al in huis?
De meeste gemeenten hebben al veel van de bouwstenen in huis, zoals bijvoorbeeld een database, Microsoft PowerBI of Tableau. De vraag is of dit voldoende is om mee te beginnen of dat er techniek aangeschaft moet worden. Dat ligt per situatie anders, maar aan de volgende punten kan gedacht worden om mee te beginnen voor de data-architectuur.
- Bestaande systemen en databases
Je hebt waarschijnlijk al verschillende systemen en databases die waardevolle data bevatten. Denk aan bevolkingsregisters, meldingssystemen, en financiële administratie. Deze kunnen dienen als bron voor je ETL-proces. - Tools voor data-opschoning en -integratie
Veel organisaties hebben al tools in huis voor data-opschoning en -integratie, zoals Microsoft Excel of Access, of gespecialiseerde ETL-tools zoals Talend of Informatica. Deze kunnen de eerste stappen naar een data-gedreven aanpak aanzienlijk vergemakkelijken. - Analyse- en visualisatie-tools
Je hebt mogelijk al licenties voor analyse- en visualisatie-tools zoals Power BI of Tableau. Deze tools kunnen meteen gebruikt worden om de eerste analyses en visualisaties te maken.
Denk na over hoe je je gegevens wilt opslaan en welke tools je wilt gebruiken voor analyse. En vooral, wees niet bang om te experimenteren en te leren.
Ondersteuning bij de bouw?
Vragen en meer willen weten naar aanleiding van dit artikel? Neem gerust contact op met Eline van Lieshout, 06 14 31 62 03 of Frank Huijbregts, 06 21 81 29 02.
Momenteel voert Telengy een eigen dataproject uit. In een volgend artikel lichten wij dit project toe qua stappen die zijn gezet en de lering die wij hieruit hebben getrokken.