Welke taken moeten we oppakken? Hoe werkt een applicatie? Wat houdt een bepaalde rol in? En welke uitdagingen komen daarbij kijken? Als adviseur is het essentieel om deze informatie mee te nemen in je opdrachten. Praktijkervaring is hierbij net zo belangrijk als theoretische kennis, vooral bij het begeleiden van projecten.
Het afgelopen jaar heeft de Telengy-werkgroep “datagedreven werken” zich intensief beziggehouden met een intern dataproject. Dit project bood ons de kans om te experimenteren met rollen die we normaal niet vervullen en om een nieuwe applicatie te verkennen. Zo heeft Eline de rol van data-architect en engineer op zich genomen, een geheel nieuwe ervaring voor haar. Frank heeft zijn vertrouwde rol als projectleider en CDO vervuld.
We delen graag de waardevolle lessen die we hebben geleerd:
Rollen, geen functies
Een datateam bestaat uit diverse rollen, zoals data-architect, data-steward, data-analist en UX-designer. Het is een voordeel als de organisatie deze rollen al in huis heeft, maar dat is vaak niet het geval bij de start van datagedreven werken. Dit gold ook voor ons dataproject. We hebben ervoor gekozen om bepaalde rollen te combineren; zo vervulde de data-architect ook de rol van engineer. Het is belangrijk om de verschillen en overlap tussen deze rollen te begrijpen, zodat de verantwoordelijkheden duidelijk zijn voor degene die de rol op zich neemt.
Enthousiasme is fijn, maar houd het klein
Een project begint altijd met een duidelijke opdracht. Tijdens ons project zagen we steeds meer mogelijkheden, wat het verleidelijk maakte om mee te gaan in het enthousiasme. Het is echter belangrijk om deze valkuil te vermijden. Houd het project klein en overzichtelijk; zodra de basis stevig staat, kun je altijd verder bouwen. Maak een MoSCoW-lijst om prioriteiten te stellen en plaats andere wensen op een backlog voor toekomstige uitbreiding.
Begin op papier
Start met het opstellen van een datamodel op papier. Tijdens ons project hebben we meerdere modellen gemaakt om de opdracht goed uit te voeren en om keuzes te maken voordat we deze implementeerden.
- Benodigde data: Ontleed de hoofdvraag in subvragen en bepaal welke data nodig is om deze vragen te beantwoorden.
- Datamodel: Identificeer de databronnen en noteer waar eventuele dubbelingen zitten, aangezien dezelfde data uit verschillende bronnen kan komen.
- Gegevensmodel: Bepaal welke bronnen daadwerkelijk worden gebruikt en geef de titels aan die in de datapijplijn terugkomen. Noteer ook welke gegevens als ‘Key’ dienen om de data te koppelen, zoals een gemeentecode die in verschillende lijsten voorkomt.
- Data-architectuur: Schets hoe de datapijplijn eruitziet. Wat is je datasource? Hoe is je data lakehouse ingericht? Maak je gebruik van een data lakehouse?
Meer over architectuur kun je terugvinden in een eerder artikel. Door deze punten eerst op papier uit te werken, bespaar je veel tijd en overleg. Als engineer kun je het systeem dan sneller en efficiënter inrichten. Als projectleider geven deze modellen handvatten om overzicht te houden, het project te sturen en een praatplaat om met de opdrachtgever te bespreken.
Circulair in plaats van lineair
Bij de uitvoering van ‘Begin op papier’ is een circulaire projectaanpak essentieel. De vormgeving van het eindrapport hangt bijvoorbeeld af van hoe de data door de pijplijn stroomt. Tegelijkertijd is de pijplijn afhankelijk van de beschikbare databronnen en de kwaliteit daarvan. Het is dus een voortdurend samenspel tussen de verschillende rollen om tot een goed resultaat te komen. Het werkt het beste om kortcyclisch te werken en tijdig bij te sturen.
Structuur voor je data-architectuur
Om overzicht te behouden bij het inrichten van het dataplatform, zijn de volgende punten belangrijk:
- Naamgeving: Kies een logische naamgeving om duidelijk onderscheid te maken tussen het type data, de fase waarin de data zich in de pijplijn bevindt, en wanneer de data is ingeladen. Dit voorkomt veel zoekwerk en vergissingen tijdens het bewerken van de data.
- Brons, zilver, goud: Zorg voor verschillende stadia waar de data doorheen gaat. Data begint in brons wanneer het wordt ingelezen, wordt zilver na bewerking, en wordt goud wanneer het klaar is voor visualisatie. Deze stappen geven inzicht in hoe de data is bewerkt en bieden ruimte voor latere aanvullingen of experimenten.
- Opruimen van het oude: Het klinkt vanzelfsprekend, maar ruim bestanden die niet meer gebruikt worden op. Zorg dat je werkruimte schoon blijft. Bij kleine projecten is dit wellicht nog te overzien, maar bij grote dataprojecten kan het snel problematisch worden.
Vragen of meer willen weten over data-projecten?
Neem gerust contact op met Eline van Lieshout, 06 14 31 62 03 of Frank Huijbregts, 06 21 81 29 02.
Momenteel voert Telengy een eigen dataproject uit. In een volgend artikel lichten wij dit project toe qua stappen die zijn gezet en de lering die wij hieruit hebben getrokken.