Aansluiting behoefte en data
Net voor Kerst viel het besluit om een deel van mijn werk weg te gooien en opnieuw te beginnen. In mijn vorige blog ging ik in op de aansluiting tussen data en de behoefte uit de organisatie. Het bleek dat de betrouwbaarheid van het model (een geschatte 10% foutmarge) een gemeente niet het benodigde houvast geeft om te kunnen sturen. In de gesprekken die ik met gemeenten voerde kwam er steevast een ander onderwerp op tafel: Gaan we wel binnen ons budget blijven voor Wmo en jeugdzorg? In november en ook december was hier grote onduidelijkheid over bij veel gemeenten, en tot op de dag van vandaag is er onzekerheid. En daar was mijn benodigde haakje voor een zinvol dataproject. Kort door te bocht wordt daarmee de onderzoeksvraag: hoeveel aan declaraties jeugdzorg en Wmo (Zorg in Natura) gaan we de komende maanden nog binnenkrijgen (via het berichtenverkeer)?
Eenvoudige vraag?
In het verleden heb ik deze vraag vaker gehoord, en telkens bleek het een hele lastige vraag. Je verwacht dat de beschikte zorg tot een bepaalde financiële verplichting leidt, die als goede indicator werkt voor te verwachten declaraties. De praktijk is weerbarstiger. Ik kwam in mijn zoektocht veel beschikkingen tegen waar nog geen 10% van de verplichting was benut, tot aan de volle benutting. Dit gegeven is de basis van het te ontwikkelen model geworden. Zonder te veel in detail te gaan (ik ga graag hierover bij interesse met je over in gesprek) komt het neer op de volgende vraag: wat zijn nu goede indicatoren om te voorspellen wat per beschikking/indicatie de uitnutting van de verplichting gaat worden? Hiermee kan via machine learning–modellen berekend worden wat het te verwachten bedrag aan declaraties gaat worden voor die beschikking en daarmee voor het hele jaar.
Datakwaliteit / Datapreparatie
Vol energie ben ik de kerstvakantie aan de slag gegaan met deze vraag. Al snel kwam een oude bekende kwaal waar ik eerder over schreef om de hoek kijken; datakwaliteit. Betalingen die niet aan cliënt te relateren zijn, of juist besluiten waar nooit een betaling op plaats heeft gevonden, en prijzen van zorgproducten die niet in het systeem staan. Keuzes om te maken zijn dan of verwijderen van de record, of ‘schatten’ wat de correcte waarde zou moeten zijn, of met veel pijn en moeite de juiste waardes op gaan speuren. Alle drie de methodieken heb ik moeten gebruiken om het datamodel op te tuigen.
Datakwaliteit issues tackelen zijn onderdeel van een dataproject, maar de mate waarin het voor komt betekent veel voor de schaalbaarheid van je model. Kortweg komt het op het volgende neer: kan ik het model met nieuwe data zonder (grote) aanpassingen draaiend krijgen of houden? Datakwaliteit is daarmee niet enkel een issue voor de tijd die in het ontwikkelen van een model gaat zitten. Het kan betekenen dat je analyses in de toekomst te kostbaar worden om uit te voeren; de tijd om je berekening opnieuw uit te voeren kost te veel tijd, waardoor je deze niet (frequent) uit gaat voeren.
Dit doet me eens te meer beseffen dat bij registratie–issues in je applicatie het op lange termijn loont om dit niet quick en dirty te doen, maar grondig en gedegen, om latere data-analyses te vergemakkelijken en te automatiseren.
Waarheen leidt de weg?
Binnenkort kom ik weer terug met een update waar ik verder tegenaan ben gelopen en hoe ik deze zo goed en zo kwaad als dat gaat overkom. Wil je een keer een gesprek over hoe je hier zelf of als organisatie mee aan de slag kan gaan, benader me dan vooral voor een (digitaal) koffiemoment.
Meer weten?
Voor meer informatie kunt u contact opnemen met Tim van der Pol, adviseur bij Telengy, via tel. nr. 06 21 36 68 58 of via e-mail: t.v.d.pol@telengy.nl