Opdracht: Data verkennen
Doel van de opdracht:
AI is zo goed als de data die je gebruikt om het te trainen.
Het is dan ook belangrijk dat deze data van de juiste kwaliteit is en voldoen aan het AA-BB-CC-DD model, het moet voldoen aan de volgende criteria:
Accuraat: kloppen de gegevens die in de data staan of is er slordig met het invullen van de data omgegaan. Bijvoorbeeld kloppen de geboortedata van de personen en zijn ze in hetzelfde format ingevuld (US versus NL-indeling)?
Actueel: hoe recent is de data en wanneer is deze voor het laatst aangepast. Bijv. kloppen de adresgegevens nog die in de data staan? Of is het bestand zo verouderd dat dit waarschijnlijk niet meer actueel is
Bron: waar komt de data vandaan en is die bron betrouwbaar? Gegevens van het CBS zijn betrouwbaarder dan die van een willekeurige bron.
Beschikbaar: is de data wel te verkrijgen die je nodig hebt. Intern of extern
Compleet: Zijn alle velden die je nodig hebt wel in het databestand gevuld, of missen er ook veel gegevens? Bijvoorbeeld bij sommige personen is er wel een leeftijd en opleiding ingevuld maar bij andere personen niet.
Consistent: indien je data van verschillende bronnen gebruikt, kloppen deze data dan wel met elkaar: oftewel is het adres van een bedrijf hetzelfde in het CRM-systeem als dat het in het inkoop systeem is.
Definities: Is duidelijk wat de data precies betekent en hanteert iedereen dezelfde definities. Is de betekenis van een FTE in het ene systeem hetzelfde als in het andere systeem
Divers: is de data divers genoeg zodat er geen onbedoelde bias ontstaat en er onverhoeds wordt gediscrimineerd. Het belang hiervan is uitgebreid aan de orde gekomen in het eerdere hoofdstuk over maatschappelijke vraagstukken.
Wat ga je doen
Je gaat een fictieve dataset beoordelen en kijkt per item uit het AA-BB-CC-DD model of en in welke mate de data van Annelies hier aan voldoet.
Uitleg en Instructies
Open de dataset van Annelies genaamd "HR-Export-Annelies_2015 copy.xlsx" in Excel.
Kijk per item uit het AA-BB-CC-DD model en per kolom in de dataset van Annelies of de data voldoet aan de eisen.
Klik hier om terug te gaan naar de hoofdpagina