Datakwaliteit: Een reis door de tijd
In het huidige digitale tijdperk, waarin beslissingen niet zonder data kunnen worden genomen, kan het belang van datakwaliteit niet genoeg worden benadrukt. Neem bijvoorbeeld de grote fout die Public Health England maakte tijdens hun dagelijkse COVID-19 contacttracing in 2020. Bijna 16.000 positieve coronavirusgevallen werden weggelaten door het gebruik van een verouderd Excel-formaat (XLS) dat slechts ongeveer 65.000 rijen aankon. Het nieuwere formaat (XSLX), met een aanzienlijk hogere capaciteit, had deze vergissing kunnen voorkomen. Dit voorbeeld onderstreept de cruciale rol van datakwaliteit bij het garanderen van nauwkeurige en betrouwbare informatie. Lees verder om meer te weten te komen over de reis door de tijd als we de geschiedenis van datakwaliteit ontrafelen, van oude beschavingen tot de geavanceerde technologieën van de 21e eeuw.Eerste sporen van datakwaliteit
In de oude stad Soemer (Mesopotamië) dienden kleitabletten als voorlopers van de huidige databases. Deze kleitabletten werden met de hand gemaakt. Tijdens het kopiëren van deze tabletten kan er gemakkelijk informatie worden weggelaten of verkeerd worden gespeld. Dit is een van de eerste tekenen van problemen met de datakwaliteit. Een ander spoor van datakwaliteit werd gevonden in de kloosters in Europa tijdens de middeleeuwen. Ze documenteerden essentiële informatie over manuscripten en legden de basis voor meer gestructureerd datamanagement en de behoefte aan informatie van hoge kwaliteit. Dit laat zien dat de noodzaak van een nauwkeurige administratie al vroeg werd onderkend.Middeleeuwen van datakwaliteit
In de voetsporen van de oude datakwaliteit. De middeleeuwen van datakwaliteit begon tijdens de Industriële Revolutie. Deze periode leidde tot meer bedrijfsactiviteiten, bijvoorbeeld door textielfabrieken aan te moedigen om een nauwkeurige administratie van hoge kwaliteit bij te houden voor een efficiënter beheer van activiteiten en middelen.
In de 19e eeuw vormden handgeschreven grootboeken al vroeg een uitdaging voor de datakwaliteit, geplaagd door fouten als gevolg van onleesbaar handschrift en verkeerde berekeningen, waardoor de problemen van handmatige gegevensinvoer aan het licht kwamen.
De komst van computers halverwege de 20e eeuw brachten vroege databases zoals de Integrated Data Store (IDS), een revolutie teweeg in de manier waarop organisaties data opsloegen en ophaalden. De inspanningen van CODASYL in de jaren 1960 leidden tot de ontwikkeling van COBOL, een taal die cruciaal was voor het behouden van data consistentie binnen vroege databases zoals het IBM Information Management System (IMS). Met de opkomst van computers en data was de kwaliteit van data een belangrijke factor waarmee rekening moest worden gehouden.
In de jaren ’70 en ’80 van de vorige eeuw werd mainframe computing prominent, waarbij de nadruk lag op data-integriteit en het verminderen van redundantie, waarmee de basis werd gelegd voor moderne praktijken op het gebied van datakwaliteit. Dit tijdperk introduceerde raamwerken zoals Total Data Quality Management (TDQM), die een gestandaardiseerde aanpak boden om de datakwaliteit binnen organisaties te garanderen. Niet alleen in de industrie is datakwaliteit een belangrijk onderwerp geworden. In de jaren 1980 werden academische papers over datakwaliteit gepubliceerd (bijv. Brodie, 1980; Woodward & Masters, 1989).
In de jaren 90 kwamen geavanceerde tools voor dataprofilering op de markt, zoals Trillium Software, waarmee organisaties de algehele kwaliteit van hun data grondig konden analyseren en verbeteren.
Datakwaliteit in het moderne tijdperk
Globalisering bracht nieuwe uitdagingen met zich mee, waarbij multinationals worstelden met verschillen in dataformaten, valuta en talen. Tegenwoordig zijn cloud-gebaseerde Data Quality-platforms zoals SODA, Collibra DQ, Ataccama en Informatica een voorbeeld van de evolutie van datakwaliteit applicaties, die schaalbare oplossingen bieden voor organisaties die te maken hebben met grote en diverse hoeveelheden data.
Terwijl we tegenwoordig door het digitale landschap navigeren, maken e-commerce platformen bijvoorbeeld gebruik van geavanceerde machine learning voor nauwkeurige productaanbevelingen, wat de cruciale rol onderstreept van hoge datakwaliteit bij het vormgeven van onze digitale ervaringen. Zonder data van hoge kwaliteit zijn deze modellen namelijk niet in staat om nauwkeurige voorspellingen te doen of gepersonaliseerde aanbevelingen te doen, waardoor de effectiviteit van e-commerce platformen in gevaar komt en de gebruikerservaring afneemt. Hoge datakwaliteit is onmisbaar om de nauwkeurigheid en relevantie van modellen voor machine learning te garanderen in het huidige digitale landschap.
In deze reis door de tijd zijn we getuige geweest van de evolutie van datakwaliteit van oude kleitabletten tot geavanceerde cloud-gebaseerde oplossingen. Het verkennen van de dimensies die de essentie van nauwkeurigheid, consistentie, compleetheid, validiteit, actualiteit en uniekheid omvatten. Terwijl we ons verdiepen in de complexiteit van deze dimensies van datakwaliteit, maken we de weg vrij voor een beter begrip.
Om meer te lezen over de dimensies van datakwaliteit. Als je meer wilt weten over hoe Clever Republic je kan helpen met je datakwaliteit applicatie, neem contact met ons op.