Data warehouses, data lakes en data lakehouses: Datastorage 101
Als je werkzaam bent op het gebied van Data Governance is de kans groot dat je tools en termen tegenkomt met namen die zichzelf niet zo makkelijk laten verklaren. In deze blogreeks willen we deze onderwerpen behandelen en op een toegankelijke manier uitleggen. In deze blogreeks willen we deze onderwerpen behandelen en op een toegankelijke manier uitleggen. Deze week gaan we in op de begrippen Data Warehouse, Data Lake en Data Lakehouse.
Inleiding
Organisaties gebruiken processen om producten en diensten te creëren en te leveren aan hun klanten. In deze processen ontstaat data en wordt data gewijzigd. Voorbeelden zijn: een arts die het dossier van een patiënt moet vinden en zijn bevindingen vastlegt, een persoon die de gegevens van een verzekeringsaanvraag moet indienen en een administratief medewerker die financiële transacties verwerkt. Deze data wordt regelmatig gebruikt en moet in een handomdraai beschikbaar zijn. Het snel kunnen vinden, opvragen en opslaan van relevante data is essentieel. Computersystemen die deze bedrijfsprocessen ondersteunen worden geoptimaliseerd om de benodige prestaties te leveren.
Deze transactionele systemen zijn geoptimaliseerd om individuele gegevensrecords te vinden, op te vragen en op te slaan.
Anderzijds hebben organisaties informatie nodig om de juiste strategieën te kiezen, bedrijfsprocessen te optimaliseren en consumentengedrag te voorspellen. Om deze inzichten te verschaffen, worden dashboards en -rapporten gemaakt ter ondersteuning van het management. Voor deze processen zijn heel andere systemen nodig, systemen die grote hoeveelheden gegevens in korte tijd kunnen verwerken. De opslag van deze enorme hoeveelheid gegevens moet ook goedkoper zijn dan de transactionele tegenhanger ervan.
Deze systemen voor gegevensopslag zijn geoptimaliseerd om grote hoeveelheden gegevens tegelijk te verwerken.
Er zijn verschillende opties voor deze gegevensopslag: data warehouses, data lakes en data lakehouses.
Data Warehouses
De naam data warehouse is op zich al een mooie analogie; het is een magazijn waar gegevens worden opgeslagen. Een magazijn verschilt van een winkel: in een winkel ligt de nadruk op het vinden, verkopen en leveren van individuele producten. In een magazijn worden producten in bulk opgeslagen en verplaatst, meestal voor langere tijd, net zoals bij de datavariant. In de transactionele systemen (de systemen die de organisatie helpen hun producten en diensten te leveren) worden individuele gegevens snel én gestructureerd gevonden, gewijzigd en opgeslagen. In een data warehouse worden diezelfde gegevens langdurig opgeslagen. Data warehouses worden ook gebruikt om snapshots van de gegevens op te slaan. Dit geeft een beeld van hoe de data op enig moment in de tijd eruit ziet. Met snapshots kun je de ontwikkeling van data in de tijd zien. Data warehouses vormen een goede basis voor rapportage en een uitstekend uitgangspunt om gedetailleerde analyses uit te voeren. Data warehouses bevatten gestructureerde gegevens, bijvoorbeeld gegevens die op een gestructureerde manier zijn gemodelleerd en gedefinieerd. Door dit gestructureerde karakter heeft een data warehouse een goede technische architectuur voor onderhoud.
Data Lakes
De term Data Lake spreekt iets minder voor zich. In een Data Lake worden gestructureerde en ongestructureerde gegevens opgeslagen. Gestructureerde gegevens zijn eerder uitgelegd. Voorbeelden van ongestructureerde gegevens zijn tekst, afbeeldingen, pdf’s, Excel-bestanden, Word-documenten, CSV’s en Json. Een van de belangrijke voordelen van een data lake is dat het zeer flexibel is met het soort gegevens dat kan worden opgeslagen en met het volume van deze gegevens. De belangrijkste gebruikers van het data lake zijn de AI- & data science-projecten die gegevens met een groot volume (Big Data) verwerken. Een van de nadelen van een data lake is dat men gemakkelijk kan verdwalen in de enorme hoeveelheid en verscheidenheid van gegevens die in een data lake zijn opgeslagen, met als gevolg een data moeras! Het vinden van gegevens, het begrijpen van de betekenis van de gegevens en het vertrouwen in de kwaliteit van de gegevens in kwestie is een grote uitdaging in data lakes.
Data Lakehouses
Hier komt het data lakehouse om de hoek kijken. In de basis is het een data lake, dus het kan profiteren van dezelfde voordelen. Om de nadelen van het data lake te ondervangen, wordt het data lakehouse uitgebreid met functies om de opgeslagen gegevens te vinden en te begrijpen. Daarnaast heeft het data lakehouse een koppelpunt waar gegevensbronnen op dezelfde universele manier kunnen worden benaderd, zodat het gemakkelijker wordt om met de gegevens te interageren.
Enthousiast of nieuwsgierig naar onderwerpen over Data Governance? Bij Clever Republic delen we graag onze gedachten over het verbinden van data met systemen, processen, mensen en beleid. Neem gerust contact met ons op, we beantwoorden graag al uw vragen.