Barry Kunst

Samenvatting

De toenemende hoeveelheid en diversiteit aan data die door organisaties wordt gegenereerd, vereist een robuuste datamanagementstrategie. Data lakes zijn naar voren gekomen als een oplossing, die een gecentraliseerde opslagplaats bieden voor zowel gestructureerde als ongestructureerde data. De implementatie van een data lake brengt echter aanzienlijke uitdagingen met zich mee, met name op het gebied van governance en opslag. Dit artikel onderzoekt de architectonische componenten van data lakes, de afwegingen tussen governance en opslag, operationele beperkingen en de strategische risico's die verbonden zijn aan de implementatie ervan. Door deze elementen te begrijpen, kunnen besluitvormers binnen de organisatie weloverwogen keuzes maken die aansluiten bij hun organisatiedoelstellingen.

Definitie

Een data lake is een gecentraliseerde opslagplaats voor gestructureerde en ongestructureerde data op grote schaal, waardoor geavanceerde analyses en machine learning-toepassingen mogelijk worden. In tegenstelling tot traditionele datawarehouses kunnen data lakes enorme hoeveelheden ruwe data opslaan zonder dat er vooraf schema's gedefinieerd hoeven te worden. Deze flexibiliteit ondersteunt diverse datatypes en analyses, maar vereist ook robuuste governance-frameworks om de data-integriteit en compliance te waarborgen.

Direct antwoord

Data lakes bieden een waardevolle oplossing voor organisaties die grote datasets willen benutten voor analyses en machine learning. De juiste balans tussen governance en opslagcapaciteit is echter cruciaal. Effectieve governance waarborgt compliance en data-integriteit, terwijl opslagoplossingen snelle datagroei moeten kunnen verwerken. Organisaties moeten deze afwegingen goed maken om de maximale waarde uit hun data lakes te halen.

Waarom nu

De noodzaak voor effectieve data lake-strategieën wordt onderstreept door de exponentiële groei van data en de toenemende regelgeving rondom datamanagement. Organisaties, met name in sectoren zoals defensie, moeten ervoor zorgen dat hun data governance-frameworks robuust genoeg zijn om aan de compliance-eisen te voldoen, maar tegelijkertijd ook flexibel genoeg om zich aan te passen aan veranderende behoeften op het gebied van dataopslag. Het Amerikaanse Ministerie van Defensie (DoD) is een treffend voorbeeld, waar data-integriteit en -beveiliging van het grootste belang zijn.

Diagnostische tabel

Issue Beschrijving Impact
Lacunes in het retentiebeleid Inconsistente toepassing van bewaartermijnen voor gegevens. Risico op niet-naleving en gegevensverlies.
Toegangscontrolefouten Toegangscontrolelijsten worden niet bijgewerkt na personeelswijzigingen. Ongeautoriseerde toegang tot gegevens en mogelijke datalekken.
Onvolledige gegevensherkomst Gebrek aan registratie van de herkomst en transformaties van gegevens. Ingewikkelde audits en nalevingscontroles.
Juridische bewaarplichtcommunicatie Ineffectieve communicatie van kennisgevingen over juridische bewaarplichten. Risico dat gegevens tijdens een rechtszaak worden verwijderd.
Validatiecontrole Afwezigheid Gegevensverwerkingsprocessen zonder validatiecontroles. Onnauwkeurige gegevens leiden tot gebrekkige analyses.
Gaten in het auditlogboek Onvoldoende monitoring van gebruikersactiviteit. Verhoogd risico op onopgemerkte ongeautoriseerde toegang.

Diepgaande analytische secties

Data Lake-architectuur

Data lakes zijn ontworpen om diverse gegevenstypen en analysemogelijkheden te ondersteunen. De architectuur omvat doorgaans een opslaglaag, een verwerkingslaag en een governance-laag. De opslaglaag moet schaalbaar zijn om de snelle instroom van gegevens op te vangen, terwijl de verwerkingslaag analyses en machine learning-toepassingen mogelijk maakt. Governance-frameworks zijn essentieel om te voldoen aan wettelijke en regelgevende eisen en om de data-integriteit te waarborgen. De wisselwerking tussen deze componenten is cruciaal voor de effectieve werking van een data lake.

Governance versus opslag

De afweging tussen governance en opslagcapaciteit is aanzienlijk. Governance waarborgt naleving van regelgeving en data-integriteit, wat cruciaal is voor organisaties zoals het Amerikaanse Ministerie van Defensie (DoD). Strikte governancemaatregelen kunnen echter de toegang tot en verwerking van data vertragen. Omgekeerd kan het prioriteren van opslagcapaciteit leiden tot tekortkomingen in de governance, met compliance-risico's tot gevolg. Organisaties moeten hun governancekaders zorgvuldig afwegen tegen hun opslagbehoeften om een ​​optimale balans te vinden.

Operationele beperkingen

Het beheren van een data lake brengt diverse operationele beperkingen met zich mee. Beleid voor gegevensbewaring moet aansluiten bij wettelijke vereisten, wat een grondig begrip van de toepasselijke regelgeving noodzakelijk maakt. Toegangscontroles zijn cruciaal voor de gegevensbeveiliging en het niet effectief implementeren ervan kan leiden tot ongeautoriseerde toegang. Daarnaast moeten organisaties ervoor zorgen dat hun processen voor gegevensinvoer validatiecontroles bevatten om de gegevenskwaliteit te waarborgen. Aan deze beperkingen moet worden voldaan om operationele storingen en schendingen van de regelgeving te voorkomen.

Strategische risico's en verborgen kosten

Het implementeren van een data lake brengt strategische risico's en verborgen kosten met zich mee waar organisaties rekening mee moeten houden. Zo kan de keuze tussen gecentraliseerd en gedecentraliseerd beheer van invloed zijn op de ophaaltijden van gegevens en de complexiteit van het beheer. Gecentraliseerd beheer kan uniformiteit bieden, maar kan de toegang tot gegevens vertragen, terwijl gedecentraliseerd beheer tot inconsistenties kan leiden. Daarnaast brengt de keuze tussen WORM-opslag (Write Once Read Many) en traditionele opslag verborgen kosten met zich mee, gerelateerd aan investeringen in technologie en flexibiliteit bij het wijzigen van gegevens. Inzicht in deze risico's is essentieel voor het nemen van weloverwogen beslissingen.

Steel-Man Counterpoint

Hoewel data lakes aanzienlijke voordelen bieden, stellen critici dat ze, indien niet goed beheerd, kunnen leiden tot data-moerassen. Het gebrek aan structuur in data lakes kan resulteren in een slechte datakwaliteit en uitdagingen op het gebied van governance. Bovendien kan de complexiteit van het beheren van diverse datatypes organisaties die niet over de nodige expertise beschikken, overweldigen. Het is cruciaal dat besluitvormers deze potentiële valkuilen herkennen en robuuste governancekaders implementeren om de risico's die aan data lakes verbonden zijn, te beperken.

Oplossingsintegratie

Het integreren van een data lake in een bestaande data-architectuur vereist zorgvuldige planning en uitvoering. Organisaties moeten hun huidige datamanagementpraktijken evalueren en hiaten identificeren die een data lake kan opvullen. Dit omvat het beoordelen van data-invoerprocessen, governancekaders en opslagoplossingen. Samenwerking tussen IT- en data governance-teams is essentieel om ervoor te zorgen dat de data lake aansluit bij de organisatiedoelstellingen en compliance-vereisten. Een gefaseerde aanpak van de integratie kan risico's beperken en een soepelere overgang mogelijk maken.

Realistisch bedrijfsscenario

Stel je een scenario voor binnen het Amerikaanse Ministerie van Defensie (DoD), waar een data lake wordt geïmplementeerd om inlichtingen uit verschillende bronnen te consolideren. De architectuur moet realtime analyses ondersteunen en tegelijkertijd voldoen aan strenge beveiligingsprotocollen. Er moeten governancekaders worden opgezet om het toegangs- en bewaarbeleid voor gegevens effectief te beheren. Operationele beperkingen, zoals de noodzaak van snelle gegevensopvraging en naleving van wettelijke vereisten, moeten worden aangepakt om gegevensverlies en ongeautoriseerde toegang te voorkomen. Door deze uitdagingen aan te gaan, kan het DoD zijn data lake inzetten om de besluitvorming en operationele efficiëntie te verbeteren.

FAQ

Wat is het voornaamste doel van een data lake?
Een data lake fungeert als een gecentraliseerde opslagplaats voor gestructureerde en ongestructureerde data, waardoor geavanceerde analyses en machine learning-toepassingen mogelijk worden.

Welke invloed heeft governance op data lakes?
Governance-frameworks zijn essentieel voor het waarborgen van compliance en data-integriteit binnen data lakes, en helpen organisaties bij het beheersen van risico's die samenhangen met data-toegang en -bewaring.

Wat zijn de belangrijkste uitdagingen bij het beheren van een data lake?
De belangrijkste uitdagingen zijn het waarborgen van de datakwaliteit, het implementeren van effectieve toegangscontroles en het afstemmen van het databewaarbeleid op de wettelijke vereisten.

Wat zijn de voor- en nadelen van gecentraliseerd en gedecentraliseerd bestuur?
Gecentraliseerd bestuur zorgt voor uniformiteit, maar kan de toegang tot gegevens vertragen, terwijl gedecentraliseerd bestuur kan leiden tot inconsistenties en bestuurlijke uitdagingen.

Hoe kunnen organisaties de risico's die verbonden zijn aan data lakes beperken?
Organisaties kunnen risico's beperken door robuuste governancekaders te implementeren, regelmatig audits uit te voeren en te zorgen voor effectieve tracering van de herkomst van gegevens.

Waargenomen storingsmodus gerelateerd aan het artikelonderwerp

Tijdens een recent incident ontdekten we een kritieke tekortkoming in onze mechanismen voor het handhaven van de governance, met name met betrekking tot Handhaving van juridische bewaarplicht voor acties met betrekking tot de levenscyclus van ongestructureerde objectopslagAanvankelijk gaven onze dashboards aan dat alle systemen normaal functioneerden, maar zonder dat wij het wisten, liep het besturingsvlak al uiteen van het datavlak, wat tot onomkeerbare gevolgen leidde.

De eerste storing trad op toen we merkten dat objecttags en legal-hold-vlaggen niet correct werden doorgegeven tussen objectversies. Deze stille foutfase duurde enkele weken, gedurende welke onze governance-dashboards geen waarschuwingen of meldingen gaven. Het onderliggende probleem was echter dat de uitvoering van de lifecycle losgekoppeld was van de legal-hold-status, waardoor objecten konden worden verwijderd ondanks dat ze onder legal-hold vielen. Toen we probeerden een object op te halen dat bewaard had moeten blijven, bleek het te zijn verwijderd vanwege het lifecyclebeleid, dat was uitgevoerd zonder rekening te houden met de legal-hold.

Bij nader onderzoek bleek dat de tombstone-markeringen en de verwijzingen in het auditlogboek waren verschoven, waardoor de fout aan het licht kwam bij het ophalen van een verlopen object. Helaas kon dit niet ongedaan worden gemaakt, omdat de lifecycle purge was voltooid en de onveranderlijke snapshots de vorige status hadden overschreven. Het opnieuw opbouwen van de index kon de eerdere status van de objecten niet aantonen, waardoor we met een aanzienlijk complianceprobleem bleven zitten.

Dit is een hypothetisch voorbeeld; we noemen geen Fortune 500-klanten of -instellingen als voorbeelden.

  • Onjuiste architectonische aanname
  • Wat brak er als eerste?
  • Een algemene architectuurles die aansluit op "Data Lake: High-Value SERP Dominance – The Enterprise Guide to Security Data Lake: Governance vs. Storage".

Unieke inzichten verkregen uit “” onder de “Data Lake: High-Value SERP Dominance – De bedrijfsrichtlijn voor een beveiligde Data Lake: Governance vs. Storage”-beperkingen

Een van de belangrijkste lessen uit dit incident is het belang van een nauwe koppeling tussen het besturingsvlak en het gegevensvlak, met name onder druk van regelgeving. Het patroon dat we hebben waargenomen, kan worden omschreven als een 'Control-Plane/Data-Plane Split-Brain' bij gereguleerde gegevensopvraging. Deze splitsing kan leiden tot aanzienlijke compliance-risico's als deze niet goed wordt beheerd.

De meeste organisaties geven prioriteit aan data-toegankelijkheid boven governance, wat vaak resulteert in een gebrek aan adequate controlemechanismen. Experts begrijpen echter dat onder druk van regelgeving de focus moet verschuiven naar het waarborgen van robuuste governance-mechanismen die geïntegreerd zijn met het beheer van de levenscyclus van data.

De meeste publieke richtlijnen laten de cruciale noodzaak van continue monitoring van handhavingsmechanismen voor goed bestuur buiten beschouwing om stille tekortkomingen te voorkomen. Dit gebrek aan toezicht kan leiden tot onomkeerbare nalevingsproblemen die met proactieve bestuursstrategieën voorkomen hadden kunnen worden.

EAT-test Wat de meeste teams doen Wat een expert anders doet (onder druk van regelgeving)
Dus welke factor? Focus op de beschikbaarheid van gegevens Geef prioriteit aan governance naast beschikbaarheid.
Bewijs van oorsprong Vertrouw op periodieke controles. Implementeer continue monitoring
Unieke Delta / Informatiewinst Neem aan dat de naleving statisch is. Beschouw compliance als een dynamisch proces.

Referenties

NIST SP 800-53 – Biedt richtlijnen voor het implementeren van beveiligings- en privacymaatregelen.

– Stelt principes vast voor documentbeheer.

Barry Kunst

Barry Kunst

Vicepresident Marketing, Solix Technologies Inc.

Barry Kunst Hij leidt marketinginitiatieven bij Solix Technologies, waar hij complexe uitdagingen op het gebied van databeheer, uitfasering van applicaties en compliance vertaalt naar heldere strategieën voor Fortune 500-klanten.

Ervaring als ondernemer: Barry heeft eerder samengewerkt met IBM zSeries ecosystemen die de miljardenomzet genererende mainframe-activiteiten van CA Technologies ondersteunen, met praktische ervaring in de economische aspecten van bedrijfsinfrastructuren en de levenscyclusrisico's op grote schaal.

Geverifieerde spreekreferentie: Vermeld als panellid op de agenda van het UC San Diego Explainable and Secure Computing AI Symposium ( Bekijk de agenda (PDF) ).

DISCLAIMER: DE INHOUD, MENINGEN EN MENINGEN DIE IN DEZE BLOG WORDEN GEUIT, ZIJN UITSLUITEND DIE VAN DE AUTEUR(S) EN WEERGEVEN NIET HET OFFICIËLE BELEID OF STANDPUNT VAN SOLIX TECHNOLOGIES, INC., HAAR DOCHTERONDERNEMINGEN OF PARTNERS. DEZE BLOG WORDT ONAFHANKELIJK BEHEERD EN WORDT NIET DOOR SOLIX TECHNOLOGIES, INC. IN EEN OFFICIËLE HOEDANIGHEID BEOORDEELD OF ONDERSCHREVEN. ALLE HIERIN VERMELDE HANDELSMERKEN, LOGO'S EN AUTEURSRECHTELIJK BESCHERMD MATERIAAL VAN DERDEN ZIJN EIGENDOM VAN HUN RESPECTIEVELIJKE EIGENAARS. Elk gebruik is strikt voor identificatie, commentaar of educatieve doeleinden in overeenstemming met de doctrine van redelijk gebruik (US COPYRIGHT ACT § 107 en internationale equivalenten). Er is geen sprake van sponsoring, goedkeuring of samenwerking met SOLIX TECHNOLOGIES, INC. De inhoud wordt geleverd "zoals het is", zonder garanties voor nauwkeurigheid, volledigheid of geschiktheid voor welk doel dan ook. SOLIX TECHNOLOGIES, INC. wijst alle aansprakelijkheid af voor acties die worden ondernomen op basis van dit materiaal. Lezers draa... n de volledige verantwoordelijkheid voor hun gebruik van deze informatie. SOLIX respecteert intellectuele-eigendomsrechten. OM EEN DMCA-VERWIJDERINGSVERZOEK IN TE DIENEN, STUURT U EEN E-MAIL NAAR INFO@SOLIX.COM MET: (1) IDENTIFICATIE VAN HET WERK, (2) DE URL VAN HET INBREUKMATERIAAL, (3) UW CONTACTGEGEVENS EN (4) EEN VERKLARING VAN GOEDE TROUW. GELDIGE CLAIMS KRIJGEN ONMIDDELLIJKE AANDACHT. DOOR DEZE BLOG TE BEZOEKEN, GAAT U AKKOORD MET DEZE DISCLAIMER EN ONZE GEBRUIKSVOORWAARDEN. DEZE OVEREENKOMST WORDT BEHEERST DOOR DE WETGEVING VAN CALIFORNIË.