3 idee sbagliate comuni sui Data Lake
4 minuti di lettura

3 idee sbagliate comuni sui Data Lake

TL'enterprise data lake ha ormai superato da tempo la sua fase iniziale: più di un quarto di tutte le organizzazioni ha un data lake in produzione. Tuttavia, con la maturità arrivano nuove scoperte, critiche e idee sbagliate sui data lake, con titoli come "I data lake dovranno dimostrare valore aziendale o moriranno".

Molte delle critiche ai data lake sono semplicemente false, quindi sono qui per chiarire le cose sfatando tre idee sbagliate comuni sui data lake:

Sono una sostituzione dei data warehouse

Alcune persone chiamano laghi di dati la prossima generazione di data warehousing, o semplicemente data warehouse 2.0. Tuttavia, questo non potrebbe essere più lontano dalla verità. Mentre entrambe le tecnologie al centro sono repository di archiviazione dati in grado di elaborare, manipolare e proteggere i dati, sono entrambe concepite per scopi diversi e quindi sono più efficienti quando coesistono l'una con l'altra.

Una differenza fondamentale è che i data lake possono archiviare tutti i tipi di dati, siano essi strutturati, non strutturati o semi-strutturati, mentre i data warehouse possono archiviare solo dati strutturati. In parole povere, il CTO di Pentaho James Dixon (a cui si attribuisce l'invenzione del termine "data lake"), ha affermato che "un data mart o un data warehouse è simile a una bottiglia d'acqua, purificata, confezionata e strutturata per un facile consumo, mentre un data lake è più simile a un corso d'acqua nel suo stato naturale".

Poiché i data lake sono progettati per archiviare ed elaborare tutti i tipi di dati, sono ideali per progetti di analisi di big data e scienza dei dati, mentre i data warehouse hanno più senso per le applicazioni primarie in cui sicurezza e prestazioni sono più apprezzate. Insieme, data lake e data warehouse aiutano le aziende a gestire i propri dati e a prendere decisioni migliori basate sui dati.

Decisioni migliori basate sui dati

I data lake non sono sicuri

Ecco un altro elemento da aggiungere alla lista dei luoghi comuni sui data lake: il principale confronto tra data lake e data warehouse riguarda la sicurezza. Mentre i data warehouse esistono da più tempo e sono considerati molto più maturi per la protezione dei dati, i data lake possono essere altrettanto sicuri. La chiave non sta nella tecnologia, ma piuttosto nella strategia complessiva di gestione dei dati.

Per proteggere il tuo data lake, devi comprendere la pipeline del data lake, dall'inserimento all'analisi e implementare le strategie appropriate di governance e sicurezza dei dati di conseguenza.

I data lake alla fine diventano “paludi di dati”

Poiché i data lake ingeriscono tutti i tipi di dati, le organizzazioni spesso temono che i loro data lake si trasformino in "paludi di dati", ovvero enormi repository pieni di dati disorganizzati e mal gestiti. La chiave per evitare una palude di dati è garantire la corretta implementazione di un sistema completamente Gestione del ciclo di vita delle informazioni strategia per il tuo data lake.

Utilizzare strumenti per garantire che i dati possano essere classificati in fase di inserimento o creazione e che le corrette policy di conservazione siano applicate fino alla base del singolo record. Ciò garantisce che i dati non vengano conservati oltre la loro utilità e che la loro eliminazione dal sistema venga completamente verificata al momento della rimozione. Insieme alla conservazione dei dati, il data lake dovrebbe essere configurato per supportare il "Data Tiering" per consentire alle aziende di archiviare i propri dati nel livello appropriato al loro utilizzo e alla loro aspettativa di vita a lungo termine.

I CDP di Solix banco di lavoro degli oggetti e banco di lavoro per la governance dei dati sono realizzati con tutti gli strumenti di gestione del ciclo di vita delle informazioni necessari per impedire che il tuo data lake si trasformi in una palude di dati, preparando al meglio i tuoi dati per attività avanzate come analisi di big data, apprendimento automatico e intelligenza artificiale.

Conclusione

Proprio come l'adozione di qualsiasi altra tecnologia in azienda, un'implementazione di successo del data lake non si ferma a "se lo costruisci, verranno"Affinché un data lake abbia successo, le aziende devono creare una strategia di gestione dei dati completa e, fortunatamente, sono disponibili numerose soluzioni per aiutare le aziende a farlo.