Come riempire i tuoi data lake senza perdere il controllo dei dati
Questo articolo sui data lake è stato originariamente pubblicato su Forbes.
DOra che i servizi cloud hanno reso così semplice avviarne uno, gli ata lake sono ovunque. Data lake cloud sicuri archivia tutti i dati di cui hai bisogno per diventare un'impresa basata sui dati. E i data lake scompongono le strutture dati canoniche dei data warehouse aziendali, consentendo agli utenti di descrivere meglio i propri dati, ottenere informazioni più approfondite e prendere decisioni migliori.
Gli utenti di data lake sono guidati dai dati. Richiedono dati storici, in tempo reale e in streaming in grandi quantità. Sfogliano cataloghi di dati, preferiscono la ricerca di testo e utilizzano analisi avanzate, machine learning (ML) e intelligenza artificiale (AI) per guidare la trasformazione digitale nel business. Ma da dove provengono esattamente tutti i dati?
La complessità della conformità e della governance nei data lake
Riempire i data lake è un processo complesso che deve essere eseguito correttamente per evitare costosi problemi di preparazione dei dati e di conformità. I dati vengono raccolti da ogni dove e l'ingestione comporta grandi volumi di dati da IoT, social media, file server e database strutturati e non strutturati. Uno scambio di dati su larga scala pone sfide significative in termini di disponibilità e governance dei dati.
Governance dei Big Data condivide le stesse discipline della governance delle informazioni tradizionali, tra cui integrazione dei dati, gestione dei metadati, privacy dei dati e conservazione dei dati. Ma una sfida importante è come ottenere conformità e controllo centralizzati sulle grandi quantità di dati che attraversano reti multicloud di data lake distribuiti.
E c'è un senso di urgenza. Poiché la trasformazione digitale diventa una priorità, la governance dei dati, la sicurezza dei dati e la conformità devono essere sempre in atto. Le leggi approvate di recente, in particolare GDPR e CCPA, richiedono solidi controlli sulla privacy dei dati, incluso "il diritto all'oblio". Per molte organizzazioni, tale conformità è una vera sfida, anche quando si tratta di rispondere alla domanda apparentemente semplice: "Sai dove sono i tuoi dati?"
Governance dei dati federata
Una soluzione è un modello di governance dei dati federato. La governance dei dati federata risolve il dilemma centralizzato contro decentralizzato. Stabilendo controlli di conformità al momento dell'inserimento dei dati, le policy di gestione del ciclo di vita delle informazioni (ILM) possono essere applicate per classificare e governare i dati durante tutto il loro ciclo di vita. Poiché grandi volumi di dati si spostano da database e file server e si trasformano in storage di oggetti basato su cloud, i controlli di conformità basati su policy sono necessari come mai prima d'ora.
Come best practice per impostare la governance dei dati federati, le policy e le procedure di conformità dovrebbero essere standardizzate in tutta l'azienda. Una governance dei dati adeguata implica regole aziendali che vengono seguite in modo scrupoloso e veloce. I sistemi "Comply or explain" portano alla sfiducia da parte delle autorità di controllo e richiedono un rigoroso follow-up per garantire che i rimedi appropriati siano applicati in modo coerente. Una volta che i dati non conformi vengono rilasciati alla rete, il richiamo potrebbe non essere possibile.
Data Lake aziendali
Un data lake aziendale è il fulcro del data fabric interconnesso. I data lake aziendali ingeriscono i dati, li preparano per l'elaborazione e forniscono un framework di governance dei dati federato per gestire i dati durante tutto il loro ciclo di vita. I controlli di governance dei dati centralizzati e basati su policy garantiscono che i dati conformi siano disponibili per le operazioni di data lake decentralizzate.
I data lake aziendali velocizzano anche l'ingestione dei dati. Le connessioni centralizzate per importare dati da archivi di oggetti S3 strutturati, semi-strutturati, non strutturati e isolati semplificano il controllo della conformità. Che i dati arrivino come una semplice "copia" o una funzione di "spostamento" più complicata (per l'archiviazione), l'ingestione centralizzata consente di catalogare, etichettare, trasformare e gestire i dati con piani ILM e di conservazione. Man mano che i dati vengono classificati durante l'ingestione, diventano possibili anche la gestione centralizzata della sicurezza e il controllo degli accessi.
La decisione di spostare o copiare i dati è importante. Per molte organizzazioni, la crescita dei dati sta raggiungendo proporzioni di crisi. I tempi di risposta hanno difficoltà a funzionare quando i set di dati sono troppo grandi. I processi batch potrebbero non essere completati in tempo, sconvolgendo le pianificazioni. Le finestre di inattività richieste per gli aggiornamenti di sistema potrebbero richiedere un'estensione. I costi di archiviazione aumentano e i processi di disaster recovery diventano ancora più impegnativi. Un processo di spostamento elimina i dati alla fonte, alleviando la pressione sulle prestazioni nei sistemi di produzione, mentre un processo di copia aumenta i requisiti infrastrutturali raddoppiando la quantità di dati da elaborare.
Conclusione
Quindi, mentre i data lake si sviluppano all'interno della tua organizzazione, ricorda che riempirli potrebbe essere la parte più difficile. Un data lake aziendale con un modello di governance dei big data federato stabilisce un sistema più affidabile di conformità centralizzata e consente ai data lake decentralizzati di prosperare.

