Como preencher seus data lakes e não perder o controle dos dados
4 minutos lidos

Como preencher seus data lakes e não perder o controle dos dados

Esta postagem sobre data lakes foi publicada originalmente na Forbes.

DOs lagos ata estão por toda parte agora que os serviços de nuvem tornam muito fácil lançar um. Lagos de dados em nuvem seguros armazene todos os dados que você precisa para se tornar uma empresa orientada a dados. E os data lakes quebram as estruturas de dados canônicas dos data warehouses corporativos, permitindo que os usuários descrevam melhor seus dados, obtenham melhores insights e tomem melhores decisões.

Os usuários do data lake são orientados por dados. Eles exigem dados históricos, em tempo real e de streaming em grandes quantidades. Eles navegam em catálogos de dados, preferem pesquisa de texto e usam analítica avançada, machine learning (ML) e inteligência artificial (IA) para impulsionar a transformação digital nos negócios. Mas de onde exatamente vêm todos os dados?

A complexidade da conformidade e governança em data lakes

Preencher data lakes é um processo complexo que deve ser feito corretamente para evitar custosas quebras de preparação de dados e conformidade. Dados são coletados de todos os lugares, e a ingestão envolve altos volumes de dados de IoT, mídia social, servidores de arquivos e bancos de dados estruturados e não estruturados. Essa troca de dados em larga escala apresenta desafios significativos de disponibilidade de dados e governança de dados.

Governança de big data compartilha as mesmas disciplinas que a governança de informações tradicional, incluindo integração de dados, gerenciamento de metadados, privacidade de dados e retenção de dados. Mas um desafio importante é como atingir conformidade e controle centralizados sobre as vastas quantidades de dados que atravessam redes multicloud de data lakes distribuídos.

E há um senso de urgência. À medida que a transformação digital se torna uma prioridade, a governança de dados, a segurança de dados e a conformidade devem estar sempre em vigor. Leis aprovadas recentemente, especificamente GDPR e CCPA, exigem controles robustos de privacidade de dados, incluindo "o direito de ser esquecido". Para muitas organizações, essa conformidade é um desafio real, mesmo quando se trata de responder à pergunta aparentemente simples: "Você sabe onde estão seus dados?"

Governança de Dados Federados

Uma solução é um modelo de governança de dados federados. A governança de dados federados resolve o dilema centralizado versus descentralizado. Ao estabelecer controles de conformidade no ponto de ingestão de dados, as políticas de gerenciamento do ciclo de vida da informação (ILM) podem ser aplicadas para classificar e governar dados ao longo de seu ciclo de vida. À medida que altos volumes de dados são movidos de bancos de dados e servidores de arquivos e se transformam em armazenamento de objetos baseado em nuvem, controles de conformidade orientados por políticas são necessários como nunca antes.

Governança de Big Data Federada de Data Lakes

Como uma prática recomendada para configurar a governança de dados federados, as políticas e procedimentos de conformidade devem ser padronizados em toda a empresa. A governança de dados adequada envolve regras de negócios que são seguidas rigorosamente e rapidamente. Os sistemas de "cumprir ou explicar" levam à desconfiança por parte das autoridades de auditoria e exigem um acompanhamento rigoroso para garantir que as soluções adequadas sejam aplicadas de forma consistente. Uma vez que os dados não conformes são liberados para a rede, o recall pode não ser possível.

Lagos de dados empresariais

Um data lake empresarial é a peça central do tecido de dados interconectado. Os data lakes empresariais ingerem dados, os preparam para processamento e fornecem uma estrutura de governança de dados federada para gerenciar os dados durante todo o seu ciclo de vida. Controles de governança de dados centralizados e orientados por políticas garantem que dados compatíveis estejam disponíveis para operações de data lake descentralizadas.

Os data lakes corporativos também aceleram a ingestão de dados. Conexões centralizadas para importar dados de armazenamentos de objetos S3 estruturados, semiestruturados, não estruturados e em silos simplificam o controle de conformidade. Quer os dados cheguem como uma simples "cópia" ou uma função mais complicada de "mover" (para arquivamento), a ingestão centralizada permite que os dados sejam catalogados, rotulados, transformados e governados com ILM e planos de retenção. À medida que os dados são classificados durante a ingestão, o gerenciamento de segurança centralizado e o controle de acesso também se tornam possíveis.

A decisão de mover versus copiar dados é importante. Para muitas organizações, o crescimento de dados está atingindo proporções de crise. Os tempos de resposta têm dificuldade para executar quando os conjuntos de dados são muito grandes. Os processos em lote podem não ser concluídos a tempo, alterando os cronogramas. As janelas de tempo de inatividade necessárias para atualizações do sistema podem exigir extensão. Os custos de armazenamento aumentam e os processos de recuperação de desastres se tornam ainda mais desafiadores. Um processo de movimentação expurga os dados na fonte, aliviando a pressão de desempenho nos sistemas de produção, enquanto um processo de cópia aumenta os requisitos de infraestrutura ao dobrar a quantidade de dados a serem processados.

Conclusão

Então, conforme os data lakes são implementados em sua organização, lembre-se de que preenchê-los pode ser a parte mais difícil. Um data lake empresarial com um modelo de governança de big data federado estabelece um sistema mais confiável de conformidade centralizada e permite que data lakes descentralizados floresçam.