O que é um Enterprise Data Lake?
A ascensão de arquiteturas multi-nuvem, data-first e o amplo portfólio de aplicativos avançados baseados em dados que surgiram como resultado, dependem de data lakes para armazenar todos os dados. Um data lake é um repositório de código aberto e padrão da indústria para armazenar grandes quantidades de dados. Posteriormente, um lago de dados corporativos não apenas armazena dados, mas também fornece serviços de nível empresarial para coletar, explorar, gerenciar, governar, preparar e construir pipelines para dados empresariais.
Os data lakes corporativos armazenam dados "como estão" no momento da ingestão para evitar processos ETL demorados e caros, ou fornecem serviços de preparação de dados. Esses serviços criam perfis, limpam, enriquecem, transformam, modelam e criam pipelines de dados para atender a requisitos específicos do aplicativo. O objetivo é habilitar aplicativos orientados a dados em tempo real. A preparação de dados melhora a qualidade dos dados e habilita aplicativos avançados de análise e inteligência de negócios.
Pipelines de dados para a empresa orientada a dados
Os aplicativos orientados a dados alavancam redes vastas e complexas de dados e serviços. Os data lakes corporativos fornecem as conexões necessárias para mover dados de qualquer fonte para qualquer local de destino. Como eles lidam com volumes muito grandes de dados e escalam horizontalmente usando infraestrutura de nuvem de commodities, data lakes empresariais são uma plataforma ideal para migração de dados em nuvem, arquivamento empresarial e Operational Data Store (ODS). Além disso, eles têm a capacidade de construir pipelines entre sistemas de produção e análises downstream, data warehouse SQL, inteligência artificial (IA) e aplicativos de machine learning (ML).

Os pipelines de dados são uma série de fluxos de dados. A saída de um elemento é a entrada do próximo, e assim por diante. Os data lakes corporativos servem como pontos de coleta e acesso em um pipeline de dados e são responsáveis pelo controle de acesso. À medida que os pipelines de dados surgem na empresa, lagos de dados empresariais tornem-se hubs de distribuição de dados com controles centralizados para federar dados em redes de data lakes. A federação de dados centraliza o gerenciamento de metadados, a governança de dados e o controle de conformidade, ao mesmo tempo em que permite operações descentralizadas de data lakes.
É claro que gerenciar dados em uma escala tão grande significa que controles de governança de dados são essenciais. Um data lake empresarial governa dados com políticas de Information Lifecycle Management (ILM). Elas estabelecem um sistema de controles e regras de negócios, incluindo políticas de retenção de dados e retenções legais. Controles de segurança e privacidade de dados do consumidor como NIST 800-53, PCI, HIPAA e GDPR não são apenas essenciais para a conformidade legal, a implementação adequada também melhora a qualidade dos dados.
Gestão Centralizada de Metadados
Os data lakes empresariais precisam Gerenciamento de metadados para visualizar todo o cenário de dados (incluindo dados estruturados, semiestruturados e não estruturados) e ajuda os usuários a entender melhor seus dados. Os analistas classificam, criam perfis e estabelecem descrições consistentes e contexto de negócios para os dados. O gerenciamento centralizado de metadados permite que os usuários explorem seu cenário de dados de três maneiras:
- A linhagem de dados ajuda os usuários a entender o ciclo de vida dos dados, incluindo um histórico de movimentação e transformação de dados. Isso simplifica a análise da causa raiz ao rastrear erros de dados e melhora a confiança para processamento por sistemas downstream.
- Um catálogo de dados é uma visão de portfólio de inventário de dados e ativos de dados. Em outras palavras, os usuários navegam pelos dados que precisam e conseguem avaliar os dados para usos pretendidos.
- Business Glossary é uma lista de termos de negócios com suas definições. Programas de governança de dados exigem que conceitos de negócios para uma organização sejam definidos e usados consistentemente.
A peça central dos programas de gerenciamento de dados em nuvem
A transformação digital requer interoperabilidade com a nuvem e sua vasta rede de dados e serviços da web. Data lakes são uma abordagem de código aberto, padrão da indústria, para coletar e armazenar grandes quantidades de dados com segurança. Além disso, um data lake empresarial fornece serviços de nível empresarial para explorar, gerenciar, governar, preparar e fornecer controle de acesso. Os gerentes que buscam essas vantagens orientadas por dados, portanto, implantam data lakes empresariais para melhorar o engajamento do cliente ou fornecer análises aprimoradas com base em dados mais completos e orientados por eventos.
Concluindo, as arquiteturas data-first exigem armazenamento de objetos de baixo custo e eficiente, acesso em tempo real, governança de dados, gerenciamento de metadados, preparação de dados e conectividade para construir pipelines de dados de ponta a ponta. Com um lago de dados corporativos, qualquer organização é capaz de implementar esses recursos críticos muito rapidamente, alcançar a transformação digital e se tornar uma empresa orientada por dados.
