Arte Barry

Sumário Executivo

Este artigo apresenta uma análise detalhada das implicações de custo associadas a data lakes e data lakehouses, particularmente no contexto do Departamento de Segurança Interna dos EUA (DHS). O objetivo é fornecer aos tomadores de decisão corporativos, como diretores de TI, as informações necessárias para que façam escolhas embasadas em relação à arquitetura de dados. A discussão abordará restrições operacionais, compensações estratégicas e possíveis falhas que podem surgir de cada opção, orientando as organizações a maximizar o valor de seus ativos de dados.

Definição

Um data lake é um repositório centralizado que permite o armazenamento de grandes quantidades de dados brutos em seu formato nativo até que sejam necessários para análise. Em contraste, um data lakehouse é uma plataforma de dados unificada que combina as capacidades de data lakes e data warehouses, possibilitando o armazenamento, processamento e análise eficientes de dados estruturados e não estruturados. Compreender essas definições é crucial para avaliar as implicações de custo e a eficiência operacional de cada solução.

Resposta Direta

A comparação de custos entre data lakes e data lakehouses revela que, embora os data lakes possam inicialmente parecer mais baratos devido aos menores custos de armazenamento, eles frequentemente incorrem em custos ocultos relacionados a ineficiências operacionais, conformidade e governança. Os data lakehouses, embora potencialmente mais caros inicialmente, podem gerar economias a longo prazo por meio da redução da redundância e da integração de recursos analíticos.

Porque agora

A urgência em modernizar as soluções de armazenamento de dados decorre do crescente volume de dados gerados pelas organizações e da necessidade de conformidade com regulamentações rigorosas. O Departamento de Segurança Interna dos EUA, por exemplo, precisa gerenciar vastas quantidades de dados sensíveis, garantindo, ao mesmo tempo, a adesão aos requisitos legais e regulamentares. À medida que os dados continuam a crescer, as limitações operacionais dos data lakes tradicionais tornam-se mais evidentes, exigindo uma reavaliação das estratégias de arquitetura de dados.

Tabela de diagnóstico

Decisão Opções Lógica de Seleção Os custos ocultos
Escolha entre Data Lake e Data Lakehouse. Data Lake, Data Lakehouse Avalie com base no volume de dados, nos requisitos de conformidade e nas capacidades analíticas. Potencial para aumento dos custos operacionais com data lakes, custos de integração para a transição para um lakehouse.
custos operacionais lago data Custos mais elevados com o aumento do volume de dados. A conformidade e a governança acarretam custos ocultos.
custos operacionais Casa do Lago de Dados Menor redundância leva à eficiência de custos. Os custos iniciais de instalação podem ser mais elevados.
Necessidades de conformidade lago data Requer estruturas de governança abrangentes. Possíveis violações de conformidade podem acarretar sanções legais.
Necessidades de conformidade Casa do Lago de Dados Capacidades de governança integrada. Menor risco de violações de conformidade.
Requisitos de análise lago data Requer ferramentas adicionais para análise. Aumento dos custos das ferramentas de análise de terceiros.
Requisitos de análise Casa do Lago de Dados Funcionalidades analíticas integradas. Redução da necessidade de ferramentas externas.

Seções Analíticas Profundas

Implicações de custo dos Data Lakes

Os data lakes podem apresentar custos operacionais significativos que aumentam com o volume de dados armazenados. À medida que as organizações acumulam grandes quantidades de dados brutos, os custos associados ao gerenciamento de dados, incluindo armazenamento, recuperação e processamento, podem se tornar substanciais. Além disso, os requisitos de conformidade e governança introduzem custos ocultos que podem não ser imediatamente aparentes. Por exemplo, a necessidade de um rastreamento e auditoria robustos da linhagem de dados pode levar a um aumento na alocação de recursos, elevando ainda mais as despesas operacionais.

Implicações de custo dos Data Lakehouses

Em contrapartida, os data lakehouses oferecem uma abordagem mais integrada que pode levar à redução de custos ao longo do tempo. Ao reduzir a redundância no armazenamento de dados e fornecer recursos analíticos integrados, as organizações podem otimizar seus processos de gerenciamento de dados. Essa integração não apenas reduz os custos gerais, como também aumenta a capacidade de extrair insights dos dados com mais eficiência. O investimento inicial em um data lakehouse pode ser maior, mas os benefícios financeiros a longo prazo geralmente superam esses custos iniciais.

Matriz de decisão para escolher entre Data Lake e Data Lakehouse

Ao decidir entre um data lake e um data lakehouse, as organizações devem considerar diversos fatores-chave, incluindo o volume de dados, as necessidades de conformidade e os requisitos de análise. Uma matriz de decisão estruturada pode ajudar a esclarecer essas considerações, permitindo que os tomadores de decisão ponderem os prós e os contras de cada opção. É essencial levar em conta os custos ocultos, como potenciais ineficiências operacionais e riscos de conformidade, que podem impactar significativamente o custo total de propriedade.

Sinais e restrições operacionais

Os sinais operacionais do mundo real podem fornecer informações valiosas sobre a eficácia das soluções de armazenamento de dados. Por exemplo, se as taxas de ingestão de dados excederem a capacidade de armazenamento, as organizações podem sofrer atrasos no acesso aos dados e aumento da latência. Auditorias de conformidade podem revelar lacunas no rastreamento da linhagem de dados, indicando possíveis vulnerabilidades nas estruturas de governança. Compreender essas restrições operacionais é fundamental para tomar decisões informadas sobre a arquitetura de dados.

Conclusão e recomendações

Uma análise de custos completa é essencial para a tomada de decisões informadas sobre a arquitetura de dados. As organizações devem considerar as implicações imediatas e de longo prazo de suas escolhas, principalmente no contexto de conformidade e eficiência operacional. Recomenda-se que as empresas realizem uma avaliação abrangente de suas necessidades de dados, levando em conta os potenciais custos ocultos associados a cada opção. Dessa forma, as organizações podem se posicionar melhor para aproveitar seus ativos de dados de forma eficaz.

Estrutura de Implementação

A implementação de um data lake ou data lakehouse requer uma abordagem estruturada que inclui a definição de objetivos claros, a avaliação das práticas atuais de gestão de dados e o estabelecimento de estruturas de governança. As organizações devem priorizar a integração de ferramentas de monitoramento de custos para acompanhar as despesas em tempo real e garantir a conformidade com os requisitos regulatórios. Auditorias regulares e atualizações das políticas de governança são necessárias para manter o alinhamento com os padrões de gestão de dados em constante evolução.

Riscos estratégicos e custos ocultos

Os riscos estratégicos associados aos data lakes incluem o potencial de sobrecarga de dados, que pode dificultar a recuperação e a análise dos dados. Violações de conformidade representam outro risco significativo, principalmente se as organizações não seguirem as políticas de governança de dados. Custos ocultos, como os relacionados a ineficiências operacionais e à necessidade de ferramentas adicionais, podem complicar ainda mais o processo de tomada de decisão. As organizações devem estar atentas à identificação e mitigação desses riscos para garantir a implementação bem-sucedida de sua arquitetura de dados.

Contraponto do Homem de Aço

Embora os data lakehouses apresentem inúmeras vantagens, é essencial reconhecer as possíveis desvantagens. Por exemplo, a complexidade da transição de um data lake para um data lakehouse pode representar desafios, principalmente para organizações com práticas de gerenciamento de dados já estabelecidas. Além disso, o investimento inicial necessário para um data lakehouse pode dissuadir algumas organizações de fazer a mudança. É crucial que os tomadores de decisão ponderem cuidadosamente esses fatores em relação aos benefícios de longo prazo da adoção de um data lakehouse.

Integração de Solução

A integração de um data lake ou data lakehouse à infraestrutura de TI existente exige planejamento e execução cuidadosos. As organizações devem avaliar suas capacidades atuais de gerenciamento de dados e identificar quaisquer lacunas que precisem ser abordadas. A colaboração entre as áreas de TI e de negócios é essencial para garantir que a solução escolhida esteja alinhada aos objetivos e metas da organização. Além disso, o treinamento e o suporte à equipe serão cruciais para facilitar uma transição tranquila e maximizar o valor da nova arquitetura de dados.

Cenário empresarial realista

Considere um cenário em que o Departamento de Segurança Interna dos EUA esteja avaliando sua estratégia de gerenciamento de dados. Atualmente, a organização utiliza um data lake tradicional para armazenar grandes volumes de dados sensíveis. No entanto, com o crescimento contínuo do volume de dados, surgiram ineficiências operacionais e desafios de conformidade. Ao migrar para um data lakehouse, o DHS poderia otimizar seus processos de gerenciamento de dados, reduzir a redundância e aprimorar suas capacidades analíticas, resultando, em última análise, em uma melhor tomada de decisões e maior eficiência operacional.

Perguntas frequentes

P: Quais são as principais diferenças entre um data lake e um data lakehouse?
A: Um data lake armazena dados brutos em seu formato nativo, enquanto um data lakehouse combina as funcionalidades de data lakes e data warehouses, permitindo um processamento e análise de dados mais eficientes.

P: Quais são os custos ocultos associados aos data lakes?
A: Os custos ocultos podem incluir ineficiências operacionais, despesas com conformidade e governança, e a necessidade de ferramentas adicionais para análise de dados.

P: Como as organizações podem garantir a conformidade com as políticas de governança de dados?
A: As organizações devem implementar uma estrutura robusta de governança de dados que inclua auditorias regulares, rastreamento da linhagem de dados e conformidade com os requisitos legais e regulamentares.

Modo de falha observado relacionado ao tema do artigo

Durante um incidente recente, descobrimos uma falha crítica em nossa arquitetura de governança de dados, especificamente relacionada a Execução de retenção legal para ações do ciclo de vida de armazenamento de objetos não estruturadosInicialmente, nossos painéis indicavam que todos os sistemas estavam funcionando corretamente, mas, sem que soubéssemos, a aplicação das retenções legais estava falhando silenciosamente. Isso levou a uma situação em que objetos que deveriam ter sido preservados para fins de conformidade foram inadvertidamente marcados para exclusão, criando um risco significativo de não conformidade.

A primeira falha ocorreu quando o plano de controle, responsável por gerenciar os estados de retenção legal, se desacoplou do plano de dados, que executava as ações do ciclo de vida. Como resultado, dois artefatos críticos, os indicadores de retenção legal e as tags de objeto, ficaram dessincronizados. Os indicadores de retenção legal não foram atualizados para refletir o estado atual dos objetos, enquanto as tags de objeto foram marcadas incorretamente para exclusão. Esse desalinhamento não era imediatamente visível, e nossos registros de auditoria de recuperação só revelaram o problema quando foram feitas tentativas de acessar objetos que já haviam sido excluídos.

Uma vez concluída a limpeza do ciclo de vida, a falha tornou-se irreversível. Os snapshots imutáveis ​​dos dados sobrescreveram os estados anteriores, e o processo de compactação de versões eliminou qualquer vestígio dos indicadores de retenção legal. Consequentemente, não conseguimos comprovar o estado anterior dos objetos, o que levou a um risco significativo de conformidade que não pôde ser mitigado posteriormente.

Este é um exemplo hipotético; não citamos clientes ou instituições da lista Fortune 500 como exemplos.

  • Suposição arquitetônica falsa
  • O que quebrou primeiro?
  • Lição arquitetônica geral relacionada à “Comparação de custos: Data Lake vs. Data Lakehouse”

Análise exclusiva derivada da comparação de custos entre Data Lake e Data Lakehouse sob as restrições mencionadas.

Este incidente destaca a importância crítica de manter a sincronização entre o plano de controle e o plano de dados, especialmente sob pressão regulatória. O padrão de "split-brain" entre o plano de controle e o plano de dados na recuperação regulamentada pode levar a sérios problemas de conformidade se não for gerenciado adequadamente. As organizações devem garantir que os mecanismos de governança estejam fortemente integrados ao gerenciamento do ciclo de vida dos dados para evitar falhas dispendiosas.

A maioria das diretrizes públicas tende a omitir a necessidade de sincronização em tempo real entre os controles de governança e as operações de dados, o que pode levar a riscos significativos de não conformidade. Essa negligência pode resultar em consequências legais para as organizações devido à perda ou má gestão de dados.

Teste EEAT O que a maioria das equipes faz O que um especialista faz de diferente (sob pressão regulatória)
Então, qual é o fator? Foque na eficiência do armazenamento de dados Priorize o alinhamento entre conformidade e governança.
Evidências de Origem Linhagem de dados de documentos pós-fato Implementar o monitoramento em tempo real da governança de dados.
Delta único / Ganho de informação Suponha que o ciclo de vida dos dados seja linear. Reconhecer a necessidade de ajustes dinâmicos na governança.

Referências

1. ISO 15489 – Estabelece princípios para a gestão de registros, apoiando a necessidade de conformidade na governança de dados.
2. NIST SP 800-53 – Fornece diretrizes para proteger dados armazenados, relevantes para a compreensão dos requisitos de conformidade.

Arte Barry

Arte Barry

Vice-presidente de Marketing da Solix Technologies Inc.

Arte Barry Lidera as iniciativas de marketing na Solix Technologies, onde traduz desafios complexos de governança de dados, desativação de aplicativos e conformidade em estratégias claras para clientes da Fortune 500.

Experiência empresarial: Barry já havia trabalhado com IBM zSeries Ecossistemas que dão suporte ao negócio multibilionário de mainframes da CA Technologies, com experiência prática em economia de infraestrutura empresarial e risco de ciclo de vida em grande escala.

Referência oral comprovada: Listado como palestrante na agenda do Simpósio de IA de Computação Explicável e Segura da UC San Diego ( Ver agenda em PDF ).

AVISO LEGAL: O CONTEÚDO, AS VISÕES E AS OPINIÕES EXPRESSAS NESTE BLOG SÃO EXCLUSIVAMENTE DO(S) AUTOR(ES) E NÃO REFLETEM A POLÍTICA OU POSIÇÃO OFICIAL DA SOLIX TECHNOLOGIES, INC., SUAS AFILIADAS OU PARCEIROS. ESTE BLOG É OPERADO DE FORMA INDEPENDENTE E NÃO É REVISADO OU ENDOSSADO PELA SOLIX TECHNOLOGIES, INC. EM SUA CAPACIDADE OFICIAL. TODAS AS MARCAS REGISTRADAS, LOGOTIPOS E MATERIAIS PROTEGIDOS POR DIREITOS AUTORAIS DE TERCEIROS AQUI REFERIDOS SÃO PROPRIEDADE DE SEUS RESPECTIVOS PROPRIETÁRIOS. QUALQUER USO É ESTRITAMENTE PARA FINS DE IDENTIFICAÇÃO, COMENTÁRIOS OU EDUCACIONAIS, DE ACORDO COM A DOUTRINA DO USO JUSTO (LEI DE DIREITOS AUTORAIS DOS EUA, § 107 E EQUIVALENTES INTERNACIONAIS). NÃO HÁ NENHUM PATROCÍNIO, ENDOSSO OU AFILIAÇÃO IMPLÍCITA COM A SOLIX TECHNOLOGIES, INC. O CONTEÚDO É FORNECIDO "NO ESTADO EM QUE SE ENCONTRA", SEM GARANTIAS DE PRECISÃO, INTEGRIDADE OU ADEQUAÇÃO A QUALQUER FIM. A SOLIX TECHNOLOGIES, INC. SE ISENTA DE TODA RESPONSABILIDADE POR AÇÕES TOMADAS COM BASE NESTE MATERIAL. OS LEITORES ASSUMEM TOTAL RESPONSABILIDADE PELO USO DESTAS INFORMAÇÕES. A SOLIX RESPEITA OS DIREITOS DE PROPRIEDADE INTELECTUAL. PARA ENVIAR UMA SOLICITAÇÃO DE REMOÇÃO DMCA, ENVIE UM E-MAIL PARA INFO@SOLIX.COM COM: (1) IDENTIFICAÇÃO DA OBRA, (2) URL DO MATERIAL INFRATOR, (3) SEUS DADOS DE CONTATO E (4) UMA DECLARAÇÃO DE BOA-FÉ. REIVINDICAÇÕES VÁLIDAS RECEBERÃO ATENÇÃO IMEDIATA. AO ACESSAR ESTE BLOG, VOCÊ CONCORDA COM ESTA ISENÇÃO DE RESPONSABILIDADE E COM NOSSOS TERMOS DE USO. ESTE CONTRATO É REGIDO PELAS LEIS DA CALIFÓRNIA.