Arte de Barry

Resumen Ejecutivo

Este artículo ofrece un análisis exhaustivo de las arquitecturas Delta Lake y Data Lake tradicionales, centrándose en sus limitaciones operativas, beneficios y marcos de implementación. Su objetivo es proporcionar a los responsables de la toma de decisiones empresariales, en particular dentro del Sistema de la Reserva Federal, la información necesaria para elegir con conocimiento de causa las soluciones de almacenamiento de datos. El análisis incluye una tabla de diagnóstico, riesgos estratégicos y un escenario empresarial realista para ilustrar las implicaciones de cada arquitectura.

Definición

Delta Lake es una capa de almacenamiento de código abierto que incorpora transacciones ACID a Apache Spark y a cargas de trabajo de big data, mientras que un Data Lake es un repositorio centralizado que permite almacenar datos estructurados y no estructurados a gran escala. Comprender estas definiciones es fundamental para evaluar sus respectivas funciones en las estrategias de gestión de datos.

Respuesta directa

Delta Lake ofrece mayor fiabilidad y gobernanza de datos mediante transacciones ACID y la aplicación de esquemas, lo que lo convierte en una opción superior para organizaciones que requieren una alta integridad de los datos. En cambio, los Data Lakes tradicionales pueden generar problemas de calidad de datos sin una gobernanza adecuada.

Porqué ahora

El creciente volumen y la variedad de datos generados por las organizaciones exigen soluciones robustas de gestión de datos. A medida que evolucionan los requisitos normativos, la necesidad de gobernanza y garantía de calidad de los datos se vuelve fundamental. Delta Lake aborda estos desafíos proporcionando mecanismos para el control de versiones y la gestión de transacciones de datos, aspectos cruciales en el entorno actual impulsado por los datos.

Tabla de diagnóstico

Problema Lago de datos Delta Lake
Gobierno de datos Limitada Mejorado con cumplimiento de ACID
Calidad de los Datos Variable Consistente debido a la aplicación del esquema
Rendimiento Se degrada con la escala Optimizado mediante indexación
Control de versiones de datos No disponible Con el apoyo de los viajes en el tiempo.
Gestión de transacciones Ninguno Transacciones ACID
Complejidad operativa Alto sin gobierno Moderado con una implementación adecuada

Secciones de análisis profundo

Comprender los lagos de datos y los lagos Delta

Los Data Lakes están diseñados para almacenar grandes cantidades de datos sin procesar en su formato nativo, lo que permite flexibilidad en la ingesta de datos. Sin embargo, esta flexibilidad puede generar problemas como la formación de un "pantano de datos", donde se acumulan datos no controlados que se vuelven inutilizables. En contraste, los Delta Lakes introducen transacciones ACID, que garantizan la integridad y la consistencia de los datos, lo que los hace adecuados para cargas de trabajo críticas. La aplicación del esquema en los Delta Lakes también mitiga los problemas de calidad de los datos, un inconveniente común en los Data Lakes tradicionales.

Restricciones operativas de los lagos de datos

Los lagos de datos tradicionales presentan varias limitaciones operativas, principalmente debido a la falta de gobernanza y de aplicación de esquemas. Sin un marco sólido de gobernanza de datos, las organizaciones pueden experimentar problemas de desorganización de datos, donde la calidad y la usabilidad de los mismos se deterioran. Además, la ausencia de aplicación de esquemas puede generar inconsistencias en los datos, lo que complica los análisis posteriores y los procesos de toma de decisiones. Estas limitaciones exigen una reevaluación de las estrategias de gestión de datos para garantizar que estos sigan siendo un activo valioso.

Beneficios del lago Delta

Delta Lake ofrece varias ventajas sobre los Data Lakes tradicionales, especialmente en términos de fiabilidad y rendimiento de los datos. La compatibilidad con la función de viaje en el tiempo permite a las organizaciones acceder a versiones históricas de los datos, facilitando así las auditorías y el cumplimiento normativo. Además, Delta Lake mejora el rendimiento mediante la omisión e indexación de datos, lo que optimiza los tiempos de ejecución de las consultas. Estas ventajas convierten a Delta Lake en una opción atractiva para las organizaciones que priorizan la integridad de los datos y la eficiencia operativa.

Matriz de decisión para la implementación

Al decidir entre implementaciones de Data Lake y Delta Lake, las organizaciones deben considerar sus necesidades de gobernanza de datos y la compatibilidad con su infraestructura existente. La matriz de decisión debe evaluar los posibles costos ocultos asociados a cada opción, como el riesgo de problemas de calidad de datos en Data Lake y la complejidad de gestionar las transacciones de Delta Lake. Una evaluación exhaustiva de estos factores guiará a las organizaciones en la selección de la arquitectura más adecuada para sus requisitos de gestión de datos.

Riesgos estratégicos y costos ocultos

Implementar un Data Lake sin una gobernanza adecuada puede conllevar riesgos estratégicos significativos, como la formación de un entorno de datos fragmentado y la pérdida de confianza en la toma de decisiones basada en datos. Además, pueden surgir costes ocultos derivados de la necesidad de realizar extensos procesos de limpieza y conciliación de datos. Por otro lado, si bien Delta Lake proporciona una mayor fiabilidad de los datos, puede introducir complejidad en la gestión de transacciones, lo que exige una evaluación minuciosa de las capacidades operativas y la asignación de recursos.

Contrapunto del hombre de acero

Si bien Delta Lake presenta numerosas ventajas, es fundamental reconocer sus posibles inconvenientes. La complejidad de su implementación puede ser un obstáculo para organizaciones con conocimientos técnicos limitados. Además, la inversión inicial en infraestructura y capacitación puede disuadir a algunas organizaciones de migrar desde los Data Lakes tradicionales. Un enfoque equilibrado que considere tanto los beneficios como los desafíos de cada arquitectura es crucial para la toma de decisiones informadas.

Integración de soluciones

La integración de Delta Lake en las arquitecturas de datos existentes requiere un enfoque estratégico. Las organizaciones deben evaluar sus flujos de trabajo de datos actuales e identificar áreas donde Delta Lake puede mejorar la gobernanza y la calidad de los datos. Esto puede implicar la reingeniería de los procesos de ingesta de datos y el establecimiento de políticas claras para la gestión de datos. Una integración exitosa dependerá de alinear las capacidades de Delta Lake con los objetivos de la organización y garantizar que las partes interesadas reciban la capacitación adecuada para su uso.

Escenario empresarial realista

Consideremos un escenario dentro del Sistema de la Reserva Federal, donde la organización tiene la tarea de gestionar grandes volúmenes de datos financieros. La arquitectura actual de Data Lake ha generado problemas de calidad de datos, lo que ha afectado las capacidades analíticas. Al migrar a Delta Lake, la organización puede implementar transacciones ACID y la aplicación de esquemas, mejorando significativamente la fiabilidad de los datos. Esta transición no solo optimiza el cumplimiento de los requisitos regulatorios, sino que también restablece la confianza en los procesos de toma de decisiones basados ​​en datos.

Preguntas Frecuentes

P: ¿Cuál es la principal diferencia entre un Data Lake y un Delta Lake?
A: La principal diferencia radica en la compatibilidad de Delta Lake con las transacciones ACID y la aplicación de esquemas, lo que mejora la fiabilidad de los datos en comparación con los Data Lakes tradicionales.

P: ¿Por qué es importante la gobernanza de datos en los lagos de datos?
A: La gobernanza de datos es crucial para prevenir la formación de "pantanos de datos" y garantizar la calidad de los datos, que son desafíos comunes en los lagos de datos tradicionales.

P: ¿Se puede integrar Delta Lake con las arquitecturas de Data Lake existentes?
R: Sí, Delta Lake se puede integrar en las arquitecturas existentes, pero requiere un enfoque estratégico para alinear sus capacidades con los objetivos de la organización.

Modo de falla observado relacionado con el tema del artículo

Durante un incidente reciente, encontramos una falla crítica en nuestro marco de gobernanza de datos, específicamente relacionada con Aplicación de la retención legal para acciones del ciclo de vida del almacenamiento de objetos no estructuradosInicialmente, nuestros paneles de control indicaban que todos los sistemas estaban operativos, pero, sin que lo supiéramos, la aplicación de las retenciones legales estaba fallando silenciosamente. Este fallo tenía su origen en el plano de control, donde la propagación de los metadatos de las retenciones legales entre las versiones de los objetos no funcionaba como se esperaba, lo que conllevaba un riesgo significativo de incumplimiento.

El primer fallo se produjo al intentar recuperar un objeto que supuestamente estaba sujeto a una retención legal. El proceso de recuperación reveló discrepancias en las etiquetas del objeto y en los indicadores de retención legal, lo que demostró que los metadatos se habían desfasado debido a una configuración incorrecta en nuestras políticas de gestión del ciclo de vida. Los paneles de control mostraban indicadores en verde, pero la aplicación real de la gobernanza se vio comprometida, lo que podría haber expuesto datos confidenciales.

Al profundizar en la investigación, descubrimos que la ejecución del ciclo de vida estaba desacoplada del estado de retención legal, lo que provocaba que los marcadores de eliminación no coincidieran con la purga física de los objetos. Esta falta de coincidencia significaba que, una vez completada la purga del ciclo de vida, no podíamos revertir la acción, ya que las instantáneas inmutables habían sobrescrito los estados anteriores. La reconstrucción del índice no podía demostrar el estado previo de los objetos, lo que nos dejaba en una situación precaria.

Este es un ejemplo hipotético, no nombramos a clientes o instituciones de Fortune 500 como ejemplos.

  • Supuesto arquitectónico falso
  • ¿Qué se rompió primero?
  • Lección arquitectónica generalizada vinculada al artículo “Delta Lake vs Data Lake: una comparación técnica”.

Información única derivada de “” bajo las restricciones de “Delta Lake vs Data Lake: una comparación técnica”

Este incidente subraya la importancia crucial de mantener una estrecha integración entre el plano de control y el plano de datos, especialmente bajo presión regulatoria. La imposibilidad de aplicar las restricciones legales ilustra eficazmente los riesgos asociados a las suposiciones arquitectónicas que pasan por alto la complejidad de la gobernanza de datos. Un patrón común observado es la división de funciones entre el plano de control y el plano de datos en la recuperación regulada, donde la separación de responsabilidades conduce a fallos de gobernanza.

La mayoría de los equipos tienden a priorizar el rendimiento y la escalabilidad sobre el cumplimiento normativo, descuidando a menudo los controles necesarios para garantizar la integridad de los datos. En cambio, los expertos sometidos a la presión regulatoria implementan marcos de gobernanza rigurosos que tienen en cuenta las particularidades de la gestión del ciclo de vida de los datos, asegurando que el cumplimiento normativo no sea una cuestión secundaria.

La mayoría de las directrices públicas suelen omitir la necesidad de un seguimiento y una validación continuos de los controles de gobernanza, lo que puede provocar fallos catastróficos si no se controla. Esta omisión puede acarrear importantes consecuencias legales y financieras para las organizaciones que no cumplan con las normas de cumplimiento.

Prueba EEAT Lo que hacen la mayoría de los equipos Lo que un experto hace de manera diferente (bajo presión regulatoria)
Entonces, ¿qué factor? Centrarse en la disponibilidad de datos Integrar controles de cumplimiento en los flujos de trabajo de datos
Evidencia de origen Suponga que el linaje de datos es suficiente. Implementar registros de auditoría sólidos para la gobernanza.
Delta único / Ganancia de información Prioriza la velocidad sobre la precisión. Equilibrar el rendimiento con los requisitos de cumplimiento

Referencias

  • SP 800-53 del NIST – Proporciona directrices para la gobernanza de datos y el control de acceso.
  • – Describe los principios para la gestión y conservación de registros.

Arte de Barry lidera iniciativas de marketing en Solix Technologies, traduciendo la gobernanza de datos complejos, el retiro de aplicaciones y los desafíos de cumplimiento en estrategias para organizaciones Fortune 500. Anteriormente trabajó con ecosistemas IBM zSeries que respaldan el negocio de mainframe de CA Technologies. Colaborador,Simposio sobre IA en computación segura y explicable de la UC San Diego.Consejos de Forbes |LinkedIn

Arte de Barry

Arte de Barry

Vicepresidente de Marketing, Solix Technologies Inc.

Arte de Barry Dirige iniciativas de marketing en Solix Technologies, donde traduce desafíos complejos de gobernanza de datos, retiro de aplicaciones y cumplimiento en estrategias claras para clientes de Fortune 500.

Experiencia empresarial: Barry trabajó anteriormente con IBM zSeries ecosistemas que respaldan el negocio de mainframe multimillonario de CA Technologies, con exposición práctica a la economía de la infraestructura empresarial y al riesgo del ciclo de vida a escala.

Referencia de habla verificada: Incluido como panelista en la agenda del Simposio de IA sobre computación segura y explicable de la UC San Diego ( ver agenda PDF ).

DESCARGO DE RESPONSABILIDAD: EL CONTENIDO, LAS OPINIONES Y LOS PUNTOS DE VISTA EXPRESADOS EN ESTE BLOG SON EXCLUSIVAMENTE LOS DEL AUTOR O LOS AUTORES Y NO REFLEJAN LA POLÍTICA O POSICIÓN OFICIAL DE SOLIX TECHNOLOGIES, INC., SUS AFILIADOS O SOCIOS. ESTE BLOG SE OPERA DE FORMA INDEPENDIENTE Y NO ES REVISADO NI RESPALDADO POR SOLIX TECHNOLOGIES, INC. EN UNA CAPACIDAD OFICIAL. TODAS LAS MARCAS COMERCIALES, LOGOTIPOS Y MATERIALES CON DERECHOS DE AUTOR DE TERCEROS A LOS QUE SE HACE REFERENCIA EN ESTE DOCTORADO SON PROPIEDAD DE SUS RESPECTIVOS DUEÑOS. CUALQUIER USO ES ESTRICTAMENTE PARA FINES DE IDENTIFICACIÓN, COMENTARIO O EDUCATIVOS BAJO LA DOCTRINA DE USO JUSTO (LEY DE DERECHOS DE AUTOR DE EE. UU. § 107 Y EQUIVALENTES INTERNACIONALES). NO SE IMPLICA PATROCINIO, APOYO NI AFILIACIÓN CON SOLIX TECHNOLOGIES, INC. EL CONTENIDO SE PROPORCIONA "TAL CUAL", SIN GARANTÍAS DE EXACTITUD, INTEGRIDAD O IDONEIDAD PARA NINGÚN PROPÓSITO. SOLIX TECHNOLOGIES, INC. RENUNCIA A TODA RESPONSABILIDAD POR LAS ACCIONES TOMADAS CON BASE EN ESTE MATERIAL. LOS LECTORES ASUMEN TODA LA RESPONSABILIDAD POR EL USO DE ESTA INFORMACIÓN. SOLIX RESPETA LOS DERECHOS DE PROPIEDAD INTELECTUAL. PARA ENVIAR UNA SOLICITUD DE RETIRADA DE MATERIALES DE ACUERDO CON LA DMCA, ENVÍE UN CORREO ELECTRÓNICO A INFO@SOLIX.COM CON: (1) LA IDENTIFICACIÓN DE LA OBRA, (2) LA URL DEL MATERIAL INFRACTOR, (3) SUS DATOS DE CONTACTO Y (4) UNA DECLARACIÓN DE BUENA FE. LAS RECLAMACIONES VÁLIDAS RECIBIRÁN ATENCIÓN INMEDIATA. AL ACCEDER A ESTE BLOG, ACEPTA ESTE DESCARGO DE RESPONSABILIDAD Y NUESTROS TÉRMINOS DE USO. ESTE ACUERDO SE RIGE POR LAS LEYES DE CALIFORNIA.