Arte de Barry

Resumen Ejecutivo

La evolución de la gestión de datos ha propiciado la aparición de arquitecturas de lagos de datos sin ETL (Extracción, Transformación y Carga), que eliminan los procesos tradicionales de ETL. Este cambio permite a las organizaciones ingerir y utilizar los datos en su formato original, lo que mejora significativamente la disponibilidad de los datos y reduce la latencia. Sin embargo, este enfoque introduce nuevas limitaciones operativas y disyuntivas estratégicas que los responsables de la toma de decisiones empresariales deben considerar. Este artículo ofrece un análisis exhaustivo de las arquitecturas sin ETL, sus implicaciones para la gobernanza de datos y los riesgos potenciales asociados a su implementación.

Definición

La arquitectura de lago de datos sin ETL se refiere a un enfoque de gestión de datos que elimina la necesidad de los procesos ETL tradicionales, permitiendo la ingesta y el uso de datos en su formato original directamente en un entorno de lago de datos. Esta arquitectura aprovecha las técnicas modernas de ingesta de datos y las soluciones de almacenamiento para facilitar el análisis en tiempo real y la accesibilidad a los datos, si bien también plantea desafíos relacionados con la calidad y la gobernanza de los datos.

Respuesta directa

Las arquitecturas Zero-ETL son cada vez más relevantes a medida que las organizaciones buscan optimizar la ingesta de datos y mejorar sus capacidades de análisis en tiempo real. Al eliminar el cuello de botella del ETL, las empresas pueden acceder a los datos con mayor rapidez, pero también deben abordar las complejidades de la gobernanza de datos y la gestión de la calidad que surgen al manejar datos sin procesar.

Porqué ahora

La urgencia de adoptar arquitecturas sin ETL se debe al creciente volumen y variedad de datos que generan las organizaciones. Los procesos ETL tradicionales a menudo no pueden seguir el ritmo de la rápida afluencia de datos, lo que provoca retrasos en su disponibilidad y la pérdida de oportunidades para obtener información valiosa de forma oportuna. A medida que las organizaciones priorizan la agilidad y la capacidad de respuesta, las arquitecturas sin ETL ofrecen una solución viable a estos desafíos, permitiendo una toma de decisiones más rápida y una mayor eficiencia operativa.

Tabla de diagnóstico

Decisión Lógica de selección Costos ocultos
Adoptar la arquitectura Zero-ETL Implementación completa de ETL cero, enfoque híbrido con ETL selectivo, mantenimiento de los procesos ETL actuales. Evaluar en función del volumen de datos, los requisitos de cumplimiento y las necesidades de análisis. Mayor capacitación para el personal en los nuevos sistemas, posible necesidad de mejorar las herramientas de gobernanza de datos.

Secciones de análisis profundo

Introducción a las arquitecturas Zero-ETL

Las arquitecturas Zero-ETL optimizan la ingesta de datos al permitir que estos se almacenen en su formato original, lo que reduce significativamente el tiempo necesario para que estén disponibles para el análisis. Este enfoque resulta especialmente beneficioso en entornos donde los datos se generan a gran velocidad, como en aplicaciones de IoT o escenarios de análisis en tiempo real. Sin embargo, la falta de procesos de transformación puede generar problemas de coherencia y calidad de los datos, lo que exige marcos de gestión y gobernanza de metadatos robustos para garantizar su integridad.

Limitaciones operativas de los procesos ETL tradicionales

Los procesos ETL tradicionales generan importantes retrasos en la disponibilidad de datos debido al tiempo necesario para su extracción, transformación y carga. Estos retrasos pueden dificultar la capacidad de una organización para responder con prontitud a los cambios del mercado o a las necesidades operativas. Además, la transformación de datos puede conllevar la pérdida de contexto, ya que los datos originales pueden alterarse o agregarse de forma que se oculte su significado. Esta limitación operativa pone de manifiesto la necesidad de un enfoque de gestión de datos más ágil que pueda adaptarse a las exigencias del análisis moderno.

Mecanismos técnicos de Zero-ETL

Los fundamentos técnicos de las arquitecturas ETL cero incluyen el uso de esquemas en lectura, lo que permite un uso flexible de los datos sin necesidad de definir esquemas previamente. Este mecanismo permite a las organizaciones acceder y analizar datos en tiempo real, mejorando su capacidad para obtener información valiosa rápidamente. El acceso directo a los datos también facilita la integración de diversas fuentes de datos, lo que promueve una visión más completa de los datos de la organización. Sin embargo, esta flexibilidad conlleva el desafío de garantizar la calidad y la coherencia de los datos en los distintos tipos de datos.

Compensaciones estratégicas en la gestión de datos

La adopción de arquitecturas sin ETL implica decisiones estratégicas, especialmente en lo que respecta a la gobernanza de datos y el cumplimiento normativo. Si bien la eliminación de los procesos ETL puede mejorar la agilidad, también aumenta la complejidad de los marcos de gobernanza de datos. Las organizaciones deben implementar controles sólidos para gestionar el acceso a los datos sin procesar y garantizar el cumplimiento de los requisitos normativos. Esta complejidad puede generar riesgos potenciales de cumplimiento si no se aborda adecuadamente, lo que exige una evaluación minuciosa de las estrategias de gobernanza en el contexto de las implementaciones sin ETL.

Modos de falla y estrategias de mitigación

La adopción de arquitecturas sin ETL puede dar lugar a diversos fallos. Por ejemplo, pueden surgir problemas de gobernanza de datos debido a controles inadecuados en el acceso a los datos sin procesar, especialmente durante el rápido aumento de la ingesta de datos. Esto puede provocar incumplimientos normativos y consecuencias legales. Además, la ingesta directa de diversas fuentes de datos puede generar problemas de calidad, lo que resulta en formatos de datos inconsistentes y análisis defectuosos. Para mitigar estos riesgos, las organizaciones deben implementar soluciones de gestión de metadatos y establecer un marco integral de gobernanza de datos que incluya auditorías periódicas y actualizaciones de las políticas de gobernanza.

Marco de implementación

La implementación de una arquitectura de ETL cero requiere un enfoque estructurado que incluya los siguientes componentes clave: primero, las organizaciones deben evaluar su panorama de datos actual e identificar los casos de uso específicos que se beneficiarían de un enfoque de ETL cero. A continuación, deben invertir en soluciones de gestión de metadatos para realizar un seguimiento eficaz del linaje y el uso de los datos. Establecer un marco de gobernanza de datos también es fundamental para abordar los riesgos de cumplimiento asociados con los datos sin procesar. Por último, las organizaciones deben capacitar al personal para que se adapte a las nuevas metodologías de acceso a los datos y garantizar que estén preparados para gestionar las complejidades de los entornos de ETL cero.

Riesgos estratégicos y costos ocultos

Si bien las arquitecturas sin ETL ofrecen ventajas significativas, también conllevan riesgos estratégicos y costos ocultos. Una mayor dependencia de los datos sin procesar puede generar problemas de calidad de los datos, lo que podría comprometer los procesos de toma de decisiones. Además, la complejidad de la gobernanza de datos en un entorno sin ETL puede resultar en mayores costos operativos asociados con las auditorías de cumplimiento y la implementación de herramientas de gobernanza. Las organizaciones deben sopesar estos riesgos frente a los beneficios potenciales de una mayor agilidad y capacidades de análisis en tiempo real al considerar una transición a arquitecturas sin ETL.

Contrapunto del hombre de acero

A pesar de las ventajas de las arquitecturas sin ETL, algunos argumentan que los procesos ETL tradicionales siguen siendo valiosos para garantizar la calidad y la coherencia de los datos. Los procesos ETL proporcionan un enfoque estructurado para la transformación de datos, lo cual puede ser fundamental para las organizaciones que dependen de datos precisos y fiables para la toma de decisiones. Además, la complejidad que introducen las arquitecturas sin ETL puede superar los beneficios para ciertas organizaciones, en particular aquellas con estrictos requisitos de cumplimiento normativo. Por lo tanto, un enfoque híbrido que combine elementos tanto de ETL como de sin ETL podría ser más adecuado para algunas empresas.

Integración de soluciones

La integración de arquitecturas de ETL cero en los marcos de gestión de datos existentes requiere una planificación y ejecución meticulosas. Las organizaciones deben evaluar su infraestructura de datos actual e identificar áreas donde el ETL cero pueda mejorar la accesibilidad a los datos y las capacidades analíticas. La colaboración entre los equipos de TI y de gobernanza de datos es fundamental para garantizar que la implementación se ajuste a los objetivos organizacionales y a los requisitos de cumplimiento. Además, el uso de soluciones basadas en la nube puede facilitar la escalabilidad y la flexibilidad necesarias para implementaciones de ETL cero eficaces.

Escenario empresarial realista

Consideremos un escenario dentro del Departamento de Seguridad Nacional de EE. UU. (DHS), donde el análisis de datos en tiempo real es fundamental para las operaciones de seguridad nacional. Al adoptar una arquitectura ETL cero, el DHS puede incorporar datos de diversas fuentes, incluidos sistemas de vigilancia y redes sociales, sin las demoras asociadas a los procesos ETL tradicionales. Esto permite un análisis y una respuesta rápidos ante amenazas emergentes. Sin embargo, el DHS también debe implementar medidas sólidas de gobernanza de datos para gestionar la complejidad del manejo de datos sin procesar y garantizar el cumplimiento de las normativas de privacidad.

Preguntas Frecuentes

P: ¿Cuáles son las principales ventajas de las arquitecturas sin ETL?
A: Entre los principales beneficios se incluyen una menor latencia en la disponibilidad de datos, capacidades mejoradas de análisis en tiempo real y la capacidad de ingerir diversas fuentes de datos en su formato original.

P: ¿Qué desafíos enfrentan las organizaciones al implementar el modelo ETL cero?
A: Las organizaciones pueden enfrentarse a desafíos relacionados con la calidad de los datos, la complejidad de la gobernanza y los riesgos de cumplimiento asociados con el manejo de datos sin procesar.

P: ¿Cómo pueden las organizaciones mitigar los riesgos asociados con el ETL cero?
R: La implementación de soluciones de gestión de metadatos y el establecimiento de un marco integral de gobernanza de datos pueden ayudar a mitigar los riesgos y garantizar el cumplimiento normativo.

Modo de falla observado relacionado con el tema del artículo

Durante un incidente reciente, descubrimos una falla crítica en nuestra arquitectura de gobernanza de datos que surgió de una falta de Aplicación de la retención legal para acciones del ciclo de vida del almacenamiento de objetos no estructuradosInicialmente, nuestros paneles de control indicaban que todos los sistemas funcionaban correctamente, pero sin que lo supiéramos, los mecanismos de cumplimiento de la gobernanza ya habían comenzado a fallar silenciosamente.

El primer problema surgió cuando observamos que la ejecución del ciclo de vida de los objetos estaba desvinculada del estado de retención legal. Esta discrepancia provocó la propagación de metadatos de clase de retención incorrectos a través de múltiples versiones de los objetos. Como resultado, ciertos objetos que deberían haberse conservado bajo retención legal se marcaron para su eliminación, lo que generó un riesgo significativo de incumplimiento normativo. El problema se agravó debido a que nuestros registros de auditoría y entradas de catálogo se habían desactualizado, lo que imposibilitó rastrear el estado original de los objetos.

Nuestro grupo de análisis de recuperación y gobernanza (RAG) detectó el problema cuando una solicitud de un objeto sujeto a retención legal devolvió una versión caducada. Este incidente puso de manifiesto la divergencia entre nuestro plano de control y el plano de datos, donde los mecanismos de gobernanza no lograron aplicar las políticas de retención necesarias. Lamentablemente, la purga del ciclo de vida ya se había completado y las instantáneas inmutables habían sobrescrito los estados anteriores, lo que hizo que la situación fuera irreversible.

Este es un ejemplo hipotético, no nombramos a clientes o instituciones de Fortune 500 como ejemplos.

  • Supuesto arquitectónico falso
  • ¿Qué se rompió primero?
  • Lección arquitectónica generalizada vinculada al artículo “Data Lake: Por qué ETL está muerto: El auge de las arquitecturas de Data Lake sin ETL”.

Información única derivada de “ ” Bajo las restricciones de “Data Lake: Por qué ETL está muerto: El auge de las arquitecturas de Data Lake sin ETL”

Una de las principales conclusiones de este incidente es la importancia de mantener una estrecha integración entre los controles de gobernanza y la gestión del ciclo de vida de los datos. El patrón de división de funciones entre el plano de control y el plano de datos en la recuperación regulada suele generar riesgos de cumplimiento significativos si no se gestiona adecuadamente. Los equipos a menudo pasan por alto la necesidad de sincronización en tiempo real entre estos dos planos, lo que puede tener graves consecuencias.

La mayoría de las organizaciones tienden a implementar controles de gobernanza a posteriori, centrándose principalmente en la ingesta y el almacenamiento de datos. Sin embargo, los expertos entienden que la gobernanza proactiva debe integrarse en la arquitectura de datos desde el principio, especialmente ante la presión regulatoria. Este enfoque no solo mitiga los riesgos, sino que también mejora la integridad general del lago de datos.

La mayoría de las directrices públicas tienden a omitir la necesidad crucial de un seguimiento continuo y un ajuste de los mecanismos de gobernanza en respuesta a la evolución del panorama de los datos. Esta omisión puede provocar importantes incumplimientos normativos e ineficiencias operativas.

Prueba EEAT Lo que hacen la mayoría de los equipos Lo que un experto hace de manera diferente (bajo presión regulatoria)
Entonces, ¿qué factor? Implementar la gobernanza como un proceso secundario Integrar la gobernanza en la arquitectura central
Evidencia de origen Confíe en auditorías periódicas Utilice monitoreo y alertas en tiempo real
Delta único / Ganancia de información Centrarse en la eficiencia del almacenamiento de datos Priorizar el cumplimiento y la alineación de la gobernanza

Referencias

  • SP 800-53 del NIST – Establece controles para la gobernanza y el cumplimiento de los datos.
  • – Proporciona directrices para la gestión de los riesgos de seguridad de la información.
Arte de Barry

Arte de Barry

Vicepresidente de Marketing, Solix Technologies Inc.

Arte de Barry Dirige iniciativas de marketing en Solix Technologies, donde traduce desafíos complejos de gobernanza de datos, retiro de aplicaciones y cumplimiento en estrategias claras para clientes de Fortune 500.

Experiencia empresarial: Barry trabajó anteriormente con IBM zSeries ecosistemas que respaldan el negocio de mainframe multimillonario de CA Technologies, con exposición práctica a la economía de la infraestructura empresarial y al riesgo del ciclo de vida a escala.

Referencia de habla verificada: Incluido como panelista en la agenda del Simposio de IA sobre computación segura y explicable de la UC San Diego ( ver agenda PDF ).

DESCARGO DE RESPONSABILIDAD: EL CONTENIDO, LAS OPINIONES Y LOS PUNTOS DE VISTA EXPRESADOS EN ESTE BLOG SON EXCLUSIVAMENTE LOS DEL AUTOR O LOS AUTORES Y NO REFLEJAN LA POLÍTICA O POSICIÓN OFICIAL DE SOLIX TECHNOLOGIES, INC., SUS AFILIADOS O SOCIOS. ESTE BLOG SE OPERA DE FORMA INDEPENDIENTE Y NO ES REVISADO NI RESPALDADO POR SOLIX TECHNOLOGIES, INC. EN UNA CAPACIDAD OFICIAL. TODAS LAS MARCAS COMERCIALES, LOGOTIPOS Y MATERIALES CON DERECHOS DE AUTOR DE TERCEROS A LOS QUE SE HACE REFERENCIA EN ESTE DOCTORADO SON PROPIEDAD DE SUS RESPECTIVOS DUEÑOS. CUALQUIER USO ES ESTRICTAMENTE PARA FINES DE IDENTIFICACIÓN, COMENTARIO O EDUCATIVOS BAJO LA DOCTRINA DE USO JUSTO (LEY DE DERECHOS DE AUTOR DE EE. UU. § 107 Y EQUIVALENTES INTERNACIONALES). NO SE IMPLICA PATROCINIO, APOYO NI AFILIACIÓN CON SOLIX TECHNOLOGIES, INC. EL CONTENIDO SE PROPORCIONA "TAL CUAL", SIN GARANTÍAS DE EXACTITUD, INTEGRIDAD O IDONEIDAD PARA NINGÚN PROPÓSITO. SOLIX TECHNOLOGIES, INC. RENUNCIA A TODA RESPONSABILIDAD POR LAS ACCIONES TOMADAS CON BASE EN ESTE MATERIAL. LOS LECTORES ASUMEN TODA LA RESPONSABILIDAD POR EL USO DE ESTA INFORMACIÓN. SOLIX RESPETA LOS DERECHOS DE PROPIEDAD INTELECTUAL. PARA ENVIAR UNA SOLICITUD DE RETIRADA DE MATERIALES DE ACUERDO CON LA DMCA, ENVÍE UN CORREO ELECTRÓNICO A INFO@SOLIX.COM CON: (1) LA IDENTIFICACIÓN DE LA OBRA, (2) LA URL DEL MATERIAL INFRACTOR, (3) SUS DATOS DE CONTACTO Y (4) UNA DECLARACIÓN DE BUENA FE. LAS RECLAMACIONES VÁLIDAS RECIBIRÁN ATENCIÓN INMEDIATA. AL ACCEDER A ESTE BLOG, ACEPTA ESTE DESCARGO DE RESPONSABILIDAD Y NUESTROS TÉRMINOS DE USO. ESTE ACUERDO SE RIGE POR LAS LEYES DE CALIFORNIA.