Resumen Ejecutivo
Este artículo explora las implicaciones arquitectónicas y las limitaciones operativas de implementar un esquema en un lago de datos de lectura, particularmente en el contexto de organizaciones como los Centros para el Control y la Prevención de Enfermedades (CDC). Su objetivo es brindar a los responsables de la toma de decisiones empresariales una comprensión integral de los mecanismos, los desafíos y las compensaciones estratégicas asociadas con esta arquitectura de datos. Se centra en la flexibilidad que ofrece para la ingesta y el análisis de datos, al tiempo que aborda los riesgos potenciales y los modos de falla que pueden surgir de su implementación.
Definición
Un lago de datos con esquema de lectura es una arquitectura de almacenamiento que permite la ingesta de datos en su formato original y su estructuración en el momento del acceso. Este enfoque ofrece flexibilidad en el análisis de datos y reduce los requisitos de diseño de esquema previos. A diferencia de los almacenes de datos tradicionales, que requieren un esquema predefinido, el esquema de lectura permite a las organizaciones adaptarse a las necesidades cambiantes de datos sin las limitaciones de las estructuras rígidas. Esta flexibilidad puede ser especialmente beneficiosa para organizaciones como los CDC, que deben analizar conjuntos de datos diversos de forma rápida y eficiente.
Respuesta directa
Implementar un esquema en un lago de datos de lectura puede mejorar significativamente la capacidad de una organización para ingerir y analizar datos de forma flexible. Sin embargo, introduce complejidades en la recuperación y la gobernanza de datos que deben gestionarse cuidadosamente para evitar riesgos de cumplimiento y problemas de calidad de los datos.
Porqué ahora
El creciente volumen y la variedad de datos generados por las organizaciones exigen una transición hacia arquitecturas de datos más flexibles. Ante el reto que supone para organizaciones como los CDC integrar diversas fuentes de datos para el análisis de la salud pública, el esquema de lectura ofrece una solución viable. La urgencia de aprovechar los datos en tiempo real para la toma de decisiones en crisis sanitarias subraya aún más la necesidad de arquitecturas de datos adaptables que puedan dar cabida a las cambiantes exigencias analíticas.
Tabla de diagnóstico
| Problema | Impacto | Estrategia de mitigación |
|---|---|---|
| Mayor complejidad en la recuperación de datos | Rendimiento de consultas más lento | Implementar estrategias de indexación |
| Estructuras de datos inconsistentes | desafíos del análisis de datos | Establecer la gestión de metadatos |
| Riesgos de cumplimiento | Sanciones legales | Aplicar políticas de gobernanza de datos |
| Problemas de calidad de datos | Información inexacta | Implementar mecanismos de validación |
| Inconsistencias en los metadatos | Confusión durante el análisis | Auditorías periódicas de metadatos |
| Seguimiento insuficiente del linaje de datos | Fallos en la auditoría de cumplimiento | Mejorar las herramientas de seguimiento de linaje |
Secciones de análisis profundo
Comprender el esquema en la lectura
El esquema de lectura permite una ingesta de datos flexible, lo que posibilita que las organizaciones almacenen datos en su formato original sin necesidad de diseñar un esquema previamente. Este enfoque resulta especialmente ventajoso para las organizaciones que requieren un acceso rápido a diversos conjuntos de datos. Sin embargo, también plantea desafíos relacionados con la coherencia de los datos y la complejidad de su recuperación. La limitación operativa de tener que estructurar los datos en el momento del acceso puede aumentar los tiempos de consulta y generar confusión entre los usuarios, quienes podrían encontrar resultados inesperados debido a la variabilidad del esquema.
Restricciones operativas
La implementación de una arquitectura de esquema de lectura puede aumentar la complejidad en la recuperación de datos. Dado que los datos se estructuran al momento del acceso, los usuarios pueden tener dificultades para formular consultas que reflejen con precisión los datos subyacentes. Además, la inconsistencia en las estructuras de datos surge cuando varios equipos ingieren datos de forma independiente, lo que genera formatos diversos y dificulta la obtención de una visión unificada de los datos. Esta complejidad operativa exige marcos sólidos de gestión y gobernanza de metadatos para garantizar la coherencia y la calidad de los datos.
Modos de fallo
En las implementaciones de esquemas de lectura pueden surgir varios modos de fallo potenciales. Un riesgo significativo es la falta de aplicación de la gobernanza de datos, lo que puede generar problemas de cumplimiento, especialmente en entornos regulados como el sector sanitario. Una gestión inadecuada de los metadatos puede dificultar la localización de los datos, lo que complica a los usuarios encontrar y utilizar la información que necesitan. Además, la ingesta de datos brutos no validados puede introducir problemas de calidad, lo que conlleva análisis inexactos y socava la confianza de las partes interesadas.
Marco de implementación
Para implementar con éxito un lago de datos con esquema de lectura, las organizaciones deben establecer un marco integral que incluya herramientas robustas de gestión de metadatos y políticas de gobernanza de datos. Este marco debe garantizar la integración de los procesos de ingesta de datos con la gestión de metadatos para prevenir inconsistencias. Las auditorías periódicas y las actualizaciones de las políticas de gobernanza son esenciales para mantener el cumplimiento y la calidad de los datos. Además, las organizaciones deben invertir en la capacitación de los usuarios para que puedan gestionar eficazmente las complejidades de la consulta de datos en un entorno con esquema de lectura.
Riesgos estratégicos y costos ocultos
Si bien el esquema de lectura ofrece flexibilidad, también presenta riesgos estratégicos y costos ocultos que las organizaciones deben considerar. La mayor complejidad de la recuperación de datos puede generar mayores costos operativos, ya que los equipos dedican más tiempo a la limpieza y estructuración de datos. Los riesgos de cumplimiento asociados con los cambios de datos no registrados pueden resultar en sanciones legales y dañar la confianza de las partes interesadas. Las organizaciones deben sopesar estos riesgos frente a los beneficios de la flexibilidad y la rápida ingesta de datos para tomar decisiones informadas sobre su arquitectura de datos.
Contrapunto del hombre de acero
A pesar de los desafíos que presenta el esquema de lectura, sus defensores argumentan que las ventajas de flexibilidad y adaptabilidad superan los riesgos. La capacidad de ingerir y analizar rápidamente diversos conjuntos de datos puede brindar a las organizaciones una ventaja competitiva, especialmente en entornos dinámicos. Además, los avances en la gestión de metadatos y las tecnologías de gobernanza de datos pueden mitigar muchas de las limitaciones operativas y los fallos asociados a las implementaciones de esquema de lectura. Las organizaciones deben evaluar cuidadosamente sus necesidades y capacidades específicas para determinar si este enfoque se alinea con sus objetivos estratégicos.
Integración de soluciones
La integración de un lago de datos con esquema de lectura en los sistemas existentes requiere una planificación y ejecución meticulosas. Las organizaciones deben evaluar su arquitectura de datos actual e identificar áreas donde el esquema de lectura pueda mejorar la accesibilidad y el análisis de los datos. La colaboración entre los equipos de TI y de gobernanza de datos es fundamental para garantizar la implementación efectiva de las políticas de gestión y gobernanza de metadatos. Además, las organizaciones deben considerar el uso de soluciones basadas en la nube que ofrezcan escalabilidad y flexibilidad para satisfacer sus necesidades de datos en constante evolución.
Escenario empresarial realista
Consideremos un escenario en el que los CDC implementan un lago de datos con esquema de lectura para analizar datos de salud pública provenientes de diversas fuentes, como hospitales, laboratorios e instituciones de investigación. La flexibilidad de este esquema permite a los CDC incorporar rápidamente nuevos datos a medida que están disponibles, facilitando así un análisis oportuno durante las crisis sanitarias. Sin embargo, la organización también debe gestionar la complejidad de garantizar la coherencia de los datos y el cumplimiento de las normativas sanitarias. Al establecer marcos sólidos de gestión y gobernanza de metadatos, los CDC pueden aprovechar las ventajas del esquema de lectura y, al mismo tiempo, mitigar los riesgos potenciales.
Preguntas Frecuentes
¿Qué es el esquema en lectura?
Un esquema de lectura es una arquitectura de datos que permite ingerir los datos en su formato original y estructurarlos en el momento del acceso, lo que proporciona flexibilidad en el análisis de datos.
¿Cuáles son los principales desafíos del esquema en la lectura?
Los principales desafíos incluyen una mayor complejidad en la recuperación de datos, la posibilidad de estructuras de datos inconsistentes y riesgos de cumplimiento debido a una gobernanza inadecuada.
¿Cómo pueden las organizaciones mitigar los riesgos asociados con el esquema en modo de lectura?
Las organizaciones pueden mitigar los riesgos implementando herramientas sólidas de gestión de metadatos, estableciendo políticas de gobernanza de datos y realizando auditorías periódicas.
¿El esquema de lectura es adecuado para todas las organizaciones?
El esquema de lectura es especialmente beneficioso para las organizaciones que requieren flexibilidad en el análisis de datos, pero puede que no sea adecuado para aquellas con requisitos estrictos de gobernanza de datos.
¿Qué papel desempeña la gestión de metadatos en el esquema de lectura?
La gestión de metadatos es fundamental en las implementaciones de esquema de lectura para garantizar la coherencia de los datos, su capacidad de descubrimiento y el cumplimiento de las políticas de gobernanza.
¿Cómo afecta el esquema de lectura a la calidad de los datos?
La calidad de los datos puede verse afectada por la ingesta de datos brutos no validados, por lo que resulta esencial que las organizaciones implementen mecanismos de validación durante la ingesta de datos.
Modo de falla observado relacionado con el tema del artículo
Durante una revisión operativa reciente, encontramos una falla crítica en nuestro marco de gobernanza de datos, específicamente relacionada con: Aplicación de la retención legal para acciones del ciclo de vida del almacenamiento de objetos no estructuradosEl fallo inicial se produjo cuando descubrimos que la propagación de los metadatos de retención legal entre las versiones de los objetos había fallado silenciosamente, lo que dio lugar a una situación en la que los paneles de control indicaban un cumplimiento adecuado, mientras que la aplicación real de la gobernanza estaba comprometida.
El mecanismo de fallo se originó en la divergencia entre el plano de control y el plano de datos. En concreto, el bit/indicador de retención legal y las etiquetas de objeto se desincronizaron debido a una configuración incorrecta en nuestras políticas de gestión del ciclo de vida. Como resultado, al solicitar la recuperación, la función RAG/búsqueda mostró objetos caducados que deberían haberse conservado bajo retención legal, lo que nos expuso a importantes riesgos de cumplimiento normativo. Esta situación era irreversible, ya que la purga del ciclo de vida ya se había completado y las instantáneas inmutables habían sobrescrito el estado anterior, lo que imposibilitó la restauración de los metadatos correctos.
Este incidente puso de manifiesto la disyuntiva entre la eficiencia operativa y el control del cumplimiento normativo. Si bien la arquitectura se diseñó para la ingesta y el procesamiento rápidos de datos, la falta de controles de gobernanza sólidos durante la fase de ingesta provocó una clasificación errónea de las clases de retención y un caos semántico en el esquema de lectura. La imposibilidad de aplicar eficazmente las retenciones legales generó una brecha crítica en nuestra estrategia de gobernanza de datos, que no pudo subsanarse a posteriori.
Este es un ejemplo hipotético, no nombramos a clientes o instituciones de Fortune 500 como ejemplos.
- Supuesto arquitectónico falso
- ¿Qué se rompió primero?
- Lección arquitectónica generalizada vinculada al “Esquema en Read Data Lake: Perspectivas arquitectónicas y restricciones operativas”.
Información única derivada de “” Bajo el esquema en Read Data Lake: información arquitectónica y restricciones operativas” Restricciones
El incidente pone de manifiesto un patrón crítico conocido como "Error de división entre el plano de control y el plano de datos" en la recuperación regulada de datos. Este patrón revela la tensión inherente entre el crecimiento de los datos y el control del cumplimiento normativo, especialmente en entornos donde se emplean arquitecturas de esquema en lectura. Las limitaciones operativas exigen un enfoque más riguroso para la aplicación de la gobernanza, sobre todo durante la ingesta de datos y la gestión de su ciclo de vida.
La mayoría de los equipos suelen pasar por alto la importancia de mantener la sincronización entre los metadatos de gobernanza y los objetos de datos, lo que conlleva fallos de cumplimiento. Sin embargo, un experto implementa medidas proactivas para garantizar que las retenciones legales y las clases de retención se validen de forma consistente con el estado real de los datos a lo largo de su ciclo de vida.
| Prueba EEAT | Lo que hacen la mayoría de los equipos | Lo que un experto hace de manera diferente (bajo presión regulatoria) |
|---|---|---|
| Entonces, ¿qué factor? | Prioriza el volumen de datos sobre el cumplimiento normativo. | Priorizar las comprobaciones de cumplimiento junto con el crecimiento de los datos. |
| Evidencia de origen | Suponga que los metadatos son precisos después de la ingestión | Audite periódicamente los metadatos comparándolos con los objetos de datos. |
| Delta único / Ganancia de información | Confíe en procesos automatizados sin supervisión | Implementar controles manuales para garantizar la integridad de la gobernanza. |
La mayoría de las directrices públicas tienden a omitir la necesidad de una validación continua de la gobernanza en entornos de esquema en lectura, lo que puede generar importantes riesgos de cumplimiento si no se aborda de forma proactiva.
Referencias
La norma ISO 15489 establece principios para la gestión de registros aplicables a la gobernanza de datos.
La norma NIST SP 800-53 proporciona directrices para los controles de seguridad y privacidad relevantes para los lagos de datos.
DESCARGO DE RESPONSABILIDAD: EL CONTENIDO, LAS OPINIONES Y LOS PUNTOS DE VISTA EXPRESADOS EN ESTE BLOG SON EXCLUSIVAMENTE LOS DEL AUTOR O LOS AUTORES Y NO REFLEJAN LA POLÍTICA O POSICIÓN OFICIAL DE SOLIX TECHNOLOGIES, INC., SUS AFILIADOS O SOCIOS. ESTE BLOG SE OPERA DE FORMA INDEPENDIENTE Y NO ES REVISADO NI RESPALDADO POR SOLIX TECHNOLOGIES, INC. EN UNA CAPACIDAD OFICIAL. TODAS LAS MARCAS COMERCIALES, LOGOTIPOS Y MATERIALES CON DERECHOS DE AUTOR DE TERCEROS A LOS QUE SE HACE REFERENCIA EN ESTE DOCTORADO SON PROPIEDAD DE SUS RESPECTIVOS DUEÑOS. CUALQUIER USO ES ESTRICTAMENTE PARA FINES DE IDENTIFICACIÓN, COMENTARIO O EDUCATIVOS BAJO LA DOCTRINA DE USO JUSTO (LEY DE DERECHOS DE AUTOR DE EE. UU. § 107 Y EQUIVALENTES INTERNACIONALES). NO SE IMPLICA PATROCINIO, APOYO NI AFILIACIÓN CON SOLIX TECHNOLOGIES, INC. EL CONTENIDO SE PROPORCIONA "TAL CUAL", SIN GARANTÍAS DE EXACTITUD, INTEGRIDAD O IDONEIDAD PARA NINGÚN PROPÓSITO. SOLIX TECHNOLOGIES, INC. RENUNCIA A TODA RESPONSABILIDAD POR LAS ACCIONES TOMADAS CON BASE EN ESTE MATERIAL. LOS LECTORES ASUMEN TODA LA RESPONSABILIDAD POR EL USO DE ESTA INFORMACIÓN. SOLIX RESPETA LOS DERECHOS DE PROPIEDAD INTELECTUAL. PARA ENVIAR UNA SOLICITUD DE RETIRADA DE MATERIALES DE ACUERDO CON LA DMCA, ENVÍE UN CORREO ELECTRÓNICO A INFO@SOLIX.COM CON: (1) LA IDENTIFICACIÓN DE LA OBRA, (2) LA URL DEL MATERIAL INFRACTOR, (3) SUS DATOS DE CONTACTO Y (4) UNA DECLARACIÓN DE BUENA FE. LAS RECLAMACIONES VÁLIDAS RECIBIRÁN ATENCIÓN INMEDIATA. AL ACCEDER A ESTE BLOG, ACEPTA ESTE DESCARGO DE RESPONSABILIDAD Y NUESTROS TÉRMINOS DE USO. ESTE ACUERDO SE RIGE POR LAS LEYES DE CALIFORNIA.
-
White PaperArquitectura de información empresarial para inteligencia artificial y aprendizaje automático
Descargar el Informe Técnico -
-
-
White PaperInteligencia empresarial: construyendo las bases para el éxito de la IA
Descargar el Informe Técnico
