Linaje de datos

Se trata del proceso por el cual, podemos trazar el recorrido de los datos, desde que son capturados en la fuente, hasta que son transformados y utilizados. En un entorno de datos, cada vez más complejo, disponer de herramientas que puedan garantizar la autenticidad de los datos y a su vez, poder verificar los procesos de transformación de los mismos, es esencial para cualquier organización.

El linaje de datos, permite a las compañías, poder implementar procesos que garanticen la calidad, tanto de los datos utilizados, como de los procesos que los manipulan y los presentan. Sin linaje, la confianza en los datos y los procesos, se convierte en un acto de fé sobre la calidad de los datos. Las compañías utilizan cada vez, procesos más complejos para gestionar y transformar los datos. Los datos proceden de distintas fuentes, son procesados por aplicaciones, que en muchas ocasiones están fuera de la propia organización. Tanto los datos transformados, como los procesos que los transforman, quedan fuera del control de las organizaciones, lo que supone un problema de confianza, tanto para los clientes finales de los datos, como para las propias organizaciones, que tiene que tomar decisiones en base al resultado de muchos flujos de datos que no son confiables.

Por tanto, en un panorama cada vez más complejo, en el que se difuminan los límites de los procesos de nuestras organizaciones, consumiendo tanto datos de fuentes externas, como servicios de proveedores, el linaje de los datos se convierte en una necesidad para el negocio. Ya no sirve confiar en el dato porque pertenece a nuestra organización, ahora dependemos de datos externos, los cuales requieren el mismo nivel de confianza. Disponer de modelos de confianza sobre los datos que alimentan a los procesos, obliga a las compañías a garantizar el linaje de los datos.

Objetivos que se persiguen

El linaje de datos, es una herramienta esencial para las organizaciones hoy en día. Disponer de una visión clara, segura y confiable, de todo el recorrido del datos, desde su fuente, hasta el destino, pasando por los procesos de transformación que puede llegar a sufrir, es el objetivo principal de cualquier organización que se enfrenta al linaje de datos.

Por tanto, podemos enumerar una serie de objetivos que se persiguen, como son:

  • Confianza y calidad. Es necesario garantizar la confianza plena en los datos, sean de la fuente que sean, permitiendo poner a disposición de los procesos de la empresa datos con la calidad necesaria, para garantizar el buen funcionamiento de los procesos y la toma de decisión. Además se debe conseguir un objetivo colateral, que una vez que los procesos acceden a los datos, los resultados sean igualmente confiables. Poder trazar tanto el origen de los datos, como el análisis de la calidad de los mismos, es esencial para las organizaciones hoy en día.
  • Cumplimiento normativo. Uno de los principales retos a los que se enfrentan las compañías hoy en día, es poder garantizar el cumplimiento normativo de las regulaciones a las que puedan estar sometidas. Hemos pasado de un modelo de propiedad clara del dato, en la que los equipos de legal podían auditar los sistemas de información para comprobar el nivel de cumplimiento. Actualmente, esta tarea es harto complicada, en cuanto que la fuentes de datos se han externalizado y los datos se usan de manera temporal. Poder garantizar que todos los datos con los que trabaja la compañía, cumplen la regulación, es esencial para evitar problemas graves, sobre todo en sectores fuertemente regulados o con datos de carácter personal.
  • Gobernanza de datos. Establecer un modelo de gobierno del dato, que permita a las organizaciones aplicar políticas y procedimientos sobre la gestión de los datos. Los modelos de gobernanza de los datos, pasan de ser una herramienta de buenas prácticas, al core de la compañía, en cuanto a la gestión y auditoría de los datos. Ya no se trata simplemente de documentar fuentes de datos y políticas de acceso, para informar a usuarios y guiar en la implementación de los procesos. Se trata de establecer unas bases sólidas, sobre las que construir procesos más confiables, seguros y auditables.
  • Mejorar la toma de decisión. La base fundamental de cualquier sistema de información, es ayudar a las compañías a incrementar las decisiones acertadas, en función de las necesidades del negocio. Para cumplir con este objetivo, disponer de procesos de análisis de los datos, que permitan conocer la calidad de los datos y proporcionado el contexto necesario, para que los procesos de negocios puedan tomar mejores decisiones, permite construir modelos de decisión más confiables y relevantes.

Estos son algunos de los objetivos, que cualquier organización pretende conseguir tras implementar un modelo de linaje de los datos. Al fin y al cabo, se trata de poder desplegar un mapa claro y confiable, sobre la naturaleza de los datos utilizados por los procesos de la compañía, aportando transparencia y trazabilidad.

Proceso de linaje de datos

No existe una forma única de implementar un proceso de linaje de los datos. Cada compañía puede implementar el proceso, en función de las características y necesidades de su negocio, sus clientes o las dependencias que existan con otras organizaciones. Aunque el proceso puede ser diferente, de una organización a otro, el objetivo permanece inalterable, independientemente de la naturaleza de la organización o la necesidad de los procesos de negocio. Todos los procesos de linaje buscan conseguir incrementar la confianza sobre los datos que maneja la compañía y la forma en la que son transformados.

A modo de ejemplo, existen una serie de fases que podríamos enumerar como esenciales para implementar un proceso de linaje de datos:

  • Identificación de las fuentes de datos.
  • Flujos de datos
  • Procesos de transformación
  • Gobernanza y cumplimiento

El objetivo de estas fases, es poder disponer de la trazabilidad de los datos. Esta trazabilidad se puede conseguir de distintas maneras, según las necesidades de la organización, desde procesos de etiquetado del dato, inventarios de los procesos de transformación o generación de metadatas asociados a los datos. 

Cualquiera que sea el proceso de implementación del linaje de datos, debe cumplir la necesidad de poder responder en cualquier momento, a cuál es la trazabilidad del dato. Pudiendo identificar origen y transformaciones.

RPAs confiables, no cajas negras

Muchas empresas, están apostando por los RPAs (Robotic Process Automation) para la automatización de muchas tareas. Los RPAs permiten automatizar tareas repetitivas, para conseguir mayor eficiencia en los procesos de las compañías y evitar posibles errores relacionados con la participación de personas. Las compañías se ha  embarcado en inicitativas para la transformación de sus procesos de negocio, utilizando herramientas RPA. 

Pero no todo son beneficios con este tipo de herramientas. Existe un riesgo al que se enfrentan muchas compañías que están desplegando estos procesos de automatización. Es la de convertir en auténticas cajas negras, muchos de los procesos de la organización. El problema de la caja negra aparece, cuando la compañía es incapaz de explicar qué está ocurriendo con los datos, desde cuales son las fuentes reales, a los procesos de transformación  de los mismos. Este tipo de problemas, puede conducir a situaciones complicadas para la organización, ya que no tener un control sobre lo que está pasando con los datos, puede desembocar en errores en la toma de decisión o incapacidad para cumplir con el reglamento de datos.

Para evitar, los problemas relacionados con la caja negra, implementar procesos de linaje de datos, es una solución eficaz, que añade trazabilidad y transparencia, a los datos y a los procesos que los transforman. Permitiendo construir procesos automatizados más confiables y seguros.

Blockchain y linaje de datos

La tecnología Blockchain tiene múltiples aplicaciones, en sectores de diversa naturaleza, demostrando ser una tecnología que permite incrementar la seguridad y trazabilidad de los datos. Es esta cualidad de la tecnología, de poder trazar de manera irrefutable datos y operaciones, la que la convierte en una aliada perfecta, para todas aquellas organizaciones que se planteen implementar modelos de linaje de los datos.

Existen dos aproximaciones básicas, que podemos plantear cuando queremos establecer un  modelo de linaje de datos utilizando la tecnología Blockchain:

  • Utilizar la Blockchain para almacenar el dato. Esta opción, aunque dependerá del caso de uso y no siempre podremos utilizarla, permite utilizar la cualidad de la tecnología blockchain para trazar datos. Es una forma sencilla y rápida, de registrar el origen del dato y cualquier operación que se haga sobre él. Aunque tiene algunos inconvenientes y limitaciones, puede ser una buena opción, para datos críticos.
  • Utilizar la Blockchain para implementar los procesos de linaje, como el registro de los metadatos asociados a las fuentes de datos o a los procesos de transformación. Esta opción puede ayudarnos a mantener la trazabilidad, no sobre el dato, sino sobre el proceso de linaje del dato. 

Ambas opciones, tienen ventajas y desventajas, y serán las necesidades de la compañía, la que permitirá identificar cuál es la vía más adecuada. Aunque no vamos a explayarnos mucho, en cuanto a las ventajas que aporta la tecnología Blockchain para el proceso de linaje de datos, hay que destacar que:

  • La inmutabilidad permite garantizar la integridad de los datos, cualidad importante para poder disponer de un modelo confiable de linaje de los datos.
  • La trazabilidad y la transparencia, ayudan a tener una visión clara sobre el origen de los datos y las distintas transformación que pueden haber sufrido. Permitiendo disponer de una máquina del tiempo, que nos facilite el estado del dato en cualquier momento de su ciclo de vida, siempre que se haya implementado el proceso correctamente.
  • Seguridad y propiedad. La necesidad de disponer de modelos de identidad digital, tiene como resultado, poder implementar modelo de propiedad del dato y del proceso, incrementando la seguridad sobre los datos, pudiendo implementar esquemas de acceso.
  • Cumplimiento normativo. Disponer de la capacidad para garantizar la trazabilidad del dato, permite a terceros verificar el cumplimiento, en tiempo real, de los datos que la compañía está utilizando como fuente de los procesos de negocio. 

Conclusión

El linaje de datos se ha convertido en una necesidad para cualquier compañía. Las obligaciones regulatorias o garantizar la calidad de los datos en los sistemas de información, no son recomendaciones de buenas prácticas, son necesidades reales, que las compañías deben implementar de la manera más eficiente posible. Las compañías cada vez emplean más datos y los procesos de negocios son más complejos. Si desde IT, no somos capaces de ofrecer soluciones que garanticen un alineamiento  entre la gestión de los modelos de gobernanza de los datos y las necesidades reales del negocio, estaremos impactando de forma negativa al negocio.

La tecnología Blockchain es una buena aliada, para desplegar procesos de linaje del dato, sobre los que construir modelos de gobernanza del dato, más seguros, trazables y confiables.

José Mora

José Juan Mora Pérez – CTO

Últimas Noticias

Categorias

Trabaja con Nosotros

En Kolokium estamos siempre buscando talento, gente inquieta que no le tenga miedo a los retos, si quieres trabajar con tecnologías Blockchain.

INNOVACIÓN

COLABORAMOS EN INICIATIVAS PÚBLICO/PRIVADAS ORIENTADAS A EXPLORAR LAS POSIBILIDADES DE LA TECNOLOGÍA BLOCKCHAIN EN DISTINTOS HÁBITO INDUSTRIALES Y CORPORATIVOS
neotec

PRIOPS

El proyecto PRIOPS ha recibido el apoyo del CDTI por medio de su programa Neotec 2018, en el que se le ha concedido una subvención de 247.618 €

apia

APIA

Plataforma integral para la auditoría inteligente de obra civil basado en la captura y parametrización automática de identidades de obra en el modelo de información BIM y la certificación mediante Blockchain de su producción, financiado por el CDTI y cofinanciado por el FEDER

Consorcio: AZVI, EMERGYA, GRANT THORNTON Y KOLOKIUM
Plazo de ejecución: septiembre de 2018 a diciembre 2020
Presupuesto Total: 2.218.874,00€

k1

K 1

Framework para la generación y despliegue automatizado de smart contracts en arquitecturas distribuidas Ethereum e Hyperledger Fabric. Proyecto financiado con el apoyo

K1_FRAMEWORK PARA LA GENERACIÓN Y DESPLIEGUE AUTOMATIZADO DE SMART CONTRACTS EN LOS BLOCKCHAINS DE ETHEREUM E HYPERLEDGER del CDTI con fondos propios a través de la convocatoria INNOGLOBAL 2017 y apoyado por el Ministerio de Economía, Industria y Competitividad.

Consorcio: KOLOKIUM BLOCKCHAIN TECHNOLOGIES y GRUPO CADENA (Colombia)
Plazo de ejecución: octubre de 2017 a septiembre de 2019
Presupuesto KOLOKIUM: 381.440€

Logos Paravasis

PARAVASIS

PARAVASIS es un proyecto Subvencionado por el CDTI que ha sido apoyado por el Ministerio de Ciencia e Innovación, y que investiga en nuevas tecnologías para que haya una mejora sustancial en la flexibilidad y productividad del proceso de diseño y desarrollo de sistemas industriales complejos favoreciendo la personalización de nuevos productos intensivos en software y considerando además el mejor balance de tiempo, capacidad y coste, así como la seguridad.

Consorcio: Ghenova Digital, DHG, Integrasys, Cotesa, Capgemini Engineering, Optiva Media, Kolokium y Komorebi.

Plazo de ejecución: 01/10/2022 – 30/06/2025

Presupuesto Global: 5.364.425,00 €
Presupuesto Kolokium: 437.163,00 

Logos Valrec

VALREC

El objetivo principal del Proyecto VALREC es la investigación industrial y la demostrar nuevas soluciones avanzadas y de coste efectivo que garanticen un cierre de ciclos más eficiente y trazable (incremento de la confianza de materiales secundarios en el mercado) de grandes volúmenes de recursos materiales de construcción mayoritarios (principalmente hormigón, cerámico y yeso) a lo largo de toda la cadena de suministro de los mismos.
El proyecto VALREC “Soluciones innovadoras para fomentar la VALorización de RCD y la utilización de materiales Recuperados bajo criterios de Economía Circular en la CAM” ha sido subvencionado a través de la Convocatoria 2020 de las ayudas cofinanciadas por el Fondo Europeo de Desarrollo Regional para contribuir a la mejora de la Cooperación Público - Privada en materia de I+D+i mediante el apoyo a Proyectos de Innovación Tecnológica de efecto tractor elaborados por núcleos de innovación abierta en la Comunidad de Madrid, en el marco de la Estrategia Regional de Investigación e Innovación para una Especialización Inteligente (RIS3), dentro del Programa Operativo FEDER de la Comunidad de Madrid para el periodo 2014-2020.
Consorcio: SURGE AMBIENTAL (SURGE), VALORIZA SERVICIOS MEDIOAMBIENTALES (VSM), ADCORE, KOLOKIUM BLOCKCHAIN TECHNOLOGIES, ALLGAIER MOGENSEN, SODIRA IBERIA, SIKA, HORMICRUZ, GREEN BUILDING COUNCIL ESPAÑA (GBCe).
Plazo de ejecución: 17/11/2021 - 17/11/2023
Presupuesto Global: 4.063.243,14 €
Presupuesto Kolokium: 256.700,00 €

KOLBLM

Completa el formulario para descargar​

KOLBI

Completa el formulario para descargar​

KOLFSB

Completa el formulario para descargar