Continuamos nuestro recorrido por el gobierno del dato. En el artículo uno habíamos introducido tres componentes principales en cualquier iniciativa de este tipo: el mapeo/clasificación, el glosario empresarial y el catálogo de datos. Nos centramos en este artículo en el glosario empresarial y vemos una herramienta, Azure Purview que nos permite usar Inteligencia Artificial para ayudarnos con la construcción y mantenimiento del mismo.
Glosarios de datos vs. catálogos de datos
A menudo encontramos cierta dificultad en diferenciar el glosario de datos de empresa con el catálogo de datos de un sistema o solución.
Los glosarios de datos empresariales describen términos desde el punto de vista del negocio, y utilizan el lenguaje del negocio.
Los términos empresariales no están orientados a definir datos o metadatos sino más bien a definir lo que cada término significa en el contexto del negocio y los objetivos de la organización.
Disponer de un buen glosario de datos de negocio aporta una visión común del vocabulario que se usa en la organización y ayuda a asentar, madurar y consolidar las ideas y procesos de gobierno del dato que, como venimos indicando en estos artículos, es una parte fundamental del proceso de implantación de este tipo de políticas en la empresa.
Un catálogo de datos, por el contrario, es como un índice, un directorio que se centra más en los metadatos, en la descripción y características de un objeto de datos, una tabla o una entidad concreta, desde el punto de vista de los campos o la información que se guarda de ese dato.
El ámbito de aplicación de un glosario empresarial será toda la organización, como “venta”, “seguridad”, “activo digital”, “cliente” … mientras que el ámbito de aplicación de un catálogo será la aplicación o sistema de información que representa lo que sea que gestiona el sistema, como una base de datos de proveedores, o una tabla de ventas.
Por último, comentar que la responsabilidad del glosario empresarial será toda la empresa –y de ahí su dificultad en elaborarlo y mantenerlo-, pues debe haber una versión inicial que parta más de la parte de negocio que de la parte técnica, y después debe haber un proceso de comunicación y trabajo conjunto para su refinamiento y aplicación a los diferentes ámbitos o áreas de negocio que componen la organización.
Utilizar el aprendizaje automático para ayudarnos con el glosario empresarial
Una vez tenemos consenso sobre la importancia de tener un glosario de datos de negocio y de que toda la organización debe participar en su definición y aprobación, podemos crear procedimientos que faciliten esta tarea.
La creación manual de un glosario empresarial de datos pasa por identificar los conceptos clave de la organización, y trabajar con los responsables de las áreas de negocio en una definición final de cada término teniendo en cuenta estos diferentes puntos de vista.
Este proceso manual puede ser coordinado por la oficina del dato, y deberá ser quien supervise el proceso y vaya editando los resultados finales del glosario, así como su versionado y evolución en el tiempo.
Al margen de los procesos manuales, esta fase de gobierno que consiste en la elaboración del glosario empresarial de datos se puede beneficiar, a través de las herramientas actuales, de la inteligencia artificial y el aprendizaje a automático (Machine Learning) en la identificación y clasificación de términos empresariales a partir del análisis masivo de los datos de la empresa.
Utilizando estas técnicas de aprendizaje automático y clasificación, los equipos de gobierno pueden impulsar este proceso de forma notable incluso aprovechando glosarios empresariales “tipo” en forma de plantilla, que ya han sido definidos y publicados en abierto por organizaciones o empresas y que suelen tener ya una primera versión de términos de negocio válida independientemente de la empresa que los use.
Así, por ejemplo, cada país tiene identificadores de personas (como el DNI en España), números de la seguridad social (SSN), teléfonos, matrículas, cuentas bancarias, contenido no estructurado, dato transaccional…
En la siguiente figura, Azure PurView ha aplicado, de forma automática, dos descriptores de clasificación (email y nombre de persona), a un activo de datos que pertenece al glosario empresarial de “Banking”.
Construcción del glosario empresarial de datos
El “custodio de datos” o responsable de la custodia de datos, o en inglés data steward, es el responsable de llevar a cabo el uso correcto de datos y las políticas de seguridad de acuerdo a las políticas de gobierno de datos de la empresa, y formará parte de la oficina de datos de la organización.
Como herramientas del proceso de creación y mantenimiento del glosario empresarial, el responsable de la custodia de datos puede utilizar de plantillas de glosario o de otros glosarios que podemos “importar” (y exportar) al glosario de nuestra empresa.
En el caso de Azure PurView, la importación/exportación se realiza a partir de archivos de texto separado por comas (.csv) que facilitan la creación, mantenimiento y revisión de los términos empresariales de la empresa utilizando esta herramienta.
Además, PurView soporta la organización de términos del glosario en jerarquías de términos (por ejemplo, el término “Business Partner” puede especializarse en “cliente” y “proveedor”, con diferentes características en cada caso, siendo siempre socios de negocio, a efectos del concepto empresarial de Business Partner.
Consideraciones importantes a la hora de diseñar y elaborar un buen glosario de datos empresariales
Un buen glosario de datos empresariales no se puede improvisar al azar, ni es una tarea que se resuelva en unos pocos días.
Requiere concentración, dedicación, disciplina y una buena cantidad de trabajo de detective con diferentes roles estratégicos de la empresa.
Afortunadamente, no es necesario reinventar el proceso, ni realizar complejas formaciones para ello.
A continuación, se muestran algunas de las mejores prácticas que se pueden utilizar para crear un glosario empresarial:
Defina un procedimiento que permita examinar de forma exhaustiva los datos que gestiona cada área de su empresa: los términos del glosario empresarial se encuentran en muchos puntos de la organización, además de los activos de datos en sí mismos, contratos, documentos de términos y condiciones, materiales de marketing, planes de negocios, documentos de diseño de productos, procedimientos operativos estándar y más. Los más difíciles de precisar son los términos comerciales que no están documentados en ninguna parte; existen únicamente como “conocimiento en crudo“. Una buena forma de encontrarlos es a través de entrevistas para capturar esta información.
Identificar y resolver ambigüedades: como se mencionó anteriormente, diferentes términos pueden representar la misma idea y el mismo término puede tener múltiples significados. Se aconseja tener una reunión periódica de responsables de la toma de decisiones y un proceso estándar para revisar y resolver estas ambigüedades y documentar los resultados. Recuerde que la pregunta importante que debe hacerse no es “¿qué significa?” sino “¿qué debería significar?” en el contexto de nuestro negocio.
Estar abiertos a la inclusión de nuevos términos: si aparece un término con dos significados diferentes en diferentes áreas o divisiones de la empresa, a menudo es más fácil resolver el conflicto simplemente cambiando el nombre de uno de ellos.
Obtener aceptación y aprobación por consenso: la credibilidad de un glosario empresarial requiere que se aplique en toda la empresa. El liderazgo senior debe respaldarlo con todo su peso para alinear todos los departamentos y unidades de negocio. Trabajando con versiones (por meses o años), permite la evolución y la mejora continua del glosario de datos empresariales.
Establecer procedimientos operativos de mantenimiento estándar: el glosario empresarial es un activo vivo, en evolución. Los términos pueden agregarse al glosario, modificarse y retirarse según se requiera por las condiciones comerciales, pero estos cambios deben controlarse mediante procedimientos operativos estándar, o tendremos un problema de descoordinación y de caos, donde se puede perder el trabajo previo por el desconcierto de no tener procedimientos bien estructurados y que se sigan.
Utilizar herramientas flexibles que le faciliten el mantenimiento del glosario de datos empresariales. Herramientas como la que estamos viendo aquí, Azure PurView, son sistemas bastante potentes que incorporan muchas de las tareas de descubrimiento, catalogación, mantenimiento y evolución de los diferentes procesos que tienen que ver con el gobierno de los datos de empresa, en particular de los glosarios de términos empresariales.
Si sigue estos procesos y buenas prácticas, descubrirá que la gran mayoría de los términos del glosario empresarial provienen de los metadatos de la empresa, por lo que es mejor que se asegure de administrar sus metadatos correctamente, lo que incluye una gestión lo más automatizada posible
Conclusión
En este tercer artículo de la serie de gobierno del dato en las empresas, hemos abordado el proceso de diseño y creación del glosario de términos empresariales. Hemos introducido la diferenciación con el catálogo de datos, cómo sacar partido del aprendizaje automático para su construcción y mantenimiento y algunas pautas y buenas prácticas para construir un buen glosario de datos empresariales ayudado por herramientas como Azure PurView que automaticen los procesos de mantenimiento del mismo. En el próximo artículo de la serie, echaremos un vistazo con más detalle al catálogo de datos y el inventario de los activos de datos disponibles en las empresas.