Según el informe de Forrester sobre descubrimiento de datos y clasificación (2020), “Esta es una capacidad fundamental que debe desarrollar para optimizar sus esfuerzos de seguridad, privacidad y cumplimiento. No puede proteger lo que no sabe que tiene”.
Proceso de clasificación de datos
En el marco de trabajo del gobierno del dato en las empresas, el mapeo y la clasificación consiste en asignar determinadas categorías a datos y conjuntos de datos corporativos en base a un conjunto específico de reglas, de acuerdo a la naturaleza y características de su organización.
Estas reglas están basadas en factores que permiten tratar los datos en las aplicaciones finales, y deben tener en cuenta, por ejemplo, el nivel de sensibilidad, el tipo de datos, la ubicación de los datos y el personal que puede acceder a los mismos, entre otros calificadores personalizables.
Comprender completamente qué tipos de datos se almacenan, cuántos datos se han retenido y la ubicación de esos datos es vital para mantener una organización alineada por un lado con los objetivos de la empresa y con el cumplimiento de estándares de seguridad.
Factores a tener en cuenta en la clasificación
Hay cientos de criterios para clasificar los datos de su empresa, pero hay tres factores clave que son de vital importancia en cualquier aproximación formal al gobierno del dato.
Mantenimiento de la integridad de los datos
La integridad del dato es una propiedad que puede afectar de forma negativa a los objetivos de la empresa cuando no podemos tener garantía de la misma.
Sin integridad no podemos tener confianza ni confiabilidad en ningún sistema que utilice esos datos y, por lo tanto, invalidaría tanto el hecho de disponer de un marco de trabajo de gobierno del dato, como el proceso de utilización o explotación de los datos.
Por lo tanto, en los procesos de mapeo y clasificación, prestaremos especial cuidado en garantizar la precisión, seguridad, completitud y fiabilidad de los datos, lo que implica tener una fuente única de verdad a partir de la cual podamos reconstruir en cualquier momento un “procesamiento” de los datos para su posterior consumo.
La característica de integridad de los datos también abarca el aspecto de cumplimiento de normativas y regulaciones de los datos.
Como estamos viendo en los últimos años, las normativas gubernamentales y de la industria se adaptan constantemente, imponiendo restricciones cada vez más específicas y fuertes sanciones financieras, como GDPR y CCPA. El incumplimiento de las mismas podría dar lugar a sanciones.
Gartner predice que “para 2023, el 65% de la población mundial tendrá su información personal cubierta por las regulaciones de privacidad, en comparación con el 10% actual”.
Identifica y aplica un marco común de clasificación
Tener una estrategia de clasificación de datos proporciona a una organización un marco de referencia para la clasificación de sus activos de datos.
Esto establece un proceso interno de comunicación entre datos y fuentes de datos, que se define mediante un conjunto de reglas, procedimientos y análisis a realizar.
Un marco de clasificación asegura que está clasificando sus datos según los criterios y regulaciones de privacidad adecuados, de modo que esté preparado para cualquier auditoría regulatoria.
Durante el proceso de clasificación, sus datos no estructurados se clasificarán teniendo en cuenta múltiples almacenes o repositorios diferentes, capas de nivel de refinamiento del dato (raw, bronce, plata, oro, platino, son algunos ejemplos típicos para representar el nivel de refinamiento de los datos).
Dos de las categorías más comunes incluyen datos redundantes u obsoletos/ datos desactualizados, que constituyen más del 80% de los datos no estructurados que aparecen en el entorno de un cliente, según Gartner.
La otra categoría son los datos de sensibles, que son datos que incluyen información de carácter personal o que permite la identificación de personas y su marco de clasificación deberá proteger desde el mismo momento de mapeo y clasificación.
Protección de los datos confidenciales
El tercer criterio esencial que debe contemplar en sus procesos de clasificación es la protección de los datos sensibles, así como el período de tiempo en que aplican estos niveles de sensibilidad.
Los datos sensibles incluyen datos de identificación personal (PII) o cualquier tipo de información que pueda rastrearse hasta la identificación de un individuo específico.
Algunos ejemplos de estos datos incluyen nombre, dirección, información de la tarjeta de crédito, números de seguro social, etc.
Con la ayuda de la clasificación de datos, las empresas podrán categorizar este tipo de datos, almacenarla en una ubicación donde tenga la mayor seguridad posible y asegurar la información para que esté protegida de forma constante con una solución de tipo Data Leak Prevention (DLP).
La clasificación de datos es un proceso esencial para una estrategia de gobierno de datos completa.
Gartner predice que “hasta 2025, el 80% de las organizaciones que buscan escalar los negocios digitales fracasarán por no adoptar un enfoque moderno para el gobierno y el análisis de los datos “.
Para mantener el cumplimiento, la seguridad y el conocimiento, es esencial comprender las características y el uso de sus datos dentro y fuera de la organización.
Cómo clasificar sus datos de forma efectiva
A la hora de poner en marcha el proceso de clasificación de datos, conviene tener en cuenta las siguientes consideraciones o líneas de actuación.
- Volumetría y nivel de uso de sus datos. Cuántos datos tiene su organización y cuántos utiliza en procesos de analítica o gestión del conocimiento.
- Minimizar la copia intermedia de datos, para poder reconstruir en caso necesario el dato a partir de la fuente de verdad o dato original.
- La solución de gobierno del dato y los procesos y herramientas de clasificación, deben ser capaces de interactuar con las diferentes aplicaciones o fuentes de información.
- El equipo de gobierno del dato y el soporte deben tenerse en cuenta en los modelos operativos de la empresa, proporcionando servicios 24×7 para la corrección de problemas con los datos.
- En un escenario cada vez más globalizado, la clasificación de datos deberá tener en cuenta la deslocalización de los mismos o la presencia de conjuntos de datos con requisitos regionales particulares.
Caso práctico con Azure Purview
Azure Purview es un servicio de gobierno de datos proporcionado por Microsoft, que le ayuda a administrar y controlar los datos locales (on-premises), multi-nube y de software como servicio (SaaS).
Este conjunto de herramientas para el gobierno del dato le permite crear un mapa holístico actualizado del panorama de sus datos con detección automatizada de datos de diferentes fuentes (mapeo), clasificación de datos confidenciales (y añadir sus propias clasificaciones) y realizar un seguimiento del linaje de datos de extremo a extremo.
La clasificación de datos en Azure Purview incorpora una serie de clasificaciones pregerminadas que ya están disponibles y que son capaces de detectar datos como los DNI españoles, los números de la seguridad social, datos de cuentas bancarias o de tarjetas de crédito… directamente sobre sus datos de origen.
El proceso automatizado de clasificación de datos le muestra un reporte visual de la clasificación realizada, que le permitirá ajustar, en caso necesario, los criterios y reglas de clasificación.
A la hora de crear sus propios criterios de clasificación, puede utilizar expresiones regulares para definir los criterios que aplicará su propio clasificador personalizado en caso de que no haya uno disponible que se adecúe a sus requisitos iniciales.
Como ejemplo de mapeo de sus orígenes de datos en Azure, si en su datalake tiene datos de SAP con esta estructura.
Podría crear conjuntos de recursos de mapeo con esta regla.
A continuación, un ejemplo de regla de clasificación utilizando expresiones regulares en Azure PurView.
En el ejemplo creamos primero una clasificación VerneTech.Demos.SocialData y luego una regla de clasificación para detectar nombres de Twitter (Twitter Handle) en archivos o datos de nuestras fuentes.
Como hemos podido comprobar, Azure PurView le ayuda a implementar tanto el mapeo de datos de sus diferentes fuentes de datos, locales, en Cloud o en servicios SaaS, como a clasificar los datos utilizando un amplio conjunto de clasificadores predefinidos para múltiples países, como definir sus propios clasificadores que podrán formar parte de su marco de trabajo de clasificación.
Conclusión
Una vez que tenemos un plan piloto de adopción del gobierno de dato, uno de los primeros procesos que vamos a implementar para realizar pruebas y para ir construyendo nuestro marco de trabajo de gobierno de datos, es el mapeo y clasificación. En este artículo hemos comentado el proceso, los factores a tener en cuenta, cómo realizar la clasificación y hemos visto un ejemplo con Azure Purview para crear nuestras propias clasificaciones además de los cientos de clasificaciones que la propia herramienta ya incorpora de serie.