En este artículo me gustaría compartir con vosotros cuál es mi visión acerca de como abordar proyectos de análisis de datos, y más concretamente sobre el futuro de los Data Warehouse… si es que lo tienen. Sinceramente no se que es lo que le ha dado a cierta parte de la industria con el empeño en matar a los Data Warehouse. Mi opinión personal, es que en el sector existe cierta tendencia a lo “cool”, y nos empeñamos en sustituir determinadas tecnologías o arquitecturas, por otras que en la mayoría de los casos no vienen a sustituir, sino más bien a complementar o resolver determinadas problemas específicos.

¿Podemos seguir trabajando con Datawarehouse?

Como dice el maestro Miguel Egea, “Cuando uno tiene un martillo todo son clavos” y nos olvidamos de que existen tornillos, tuercas, y demás complementos.”

Cuando apareció la aproximación Hadoop, muchos anticipaban que aquello era el fin de los Data Warehouse y los procesos ETL, puesto que la flexibilidad que proporcionaban los procesos ELT (carga que ya darás esquema a los datos cuando los consultes) era imbatible, y ya nadie se iba a plantear costosos procesos ETL con un retorno de la inversión cuestionable (por parte de sus detractores).  Nada más lejos de la realidad. Ya se está hablando de la muerte de Hadoop (utilizando como excusa la fusión entre Cloudera y Hortonworks) y ahí sigue nuestro amigo el Data Warehouse y esos “tediosos” procesos ETL. Algo tendrán, ¿no crees?

No creo que sea necesario bucear demasiado para comprender porque el concepto Data Warehouse junto con los procesos ETL que lo alimentan, no han perdido su importancia, sino que cada día cobran mayor relevancia. Si analizamos cualquier informe de analistas que intenten identificar cuales son las principales preocupaciones de los profesionales del sector, en todos ellos se mencionan como especialmente relevantes aspectos tales como la calidad, el gobierno o la fiabilidad de los datos. Para muestra un botón, y podéis ver en este informe de BARC, “BI Trend Monitor 2019”  lo que os comento, siendo todavía más relevante la importancia que se le da a esos conceptos, por parte de aquellos que BARC considera los “best-in-class”.  Sin embargo, como comentaba anteriormente, esto no es cool. Cuando ves la cara que se les queda, por ejemplo, a los alumnos de los cursos de Machine Learning, cuando les dices que se van a pasar el 90% de su tiempo, limpiando y preparando datos, en lugar de aprenderse infinidad de hiperparémetros o complicados algoritmos, y que la magia no existe, te das cuenta de lo importante que sigue siendo, sino más importante si cabe hoy en día, predicar en la importancia del “cuidado del dato”.

Mi opinión sobre el Data Warehouse y los procesos ETL

Realmente, creo que la aproximación Data Warehouse y sus procesos ETL, estarán todavía con nosotros durante muchos años. Es una arquitectura y aproximación super válida para mantener la verdad del negocio y un histórico del mismo, de forma centralizada, y al mismo tiempo trabajar en algo sumamente importante como es la calidad de dato. Es cierto que hoy en día existen otro tipo de necesidades de análisis de información que no se amoldan bien a esta aproximación, pero no por ello es necesario sustituirlo, sino por el contrario, complementarlo. Si por ejemplo ,por requisitos de negocio necesitamos realizar análisis de datos en tiempo real,  existen otro tipo de arquitecturas que se amoldan mejor a este tipo de escenarios, implementando tecnologías de streaming estructurado, pensadas para tal fin, pero eso no implica que tengamos que olvidarnos de nuestro amigo el Data Warehouse. El resultado de esos análisis de ventanas de tiempo, probablemente nos sirva para complementar los datos que podamos albergar en nuestro Data Warehouse, proporcionando una visión histórica del negocio. Ejemplos como este, podemos comentar decenas de ellos, en los que el Data Warehouse debería de acabar siendo el lugar en el que todos aquellos datos de valor, resultado de todo tipo de “experimentos” se enriquezcan con otra información de negocio que les de contexto y permita realmente obtener la información que se necesita.

Si ya tienes un Data Warehouse, cuídalo, dale cariño y pon valor los datos que allí almacenas. Si todavía no te has animado, o tienes dudas de como hacerlo, llámanos ?

0 Shares:
Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

You May Also Like

Expresiones, parámetros y funciones en Azure Data Factory

Hay ocasiones, cuando estamos construyendo pipelines con Azure Data Factory, que queremos repetir patrones para extraer y procesar la información cambiando de manera dinámica, en tiempo de ejecución, valores, orígenes/destinos de los datasets, incluso los mismos linked services. Esto es posible mediante el uso de parámetros, expresiones y funciones. Vamos a ver cómo implementarlo con un ejemplo práctico en el que se nos plantea el siguiente supuesto. Se nos ha pedido que extraigamos todos los días los datos del día anterior de distintas tablas del DW a ficheros en un blob storage que además se nombre como la tabla de origen. Si no pudiéramos utilizar contenido dinámico tendríamos que crear dos datasets (uno de origen y otro de destino) y añadir una actividad de copia por cada tabla a exportar.