¿Está Muerto El Datawarehouse?

En este artículo me gustaría compartir con vosotros cuál es mi visión acerca de como abordar proyectos de análisis de datos, y más concretamente sobre el futuro de los Data Warehouse… si es que lo tienen. Sinceramente no se que es lo que le ha dado a cierta parte de la industria con el empeño en matar a los Data Warehouse. Mi opinión personal, es que en el sector existe cierta tendencia a lo “cool”, y nos empeñamos en sustituir determinadas tecnologías o arquitecturas, por otras que en la mayoría de los casos no vienen a sustituir, sino más bien a complementar o resolver determinadas problemas específicos.

¿Podemos seguir trabajando con Datawarehouse?

Como dice el maestro Miguel Egea, “Cuando uno tiene un martillo todo son clavos” y nos olvidamos de que existen tornillos, tuercas, y demás complementos.”

Cuando apareció la aproximación Hadoop, muchos anticipaban que aquello era el fin de los Data Warehouse y los procesos ETL, puesto que la flexibilidad que proporcionaban los procesos ELT (carga que ya darás esquema a los datos cuando los consultes) era imbatible, y ya nadie se iba a plantear costosos procesos ETL con un retorno de la inversión cuestionable (por parte de sus detractores). Nada más lejos de la realidad. Ya se está hablando de la muerte de Hadoop (utilizando como excusa la fusión entre Cloudera y Hortonworks) y ahí sigue nuestro amigo el Data Warehouse y esos “tediosos” procesos ETL. Algo tendrán, ¿no crees?

No creo que sea necesario bucear demasiado para comprender porque el concepto Data Warehouse junto con los procesos ETL que lo alimentan, no han perdido su importancia, sino que cada día cobran mayor relevancia. Si analizamos cualquier informe de analistas que intenten identificar cuales son las principales preocupaciones de los profesionales del sector, en todos ellos se mencionan como especialmente relevantes aspectos tales como la calidad, el gobierno o la fiabilidad de los datos. Para muestra un botón, y podéis ver en este informe de BARC, “BI Trend Monitor 2019” lo que os comento, siendo todavía más relevante la importancia que se le da a esos conceptos, por parte de aquellos que BARC considera los “best-in-class”. Sin embargo, como comentaba anteriormente, esto no es cool. Cuando ves la cara que se les queda, por ejemplo, a los alumnos de los cursos de Machine Learning, cuando les dices que se van a pasar el 90% de su tiempo, limpiando y preparando datos, en lugar de aprenderse infinidad de hiperparémetros o complicados algoritmos, y que la magia no existe, te das cuenta de lo importante que sigue siendo, sino más importante si cabe hoy en día, predicar en la importancia del “cuidado del dato”.

Mi opinión sobre el Data Warehouse y los procesos ETL

Realmente, creo que la aproximación Data Warehouse y sus procesos ETL, estarán todavía con nosotros durante muchos años. Es una arquitectura y aproximación super válida para mantener la verdad del negocio y un histórico del mismo, de forma centralizada, y al mismo tiempo trabajar en algo sumamente importante como es la calidad de dato. Es cierto que hoy en día existen otro tipo de necesidades de análisis de información que no se amoldan bien a esta aproximación, pero no por ello es necesario sustituirlo, sino por el contrario, complementarlo. Si por ejemplo ,por requisitos de negocio necesitamos realizar análisis de datos en tiempo real, existen otro tipo de arquitecturas que se amoldan mejor a este tipo de escenarios, implementando tecnologías de streaming estructurado, pensadas para tal fin, pero eso no implica que tengamos que olvidarnos de nuestro amigo el Data Warehouse. El resultado de esos análisis de ventanas de tiempo, probablemente nos sirva para complementar los datos que podamos albergar en nuestro Data Warehouse, proporcionando una visión histórica del negocio. Ejemplos como este, podemos comentar decenas de ellos, en los que el Data Warehouse debería de acabar siendo el lugar en el que todos aquellos datos de valor, resultado de todo tipo de “experimentos” se enriquezcan con otra información de negocio que les de contexto y permita realmente obtener la información que se necesita.

Si ya tienes un Data Warehouse, cuídalo, dale cariño y pon valor los datos que allí almacenas. Si todavía no te has animado, o tienes dudas de como hacerlo, llámanos ?

¿Está muerto el Datawarehouse?

¿Podemos seguir trabajando con Datawarehouse?

Mi opinión sobre el Data Warehouse y los procesos ETL

Verne Team

Deja una respuesta Cancelar la respuesta

El RGPD y la anonimización mediante HASH

La importancia de la validación de datos pt.1

Manipulando documentos InfoPath

SSIS 2008 Paralelismo con Balanced Data Distributor

Webcast solución de problemas de rendimiento en SQL Server

Dashboards en SQL Server Integration Services 2012

¡Danos tus datos! Windows Azure Marketplace DataMarket y la iniciativa Open Government Data

Optimiza consultas like con SQLCLR

¿Está muerto el Datawarehouse?

¿Podemos seguir trabajando con Datawarehouse?

Mi opinión sobre el Data Warehouse y los procesos ETL

Verne Team

Deja una respuesta Cancelar la respuesta

El RGPD y la anonimización mediante HASH

La importancia de la validación de datos pt.1

You May Also Like