En este artículo me gustaría compartir con vosotros cuál es mi visión acerca de como abordar proyectos de análisis de datos, y más concretamente sobre el futuro de los Data Warehouse… si es que lo tienen. Sinceramente no se que es lo que le ha dado a cierta parte de la industria con el empeño en matar a los Data Warehouse. Mi opinión personal, es que en el sector existe cierta tendencia a lo “cool”, y nos empeñamos en sustituir determinadas tecnologías o arquitecturas, por otras que en la mayoría de los casos no vienen a sustituir, sino más bien a complementar o resolver determinadas problemas específicos.

¿Podemos seguir trabajando con Datawarehouse?

Como dice el maestro Miguel Egea, “Cuando uno tiene un martillo todo son clavos” y nos olvidamos de que existen tornillos, tuercas, y demás complementos.”

Cuando apareció la aproximación Hadoop, muchos anticipaban que aquello era el fin de los Data Warehouse y los procesos ETL, puesto que la flexibilidad que proporcionaban los procesos ELT (carga que ya darás esquema a los datos cuando los consultes) era imbatible, y ya nadie se iba a plantear costosos procesos ETL con un retorno de la inversión cuestionable (por parte de sus detractores).  Nada más lejos de la realidad. Ya se está hablando de la muerte de Hadoop (utilizando como excusa la fusión entre Cloudera y Hortonworks) y ahí sigue nuestro amigo el Data Warehouse y esos “tediosos” procesos ETL. Algo tendrán, ¿no crees?

No creo que sea necesario bucear demasiado para comprender porque el concepto Data Warehouse junto con los procesos ETL que lo alimentan, no han perdido su importancia, sino que cada día cobran mayor relevancia. Si analizamos cualquier informe de analistas que intenten identificar cuales son las principales preocupaciones de los profesionales del sector, en todos ellos se mencionan como especialmente relevantes aspectos tales como la calidad, el gobierno o la fiabilidad de los datos. Para muestra un botón, y podéis ver en este informe de BARC, “BI Trend Monitor 2019”  lo que os comento, siendo todavía más relevante la importancia que se le da a esos conceptos, por parte de aquellos que BARC considera los “best-in-class”.  Sin embargo, como comentaba anteriormente, esto no es cool. Cuando ves la cara que se les queda, por ejemplo, a los alumnos de los cursos de Machine Learning, cuando les dices que se van a pasar el 90% de su tiempo, limpiando y preparando datos, en lugar de aprenderse infinidad de hiperparémetros o complicados algoritmos, y que la magia no existe, te das cuenta de lo importante que sigue siendo, sino más importante si cabe hoy en día, predicar en la importancia del “cuidado del dato”.

Mi opinión sobre el Data Warehouse y los procesos ETL

Realmente, creo que la aproximación Data Warehouse y sus procesos ETL, estarán todavía con nosotros durante muchos años. Es una arquitectura y aproximación super válida para mantener la verdad del negocio y un histórico del mismo, de forma centralizada, y al mismo tiempo trabajar en algo sumamente importante como es la calidad de dato. Es cierto que hoy en día existen otro tipo de necesidades de análisis de información que no se amoldan bien a esta aproximación, pero no por ello es necesario sustituirlo, sino por el contrario, complementarlo. Si por ejemplo ,por requisitos de negocio necesitamos realizar análisis de datos en tiempo real,  existen otro tipo de arquitecturas que se amoldan mejor a este tipo de escenarios, implementando tecnologías de streaming estructurado, pensadas para tal fin, pero eso no implica que tengamos que olvidarnos de nuestro amigo el Data Warehouse. El resultado de esos análisis de ventanas de tiempo, probablemente nos sirva para complementar los datos que podamos albergar en nuestro Data Warehouse, proporcionando una visión histórica del negocio. Ejemplos como este, podemos comentar decenas de ellos, en los que el Data Warehouse debería de acabar siendo el lugar en el que todos aquellos datos de valor, resultado de todo tipo de “experimentos” se enriquezcan con otra información de negocio que les de contexto y permita realmente obtener la información que se necesita.

Si ya tienes un Data Warehouse, cuídalo, dale cariño y pon valor los datos que allí almacenas. Si todavía no te has animado, o tienes dudas de como hacerlo, llámanos ?

0 Shares:
Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

You May Also Like
Leer más

Power BI Report Page Tooltips

Mostraremos cómo se pueden crear Toolips personalizados con el objetivo de enriquecer nuestros informes permitiendo que los usuarios tengan acceso a información más detalla, estos "report page tooltips" se definirán en otra hoja y serán fácilmente accedidos solo poniendo el ratón sobre un visual del informe, además con la ventaja que estos tooltips pueden ser re-utilizable para todas las visualizaciones del reporte.
Leer más

Lidiando con Power BI y los límites de Google Analytics

A la hora de realizar informes tirando consultas contra el API de Google Analytics nos encontramos que normalmente, ya sea por prisa o por límites presupuestarios, se hacen informes adhoc en Power BI en modo import, evitando una arquitectura de ETL más canónica, que implicaría por ejemplo, llevar los datos a tablas en SQL Server y realizar cargas incrementales para tener un repositorio centralizado de información. Esta arquitectura podría ser o en la nube o en hardware on-premise. Detallamos algunos problemas comunes al trabajar con Power BI y Google Analytics y algunas soluciones.