En este artículo me gustaría compartir con vosotros cuál es mi visión acerca de como abordar proyectos de análisis de datos, y más concretamente sobre el futuro de los Data Warehouse… si es que lo tienen. Sinceramente no se que es lo que le ha dado a cierta parte de la industria con el empeño en matar a los Data Warehouse. Mi opinión personal, es que en el sector existe cierta tendencia a lo “cool”, y nos empeñamos en sustituir determinadas tecnologías o arquitecturas, por otras que en la mayoría de los casos no vienen a sustituir, sino más bien a complementar o resolver determinadas problemas específicos.

¿Podemos seguir trabajando con Datawarehouse?

Como dice el maestro Miguel Egea, “Cuando uno tiene un martillo todo son clavos” y nos olvidamos de que existen tornillos, tuercas, y demás complementos.”

Cuando apareció la aproximación Hadoop, muchos anticipaban que aquello era el fin de los Data Warehouse y los procesos ETL, puesto que la flexibilidad que proporcionaban los procesos ELT (carga que ya darás esquema a los datos cuando los consultes) era imbatible, y ya nadie se iba a plantear costosos procesos ETL con un retorno de la inversión cuestionable (por parte de sus detractores).  Nada más lejos de la realidad. Ya se está hablando de la muerte de Hadoop (utilizando como excusa la fusión entre Cloudera y Hortonworks) y ahí sigue nuestro amigo el Data Warehouse y esos “tediosos” procesos ETL. Algo tendrán, ¿no crees?

No creo que sea necesario bucear demasiado para comprender porque el concepto Data Warehouse junto con los procesos ETL que lo alimentan, no han perdido su importancia, sino que cada día cobran mayor relevancia. Si analizamos cualquier informe de analistas que intenten identificar cuales son las principales preocupaciones de los profesionales del sector, en todos ellos se mencionan como especialmente relevantes aspectos tales como la calidad, el gobierno o la fiabilidad de los datos. Para muestra un botón, y podéis ver en este informe de BARC, “BI Trend Monitor 2019”  lo que os comento, siendo todavía más relevante la importancia que se le da a esos conceptos, por parte de aquellos que BARC considera los “best-in-class”.  Sin embargo, como comentaba anteriormente, esto no es cool. Cuando ves la cara que se les queda, por ejemplo, a los alumnos de los cursos de Machine Learning, cuando les dices que se van a pasar el 90% de su tiempo, limpiando y preparando datos, en lugar de aprenderse infinidad de hiperparémetros o complicados algoritmos, y que la magia no existe, te das cuenta de lo importante que sigue siendo, sino más importante si cabe hoy en día, predicar en la importancia del “cuidado del dato”.

Mi opinión sobre el Data Warehouse y los procesos ETL

Realmente, creo que la aproximación Data Warehouse y sus procesos ETL, estarán todavía con nosotros durante muchos años. Es una arquitectura y aproximación super válida para mantener la verdad del negocio y un histórico del mismo, de forma centralizada, y al mismo tiempo trabajar en algo sumamente importante como es la calidad de dato. Es cierto que hoy en día existen otro tipo de necesidades de análisis de información que no se amoldan bien a esta aproximación, pero no por ello es necesario sustituirlo, sino por el contrario, complementarlo. Si por ejemplo ,por requisitos de negocio necesitamos realizar análisis de datos en tiempo real,  existen otro tipo de arquitecturas que se amoldan mejor a este tipo de escenarios, implementando tecnologías de streaming estructurado, pensadas para tal fin, pero eso no implica que tengamos que olvidarnos de nuestro amigo el Data Warehouse. El resultado de esos análisis de ventanas de tiempo, probablemente nos sirva para complementar los datos que podamos albergar en nuestro Data Warehouse, proporcionando una visión histórica del negocio. Ejemplos como este, podemos comentar decenas de ellos, en los que el Data Warehouse debería de acabar siendo el lugar en el que todos aquellos datos de valor, resultado de todo tipo de “experimentos” se enriquezcan con otra información de negocio que les de contexto y permita realmente obtener la información que se necesita.

Si ya tienes un Data Warehouse, cuídalo, dale cariño y pon valor los datos que allí almacenas. Si todavía no te has animado, o tienes dudas de como hacerlo, llámanos ?

0 Shares:
Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

You May Also Like

Carga de Slowly Changing Dimensions y tabla de Hechos con atributos de Tipo 2 (Parte 2 de 3)

Este es el segundo post de la serie en el que explicaremos como cargar nuestra tabla de Hechos a partir de una dimensión con atributos de Tipo 2, usando dos maneras diferentes, una de ellas será mediante un componente “Look Up” con caché parcial y la otra opción será usando un componente “Merge Join” con un “Conditional Split” para seleccionar el registro que se encuentra en el rango de fechas correcto. Para mas información sobre qué es un atributo de Tipo 2 y sobre como cargar la dimensión que usaremos en este ejemplo puedes consultar el primer post de la serie.
Leer más

Arquitecturas lambda en Azure

Las necesidades de análisis en los diferentes escenarios de negocio se vuelven cada vez más complejas. Dato histórico, dato en tiempo real, dato desde diferentes fuentes, dato predictivo, todo a la vez y en el mismo punto centralizado. ¿Nos hemos vuelto locos? ¿Es imposible? ¿No seremos capaces? Nada de eso, con Azure y una buena planificación conseguiremos una arquitectura con la última tecnología y que, sobre todo, cubre nuestras necesidades de análisis por complejas que sean