Cuando llevamos un tiempo trabajando con procesos ETL vamos detectando una serie de patrones en ciertos procesos que se repiten con bastante frecuencia. Procesos como sincronizar tablas, integrar tablas iguales de diferentes bases de datos en una centralizada, carga de tablas de dimensiones sencillas, cargas de tablas de hechos, etc.

Al final de cada una de ellas tenemos un patrón repetitivo, utilizamos siempre las mismas transormaciones y pipeline, tienen la misma estructura, simplemente cambiamos los valores de muchas de sus propiedades (select al origen, columnas de la tabla, mayor o menor número de lookups o merge join, más o menos columnas en las comparaciones, etc.). En esta sesión veremos cómo podemos automatizar la generación de estos paquetes de los que ya hemos detectado un patrón y cómo implementar nuevas versiones que incluyan nuevos patrones que vayamos identificando.

Presentación realizada en el SolidQ Summit por: Salvador Ramos

[slideshare id=43619103&doc=ssis-automatizarprocesosetl-150117135606-conversion-gate01&h=495&w=595]

 


  • Automatizar los procesos de carga ¿Qué es y qué no es automatizable? Alfonso Carreira DPS | acarreira@solidq.com Microsoft MAP, MCSE: Business Intelligence @salvador_ramos Salvador Ramos Mentor y director de formación | sramos@solidq.com SQL Server MVP, MCSE: Business Intelligence #SQSummit
  • COMUNICADO EN CUMPLIMIENTO CON LA LEY 15/1999 DE PROTECCION DE DATOS DE CARÁCTER PERSONAL, PONEMOS EN TU CONOCIMIENTO QUE ESTA SESIÓN VA A SER GRABADA POR SOLIDQ Y QUE ESTA GRABACIÓN PODRÍA SER UTILIZADA COMO MATERIAL DE MARKETING Y HACERSE PUBLICA A TRAVÉS DE DIVERSOS MEDIOS, COMO POR EJEMPLO NUESTRA PAGINA WEB. TENIENDO EN CUENTA QUE TU IMAGEN PUEDE APARECER EN ESA GRABACIÓN, SI NO DESEAS APARECER, ROGAMOS NOS LO COMUNIQUES POR LOS MEDIOS QUE YA CONOCES. 2
  • El día a día con el ETL ¿Cómo comenzamos? “Te ha tocado” Nuevo proyecto / empresa Manteniendo proyectos existentes Manos a la obra 4
  • El día a día con el ETL Crear Paquete A producción Ejecución periódica Mantener ¿Ha fallado algo? 5
  • El día a día del ETL 6
  • El día a día del ETL Cada vez Más paquetes Más incidencias Más urgencias 7
  • ¿Y ahora qué? Abstraerse del día a día 8
  • Revisando la situación 9
  • Encontrando patrones 10
  • Estudiando cada patrón 11
  • Buscando solución técnica SSIS Definimos normas a seguir Hacemos plantillas Poner aquí imagen de plantilla de Workflow y dataflow (ver con Alfonso) 12
  • ¿Cómo lo estáis haciendo? 13
  • ¿Cómo lo estáis haciendo? ¿Sólo Plantillas = reutilización con copy/paste? 14
  • ¿Cómo lo estáis haciendo? … Y si quiero implementar una mejora en un patrón … pero tengo decenas/centenas de paquetes con ese patrón en producción … 15
  • Nuestra propuesta Automatizar los patrones más habituales Valoraremos el esfuerzo de automatizar versus hacer N paquetes muy similares a mano, y “mantenerlos” 16
  • Patrón: Sincronizar tablas 17 Tabla1 Tabla1
  • Patrón: Carga Staging Incremental Con/Sin historial de Insert/Update/Delete Con/Sin loggin y auditoría 18
  • DEMO 19
  • Patrón: Carga de Dimensiones Incremental Slowly Changing Dimensions (SCD) 20
  • DEMO 21
  • Patrón: Carga de Hechos Incremental Con/Sin actualizaciones 22
  • DEMO 23
  • Patrón: Carga de Archivos Incremental Multiples archivos Historial y auditoría Trazabilidad Relanzamiento ante errores Ficheros completos / sólo filas 24
  • DEMO 25
  • Conclusiones Mayor inversión inicial Retorno inmediato Rápida producción Menos mantenimiento Facilidad para cambios masivos 26
  • 28 Power BI para usuarios de negocio Curso online Clases virtuales presenciales 14, 15, 16, 21, 22 y 23 de Julio De 16 a 20 h Máster en BI 4ª Edición (Inicio Octubre 2014) – Clases presenciales virtuales – 450 horas (60 ECTS) – SolidQ – UPM – Clases + trabajo práctico + proyecto – Beca de hasta 1.300 € para los primeros inscritos. 28 Máster en Big Data & Analytics 1ª Edición (Inicio Octubre 2014) – Clases presenciales virtuales – 1 año (60 ECTS) UMA – Clases + trabajo práctico + proyecto Información e inscripción: http://university.solidq.com / ibinfo@solidq.com
  • Si quieres disfrutar de las mejores sesiones de nuestros mentores de España y Latino América, ésta es tu oportunidad. http://summit.solidq.com Síguenos: 29
0 Shares:
Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

You May Also Like

Primeros pasos: Creación de bases de datos en Apache Hive en HDInsight (en la nube) y paths (rutas – HDFS o WASB)

Anteriormente hemos conectado con la herramienta cliente (CLI) a HDInsight Developer Preview; en esta ocasión vamos a hacerlo directamente en la distribución disponible de HDInsight en Azure. Para crear un cluster de HDInsight en Windows Azure debes seguir los pasos descritos en este enlace. Esta publicación asume que has creado correctamente tu cluster HDInsight en Windows Azure.

Carga de Slowly Changing Dimensions y tabla de Hechos con atributos de Tipo 2 (Parte 2 de 3)

Este es el segundo post de la serie en el que explicaremos como cargar nuestra tabla de Hechos a partir de una dimensión con atributos de Tipo 2, usando dos maneras diferentes, una de ellas será mediante un componente “Look Up” con caché parcial y la otra opción será usando un componente “Merge Join” con un “Conditional Split” para seleccionar el registro que se encuentra en el rango de fechas correcto. Para mas información sobre qué es un atributo de Tipo 2 y sobre como cargar la dimensión que usaremos en este ejemplo puedes consultar el primer post de la serie.