Vamos a continuar con la introducción de Hadoop Big Data, como continuación del anterior post donde empezamos a hablar de ello.

Hasta ahora que hemos visto qué es Hadoop, pero podemos pensar,  muy bien me parece una herramienta muy potente, pero donde lo puedo aplicar? Vamos a ver en qué escenarios se ajusta mejor y en cuáles no.

¿Cuando es Hadoop una buena elección?

  • Cuando debemos procesar grandes cantidades de datos no estructurados
  • Cuando el procesamiento puede ser paralelizado
  • En ejecución por lotes
  • Cuando disponemos de mucho hardware de un coste reducido
  • Análisis de imágenes, audios, archivos logs, análisis flujo clicks en una web, salidas de GPS, sensores de temperatura, videos cámaras de seguridad, salidas de dispositivos médicos, sensores físicos y geo-físicos, etc.

¿Cuándo no es una buena elección?

  • Para cálculos con pequeños datos o sin datos
  • Cuando el procesamiento no puede ser paralelizado
  • Cuando necesitamos interactuar con los resultados
  • Si tienes un stock
  • Para cálculos de secuencias de Fibonacci o cálculos numéricos
  • Para reemplazar RDBMS

Como veis, estamos hablando que Hadoop es una plataforma para el tratamiento de datos a gran escala, archivos de gran tamaño que requieren un procesamiento potente para ser analizados.

Distribución de Microsoft de Hadoop

Hace relativamente poco, Microsoft está luchando por adaptar la plataforma de Hadoop para que sea ejecutada en la nube de Windows Azure y Windows Server. En la Figura 1, se muestra una arquitectura de las posibilidades que nos ofrece esta solución.

La solución Big Data de Microsoft nos ofrece las siguientes características:

  • Distribución basada en Hadoop
  • Conexión en la nube con Windows Azure
  • Integración con herramientas Business Intelligence, SQL Server Analysis Services, SQL Reporting Services y PowerPivot para Excel.
  • Integración con Data Warehouse, conectores Hadoop para conectarse a SQL Server y SQL Server Parallel Data Warehouse.
  • Analizar datos Hadoop en Excel
  • Ejecutar análisis predictivo en Hadoop
Figura 1: Solución Microsoft Big Data
Figura 1: Solución Microsoft Big Data

 

 

Y más en concreto, el framework de Hadoop quedaría interconectado con los componentes de Microsoft Business Intelligence como se ve en la Figura 2.

Figura 2: CTP Microsoft Hadoop
Figura 2: CTP Microsoft Hadoop

 

Esto nos permite una completa integración entre nuestros desarrollos de Business Intelligence y el Framework que nos ofrece Hadoop, utilizando toda su potencia de análisis y agregando más valor a nuestro negocio, por tanto, las organizaciones pueden usar soluciones Microsoft Big Data para obtener un amplio abanico de posibilidades para extraer el máximo jugo a sus datos estructurados y no estructurados.

 

Post publicados anteriormente:

 

0 Shares:
Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

You May Also Like
Leer más

Extraer datos de Twitter desde un servicio creado con Python en Visual Studio 2017

En el post que os traemos hoy vamos a ver como crear (con Visual studio 2017) mediante un script en python un programa que podremos ejecutar como un servicio de windows y que extraiga en tiempo real los twitts relacionados con determinadas palabras o hashtags, los almacene en una base de datos sql server, para luego explotarlos con powerbi. El objetivo de este script es el de conectar al api de streaming de twitter al que le pasaremos una lista de hashtags o terminos y nos devolverá de forma indefinida en tiempo real los twitts que se van publicando que contienen estos terminos.