Cada día el volumen de datos que se manejan en las empresas es más grande, esto unido a la nube y sus “ilimitados” recursos de computación y almacenaje está haciendo que aparezcan nuevas tendencias en la forma de manejar toda esa información. Hasta tal punto el tema tiene relevancia que en TDWI han publicado un informe referente a este tema y van a tener una conferencia dedicada en exclusiva al análisis de grandes datos.He estado revisando la forma de operar de varias empresas y he llegado a las siguientes conclusiones:

  1. Con respecto al análisis, digamos que hay dos escuelas:
  2. En cuanto al procesamiento, al estar hablando de la nube todos asumen que tiene recursos ilimitados y que pueden procesar casi cualquier cosa por lo que el límite de computación parece que actualmente no existe.
  3. La parte de subidas incrementales de información, en los que explican algo, básicamente consiste en asegurar que vas subiendo en periodos lo suficientemente cortos como para no acumular mucho dato y que no se te genere una cola de datos que no haya forma de subir.
  4. La carga de datos inicial no indican cómo se sube a la nube, solo en el caso de Amazon pero creo que esa aproximación puede ser igual de válida en todos los casos. Para volúmenes pequeños se sube mediante un programita que se encarga de preparar los datos en un formato concreto y que luego se sube via internet y se cargan en el almacén correspondiente. Si los cálculos de subida son muy grandes Amazon te aconseja que se los envíes en un soporte físico a una dirección concreta y con los datos en un formato concreto y ellos se encargan de enchufarlos a su red y subirlos (me parece muy curiosa que sean tan claros en ese aspecto).
    1. Asociación de datos. Está orientado a encontrar y explotar patrones de comportamiento. La base es Hadoop y el algoritmo MapReduce de Google basado en procesamiento paralelo y asociación de cosas, básicamente es lo que usan para su algoritmo de búsqueda para hacerse una idea, hay variedades: HPCC que dice ser mejor (así lo explica en su web) e incluso Microsoft Research tiene el suyo (Dryad). La explotación está basada en lanzar consultas contra la masa de datos que ha sido previamente agregada usando dichos algoritmos, pero no he visto nada en plan acceso gráfico. Desde mi punto de vista está muy ligado a analistas avanzados. Dentro de esta categoría entrarían IBM, Amazon (en realidad Amazon es un simple contenedor en general, aporta recursos, se pueden subir las máquinas virtuales de la tecnología que quieras, aporta algoritmos, etc, pero no da un servicio completo, solo los productos para que tu te montes el puzzle) , HPCC, Opera Solutions y Quantivo.
    2. Procesamiento en memoria. Estilo PowerPivot, almacenamiento en columnas con procesamiento paralelo y una interfaz directa con el usuario (1010Data que se considera un sistema NoSQL) y un concepto de virtual OLAP que comentan en Kognitio. Este último me ha llamado la atención por varias razones: adopta el mismo modelo multidimensional en el que se basa OLAP pero llevándolo a agregaciones y almacenamiento en memoria (de ahí lo de virtual), es decir, utiliza los dos conceptos de Microsoft (Powerpivot y OLAP) pero combinados en un único enfoque y todo esto lo sustenta en un whitepaper que ha escrito uno de nuestros mentores (Mark Whitehorn) ¿curioso cuando menos ,no? y para mas inri, se han asociado con Microstrategy de manera que uno pone el modelo y el otro la interfaz gráfica, me da que vamos a escuchar hablar de esto en breve.

Por parte de Microsoft creo que el enfoque que se está dando en Denali de potenciar el modelo tabular, unido a la explosión comercial de Azure puede que venga dado un poco por estos temas. Veremos que pasa cuando salga Azure Analysis (o como vaya a ser el nombre comercial/en clave) si se inclinarán a un modelo tabular basado en la memoria sin límite de Azure, o si estará enfocado al modelo OLAP basado en el uso infinito de CPU y de almacenamiento.

0 Shares:
Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

You May Also Like

Cazando vampiros de memoria en SQL Server

Visto que el mayor consumo de memoria ocurría en el proceso de SQL Server una de las primeras cosas que solemos revisar es si se encuentra la memoria de la instancia limitada. En este caso se encontraba sin limitar, lo cual puede ser problemático en muchos escenarios.

Primeros pasos: Creación de bases de datos en Apache Hive en HDInsight (en la nube) y paths (rutas – HDFS o WASB)

Anteriormente hemos conectado con la herramienta cliente (CLI) a HDInsight Developer Preview; en esta ocasión vamos a hacerlo directamente en la distribución disponible de HDInsight en Azure. Para crear un cluster de HDInsight en Windows Azure debes seguir los pasos descritos en este enlace. Esta publicación asume que has creado correctamente tu cluster HDInsight en Windows Azure.

Lidiando con Power BI y los límites de Google Analytics

A la hora de realizar informes tirando consultas contra el API de Google Analytics nos encontramos que normalmente, ya sea por prisa o por límites presupuestarios, se hacen informes adhoc en Power BI en modo import, evitando una arquitectura de ETL más canónica, que implicaría por ejemplo, llevar los datos a tablas en SQL Server y realizar cargas incrementales para tener un repositorio centralizado de información. Esta arquitectura podría ser o en la nube o en hardware on-premise. Detallamos algunos problemas comunes al trabajar con Power BI y Google Analytics y algunas soluciones.