En el post anterior vimos como acceder a una tabla de ejemplo almacenada en el cluster de Hadoop Azure, pero, ¿cómo importamos los datos que nosotros queramos?Hadoop Azure ofrece la posibilidad de importar datos desde DataMarket, desde Windows Azure Blob Storage y desde Amazon S3. En este caso vamos a ver como se importarían los datos utilizando como origen DataMarket.
DataMarket de Azure es un mercado online donde podemos comprar y vender conjuntos de datos datos y Software como Servicio (SaaS, Software as a Service). Pero a parte de poder comprar, también ofrece conjuntos de datos que son gratuitos y están al alcance de todos los usuarios.
- Lo primero que debemos hacer es entrar en el data market de azure: http://datamarket.azure.com/ y registrarnos con una cuenta de Windows Live ID.
- Una vez registrados, hacemos click en Datos, situado en la parte superior (ver Imagen 1)
- En el menú de la izquierda hacemos click en Gratis. Veremos un listado de los datos gratuitos a los que tenemos acceso. Para esta demo hemos utilizado los datos Crime in the United States, los buscamos en la lista de Gratis y hacemos click sobre él.
- Al hacer click sobre el conjunto de datos de Crime in the United States, nos aparecerá la siguiente pantalla, como muestra la Imagen 2.
- Hacemos click en el botón de la parte derecha en Registrarse, y en la siguiente pantalla Aceptamos los términos y click sobre Registrarse. Una vez nos hayamos registrado veremos la siguiente pantalla, ver Imagen 3.
- Hacemos click en Explorar este conjunto de datos.
- Se nos abrirá una nueva ventana, y en el menú de la derecha en Consulta, eligiremos CityCrime y haremos click en Generar Consulta. En la parte central de la pantalla veremos ya los resultados de la consulta.
- En el menú de la derecha, hacemos click en Desarrollar y podremos ver la consulta que se ha generado.
- Ahora abrimos una nueva pestaña en el navegador, dejando abierta la pestaña donde tengamos la página de datamarket.
- En la nueva pestaña abrimos el cluster de Hadoop Azure.
- En la pantalla de inicio de nuestro cluster de Hadoop Azure, hacemos click en Manage Cluster.
- Y en la pantalla de Manage Cluster, hacemos click sobre DataMarket (Import data from DataMarket), ver imagen 4.
- Los datos que aparecen en la pantalla de Importar desde DataMarket, los rellenaremos de la siguiente forma:
- UserName: Nombre de usuario (email) con el que os registrasteis en Azure DataMarket
- PassKey: la obtendremos de la página de AzureDataMarket, donde tenemos la consulta a UK Met Office Weather Open Data. (ver figura )
- Query: la obtendremos de la página de AzureDataMarket, donde tenemos la consulta a UK Met Office Weather Open Data. (ver figura )
- Hive Table: Nombre para identificar la tabla, podemos poner el nombre que queramos, pero sin espacios.
Tal y como se muestra en la imagen 5:
Que para aclarar, los datos los hemos obtenido de la página de DataMarket, la PassKey está situada en la parte superior “Clave de la cuenta principal” y la Query corresponde con la consulta de la parte derecha “Dirección URL para la consulta expresada actualmente” (ver imagen 6). Señalar que en la Query, hemos eliminado la parte final de la consulta ($top=100) porque de esa forma sólo importará las 100 primeras filas, y nosotros queremos que importe todos los registros.
En la página del cluster de Hadoop Azure, en Manage Cluster, una vez hayamos rellenado todos los campos, hacemos click en Import Data. Este proceso demorará algunos minutos hasta que se importen los datos a nuestro cluster. Una vez importados se mostrará una pantalla, ver Imangen 7, informado que la operación ha finalizado con éxito.
Tal y como se explicó en el post anterior, una vez se han importado los datos, podemos acceder a nuestra tabla a través de la consola interactiva y desde Excel 2010.
En las Imágenes 8 y 9, se muestra como podemos acceder a la tabla que acabamos de importar a través de la consola interactiva de Hive, y a través de Excel.