Hadoop HDFS. Demo Hadoop Windows Azure

Para la correcta realización de esta demo debemos tener una cuenta en hadoopazure.com. En nuestro caso ya disponemos de una luego entramos en la web http://haddoponazure.com. En la Figura 1 vemos en la pantalla principal de administration del cluster, tenemos por un lado las tareas que hemos creado en nuestro clúster y debajo las distintas opciones para configurar nuestro clúster o conectarnos por escritorio remoto.

Figura 1: Pantalla principal administración del cluster

Vamos a conectarnos mediante escritorio remoto a nuestro clúster.Para ello hacemos click sobre el icono de Remote Desktop. Una vez estemos en nuestro clúster, abriremos Internet Explorer, y escribiremos:

http://NuestraIP:50070/ de esta forma accedemos al namenode mediante la interfaz web, el aspecto de lo que veríamos se muestra en la Figura 2.

Desde la interfaz web podemos acceder al sistema de archivos y navegar por los diferentes archivos y carpetas. Acceder a los logs del name node, ver el estado de nuestro cluster y ver los nodos vivos y muertos.

Si editamos el archivo hdfs-site.xml veremos que el factor de replicación esta a 3 (valor por defecto), y tenemos un tamaño de bloque de 256MB. En la Figura 3, se muestra el contenido del archivo hdfs-site.xml

Al navegar entre nuestros directorios podemos verificar que exactamente, el factor de replicación es 3 y el tamaño de bloque es 256MB, ver Figura 4.

En la pantalla principal del Namenode podemos hacer click sobre el enlace Live Nodes, esto nos mostrará una lista de los data nodes disponibles que están asociados al mismo name node:

Figura 5: Lista de Live Nodes (datanodes)

Cada datanode tiene una IP distinta ya que corresponde con máquinas distintas. Podemos navegar entre las distintas máquinas y comprobar qué contiene cada una de ellas.

Vamos a comprobar por ejemplo que el fichero ulysses.txt se encuentra efectivamente replicado 3 veces en distintas máquinas, podemos comprobar que son máquinas distintas por la IP que nos aparece en la barra de direcciones. Fijese, en las Figuras 6, 7 y 8.

Carga de trabajos al sistema de archivos

Para cargar archivos al sistema vamos a hacerlo mediante línea de comandos. En la pantalla de inicial de administración del clúster, hacemos click en Interactive Console. Veremos una pantalla básica para poder ejecutar comandos a nuestro clúster y en concreto al sistema de ficheros HDFS. Ejecutamos el comando ls y vemos que sólo nos muestra un archivo.

Cargamos el fichero WordCount.jar, para ello en línea de comandos escribimos el comando fs.put() y presionamos Intro. Hacemos click en examinar, seleccionar el archivo donde lo tengas almacenado y click en ok y luego en Upload, con estos sencillos pasos se procederá a la carga de nuestro archivo al sistema de archivos de HDFS.

Volvemos a ejecutar #ls y vemos como se ha cargado nuestro archivo:

Figura 10: Visualización de archivos del sistema

Mediante la consola interactiva de comandos podemos crear directorios, borrar ficheros, mover ficheros, renombrar, etc. de nuestro sistema de archivos.

Hasta aquí esta primera visión sobre Hadoop y su entorno en Azure, profundizaremos en nuevos temas en futuros post.

Post relacionados:

Introducción Hadoop Big Data [parte 1]

Introducción Hadoop Big Data [parte 2]

Hadoop HDFS. Almacenamiento y consulta [Parte 1]

Hadoop HDFS. Almacenamiento y consulta [Parte 2]

Hadoop HDFS. Demo Hadoop Windows Azure

Carga de trabajos al sistema de archivos

Verne Team

Deja una respuesta Cancelar la respuesta

SSIS Capturar duplicados en el flujo de datos

SQL Server y los enemigos del paralelismo: Operador TOP

Inaugurando la biblioteca de PowerPivot

Beneficios de contar con un Sistema Gestionado

Columnstore en la vida real

Windows Server Backup

SQL Server y los enemigos del paralelismo: Operador TOP

El impacto de la Inteligencia Artificial

Hadoop HDFS. Demo Hadoop Windows Azure

Carga de trabajos al sistema de archivos

Verne Team

Deja una respuesta Cancelar la respuesta

SSIS Capturar duplicados en el flujo de datos

SQL Server y los enemigos del paralelismo: Operador TOP

You May Also Like