Como ya comentaba en los post anteriores, a través de https://www.hadooponazure.com/ y bajo invitación es posible acceder al servicio que Microsoft ofrece Hadoop sobre Windows Azure, lo que posibilita al usuario tener un cluster de Hadoop en cuestión de pocos minutos.
Una dentro del servicio el primer paso es aprovisionar el cluster de Hadoop; hay que indicar un nombre único, las características y las credenciales de acceso al mismo. En pocos minutos tendrás tu cluster!
Una vez el cluster está creado tendremos acceso a toda la funcionalidad que el servicio ofrece:
- Crear jobs (MapReduce)
- Consola intereactiva para trabajar con Javascript o Hive.
- Acceso por RDP al cluster.
- Configurar los puertos para permitir acceso por ODBC y FTP.
- Realizar labores de administración.
- etc….
Uno de los puntos interesantes en este momento es la sección de ejemplos, la cuál nos va a permitir empezar poco a poco a conocer cómo funciona Hadoop.
En este post, a modo de ejemplo, estoy usando “10GB GraySort”, el cuál carga información en Hadoop y posteriormente lanza una serie de tareas para el procesamiento. A continuación os pongo paso a paso cómo es posible ejecutar el ejemplo y ver lo que hace, aunque claro está, lo suyo es ir entendiendo realmente lo que hace y por qué lo hace. Poco a poco 🙂
Crear el job.
Estado del job.
Una vez ejecutado, podemos ver el histórico del mismo.
Podemos acceder por RDP directamente al cluster de Hadoop.