Hadoop en Windows Azure (VI): Sqoop

Como ya hemos comentado en un post anterior, Sqoop es un framework open source que permite exportar e importar datos desde cualquier RDBMS y HDFS, y como no, el origen puede ser SQL Server o SQL Azure.

Estas acciones se puede realizar desde línea de comandos, conectándose directamente a la máquina de Hadoop por RDP.

01-Sqoop

Una vez conectados podemos abrir la consola de Hadoop para lanzar los comandos necesarios para importar datos desde una base de datos de SQL Azure.

02-Sqoop

Se establece la variable HIVE_HOME y se lanzan los comandos que queramos, ya está!

Importar desde SQL Azure a HDFS

binsqoop.cmd import –connect "jdbc:sqlserver://<servername>.database.windows.net:1433;database=<dbname>;user=<username>@<servername>;password=<password>" –table <from_table> –target-dir <to_hdfs_folder> –split-by <from_table_column>

Exportar desde HDFS a SQL Azure

binsqoop.cmd export –connect "jdbc:sqlserver://<servername>.database.windows.net:1433;database=<dbname>;user=<username>@<servername>;password=<password>" –table <to_table> –export-dir <from_hdfs_folder> –input-fields-terminated-by "<delimiter>"

Ibon Landa

bon Landa lleva más de 15 años dedicado al desarrollo de software. Durante este tiempo ha trabajado en diferentes empresas en las cuáles ha podido trabajar en diferentes entornos y tecnologías. Actualmente está focalizado principalmente en tareas de desarrollo, arquitectura, en las herramientas del ciclo de vida y en todo lo relacionado con la plataforma de Cloud Computing Microsoft Azure, área en el que ha sido reconocido como MVP. Participa de forma activa en la comunidad, escribiendo su blog, manteniendo un portal sobre Microsoft Azure y colaborando con Microsoft y grupos de usuarios en eventos de formación, talleres y giras de producto.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *