Hadoop en Windows Azure (VI): Sqoop

Como ya hemos comentado en un post anterior, Sqoop es un framework open source que permite exportar e importar datos desde cualquier RDBMS y HDFS, y como no, el origen puede ser SQL Server o SQL Azure.

Estas acciones se puede realizar desde línea de comandos, conectándose directamente a la máquina de Hadoop por RDP.

01-Sqoop

Una vez conectados podemos abrir la consola de Hadoop para lanzar los comandos necesarios para importar datos desde una base de datos de SQL Azure.

02-Sqoop

Se establece la variable HIVE_HOME y se lanzan los comandos que queramos, ya está!

Importar desde SQL Azure a HDFS

bin\sqoop.cmd import --connect "jdbc:sqlserver://<servername>.database.windows.net:1433;database=<dbname>;user=<username>@<servername>;password=<password>" --table <from_table> --target-dir <to_hdfs_folder> --split-by <from_table_column>

Exportar desde HDFS a SQL Azure

bin\sqoop.cmd export --connect "jdbc:sqlserver://<servername>.database.windows.net:1433;database=<dbname>;user=<username>@<servername>;password=<password>" --table <to_table> --export-dir <from_hdfs_folder> --input-fields-terminated-by "<delimiter>"

Published 19/4/2012 9:06 por Ibon Landa
Comparte este post:
http://geeks.ms/blogs/ilanda/archive/2012/04/19/hadoop-en-windows-azure-vi-sqoop.aspx