<?xml version="1.0" encoding="UTF-8" ?>
<?xml-stylesheet type="text/xsl" href="http://geeks.ms/utility/FeedStylesheets/rss.xsl" media="screen"?><rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/" xmlns:wfw="http://wellformedweb.org/CommentAPI/"><channel><title>Yo sólo pasaba por aquí pero ya que estoy.... : Hadoop</title><link>http://geeks.ms/blogs/ilanda/archive/tags/Hadoop/default.aspx</link><description>Etiquetas: Hadoop</description><dc:language>en</dc:language><generator>CommunityServer 2008.5 SP1 (Build: 31106.3070)</generator><item><title>Big Data Spain</title><link>http://geeks.ms/blogs/ilanda/archive/2012/10/18/big-data-spain.aspx</link><pubDate>Thu, 18 Oct 2012 20:39:37 GMT</pubDate><guid isPermaLink="false">2a2e7ade-7474-448b-9de5-1515d8bb7d1b:207169</guid><dc:creator>Ibon Landa</dc:creator><slash:comments>0</slash:comments><wfw:commentRss xmlns:wfw="http://wellformedweb.org/CommentAPI/">http://geeks.ms/blogs/ilanda/rsscomments.aspx?PostID=207169</wfw:commentRss><comments>http://geeks.ms/blogs/ilanda/archive/2012/10/18/big-data-spain.aspx#comments</comments><description>&lt;p&gt;El próximo 16 noviembre se celebrará en Madrid la primera conferencia de &lt;a href="http://www.bigdataspain.org/"&gt;Big Data Spain&lt;/a&gt;; Hadoop, Cassandra, MongoDB, BigQuery, Azure….&lt;/p&gt;  &lt;p&gt;Se trata de un evento sobre &lt;strong&gt;Big Data&lt;/strong&gt; en cual colabora múltiples comunidades de desarrolladores hispanos, entre ellas grupos como Artalde.NET o Mad.NUG. &lt;/p&gt;  &lt;p&gt;El evento tendrá numerosos ponentes internaciones y otros tantos nacionales. Algunas sesiones serán en inglés, aunque existirá traducción simultánea.&lt;/p&gt;  &lt;p&gt;En la web del evento (&lt;a title="http://www.bigdataspain.org" href="http://www.bigdataspain.org"&gt;http://www.bigdataspain.org&lt;/a&gt;) podéis ver todas las sesiones en detalle, los ponentes y si así lo consideráis, comprar una entrada para el evento.&lt;/p&gt;  &lt;p&gt;En la parte personal participaré junto con &lt;a href="http://geeks.ms/blogs/palvarez/"&gt;Pablo Doval&lt;/a&gt; en una sesión; “&lt;strong&gt;&lt;a href="http://www.bigdataspain.org/es-2012/conference/building-a-heterogeneous-hadoop-olap-system-with-microsoft-bi-stack/pablo-doval-and-ibon-landa"&gt;Construir un sistema Hadoop-OLAP heterogéneo con microsoft BI Stack&lt;/a&gt;”&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;Espero veros por el evento!&lt;/p&gt;&lt;div style="clear:both;"&gt;&lt;/div&gt;&lt;img src="http://geeks.ms/aggbug.aspx?PostID=207169" width="1" height="1"&gt;</description><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Windows+Azure/default.aspx">Windows Azure</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Hadoop/default.aspx">Hadoop</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/SQL+Server+2012/default.aspx">SQL Server 2012</category></item><item><title>Big Data Spain: Call for sessions</title><link>http://geeks.ms/blogs/ilanda/archive/2012/07/03/big-data-spain-call-for-sessions.aspx</link><pubDate>Tue, 03 Jul 2012 10:56:13 GMT</pubDate><guid isPermaLink="false">2a2e7ade-7474-448b-9de5-1515d8bb7d1b:205948</guid><dc:creator>Ibon Landa</dc:creator><slash:comments>2</slash:comments><wfw:commentRss xmlns:wfw="http://wellformedweb.org/CommentAPI/">http://geeks.ms/blogs/ilanda/rsscomments.aspx?PostID=205948</wfw:commentRss><comments>http://geeks.ms/blogs/ilanda/archive/2012/07/03/big-data-spain-call-for-sessions.aspx#comments</comments><description>&lt;p&gt;El próximo 16 noviembre se celebrará en Madrid la primera conferencia de Big Data Spain. &lt;/p&gt;  &lt;p&gt;Se trata de un evento sobre &lt;strong&gt;Big Data&lt;/strong&gt; en cual colabora múltiples comunidades de desarrolladores hispanos, entre ellas grupos como Artalde.NET o Mad.NUG. &lt;/p&gt;  &lt;p&gt;Si estáis interesados en tener más información o proponer &lt;a href="http://www.bigdataspain.org/Call-for-sessions-BigDataSpain-2012-EN.pdf"&gt;algún sesión aquí podéis ver la información&lt;/a&gt;.&lt;/p&gt;  &lt;p&gt;En breve estará online la web del evento. De momento podéis seguir el evento a través de la cuenta de Twitter ; &lt;a href="https://twitter.com/#!/bigdataspain"&gt;@BigDataSpain&lt;/a&gt;.&lt;/p&gt;&lt;div style="clear:both;"&gt;&lt;/div&gt;&lt;img src="http://geeks.ms/aggbug.aspx?PostID=205948" width="1" height="1"&gt;</description><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Big+Data/default.aspx">Big Data</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Hadoop/default.aspx">Hadoop</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/SQL+Server+2012/default.aspx">SQL Server 2012</category></item><item><title>Introducción a BI con tecnologías Microsoft</title><link>http://geeks.ms/blogs/ilanda/archive/2012/06/12/introducci-243-n-a-bi-con-tecnolog-237-as-microsoft.aspx</link><pubDate>Tue, 12 Jun 2012 10:44:12 GMT</pubDate><guid isPermaLink="false">2a2e7ade-7474-448b-9de5-1515d8bb7d1b:205584</guid><dc:creator>Ibon Landa</dc:creator><slash:comments>0</slash:comments><wfw:commentRss xmlns:wfw="http://wellformedweb.org/CommentAPI/">http://geeks.ms/blogs/ilanda/rsscomments.aspx?PostID=205584</wfw:commentRss><comments>http://geeks.ms/blogs/ilanda/archive/2012/06/12/introducci-243-n-a-bi-con-tecnolog-237-as-microsoft.aspx#comments</comments><description>&lt;p&gt;El otro día mi compañero &lt;a href="http://geeks.ms/blogs/palvarez"&gt;Pablo Doval&lt;/a&gt; dio un WebCast con la gente de &lt;a href="http://www.itpro.es"&gt;ITPro.es&lt;/a&gt; dónde dieroon un buen repaso a las diferentes tecnologías Microsoft en el área de BI.&lt;/p&gt;  &lt;p&gt;Aquí os dejo el video por si os interesa:&lt;/p&gt; &lt;iframe height="315" src="http://www.youtube.com/embed/6_JsB91sspA" frameborder="0" width="420"&gt;&lt;/iframe&gt;&lt;div style="clear:both;"&gt;&lt;/div&gt;&lt;img src="http://geeks.ms/aggbug.aspx?PostID=205584" width="1" height="1"&gt;</description><category domain="http://geeks.ms/blogs/ilanda/archive/tags/SQL+Server/default.aspx">SQL Server</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Big+Data/default.aspx">Big Data</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Hadoop/default.aspx">Hadoop</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/SQL+Server+2012/default.aspx">SQL Server 2012</category></item><item><title>Registro abierto para el SQL Server Tour Madrid</title><link>http://geeks.ms/blogs/ilanda/archive/2012/06/12/registro-abierto-para-el-sql-server-tour-madrid.aspx</link><pubDate>Tue, 12 Jun 2012 10:33:16 GMT</pubDate><guid isPermaLink="false">2a2e7ade-7474-448b-9de5-1515d8bb7d1b:205583</guid><dc:creator>Ibon Landa</dc:creator><slash:comments>2</slash:comments><wfw:commentRss xmlns:wfw="http://wellformedweb.org/CommentAPI/">http://geeks.ms/blogs/ilanda/rsscomments.aspx?PostID=205583</wfw:commentRss><comments>http://geeks.ms/blogs/ilanda/archive/2012/06/12/registro-abierto-para-el-sql-server-tour-madrid.aspx#comments</comments><description>&lt;p&gt;Como ya os comenté anteriormente desde &lt;a href="http://www.plainconcepts.com"&gt;Plain Concepts&lt;/a&gt; estamos realizando una serie de eventos gratuitos sobre &lt;strong&gt;SQL Server 2012&lt;/strong&gt;, principalmente centrado de temas de &lt;strong&gt;escalabilidad, bussiness intelligence y Big Data.&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;Toda la información, agenda y registro la podéis encontrar aquí; &lt;a href="http://www.plainconcepts.com/SQLServerTour/"&gt;http://www.plainconcepts.com/SQLServerTour/&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;Para la sesión de Madrid tuvimos que cerrar el registro porque nos quedamos sin aforo, pero finalmente tendremos una sala más grande…incluso de más :-)&lt;/p&gt;  &lt;p&gt;&lt;strong&gt;Eso sí, el evento es mañana miércoles, día 13 de junio.&lt;/strong&gt; &lt;/p&gt;  &lt;p&gt;Si estás interesado, estás a tiempo de venir. &lt;a title="https://msevents.microsoft.com/CUI/EventDetail.aspx?EventID=1032513290&amp;amp;Culture=es-ES" href="https://msevents.microsoft.com/CUI/EventDetail.aspx?EventID=1032513290&amp;amp;Culture=es-ES"&gt;https://msevents.microsoft.com/CUI/EventDetail.aspx?EventID=1032513290&amp;amp;Culture=es-ES&lt;/a&gt;&amp;#160;&lt;/p&gt;  &lt;p&gt;&lt;strong&gt;Agenda:&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;09:30 - 10:15 Novedades SQL Server 2012&lt;/p&gt;  &lt;p&gt;10:15 - 11:00 Escalabilidad y disponibilidad: Always On&lt;/p&gt;  &lt;p&gt;11:00 - 11:15 Café &lt;/p&gt;  &lt;p&gt;11:15 - 12:00 Gestión de la Calidad y Versionado de Datos: DQS y MDS&lt;/p&gt;  &lt;p&gt;12:00 - 13:00 Optimización de Cargas Masivas de Datos&lt;/p&gt;  &lt;p&gt;13:00 - 14:00 Comida&lt;/p&gt;  &lt;p&gt;14:00 - 15:30 BISM y PowerView&lt;/p&gt;  &lt;p&gt;15:30 - 17:00 Big Data: Apache Hadoop, Hadoop on Azure y SQL Server 2012&lt;/p&gt;  &lt;p&gt;Y sino siempre nos puede seguir por Twitter; #SQLTour&lt;/p&gt;&lt;div style="clear:both;"&gt;&lt;/div&gt;&lt;img src="http://geeks.ms/aggbug.aspx?PostID=205583" width="1" height="1"&gt;</description><category domain="http://geeks.ms/blogs/ilanda/archive/tags/SQL+Server/default.aspx">SQL Server</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Big+Data/default.aspx">Big Data</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Hadoop/default.aspx">Hadoop</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/SQL+Server+2012/default.aspx">SQL Server 2012</category></item><item><title>Plain Concepts SQL Server Tour</title><link>http://geeks.ms/blogs/ilanda/archive/2012/05/08/plain-concepts-sql-server-tour.aspx</link><pubDate>Tue, 08 May 2012 10:05:34 GMT</pubDate><guid isPermaLink="false">2a2e7ade-7474-448b-9de5-1515d8bb7d1b:204923</guid><dc:creator>Ibon Landa</dc:creator><slash:comments>0</slash:comments><wfw:commentRss xmlns:wfw="http://wellformedweb.org/CommentAPI/">http://geeks.ms/blogs/ilanda/rsscomments.aspx?PostID=204923</wfw:commentRss><comments>http://geeks.ms/blogs/ilanda/archive/2012/05/08/plain-concepts-sql-server-tour.aspx#comments</comments><description>&lt;p&gt;Desde &lt;a href="http://www.plainconcepts.com"&gt;Plain Concepts&lt;/a&gt; vamos a realizar una serie de eventos gratuitos sobre &lt;strong&gt;SQL Server 2012&lt;/strong&gt;, principalmente centrado de temas de &lt;strong&gt;escalabilidad, bussiness intelligence y Big Data.&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;Los eventos serán en Bilbao (29 de mayo), Barcelona (11 de junio) y Madrid (13 de junio).&lt;/p&gt;  &lt;p&gt;Toda la información, agenda y registro la podéis encontrar aquí;&amp;#160; &lt;a href="http://www.plainconcepts.com/SQLServerTour/"&gt;http://www.plainconcepts.com/SQLServerTour/&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;&lt;strong&gt;Agenda:&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;09:30 - 10:15 Novedades SQL Server 2012&lt;/p&gt;  &lt;p&gt;10:15 - 11:00 Escalabilidad y disponibilidad: Always On&lt;/p&gt;  &lt;p&gt;11:00 - 11:15 Café &lt;/p&gt;  &lt;p&gt;11:15 - 12:00 Gestión de la Calidad y Versionado de Datos: DQS y MDS&lt;/p&gt;  &lt;p&gt;12:00 - 13:00 Optimización de Cargas Masivas de Datos&lt;/p&gt;  &lt;p&gt;13:00 - 14:00 Comida&lt;/p&gt;  &lt;p&gt;14:00 - 15:30 BISM y PowerView&lt;/p&gt;  &lt;p&gt;15:30 - 17:00 Big Data: Apache Hadoop, Hadoop on Azure y SQL Server 2012&lt;/p&gt;  &lt;p&gt;&amp;#160;&lt;/p&gt;  &lt;p&gt;Si os interesa, espero veros en los eventos! &lt;/p&gt;&lt;div style="clear:both;"&gt;&lt;/div&gt;&lt;img src="http://geeks.ms/aggbug.aspx?PostID=204923" width="1" height="1"&gt;</description><category domain="http://geeks.ms/blogs/ilanda/archive/tags/SQL+Server/default.aspx">SQL Server</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Hadoop/default.aspx">Hadoop</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/SQL+Server+2012/default.aspx">SQL Server 2012</category></item><item><title>Power View Report to Hadoop on Azure</title><link>http://geeks.ms/blogs/ilanda/archive/2012/04/24/power-view-report-to-hadoop-on-azure.aspx</link><pubDate>Tue, 24 Apr 2012 07:55:00 GMT</pubDate><guid isPermaLink="false">2a2e7ade-7474-448b-9de5-1515d8bb7d1b:204361</guid><dc:creator>Ibon Landa</dc:creator><slash:comments>0</slash:comments><wfw:commentRss xmlns:wfw="http://wellformedweb.org/CommentAPI/">http://geeks.ms/blogs/ilanda/rsscomments.aspx?PostID=204361</wfw:commentRss><comments>http://geeks.ms/blogs/ilanda/archive/2012/04/24/power-view-report-to-hadoop-on-azure.aspx#comments</comments><description>&lt;iframe height="315" src="http://www.youtube.com/embed/DRbrUjOD72Y" frameborder="0" width="560"&gt;&lt;/iframe&gt;&lt;div style="clear:both;"&gt;&lt;/div&gt;&lt;img src="http://geeks.ms/aggbug.aspx?PostID=204361" width="1" height="1"&gt;</description><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Windows+Azure/default.aspx">Windows Azure</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Big+Data/default.aspx">Big Data</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Hadoop/default.aspx">Hadoop</category></item><item><title>Hadoop en Windows Azure (VII): Hive</title><link>http://geeks.ms/blogs/ilanda/archive/2012/04/23/hadoop-en-windows-azure-vii-hive.aspx</link><pubDate>Mon, 23 Apr 2012 07:51:00 GMT</pubDate><guid isPermaLink="false">2a2e7ade-7474-448b-9de5-1515d8bb7d1b:204360</guid><dc:creator>Ibon Landa</dc:creator><slash:comments>0</slash:comments><wfw:commentRss xmlns:wfw="http://wellformedweb.org/CommentAPI/">http://geeks.ms/blogs/ilanda/rsscomments.aspx?PostID=204360</wfw:commentRss><comments>http://geeks.ms/blogs/ilanda/archive/2012/04/23/hadoop-en-windows-azure-vii-hive.aspx#comments</comments><description>&lt;p&gt;Como ya hemos comentado en algún post anterior &lt;strong&gt;Hive&lt;/strong&gt; es una infraestructura de data warehouse sobre Hadoop diseñada inicialmente para ser capaces de entender toda la información de Facebook. Ofrece una interface SQL (&lt;strong&gt;HiveQL&lt;/strong&gt;) para ser capaz de manejar la información almacenada por Hadoop. &lt;/p&gt;  &lt;p&gt;También en un post anterior vimos el add-in de Hive que ha desarrollado Microsoft y que permite conectarse a las tablas de Hive desde &lt;strong&gt;Excel, PowerPivot o PowerView&lt;/strong&gt;.&lt;/p&gt;  &lt;p&gt;En este post veremos un ejemplo muy sencillo de cómo crear una tabla de Hive y cómo usar HiveQL para consultar la información.&lt;/p&gt;  &lt;p&gt;En este caso cargaré un weblog, que no es más que un fichero de texto. Para cargarlo, como ya vimos anteriormente, podemos hacerlo desde la consola de JavaScript con fs.put o por FTP.&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/01_2D00_HiveQL_5F00_2B3F38CE.png"&gt;&lt;img style="background-image:none;border-bottom:0px;border-left:0px;margin:5px 5px 5px 0px;padding-left:0px;padding-right:0px;display:inline;border-top:0px;border-right:0px;padding-top:0px;" title="01-HiveQL" border="0" alt="01-HiveQL" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/01_2D00_HiveQL_5F00_thumb_5F00_62A549FC.png" width="803" height="170" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;Una vez cargado podemos usar la consola interactiva de Hive para lanzar comandos de HiveQL, el primero para crear la tabla asociada al fichero recién cargado: (El comando &lt;strong&gt;show tables &lt;/strong&gt;nos permite ver las tablas existentes)&lt;/p&gt;  &lt;p&gt;CREATE EXTERNAL TABLE weblog_sample (   &lt;br /&gt;evtdate STRING,    &lt;br /&gt;evttime STRING,    &lt;br /&gt;svrsitename STRING,    &lt;br /&gt;svrip STRING,     &lt;br /&gt;csmethod STRING,     &lt;br /&gt;csuristem STRING,     &lt;br /&gt;csuriquery STRING,     &lt;br /&gt;svrport INT,    &lt;br /&gt;csusername STRING,     &lt;br /&gt;cip STRING,     &lt;br /&gt;UserAgent STRING,     &lt;br /&gt;Referer STRING,     &lt;br /&gt;scstatus STRING,     &lt;br /&gt;scsubstatus STRING,     &lt;br /&gt;scwin32status STRING,     &lt;br /&gt;scbytes STRING,     &lt;br /&gt;csbytes STRING,     &lt;br /&gt;timetaken STRING    &lt;br /&gt;)    &lt;br /&gt;COMMENT &amp;#39;This is a web log sample&amp;#39;    &lt;br /&gt;ROW FORMAT DELIMITED FIELDS TERMINATED by &amp;#39;32&amp;#39;    &lt;br /&gt;STORED AS TEXTFILE    &lt;br /&gt;LOCATION &amp;#39;/user/ibonilm/weblog/&amp;#39;; (ruta del fichero)&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/03_2D00_HiveQL_5F00_47F8ADE3.png"&gt;&lt;img style="background-image:none;border-bottom:0px;border-left:0px;margin:5px 5px 5px 0px;padding-left:0px;padding-right:0px;display:inline;border-top:0px;border-right:0px;padding-top:0px;" title="03-HiveQL" border="0" alt="03-HiveQL" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/03_2D00_HiveQL_5F00_thumb_5F00_262CD552.png" width="594" height="480" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;&amp;#160;&lt;/p&gt;  &lt;p&gt;Una vez creada tabla podemos lanzar consultas usando HiveQL, por ejemplo: (&lt;a href="https://cwiki.apache.org/Hive/tutorial.html#Tutorial-HiveTutorial" target="_blank"&gt;Tutorial de Hive&lt;/a&gt;)&lt;/p&gt;  &lt;p&gt;&lt;font color="#000000"&gt;&lt;strong&gt;select * from weblog_sample limit 10;&lt;/strong&gt;&lt;/font&gt;&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/04_2D00_HiveQL_5F00_2B2F1301.png"&gt;&lt;img style="background-image:none;border-bottom:0px;border-left:0px;margin:5px 5px 5px 0px;padding-left:0px;padding-right:0px;display:inline;border-top:0px;border-right:0px;padding-top:0px;" title="04-HiveQL" border="0" alt="04-HiveQL" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/04_2D00_HiveQL_5F00_thumb_5F00_7E39B025.png" width="640" height="271" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;Y claro está, usando los add-ins que comentábamos en post anteriores, por ejemplo el de Excel.&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/05_2D00_HiveQL_5F00_3BE697E2.png"&gt;&lt;img style="background-image:none;border-bottom:0px;border-left:0px;margin:5px 5px 5px 0px;padding-left:0px;padding-right:0px;display:inline;border-top:0px;border-right:0px;padding-top:0px;" title="05-HiveQL" border="0" alt="05-HiveQL" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/05_2D00_HiveQL_5F00_thumb_5F00_1EED4D40.png" width="724" height="855" /&gt;&lt;/a&gt;&lt;/p&gt;&lt;div style="clear:both;"&gt;&lt;/div&gt;&lt;img src="http://geeks.ms/aggbug.aspx?PostID=204360" width="1" height="1"&gt;</description><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Windows+Azure/default.aspx">Windows Azure</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Big+Data/default.aspx">Big Data</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Hadoop/default.aspx">Hadoop</category></item><item><title>Hadoop en Windows Azure (VI): Sqoop</title><link>http://geeks.ms/blogs/ilanda/archive/2012/04/19/hadoop-en-windows-azure-vi-sqoop.aspx</link><pubDate>Thu, 19 Apr 2012 07:06:00 GMT</pubDate><guid isPermaLink="false">2a2e7ade-7474-448b-9de5-1515d8bb7d1b:204353</guid><dc:creator>Ibon Landa</dc:creator><slash:comments>0</slash:comments><wfw:commentRss xmlns:wfw="http://wellformedweb.org/CommentAPI/">http://geeks.ms/blogs/ilanda/rsscomments.aspx?PostID=204353</wfw:commentRss><comments>http://geeks.ms/blogs/ilanda/archive/2012/04/19/hadoop-en-windows-azure-vi-sqoop.aspx#comments</comments><description>&lt;p&gt;Como ya hemos comentado en un post anterior, Sqoop es un framework open source que permite exportar e importar datos desde cualquier RDBMS y HDFS, y como no, el origen puede ser SQL Server o SQL Azure.&lt;/p&gt;  &lt;p&gt;Estas acciones se puede realizar desde línea de comandos, conectándose directamente a la máquina de Hadoop por RDP.&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/01_2D00_Sqoop_5F00_486B6D36.png"&gt;&lt;img style="background-image:none;border-right-width:0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="01-Sqoop" border="0" alt="01-Sqoop" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/01_2D00_Sqoop_5F00_thumb_5F00_59036824.png" width="732" height="230" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;Una vez conectados podemos abrir la consola de Hadoop para lanzar los comandos necesarios para importar datos desde una base de datos de SQL Azure.&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/02_2D00_Sqoop_5F00_5E71D8C8.png"&gt;&lt;img style="background-image:none;border-right-width:0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="02-Sqoop" border="0" alt="02-Sqoop" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/02_2D00_Sqoop_5F00_thumb_5F00_35F2F6B4.png" width="719" height="405" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;Se establece la variable HIVE_HOME y se lanzan los comandos que queramos, ya está!&lt;/p&gt;  &lt;p&gt;&lt;strong&gt;Importar desde SQL Azure a HDFS&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;bin\sqoop.cmd &lt;strong&gt;import&lt;/strong&gt; --connect &amp;quot;jdbc:sqlserver://&amp;lt;servername&amp;gt;.database.windows.net:1433;database=&amp;lt;dbname&amp;gt;;user=&amp;lt;username&amp;gt;@&amp;lt;servername&amp;gt;;password=&amp;lt;password&amp;gt;&amp;quot; --table &amp;lt;from_table&amp;gt; --target-dir &amp;lt;to_hdfs_folder&amp;gt; --split-by &amp;lt;from_table_column&amp;gt;&lt;/p&gt;  &lt;p&gt;&lt;strong&gt;Exportar desde HDFS a SQL Azure&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;bin\sqoop.cmd &lt;strong&gt;export&lt;/strong&gt; --connect &amp;quot;jdbc:sqlserver://&amp;lt;servername&amp;gt;.database.windows.net:1433;database=&amp;lt;dbname&amp;gt;;user=&amp;lt;username&amp;gt;@&amp;lt;servername&amp;gt;;password=&amp;lt;password&amp;gt;&amp;quot; --table &amp;lt;to_table&amp;gt; --export-dir &amp;lt;from_hdfs_folder&amp;gt; --input-fields-terminated-by &amp;quot;&amp;lt;delimiter&amp;gt;&amp;quot;&lt;/p&gt;&lt;div style="clear:both;"&gt;&lt;/div&gt;&lt;img src="http://geeks.ms/aggbug.aspx?PostID=204353" width="1" height="1"&gt;</description><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Windows+Azure/default.aspx">Windows Azure</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Big+Data/default.aspx">Big Data</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Hadoop/default.aspx">Hadoop</category></item><item><title>Hadoop en Windows Azure (V)</title><link>http://geeks.ms/blogs/ilanda/archive/2012/04/16/hadoop-en-windows-azure-v.aspx</link><pubDate>Mon, 16 Apr 2012 15:02:00 GMT</pubDate><guid isPermaLink="false">2a2e7ade-7474-448b-9de5-1515d8bb7d1b:204352</guid><dc:creator>Ibon Landa</dc:creator><slash:comments>4</slash:comments><wfw:commentRss xmlns:wfw="http://wellformedweb.org/CommentAPI/">http://geeks.ms/blogs/ilanda/rsscomments.aspx?PostID=204352</wfw:commentRss><comments>http://geeks.ms/blogs/ilanda/archive/2012/04/16/hadoop-en-windows-azure-v.aspx#comments</comments><description>&lt;p&gt;Siguiendo con los post de Hadoop en Windows Azure, en este ejemplo veremos un ejemplo de cómo contar el número de ocurrencias de las palabras dentro de un fichero de texto. Éste es uno de los ejemplos que se pueden encontrar dentro del servicio y que nos ayudan a empezar a entender poco a poco cómo funciona el servicio y Hadoop.&lt;/p&gt;  &lt;p&gt;A través de la consola interactiva que ofrece el portal web y usando JavaScript, podemos realizar todas las labores que se realizan durante este ejemplo.&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/01_2D00_WordCloud_5F00_04351F7A.png"&gt;&lt;img style="background-image:none;border-bottom:0px;border-left:0px;margin:5px 5px 5px 0px;padding-left:0px;padding-right:0px;display:inline;border-top:0px;border-right:0px;padding-top:0px;" title="01-WordCloud" border="0" alt="01-WordCloud" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/01_2D00_WordCloud_5F00_thumb_5F00_09A3901E.png" width="640" height="165" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;El primer paso a realizar será subir el fichero que queremos analizar, sobre el cuál contaremos el número de palabras que contiene. &lt;/p&gt;  &lt;p&gt;En este caso lo hacemos desde JavaScript (fs.put() ), pero podríamos haber utilizado otros medios, como FTP.&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/04_2D00_WordCloudJarFile_5F00_1A3B8B0C.png"&gt;&lt;img style="background-image:none;border-right-width:0px;margin:5px 5px 5px 0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="04-WordCloudJarFile" border="0" alt="04-WordCloudJarFile" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/04_2D00_WordCloudJarFile_5F00_thumb_5F00_71507602.png" width="640" height="415" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;Una vez tenemos el fichero cargado tenemos que crear un job de mapReduce para realizar la tarea que queremos. En este caso lo haremos todo desde la consola de JavaScript, pero recordad que hay otras opciones, por ejemplo desde Java o desde C#.&lt;/p&gt;  &lt;p&gt;El siguiente paso será subir el fichero javascript que contiene nuestra rutina de mapReduce. En el siguiente pantallazo podéis ver el contenido del fichero &lt;strong&gt;WordCount.js.&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/05_2D00_WordCloudJarFile_5F00_7D05BD34.png"&gt;&lt;img style="background-image:none;border-right-width:0px;margin:5px 5px 5px 0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="05-WordCloudJarFile" border="0" alt="05-WordCloudJarFile" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/05_2D00_WordCloudJarFile_5F00_thumb_5F00_346BCE63.png" width="782" height="472" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;Y una vez tenemos disponible el fichero podemos usar una sentencia de &lt;strong&gt;Pig&lt;/strong&gt; para decirle que queremos lanzar el job de mapReduce contra el fichero que hemos subido anteriormente y que el resultado lo deje en el fichero DaVinciTop10Words. Como podéis ver, sólo se obtienen 10 resultados, lo que más ocurrencias tienen.&lt;/p&gt;  &lt;p&gt;&lt;strong&gt;&lt;font color="#ff0000"&gt;&amp;gt; pig.from(&amp;quot;/example/data/davinci.txt&amp;quot;).mapReduce(&amp;quot;WordCount.js&amp;quot;, &amp;quot;word, count:long&amp;quot;).orderBy(&amp;quot;count DESC&amp;quot;).take(10).to(&amp;quot;DaVinciTop10Words&amp;quot;)&lt;/font&gt;&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;Esta operación tardará unos minutos (podemos ver un log del proceso). Una vez haya terminado, podremos leer el fichero de resultados y mostrarlo, por ejemplo, en formato de gráfica.&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/06_2D00_WordCloudJarFile_5F00_6BD1DF91.png"&gt;&lt;img style="background-image:none;border-bottom:0px;border-left:0px;margin:5px 5px 5px 0px;padding-left:0px;padding-right:0px;display:inline;border-top:0px;border-right:0px;padding-top:0px;" title="06-WordCloudJarFile" border="0" alt="06-WordCloudJarFile" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/06_2D00_WordCloudJarFile_5F00_thumb_5F00_4667EC23.png" width="444" height="381" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/07_2D00_WordCloudJarFile_5F00_1736008C.png"&gt;&lt;img style="background-image:none;border-bottom:0px;border-left:0px;margin:5px 5px 5px 0px;padding-left:0px;padding-right:0px;display:inline;border-top:0px;border-right:0px;padding-top:0px;" title="07-WordCloudJarFile" border="0" alt="07-WordCloudJarFile" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/07_2D00_WordCloudJarFile_5F00_thumb_5F00_7CF59767.png" width="378" height="428" /&gt;&lt;/a&gt;&lt;/p&gt;&lt;div style="clear:both;"&gt;&lt;/div&gt;&lt;img src="http://geeks.ms/aggbug.aspx?PostID=204352" width="1" height="1"&gt;</description><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Windows+Azure/default.aspx">Windows Azure</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Big+Data/default.aspx">Big Data</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Hadoop/default.aspx">Hadoop</category></item><item><title>Hadoop en Windows Azure (IV)</title><link>http://geeks.ms/blogs/ilanda/archive/2012/04/13/hadoop-en-windows-azure-iv.aspx</link><pubDate>Fri, 13 Apr 2012 10:12:00 GMT</pubDate><guid isPermaLink="false">2a2e7ade-7474-448b-9de5-1515d8bb7d1b:204351</guid><dc:creator>Ibon Landa</dc:creator><slash:comments>0</slash:comments><wfw:commentRss xmlns:wfw="http://wellformedweb.org/CommentAPI/">http://geeks.ms/blogs/ilanda/rsscomments.aspx?PostID=204351</wfw:commentRss><comments>http://geeks.ms/blogs/ilanda/archive/2012/04/13/hadoop-en-windows-azure-iv.aspx#comments</comments><description>&lt;p&gt;Siguiendo con la temática de los últimos post en este comentaré cómo es posible &lt;strong&gt;consumir la información de Hive desde Excel y PowerPivot &lt;/strong&gt;gracias a que Microsoft ha desarrollado un add-in para Hive.&lt;/p&gt;  &lt;p&gt;El primer paso es instalarse todo lo necesario para poder trabajar desde Excel y disponer del drive ODBC que nos de acceso a los datos. Para ello, dentro del portal de Hadoop tenemos una sección “Downloads” dónde podremos descargarnos el componente que necesitamos en nuestro equipo.&lt;/p&gt;  &lt;p&gt;El siguiente paso será habilitar los puertos de Hadoop para permitir conexiones ODBC.&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/01_2D00_ConfigurePort_5F00_79140173.png"&gt;&lt;img style="background-image:none;border-right-width:0px;margin:5px 5px 5px 0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="01-ConfigurePort" border="0" alt="01-ConfigurePort" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/01_2D00_ConfigurePort_5F00_thumb_5F00_2C6FC4D0.png" width="640" height="234" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;Una vez realizados estos dos pasos, si abrimos Excel, podemos ver el&lt;strong&gt; add-in de Hive&lt;/strong&gt;.&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/02_2D00_HivePanel_5F00_35E88346.png"&gt;&lt;img style="background-image:none;border-right-width:0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="02-HivePanel" border="0" alt="02-HivePanel" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/02_2D00_HivePanel_5F00_thumb_5F00_10125CE3.png" width="829" height="110" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;Para poder realizar una conexión, primeramente es necesario crear un Data Source desde el panel de control, ODBC Data Source Administrator.&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/03_2D00_ODBC_5F00_40593199.png"&gt;&lt;img style="background-image:none;border-right-width:0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="03-ODBC" border="0" alt="03-ODBC" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/03_2D00_ODBC_5F00_thumb_5F00_36B0C363.png" width="612" height="428" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;Hay que añadir un Data Source de tipo “HIVE” e incluir los datos del cluster al que queremos conectarnos.&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/04_2D00_ODBC_5F00_28FE075B.png"&gt;&lt;img style="background-image:none;border-right-width:0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="04-ODBC" border="0" alt="04-ODBC" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/04_2D00_ODBC_5F00_thumb_5F00_60641889.png" width="446" height="502" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;Una vez hemos creado el Data Source, seleccionando el botón de “Hive”, podemos ver un panel en la parte derecha de nuestra hoja excel que permitirá selecciona el Data Source y realizar las consultas que queremos; seleccionar los objetos, la información que queremos ver etc…Ya está, ya estamos consumiendo información desde nuestro cluster de Hadoop.&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/06_2D00_Excel_5F00_17CA29B8.png"&gt;&lt;img style="background-image:none;border-right-width:0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="06-Excel" border="0" alt="06-Excel" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/06_2D00_Excel_5F00_thumb_5F00_432E4AB2.png" width="891" height="561" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;&lt;strong&gt;Y desde PowerPivot algo muy parecido.&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/07_2D00_FromPowerPivot_5F00_44AF66C6.png"&gt;&lt;img style="background-image:none;border-right-width:0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="07-FromPowerPivot" border="0" alt="07-FromPowerPivot" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/07_2D00_FromPowerPivot_5F00_thumb_5F00_7EBE33A5.png" width="603" height="111" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;Si accedemos a PowerPivot se puede añadir (seleccionar from other sources) un Data Source OLEDB/ODBC, dónde básicamente tendremos que indicar los datos de conexión al cluster de Hadoop.&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/08_2D00_FromPowerPivot_5F00_55D31E9C.png"&gt;&lt;img style="background-image:none;border-right-width:0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="08-FromPowerPivot" border="0" alt="08-FromPowerPivot" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/08_2D00_FromPowerPivot_5F00_thumb_5F00_195AA9F2.png" width="662" height="726" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/09_2D00_FromPowerPivot_5F00_1D184EC2.png"&gt;&lt;img style="background-image:none;border-right-width:0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="09-FromPowerPivot" border="0" alt="09-FromPowerPivot" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/09_2D00_FromPowerPivot_5F00_thumb_5F00_5ECF8450.png" width="627" height="637" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/10_2D00_FromPowerPivot_5F00_7857117D.png"&gt;&lt;img style="background-image:none;border-right-width:0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="10-FromPowerPivot" border="0" alt="10-FromPowerPivot" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/10_2D00_FromPowerPivot_5F00_thumb_5F00_21EADCB1.png" width="529" height="543" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/11_2D00_FromPowerPivot_5F00_796BFA9C.png"&gt;&lt;img style="background-image:none;border-right-width:0px;margin:5px 5px 5px 0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="11-FromPowerPivot" border="0" alt="11-FromPowerPivot" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/11_2D00_FromPowerPivot_5F00_thumb_5F00_56C7BC21.png" width="801" height="736" /&gt;&lt;/a&gt;&lt;/p&gt;&lt;div style="clear:both;"&gt;&lt;/div&gt;&lt;img src="http://geeks.ms/aggbug.aspx?PostID=204351" width="1" height="1"&gt;</description><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Windows+Azure/default.aspx">Windows Azure</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Big+Data/default.aspx">Big Data</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Hadoop/default.aspx">Hadoop</category></item><item><title>Hadoop en Windows Azure (III)</title><link>http://geeks.ms/blogs/ilanda/archive/2012/04/12/hadoop-en-windows-azure-iii.aspx</link><pubDate>Thu, 12 Apr 2012 09:57:00 GMT</pubDate><guid isPermaLink="false">2a2e7ade-7474-448b-9de5-1515d8bb7d1b:204350</guid><dc:creator>Ibon Landa</dc:creator><slash:comments>0</slash:comments><wfw:commentRss xmlns:wfw="http://wellformedweb.org/CommentAPI/">http://geeks.ms/blogs/ilanda/rsscomments.aspx?PostID=204350</wfw:commentRss><comments>http://geeks.ms/blogs/ilanda/archive/2012/04/12/hadoop-en-windows-azure-iii.aspx#comments</comments><description>&lt;p&gt;Como ya comentaba en los post anteriores, a través de &lt;a title="https://www.hadooponazure.com/" href="https://www.hadooponazure.com/"&gt;https://www.hadooponazure.com/&lt;/a&gt; y bajo invitación es posible acceder al servicio que Microsoft ofrece Hadoop sobre Windows Azure, lo que posibilita al usuario tener un cluster de Hadoop en cuestión de pocos minutos.&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/06_2D00_HadoopOnAzure_5F00_4DF4F9F0.png"&gt;&lt;img style="background-image:none;border-right-width:0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="06-HadoopOnAzure" border="0" alt="06-HadoopOnAzure" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/06_2D00_HadoopOnAzure_5F00_thumb_5F00_45ED31C1.png" width="640" height="390" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;Una dentro del servicio el primer paso es aprovisionar el cluster de Hadoop; hay que indicar un nombre único, las características y las credenciales de acceso al mismo. En pocos minutos tendrás tu cluster!&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/07_2D00_HadoopOnAzure_5F00_28B763EA.png"&gt;&lt;img style="background-image:none;border-right-width:0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="07-HadoopOnAzure" border="0" alt="07-HadoopOnAzure" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/07_2D00_HadoopOnAzure_5F00_thumb_5F00_601D7518.png" width="640" height="422" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/08_2D00_HadoopOnAzure_5F00_053ABF85.png"&gt;&lt;img style="background-image:none;border-right-width:0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="08-HadoopOnAzure" border="0" alt="08-HadoopOnAzure" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/08_2D00_HadoopOnAzure_5F00_thumb_5F00_23A5006E.png" width="577" height="353" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;Una vez el cluster está creado tendremos acceso a toda la funcionalidad que el servicio ofrece:&lt;/p&gt;  &lt;ul&gt;   &lt;li&gt;Crear jobs (MapReduce) &lt;/li&gt;    &lt;li&gt;Consola intereactiva para trabajar con Javascript o Hive. &lt;/li&gt;    &lt;li&gt;Acceso por RDP al cluster. &lt;/li&gt;    &lt;li&gt;Configurar los puertos para permitir acceso por ODBC y FTP. &lt;/li&gt;    &lt;li&gt;Realizar labores de administración. &lt;/li&gt;    &lt;li&gt;etc…. &lt;/li&gt; &lt;/ul&gt;  &lt;p&gt;Uno de los puntos interesantes en este momento es la sección de ejemplos, la cuál nos va a permitir empezar poco a poco a conocer cómo funciona Hadoop. &lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/09_2D00_HadoopOnAzure_5F00_46198F29.png"&gt;&lt;img style="background-image:none;border-right-width:0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="09-HadoopOnAzure" border="0" alt="09-HadoopOnAzure" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/09_2D00_HadoopOnAzure_5F00_thumb_5F00_00285C09.png" width="544" height="480" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/10_2D00_HadoopOnAzure_5F00_501E0A87.png"&gt;&lt;img style="background-image:none;border-right-width:0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="10-HadoopOnAzure" border="0" alt="10-HadoopOnAzure" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/10_2D00_HadoopOnAzure_5F00_thumb_5F00_6E1C187B.png" width="583" height="480" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;&amp;#160;&lt;/p&gt;  &lt;p&gt;En este post, a modo de ejemplo, estoy usando “10GB GraySort”, el cuál carga información en Hadoop y posteriormente lanza una serie de tareas para el procesamiento. A continuación os pongo paso a paso cómo es posible ejecutar el ejemplo y ver lo que hace, aunque claro está, lo suyo es ir entendiendo realmente lo que hace y por qué lo hace. Poco a poco :-)&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/11_2D00_HadoopOnAzure_5F00_64DFDD3A.png"&gt;&lt;img style="background-image:none;border-right-width:0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="11-HadoopOnAzure" border="0" alt="11-HadoopOnAzure" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/11_2D00_HadoopOnAzure_5F00_thumb_5F00_111C641F.png" width="579" height="480" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;Crear el job.&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/12_2D00_HadoopOnAzure_5F00_6EE45898.png"&gt;&lt;img style="background-image:none;border-right-width:0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="12-HadoopOnAzure" border="0" alt="12-HadoopOnAzure" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/12_2D00_HadoopOnAzure_5F00_thumb_5F00_0CE2668D.png" width="640" height="480" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;Estado del job.&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/13_2D00_HadoopOnAzure_5F00_71C9977E.png"&gt;&lt;img style="background-image:none;border-right-width:0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="13-HadoopOnAzure" border="0" alt="13-HadoopOnAzure" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/13_2D00_HadoopOnAzure_5F00_thumb_5F00_16E6E1EB.png" width="640" height="477" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;&amp;#160;&lt;/p&gt;  &lt;p&gt;Una vez ejecutado, podemos ver el histórico del mismo.&lt;/p&gt;  &lt;p&gt;&amp;#160;&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/14_2D00_HadoopOnAzure_5F00_5FBD53F1.png"&gt;&lt;img style="background-image:none;border-right-width:0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="14-HadoopOnAzure" border="0" alt="14-HadoopOnAzure" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/14_2D00_HadoopOnAzure_5F00_thumb_5F00_3334240B.png" width="640" height="175" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;&amp;#160;&lt;/p&gt;  &lt;p&gt;Podemos acceder por RDP directamente al cluster de Hadoop.&lt;/p&gt;  &lt;p&gt;&amp;#160;&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/15_2D00_RemoteDesktop_5F00_23B1123C.png"&gt;&lt;img style="background-image:none;border-right-width:0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="15-RemoteDesktop" border="0" alt="15-RemoteDesktop" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/15_2D00_RemoteDesktop_5F00_thumb_5F00_711D8EFC.png" width="640" height="396" /&gt;&lt;/a&gt;&lt;/p&gt;&lt;div style="clear:both;"&gt;&lt;/div&gt;&lt;img src="http://geeks.ms/aggbug.aspx?PostID=204350" width="1" height="1"&gt;</description><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Windows+Azure/default.aspx">Windows Azure</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Big+Data/default.aspx">Big Data</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Hadoop/default.aspx">Hadoop</category></item><item><title>Big Data, Hadoop y Windows Azure (II)</title><link>http://geeks.ms/blogs/ilanda/archive/2012/04/11/big-data-hadoop-y-windows-azure-ii.aspx</link><pubDate>Wed, 11 Apr 2012 10:44:00 GMT</pubDate><guid isPermaLink="false">2a2e7ade-7474-448b-9de5-1515d8bb7d1b:204349</guid><dc:creator>Ibon Landa</dc:creator><slash:comments>2</slash:comments><wfw:commentRss xmlns:wfw="http://wellformedweb.org/CommentAPI/">http://geeks.ms/blogs/ilanda/rsscomments.aspx?PostID=204349</wfw:commentRss><comments>http://geeks.ms/blogs/ilanda/archive/2012/04/11/big-data-hadoop-y-windows-azure-ii.aspx#comments</comments><description>&lt;p&gt;Siguiendo con el post anterior dónde hacía una introducción a Big Data y Hadoop, en este post intentaré entrar ya un poco más en detalle en la oferta de Microsoft, en qué ofrece y cómo funciona.&lt;/p&gt;  &lt;p&gt;Como ya os comentaba Microsoft contribuye con este proyecto open source y entre otras cosas, ha incluido dos nuevas distribuciones, una para Windows Server 2008 y otra para Windows Azure. Yo principalmente hablaré de esta última, la cuál se encuentra en CTP, y que permite disponer un cluster de Hadoop en pocos minutos. Por si algunos os suena, el code-name de la distribución de Hadoop para Windows Server se llama Isotope.&lt;/p&gt;  &lt;p&gt;La idea es Microsoft es aprovechar todo lo&amp;#160; bueno que tiene Hadoop, pero siendo capaz de ofrecerle un enfoque empresarial y corporativo, tratando a Hadoop como a cualquiera de los productos que tiene en la actualidad, por ejemplo, ofreciendo el mismo soporte.&lt;/p&gt;  &lt;p&gt;Los mayores esfuerzos que está haciendo Microsoft es la integración de Hadoop con sus productos, para llegar a conseguir que se puede llegar a trabajar con Hadoop, pero desde las herramientas a las que están acostumbrados sus clientes…Herramientas de BI, Excel, PowerView, SharePoint…&lt;/p&gt;  &lt;p&gt;Por ejemplo, está desarrollando conectores para cargar datos desde el marketplace de Azure, adaptadores para SQL Server para traer información desde y hacia Haddop, add-in para Excel y PowerPivot, integración con Active Directory, System Center etc…&lt;/p&gt;  &lt;p&gt;Incluso también ofrece la posibilidad de trabajar con Visual Studio y C#, por ejemplo para hacer los scripts de MapReduce.&lt;/p&gt;  &lt;p&gt;Otra contribución interesante que también han ofrecido, los primeros, es el soporte a JavaScript.&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/05_2D00_MicrosoftBigDataSolution_5F00_223A0FB8.png"&gt;&lt;img style="background-image:none;border-bottom:0px;border-left:0px;margin:5px 5px 5px 0px;padding-left:0px;padding-right:0px;display:inline;border-top:0px;border-right:0px;padding-top:0px;" title="05-MicrosoftBigDataSolution" border="0" alt="05-MicrosoftBigDataSolution" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/05_2D00_MicrosoftBigDataSolution_5F00_thumb_5F00_5F7AC47F.png" width="640" height="319" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;En los próximos post iré viendo cómo funciona Hadoop en Windows Azure, servicio que se encuentra disponible en &lt;a title="https://www.hadooponazure.com/" href="https://www.hadooponazure.com/"&gt;https://www.hadooponazure.com/&lt;/a&gt; y que a día de hoy sólo se puede entrar bajo invitación. &lt;/p&gt;  &lt;p&gt;Aprovecharé también para ir entrando en algo más de detalle sobre cómo funciona Hadooop.&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/06_2D00_HadoopOnAzure_5F00_7D0C9F7E.png"&gt;&lt;img style="background-image:none;border-bottom:0px;border-left:0px;margin:5px 5px 5px 0px;padding-left:0px;padding-right:0px;display:inline;border-top:0px;border-right:0px;padding-top:0px;" title="06-HadoopOnAzure" border="0" alt="06-HadoopOnAzure" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/06_2D00_HadoopOnAzure_5F00_thumb_5F00_10F60C48.png" width="913" height="556" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;Y claro está, intentaré mostraros la integración con los productos de Microsoft, como el add-in de Hive para Excel.&lt;/p&gt;    &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/06_2D00_Excel_5F00_20D52B3F.png"&gt;&lt;img style="background-image:none;border-bottom:0px;border-left:0px;margin:5px 5px 5px 0px;padding-left:0px;padding-right:0px;display:inline;border-top:0px;border-right:0px;padding-top:0px;" title="06-Excel" border="0" alt="06-Excel" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/06_2D00_Excel_5F00_thumb_5F00_705EA6C8.png" width="640" height="403" /&gt;&lt;/a&gt;&lt;/p&gt;&lt;div style="clear:both;"&gt;&lt;/div&gt;&lt;img src="http://geeks.ms/aggbug.aspx?PostID=204349" width="1" height="1"&gt;</description><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Windows+Azure/default.aspx">Windows Azure</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Big+Data/default.aspx">Big Data</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Hadoop/default.aspx">Hadoop</category></item><item><title>Big Data, Hadoop y Windows Azure (I)</title><link>http://geeks.ms/blogs/ilanda/archive/2012/04/10/big-data-hadoop-y-windows-azure-i.aspx</link><pubDate>Tue, 10 Apr 2012 07:03:00 GMT</pubDate><guid isPermaLink="false">2a2e7ade-7474-448b-9de5-1515d8bb7d1b:204348</guid><dc:creator>Ibon Landa</dc:creator><slash:comments>1</slash:comments><wfw:commentRss xmlns:wfw="http://wellformedweb.org/CommentAPI/">http://geeks.ms/blogs/ilanda/rsscomments.aspx?PostID=204348</wfw:commentRss><comments>http://geeks.ms/blogs/ilanda/archive/2012/04/10/big-data-hadoop-y-windows-azure-i.aspx#comments</comments><description>&lt;p&gt;Si analizáramos el tipo y la cantidad de información que se puede llegar a generar a diario veríamos que cada día se generar muchísima información, mucha más de la que se generaba hace unos años, y que cada vez ésta es de diferente tipo. Por ejemplo, basta con hablar de toda la información que se genera a diario en las redes sociales como Twitter y Facebook para darse cuenta del volumen diario que puede generarse cada día. Pero no sólo pensad en redes sociales, pensad en cualquier otra empresa, como podría ser una empresa eléctrica o de energía, la cantidad de información diaria que podría coger de todos los dispositivos de medición y monitorización de los que disponen. A toda esta información es a lo que se conoce como Big Data.&lt;/p&gt;  &lt;p&gt;En los sistemas tradicionales sólo parte de esta información se trata y muchas veces hay muchísima de esta información que se deja de procesar,&amp;#160; ya que por ejemplo, su almacenamiento sería carísimo, difícil de procesar e incluso en muchos casos difícil de entender el cómo se debe analizar y tratar. En estos sistemas tradicionales raramente la información pasa de varios terabytes, cuando en Big Data estamos hablando de volúmenes de información de petabytes y hexabytes.&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/01_2D00_TraditionalProcessing_5F00_289553DE.png"&gt;&lt;img style="background-image:none;border-right-width:0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="01-TraditionalProcessing" border="0" alt="01-TraditionalProcessing" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/01_2D00_TraditionalProcessing_5F00_thumb_5F00_71D7F8D9.png" width="640" height="395" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;Básicamente la información tiene tres que factores que lo hacen complicado de manejar; &lt;strong&gt;El volumen&lt;/strong&gt; de información que se hoy en día en altísimo y cada día se genera mucha más. &lt;strong&gt;El tipo&lt;/strong&gt; de información es muy diverso, teniendo que manejar en muchos cosos información estructura y desestructurada. Por último, la &lt;strong&gt;velocidad&lt;/strong&gt;, cada vez esta información aparece más rápidamente.&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/03_2D00_RDBMSMapReduce_5F00_36A41D0E.png"&gt;&lt;img style="background-image:none;border-right-width:0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="03-RDBMSMapReduce" border="0" alt="03-RDBMSMapReduce" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/03_2D00_RDBMSMapReduce_5F00_thumb_5F00_4D82EE8A.png" width="640" height="289" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;Es para este tipo de escenarios, para el tratamiento de esta información que se conoce como Big Data, dónde encaja &lt;strong&gt;Apache Hadoop&lt;/strong&gt;.&lt;/p&gt;  &lt;p&gt;Hadoop es un framework open source para el procesado, almacenamiento y análisis de cantidades enormes de información, información de diversos orígenes (estructurados, desestructurados…). Inicialmente fue Yahoo! el creador de Hadoop basándose en MapReduce, un sistema desarrollado por Google sobre el año 2000 creado para indexación de la Web. Fue diseñado para ser capaz de analizar petabytes y hexabytes de información de forma distribuida con la capacidad de procesado paralelo de toda la información almacenada.&lt;/p&gt;  &lt;p&gt;¿Quién lo usa? Amazon, Facebook, Google, IBM, Intel Research, Yahoo!…&lt;/p&gt;  &lt;p&gt;Microsoft ha contribuido a este proyecto con dos distribuciones de Hadoop para Windows, claro está también open source, que pueden funcionar sobre un entorno &lt;strong&gt;Windows on-premise o sobre Windows Azure&lt;/strong&gt;. &lt;/p&gt;  &lt;p&gt;El sistema que hay por debajo a grandes rasgos puede “resultar sencillo”, pero muy efectivo.&lt;/p&gt;  &lt;p&gt;Hadoop es capaz de recibir información de diversos orígenes, tanto estructurada como desestructurada, para almacenarla en sus propio sistema de almacenamiento, conocido como &lt;strong&gt;Hadoop Distributed File System&lt;/strong&gt; (HDFS). Cuando recibe la información la divide en múltiples partes (chunks) y lo almacena en los diferentes nodos que forman parte del cluster de Hadoop. La información se replica entre diferentes nodos para que si un nodo falla la información no se pierda.&lt;/p&gt;  &lt;p&gt;Una cosa muy interesante del sistema es que está diseñado para poder funcionar en cualquier tipo de hardware, lo que provoca que realmente cualquier tipo de máquina podría formar parte del cluster de Hadoop, lo que hace que la solución pueda ser más económica. &lt;/p&gt;  &lt;p&gt;El análisis de la información se realiza con una técnica conocida como &lt;strong&gt;MapReduce&lt;/strong&gt;.&lt;/p&gt;  &lt;p&gt;Una vez almacenada la información los usuarios puede crear un “Map” job para que Hadoop realice las acciones que quiere el usuario. Éstas acciones no son más que un programada desarrollado por el usuario en Java (veremos otras opciones). Hadoop es capaz de localizar la información en los diferentes nodos, procesarla de&lt;strong&gt; forma paralela en cada nodo&lt;/strong&gt; para realizar la acción solicitada por el usuario.&lt;/p&gt;  &lt;p&gt;Una vez el procesado se encuentra finalizado en cuando se inicia la tarea de “Reduce” que recoge los diversos resultados generados en cada nodo y los unifica para poder ofrecérselos al usuario.&lt;/p&gt;  &lt;p&gt;&lt;a href="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/02_2D00_MapReduce_5F00_593835BC.png"&gt;&lt;img style="background-image:none;border-right-width:0px;padding-left:0px;padding-right:0px;display:inline;border-top-width:0px;border-bottom-width:0px;border-left-width:0px;padding-top:0px;" title="02-MapReduce" border="0" alt="02-MapReduce" src="http://geeks.ms/cfs-file.ashx/__key/CommunityServer.Blogs.Components.WeblogFiles/ilanda/02_2D00_MapReduce_5F00_thumb_5F00_109E46EB.png" width="589" height="480" /&gt;&lt;/a&gt;&lt;/p&gt;  &lt;p&gt;Una cosa interesante es que alrededor de Hadoop existen múltiples proyectos open source que aumentan enormemente las capacidades de este sistema y que lo hacen aún más interesante.&lt;/p&gt;  &lt;p&gt;&lt;strong&gt;Hive&lt;/strong&gt;, es una infraestructura de data warehouse sobre Hadoop diseñada inicialmente para ser capaces de entender toda la información de Facebook. Ofrece una interface SQL (HiveQL) para ser capaz de manejar la información almacenada por Hadoop. Microsoft ha desarrollado un add-in de Hive para analizar y visualizar los datos de Hadoop desde Excel o PowerPivot. &lt;/p&gt;  &lt;p&gt;&lt;strong&gt;Pig&lt;/strong&gt;, es otro lenguaje desarrollador por Yahoo! para la consulta y análisis de la información.&lt;/p&gt;  &lt;p&gt;&lt;strong&gt;Sqoop&lt;/strong&gt; es un framework open source que permite conectar cualquier RDBMS con HDFS.&lt;/p&gt;  &lt;p&gt;Como he comentado anteriormente, Microsoft también está contribuyendo a este proyecto con sus propios aportes, en este caso con dos nuevas distribuciones, una para entornos Windows Server y otro para Windows Azure. Claro está, todas las contribuciones realizadas por Microsoft vuelven a la comunidad como proyectos open source.&lt;/p&gt;  &lt;p&gt;En los próximos post espero poder profundizar en la oferta de Microsoft para Hadoop, que aportes ha realizado, que nueva funcionalidad incluye y por supuesto, cómo funciona.&lt;/p&gt;&lt;div style="clear:both;"&gt;&lt;/div&gt;&lt;img src="http://geeks.ms/aggbug.aspx?PostID=204348" width="1" height="1"&gt;</description><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Windows+Azure/default.aspx">Windows Azure</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Big+Data/default.aspx">Big Data</category><category domain="http://geeks.ms/blogs/ilanda/archive/tags/Hadoop/default.aspx">Hadoop</category></item></channel></rss>