Siguiendo con la temática de los últimos post en este comentaré cómo es posible consumir la información de Hive desde Excel y PowerPivot gracias a que Microsoft ha desarrollado un add-in para Hive.
El primer paso es instalarse todo lo necesario para poder trabajar desde Excel y disponer del drive ODBC que nos de acceso a los datos. Para ello, dentro del portal de Hadoop tenemos una sección “Downloads” dónde podremos descargarnos el componente que necesitamos en nuestro equipo.
El siguiente paso será habilitar los puertos de Hadoop para permitir conexiones ODBC.
Una vez realizados estos dos pasos, si abrimos Excel, podemos ver el add-in de Hive.
Para poder realizar una conexión, primeramente es necesario crear un Data Source desde el panel de control, ODBC Data Source Administrator.
Hay que añadir un Data Source de tipo “HIVE” e incluir los datos del cluster al que queremos conectarnos.
Una vez hemos creado el Data Source, seleccionando el botón de “Hive”, podemos ver un panel en la parte derecha de nuestra hoja excel que permitirá selecciona el Data Source y realizar las consultas que queremos; seleccionar los objetos, la información que queremos ver etc…Ya está, ya estamos consumiendo información desde nuestro cluster de Hadoop.
Y desde PowerPivot algo muy parecido.
Si accedemos a PowerPivot se puede añadir (seleccionar from other sources) un Data Source OLEDB/ODBC, dónde básicamente tendremos que indicar los datos de conexión al cluster de Hadoop.