En mi post anterior anunciaba Microsoft Codename “Data Explorer”, un nuevo servicio en la nube de Azure que permite generar valor añadido a partir de tus fuentes de datos mediante la posibilidad de descubrir nuevas fuentes relacionadas con el dominio en cuestión, enriquecer esta información mediante la creación de nuevos “mashups” que integren varias de estas fuentes y finalmente publicar el resultado de diversas formas para compartirlo con quien tú quieras. En este post describiré un escenario de principio a fin empleando Data Explorer.
En este escenario, una consultora de negocio (Anna) debe asesorar a la empresa Contoso Yogurt para decidir dónde deberían abrir sus tres próximas tiendas en el área de Seattle.
A fin de responder a esta pregunta, Anna necesita considerar diversos aspectos acerca de los clientes objetivo, las características demográficas de cada ubicación potencial, etc. Anna también debe predecir la posible reacción de la gente que vive cerca de las nuevas ubicaciones después de que las tiendas estén abiertas; es decir, cuál es la percepción o sentimiento de estas personas acerca de estas tiendas.
Anna ya tiene acceso a la mayoría de las fuentes de datos que contienen la información que necesita, bien porque ella es propietaria de los datos o porque los datos son parte de los sistemas de información de su empresa. Además, Anna sabe que hay otras piezas útiles de información en “su entorno” que puede aprovechar, como páginas web, foros, redes sociales u otros lugares en Internet. Anna todavía no sabe cómo podría aprovechar estos valiosos datos, pero gracias a la potencia de «Data Explorer», ahora ella puede utilizar estos datos y obtener nuevas conclusiones.
Estas son las diferentes fuentes de datos que Anna tiene previsto emplear y considera útiles para ayudarle en el proceso de decisión:
- Listado de tiendas de Contoso Yogurt existentes: Esta información está disponible en una base de datos de SQL Azure que pertenece a su empresa.
- Listado de nuevas ubicaciones potenciales: Anna ha realizado algunas investigaciones y ha creado una lista de posibles ubicaciones para nuevas tiendas de Contoso Yogurt. Esta lista contiene algunos de los centros comerciales más populares en la zona. Estos datos se almacenan en una hoja de cálculo de Excel.
Anna tiene un amigo en el equipo de Data Explorer que le ha dado acceso a Data Explorer.
Una vez que ha iniciado sesión, se encuentra con la página de bienvenida.
En esta página, Anna selecciona Dashboard para comenzar a trabajar con sus datos.
Anna selecciona Add data source para añadir las dos fuentes de datos que necesita. Esto conduce a Anna a la página para agregar una nueva fuente de datos, en la que puede añadir una gran variedad de fuentes de datos… Puede conectar a recursos de red como bases de datos (SQL Server y SQL Azure), consumir contenidos de una página web, un feed de OData o datos provenientes de Windows Azure Marketplace. Alternativamente, puede añadir datos de su propia máquina (archivos de Excel, Access, texto, etc.) o incluso crear datos “in situ” tecleando, copiando/pegando o calcularlos empleando una fórmula.
Anna conecta a la base de datos de SQL Azure introduciendo información del servidor, base de datos, usuario y password…
A continuación, Anna añade el archivo de Excel con información de centros comerciales para las nuevas ubicaciones potenciales.
Ahora que Anna ha añadido sus dos fuentes de datos, regresa a la página de Dashboard, donde puede encontrar estas dos fuentes en la parte derecha. Además, obtiene información sobre clasificación semántica de los datos que ya ha añadido, así como recomendaciones de otros datasets interesantes que puede añadir a su análisis, provenientes de Azure Marketplace y Bing.
Anna encuentra estas recomendaciones interesantes y las incorporará a su análisis más adelante. Lo próximo que va a hacer Anna es combinar la información de tiendas existentes con la lista de nuevas ubicaciones potenciales… Es decir, combinar una tabla de SQL Azure con otra tabla de Excel… Esto, generalmente, no es una tarea trivial; sin embargo, empleando Data Explorer, Anna puede conseguirlo simplemente seleccionando ambas fuentes y haciendo click en Mashup.
Al hacer esto, Anna accede al “Mashup Editor”, en el cual podrá comenzar a manipular, transformar y enriquecer los datos de ambas tablas.
En próximos posts hablaré en detalle acerca de este editor; no obstante, hay algunos conceptos básicos que introduciré hoy para hacer el resto del post más fácil de comprender…
En la esquina superior izquierda del editor, encontramos el panel de recursos, el cual muestra los dos recursos que Anna está tratando de combinar, ShoppingCenters y ContosoStoreTraq. La opción New le permite añadir otra fuente de datos, mientras que Merge le permite combinar ambos recursos en una única tabla.
El recurso seleccionado es ContosoStoreTraq, por lo que obtenemos una vista previa en el editor. Justo encima de la ribbon hay dos “cajas” de color gris; a esta región la conocemos como la Secuencia de Tareas (Task Stream), y representa el conjunto de tareas o transformaciones que han sido aplicadas al recurso actualmente seleccionado. Estas tareas son útiles para filtrar, reordenar, analizar, agrupar, transformar nuestros datos; y pueden ser encontradas en el ribbon.
Empleando la secuencia de tareas, podemos navegar por todas y cada una de las tareas, regresando a una tarea anterior para modificarla o incluso eliminarla o renombrarla. Al navegar por estas tareas, la vista previa se actualiza para mostrar el resultado parcial después de aplicar la tarea en cuestión.
Es importante mencionar también que ninguna de estas tareas modifica el estado de los datos en el origen; estamos construyendo una vista sobre estos datos, de sólo lectura. Después de definir una secuencia de tareas, esta secuencia es almacenada de modo que la podamos reutilizar posteriormente; definiremos o diseñaremos el flujo de datos y transformaciones una vez, para posteriormente aplicarlo cada vez que queramos de forma automatizada.
En el editor también encotramos recomendaciones sobre datasets relevantes en el dominio de datos en el que estamos actualmente trabajando (mostrados en la esquina inferior izquierda en color azul). Puesto que Anna está trabajando con direcciones de tiendas y centros comerciales, los datasets recomendados son datos demográficos en estas áreas (provenientes de Data Market) e información de Bing PhoneBook API.
A continuación, Anna quiere combinar estos dos recursos porque la información sobre tiendas existentes contiene un indicador de rendimiento/rentabilidad (basado en los ingresos generados por cada tienda). A Anna le gustaría que este indicador apareciera junto a cada centro comercial en los que ya existe una tienda de Contoso Yogurt. Puede hacer esto fácilmente añadiendo una columna de lookup en ShoppingCenters…
Después de añadir esta columna, Anna selecciona el dataset recomendado con información demográfica y lo añade a su mashup… Seguidamente va a combinar este nuevo recurso con ShoppingCenters, relacionándolos mediante el Zip Code (Código Postal).
Una vez que ha combinado ambos recursos, Anna va a incorporar otro de los datasets recomendados, en este caso, añadiendo datos de Bing PhoneBook para complementar el listado de centros comerciales con información de números de teléfono.
Empleando la Bing Phone Book API, Anna es capaz de crear también una nueva columna con la cuenta de institutos y escuelas situadas en un radio inferior a 10 kilómetros respecto a cada una de las nuevas ubicaciones potenciales, para tratar de maximizar el beneficio de estas nuevas tiendas teniendo en cuenta que los niños y adolescentes son clientes habituales de este tipo de tiendas.
Adicionalmente, Anna podría incluir otro de los datasets recomendados para medir el sentimiento o afinidad de la gente por cada uno de los centros comerciales en la lista, de modo que pueda seleccionar aquellos que van a tener mejor aceptación por parte de los clientes.
Resumiendo, Anna ha comenzado su análisis con una tabla proveniente de SQL Azure y otra proveniente de un archivo de Excel, las ha relacionado y ha incorporado información de otros datasets recomendados que provienen de Azure Marketplace y Bing API. Un escenario de integración de datos bastante avanzado para un usuario de negocio, pero que Anna ha podido realizar de forma rápida, sencilla e intuitiva mediante el uso de Data Explorer.
Finalmente, Anna quiere compartir los resultados de su análisis con sus compañeros y para ello hace uso de las opciones de publicación incluidas en Data Explorer, que le permiten publicar los resultados en diversos formatos de archivo (Excel, texto, etc.), o exponer el resultado de forma que sea consumible desde otras herramientas de análisis como por ejemplo PowerPivot, o incluso exponer un feed de OData que pueda ser consumido desde cualquier otra aplicación. En próximos posts entraré en detalle a describir cada una de estas alternativas de publicación…
Pronto tendréis la oportunidad de probar Data Explorer, podéis registraros aquí para recibir acceso próximamente.
Desde el equipo de Data Explorer estamos trabajando intensamente para que la funcionalidad y calidad de Data Explorer sea óptima. Como consecuencia de esto, quizá el aspecto de alguna de estas capturas sea diferente de lo que encontréis en el producto cuando lleguéis a usarlo dentro de unas semanas…
No obstante, espero que el post haya servido a modo de ejemplo ilustrativo de uso de Data Explorer y de las nuevas posibilidades que representa.