La BI de Auto-servicio (SSBI) es el origen de la BI, y se ha hecho más fuerte a pesar de la evolución de la BI empresarial y del aumento los temores que rodean los problemas de seguridad y la gestión de datos. Dele un vistazo renovado a la SSBI. Le ayudará a entender cómo puede implementarla y aprovecharla dentro de su organización para habilitar la toma de decisiones y mejorar la BI de su empresa.
Si hay un desafío al que el mundo se enfrenta hoy en día, ese es el nuevo paradigma de la cloud computing. Sin duda, es una de esas tendencias que no mucha gente comprende en detalle, pero que podría hacer realidad algunos sueños de las TI: todo el mundo está conectado a través de Internet, con acceso a datos y aplicaciones de forma remota. Hay acceso móvil a datos y hay aplicaciones remotas. Las empresas utilizan servidores remotos y recursos para ejecutar sus negocios. Y las administraciones públicas están conectadas y comparten información actualizada en tiempo real sin necesidad de una amplia gama de formatos de archivo diferentes para el intercambio de datos. En este nuevo escenario, los datos son un recurso esencial para el desarrollo de cualquier tipo de actividad social. Países de todo el mundo están hablando y tomando medidas para la publicación de información de la administración pública. Este tipo de información es importante para la ciudadanía (personas, organizaciones y empresas) en diferentes formas y para distintos fines. Esta iniciativa no sólo es espontánea sino que también cuanta con el apoyo por importantes leyes que articulan los tipos, los usuarios finales, los propósitos y los usos de toda esta información.
En este artículo, examinamos Windows Azure Marketplace DataMarket, una iniciativa anteriormente llamada “Dallas”. El propósito de esta iniciativa es materializar la posibilidad de intercambio de datos públicos o privados en un catálogo en línea (ventanilla única de datos), listos para ser visitados por diferentes usuarios, clientes y aplicaciones. Examinamos el desafío que representa esta iniciativa para diferentes grupos interesados. Es una nueva área de conocimientos relacionados con la publicación y distribución de datos en la nube con tecnologías de Microsoft, todo bajo el paraguas de la Iniciativa Abierta de Datos de Gubernamentales (OGDI) y diferentes proyectos públicos y privados internacionales para compartir información pública.
Interés internacional en los datos públicos
Las grandes corporaciones están inmersas en conversaciones acerca de los datos. Aunque puede que no sea evidente aún, esta preocupación respecto a los datos es similar a lo que ocurrió en 1990, con la evolución de la World Wide Web. Igual que con el desarrollo de Internet, Tim Berners-Lee está involucrado de forma crucial en la actual Iniciativa de Datos Vinculados (Linked Data) [1]. Sin embargo, esta vez Tim Berners-Lee no está solo. Hay un movimiento político internacional para promover la importancia de los datos públicos y hacer que los datos estén disponibles para los ciudadanos con transparencia [2] y apertura [3] en la acción de Gobierno.
Por ejemplo, el Gobierno de EE.UU. dispone del sitio data.gov, un portal Web diseñado para aumentar el acceso del público a los datos del Gobierno (véase la figura 1).
Por aquel entonces, teníamos la World Wide Web; ahora tenemos un movimiento llamado la Web Semántica, que es el próximo gran paso importante en la red hoy. Sus objetivos son crear una Internet más inteligente y facilitar el apoyo y la utilización de las mejores opciones disponibles en cada situación. Una vez más, el núcleo de este proceso son los datos, en el sentido de que primero viene la información primero y más tarde los conocimientos. Como dice Tim Berners-Lee, “estamos hablando de que el mundo funcionen mejor por poder disponer… de sus datos ” [1].
Hay un interés real hoy en datos, porque estamos viendo algo diferente a lo que estamos acostumbrados (los aburridos datos tabulares). Como ejemplo de las nuevas posibilidades, Hans Rosling, profesor de Salud Global en el Instituto Karolinska de Suecia destacó algunos pasos importantes en esa dirección durante su presentación de junio de 2006 en TED Talks [4]. Empleó algunas animaciones con datos de una forma que los expertos actuales calificarían de UX, o experiencia del usuario, en su presentación de datos sobre la esperanza de vida en todo el mundo desde 1962 a 2003.
Tal vez como resultado de esta presentación, en 2007 Google había adquirido el software de código abierto de Rosling, que se utilizó para la realización de esta presentación y otras posteriores.
La última parte del rompecabezas es el uso de datos. Hay muchas maneras de consumir información y de mostrar relaciones interesantes que ayuden a tomar mejores decisiones, y a conocer y utilizar las mejores opciones disponibles. Algunos sitios Web que hacen uso de diversas fuentes información que provienen de fuentes públicas incluyendo OpenStreetMap [5], Cycle-Streets [6], Dónde en Zaragoza [7] y Where Does My Money Go [8].
Los datos son el siguiente Intel Inside ™
La información es un recurso esencial para el desarrollo de cualquier tipo de actividad en la sociedad. La economía del conocimiento es un hecho y su materia prima, información y datos, se ha convertido en un elemento esencial para generar valor y riqueza a nivel mundial. Como Tim O’Reilly declaró en 2005, “Los datos son el siguiente Intel Inside” [9] (véase la figura 2). Disponer de una sola fuente de información o de una que sea difícil de reproducir, es una ventaja competitiva real, como lo demostraron las redes sociales (por ejemplo, Facebook, LinkedIn o Tuenti). También es importante la democratización de la información geográfica y las posibilidades asociadas (por ejemplo, Google Maps, Bing Maps o Tele Atlas).
Toneladas de datos
El compromiso hacia los datos y su importancia se han hecho explícitos con la aprobación y publicación de importantes leyes en varios países del mundo. En Europa, la Directiva 2003/89/CE establece que: “La evolución hacia la información y el conocimiento la sociedad influye en la vida de todos los ciudadanos de la Comunidad, entre otras cosas, por lo que les permite obtener nuevas formas de acceso y adquisición de conocimientos” [10]. Esta directiva fue seguida por leyes similares en diferentes países, como la ley española 37/2007, que se ocupa de la reutilización de la información del sector público. Esta ley define la reutilización de la información como “el uso por parte de la gente en general o de otras organizaciones o empresas, de la información generada por los organismos del sector público, comercial o no comercial”.
Formatos de datos
No cabe duda de la importancia de la disponibilidad de la información pública en formato digital, fácil de usar, especialmente en el sector público. Con tantos datos disponibles, la forma en que se presentan estos datos para nosotros no es trivial. Hasta ahora, la mayoría de las organizaciones ha proporcionado algunos datos de tipo de tabla en una variedad de formas, incluyendo: archivos PDF listos para descargar en páginas HTML, en formato de Microsoft Excel y en otros formatos de texto, como archivos de valores separados por comas (CSV).
Aunque este esfuerzo es un primer paso, no es suficiente. Es muy difícil obtener estos archivos. Descargarlos a servidores locales o a equipos de administración de datos para obtener la información requiere demasiado esfuerzo humano para administrar la cantidad de información disponible. Necesitamos más formas actualizadas de la disponibilidad dado el gran número de personas que quieren utilizarlos. Las Tecnologías de la Información permiten hoy ofrecen distintos tipos de acceso de datos en línea por agentes no humanos. Inmediatamente se viene a la mente algún software, como los programas que se pueden conectar a los diferentes tipos de información en línea mediante servicios Web (SOAP o REst). Pero el aspecto clave en este contexto estriba en proporcionar datos estándar y bien estructurados, por lo que plataforma o tecnología que utiliza para el acceso a esta fuente de información es irrelevante.
Las personas y las administraciones públicas, las empresas y otras organizaciones que proporcionan información a través de conjuntos de datos deben proporcionar los datos en un formato estándar. Si valoramos la importancia de tener acceso a información bajo demanda y con el menor esfuerzo humano posible, los mejores formatos para publicar información en la Web son datos vinculados (Linked Data) y OData.
Linked Data (Datos enlazados). Uno de los pilares de la Web semántica es la posibilidad de añadir significado a la información en la Web. Los Datos Enlazados (consulte la figura 3, página 13) proponen un método de publicación de los datos estructurados de manera que pueden estar vinculados entre sí para establecer relaciones que benefician un mejor uso de la información para la creación de conocimiento. Los Datos Enlazados son más útiles para responder a las preguntas de hoy.
Esta tecnología está basada en HTTP y los identificadores uniformes de recursos (URI) y permite que datos de diferentes fuentes puedan estar conectados y ser consultados. En la definición de datos vinculados, Tim Berners-Lee propuso cuatro principios básicos o problemas de diseño en cuanto a la creación de los datos [11]:
-
Utilizar identificadores URI para identificar las cosas.
-
Utilizar identificadores URI HTTP para que esas cosas pueden ser referenciadas y buscadas tanto por los usuarios como por los agentes de búsqueda.
-
Proporcionar información útil sobre el tema cuando su URI sea de-referenciada, utilizando formatos estándar como RDF/XML.
Incluir vínculos a otras URI relacionados con los datos expuestos para mejorar el descubrimiento y acceso a otra información relacionada en la Web. Hay algunos catálogos de datos que proporcionan este tipo de información utilizando estos principios. Uno de los proyectos más importantes de datos vinculados es DBpedia [12], que utiliza información de Wikipedia y completa esta información con otras fuentes de datos.
OData. El Protocolo de datos abierto (OData: véase la figura 4) es un protocolo Web abierto para acceder a datos, consultar y actualizar la información a través de HTTP y obtener la respuesta en formatos como Atom, JSON o XML sin formato. Este protocolo permite a los usuarios compartir diferentes tipos de información en forma de conjuntos de datos que podemos paginar, ordenar, o filtrar para obtener subconjuntos específicos de resultados. OData es un protocolo muy versátil para su uso en Internet. La especificación OData está disponible bajo la Microsoft Open Specification Promise (OSP), y existe un kit de desarrollo de software (SDK) para utilizar esta especificación con varias tecnologías de cliente, tales como .NET, PHP, Java y JavaScript.
OData es la especificación utilizada por las dos iniciativas para publicar datos para reutilización que estamos discutiendo en este artículo: la iniciativa abierta de datos gubernamentales (OGDI) y Windows Azure Marketplace DataMarket.
Uso inteligente de la información pública
Debido a la presencia en la Web de esas grandes cantidades de información, la consecuencia natural es la reutilización de los datos de formas nuevas e interesantes. No sólo los administradores públicos, sino también cualquier ciudadano interesado con habilidades de desarrollador pueden programar aplicaciones móviles que crucen diferentes fuentes de información para mostrar hechos importantes, tanto en Web, como en móviles o en Windows. Echemos un vistazo como ejemplos a algunos importantes proyectos abiertos.
OpenStreetMap [5] es una alternativa al servicio de Google Maps, con el valor añadido de que continuamente está siendo actualizado, gestionado y administrado por la comunidad. Como resultado, puede modificar un mapa y añadir elementos, haciendo del mapa una entidad viva. Esta posibilidad ha permitido a Ayuda Internacional (internationalaid.org) ayudar al pueblo de Haití tras el terremoto de diciembre de 2010 mediante la creación de planes de acción y localización de edificios y campos de refugiados.
En el Reino Unido, la aplicación Where Does My Money Go? [8] representa una nueva forma visual para ver cómo se gasta el presupuesto nacional. También en el Reino Unido, la aplicación Accident & Emergency 4 Hour Waiting Target Maps muestra un mapa de rendimiento respecto al destino. Además, un mapa de mejora muestra cómo han mejorado las cifras obtenidas respecto a las anteriores en las organizaciones analizadas.
En Asturias, una interesante aplicación permite encontrar oportunidades de aprendizaje público en un calendario, así como ubicar en el mapa los centros de aprendizaje que ofrecen diferentes cursos, facilitando así las búsquedas inteligentes de cursos y seminarios para poblaciones empleadas y desempleadas [13]. La Administración pública en España está promoviendo este tipo de aplicaciones, y organiza un concurso abierto para desarrolladores, para crear software imaginativo que utilice estos datos públicos (AbreDatos Challenge [14]).
Estos ejemplos son sólo una representación muy pequeña de las posibilidades que tienen los datos digitales disponibles en la Web para uso público. A este propósito, es esencial que los datos estén en formatos digitales y disponibles como servicio que se pueda consumir por diversas plataformas y dispositivos. Deberíamos intentar alejarnos de PDF, CSV, Excel u otros formatos de datos publicados de tipo estático, tradicionales en favor de la publicación de la información a través de formatos estándar abiertos.
Iniciativas internacionales de datos públicos
Una consecuencia del movimiento internacional para la liberación de los datos del Gobierno es la proliferación de muchos portales Web que se enfocan en la información pública y la creación de numerosas propuestas que fomentan la creación de aplicaciones que explotan estos datos y sirven para demostrar las muchas posibilidades ofrecidas por la reutilización de los datos. Algunos de los más populares son la iniciativa del Gobierno de Estados Unidos (data.gov), la iniciativa del Gobierno británico (data.uk.gov) y la Microsoft Open Government Data Initiative (OGDI) para mejorar la facilidad de publicación de datos públicos de organismos del Gobierno a través de Windows Azure.
En la figura 5, podemos ver las iniciativas principales de datos públicos en el mundo al día de hoy. Esta información se publica por Open Data @ CTIC (Public Dataset Catalogs Faceted Browser) en un proceso de actualización continuo, con más de 100 catálogos publicados en todo el mundo, incluidos los datos publicados en RDF y datos vinculados.
Iniciativa abierta de datos de gobierno (Open Government Data Initiative)
El equipo de divulgación de desarrollo de Microsoft para el sector público está promoviendo una iniciativa llamada Iniciativa abierta de datos de gobierno (OGDI) para que sea más fácil publicar una gran variedad de datos públicos de organismos del Gobierno. Esta iniciativa forma parte de las prioridades de las nuevas posibilidades ofrecidas por el paradigma cloud computing, y en particular el uso de la plataforma de Windows Azure.
Con software abierto disponible para descarga, es fácil para los desarrolladores o “entusiastas del desarrollo ” crear portales de datos públicos y desarrollar aplicaciones que utilicen esta información, usando mapas, gráficos o datos de tablas. Las empresas o administraciones públicas pueden utilizar estas aplicaciones para publicar fácilmente sus catálogos de datos públicos. En Europa, está disponible el portal de datos públicos http://www.govdata.eu/en (consulte la figura 6, página 16).
Windows Azure Marketplace DataMarket
El DataMarket, como promueve su sitio Web [15] (véase figura 7, página 16), es una ventanilla única para los datos. Propone un servicio que proporciona un único canal de mercado consistente y entrega de información de alta calidad como servicios en la nube. Los colaboradores para contenidos que recopilan datos pueden publicar los contenidos en el DataMarket para aumentar su capacidad de descubrimiento y alcanzar alta disponibilidad global. Se proporcionan de manera consistente datos de bases de datos, archivos de imágenes, informes y fuentes en tiempo real a través de estándares de Internet. Los usuarios pueden fácilmente descubrir, explorar, suscribirse y consumir datos de dominios públicos de confianza y proveedores comerciales premium.
DataMarket es un servicio gratuito, que requiere sólo el registro de una dirección de correo electrónico (por ejemplo, Windows Live ID). El servicio le permite explorar y suscribirse a una gran cantidad de datos de diferentes fuentes y editores. Aunque es un servicio gratuito, el objetivo principal de DataMarket es proporcionar grandes cantidades de información para los procesos de negocio, así que hay muchos conjuntos de datos que se pueden comprar con el modelo de transacciones de información.
Los usuarios finales que necesitan datos para análisis de negocio y toma de decisiones puede utilizar el servicio en línea DataMarket y consumir datos directamente en las aplicaciones de Microsoft Office (por ejemplo, Excel) y herramientas de BI de Microsoft (por ejemplo, PowerPivot o SQL Server Reporting Services). Tanto es así, que hay algunos complementos gratuitos disponibles para descarga, como el Windows Azure Marketplace DataMarket Add-In for Excel (ver figura 8) y el complemento PowerPivot para Microsoft Excel 2010 (véase la figura 9) para la conexión a la tienda y utilizar conjuntos de datos gratuitos o de pago.
Es fácil trabajar con DataMarket. El proceso implica crear una cuenta gratuita, administrar la cuenta (las claves de gestión de la cuenta, que son necesarias para acceder a la información del catálogo) y la suscripción a uno o más conjuntos de datos. En pocos minutos, usted puede explorar los conjuntos de datos e interactuar con ellos en una amplia gama de aplicaciones posibles, tales como el Servicio de Explorer, Excel o PowerPivot. Incluso puede utilizar Video Studio para crear sus propias aplicaciones.
Crear sus propias aplicaciones para el DataMarket
Una de las maneras más eficaces de explorar OGDI o DataMarket es crear sus propias aplicaciones que muestran información procedente de diferentes fuentes de datos. DataMarket admite autenticación básica y OAuth como modos de autenticación. Una vez autenticado, usted es libre de utilizar conjuntos de datos de DataMarket de cualquier fuente a los que ya esté suscrito.
Los catálogos de DataMarket están expuestos como canales de información OData tipo REst, mediante el Protocolo de datos abiertos, como hemos mencionado anteriormente. OData permite consultar y modificar los orígenes de datos (dependiendo de los permisos sobre el origen de datos).
Los conjuntos de datos de DataMarket permiten dos tipos de consultas: fijas y flexibles. Con consultas flexibles (véase el Listado 1), puede agregar parámetros opcionales (un parámetro es un par nombre/valor) y opciones de consulta OData soportadas por el catálogo.
Con consultas fijas (véase el listado 2), se pueden llamar métodos predefinidos de consulta creados por el editor de contenido (debido a las características de la información). Los métodos de consulta pueden tener un conjunto de parámetros que permiten restricciones de filtrado de datos.
OData utiliza una interfaz uniforme basada en HTTP para interactuar con los recursos. El uso de los principios fundamentales de la Web permite a OData la integración de datos y la interoperabilidad en una amplia gama de clientes, servidores, servicios y herramientas. DataMarket le permite descargar las referencias de servicios y clases proporcionadas por el catálogo en línea para utilizarlas en sus propias aplicaciones.
¿Y ahora qué?
Todavía hay mucho que decir y mucho más que ver respecto a la publicación de datos en la Web y sus usos. Nuevos negocios y profesiones que no conocemos hoy en día se convertirán en importantes en un par de años, y más y más personas adquirirán fuentes de datos únicas o difícil de recrear y administrarán esa información para extraer conocimientos, mediante el proceso que hoy llamamos Minería de Datos.
Esta evolución depende de la velocidad de los poderes públicos y privados y de la información suministrada por servicios más inteligentes y más útiles. En este artículo, hemos analizado de cerca dos de las iniciativas más populares que usan el paradigma de la nube: la Iniciativa Abierto de Datos Gubernamentales (OGDI) y Windows Azure Marketplace DataMarket.
Es muy fácil crear aplicaciones con todas estas fuentes de información, y el protocolo OData y su SDK facilitan la tarea. Por lo tanto, le animamos a publicar toda la información que considere interesante y a formar parte de la nueva ola de la Web hoy probando las plataformas y creando aplicaciones que utilicen y expongan datos.