Haciendo accesible la información a las máquinas: web de datos (Parte I)
En los próximos años comenzaremos a ver una creciente habilidad de las máquinas para accesar, procesar y aplicar información. A partir de ello se derivan tres áreas de actividad derivadas de la web semántica que Alexander Korth de RWW llamó la web de datos, la web de identidades y la web de servicios.
La cantidad de información y servicios disponibles están creciendo exponencialmente y una de las preocupaciones principales es acerca de cómo filtrar el bruto de información y seleccionar únicamente lo que necesitamos o lo que nos interesa. En definitiva éste es un trabajo que un ser humano no puede realizar sin perder demasiado tiempo y debemos aprender a decirle a las máquinas qué es lo que queremos: Qué sitio web necesitamos, qué foto en Flickr nos interesa, qué tweet queremos buscar o qué restaurante estamos buscando.
Por el momento las máquinas carecen de ese grado de comprensión semántica (sentido común, podríamos decir) para enlazar distintos bloques de información.
La web de datos
La web semántica y otros acercamientos similares como los microformatos han sido intentos de resolver el problema de las máquinas en cuanto a que son incapaces de comprender los sitios web que fueron diseñados para el consumo humano. Además, estos sitios contienen mucha información que es irrelevante para las máquinas y que necesita ser filtrada.
La idea de la web de datos es un resultado de la limitación inherente de las máquina y la existencia de bloques de datos distribuidos por todo el mundo con distintos tipos de información. Estos bloques contienen conocimientos sobre un dominio en particular, libros, música, información enciclopédica, compañías, entre otros.
Si estos bloques estuvieran interconectados, una máquina podría recorrer este cúmulo de información para reunir conocimiento semántico sobre las entidades requeridas. El resultado: una base conceptual masiva y libre que funcionaría como un cimiento para una nueva generación de aplicaciones y servicios.
LOD Project de W3C
Un proyecto prometedor es el LOD Project de W3C (Linking Open Data), que reúne más de 2 millones de triples RDF interconectados. Un triple es una pieza de información que consiste de un sujeto, un predicado y un objeto que expresa una propiedad del sujeto o la relación con otro. No se pierdan la conferencia de Tim Berners Lee al respecto.
Este modelo parece ser bueno para bloques de conocimiento bastante estático y muy al estilo de las enciclopedias, pero la información personal de cada uno de nosotros como usuarios es más compleja, al menos en cuanto a lograr que las máquinas las interpreten, porque presentan peculiaridades como la privacidad y la volatilidad de los datos. Es comprensible que la gente quiera tener control sobre quien tiene acceso a su información y por qué. Aquí es cuando las gráficas sociales pueden ayudar.
La web social emergente y los avances realizados
Cuando las redes sociales emergieron, era necesario crear una nueva identidad digital para cada aplicación que queríamos usar. Había que llenar formularios en cada nuevo sitio y permitir a cada proveedor hacer uso de nuestra información. Así se construyeron una serie de “muros” entre los servicios, donde cada uno de los proveedores se peleaba por obtener una tajada más grande de la base de usuarios, evitando la movilidad de los mismos.
Este universo de baja movilidad, donde era prácticamente imposible exportar o importar tu información, no ha cambiado demasiado. El avance más significativo es la implementación de soluciones SSO (Single sign-on), como OpenID. Gracias a ello, más proveedores pequeños han encontrado que es más fácil integrarse con los grandes, dándoles más tracción a los primeros.
Otros protocolos han emergido recientemente para facilitar el intercambio y sincronización de datos. Entre ellos:
- El protocolo OAuth para obtener autorización para accesar APIs
- El formato de intercambio de la gráfica social “friend of a friend” (FOAF)
- Activity streams, un formato de intercambio de actualizaciones como extensión del Atom feed.
- Y Portable Contacts, un formato de intercambio de la información en tu “libreta de direcciones” (la información de tus contactos).
En el futuro, los proveedores de identidad perderán sus nexos con aplicaciones sociales y tomarán a su cargo el manejo de los atributos sociales de los usuarios, permitiéndoles a los mismos ingresar a las aplicaciones usando credenciales archivadas por los proveedores de su elección, además de tener la opción de permitir a estas aplicaciones leer o sincronizar fragmentos de su información personal.
Es así como los muros de los que hablábamos deberían empezar a disolverse. No te pierdas la segunda parte de este artículo para seguir con la discusión del tema.
Interesante artículo. Lo que quisiera aclarar es que en realidad las máquinas no son las limitadas. Lo que es limitado es el lenguaje que hemos inventado para las máquinas y la capacidad que le hemos dado a las máquinas de crear y usar ese lenguaje. Imaginemos que creamos un lenguaje que permita que una máquina sepa todo lo que contiene y que lo pueda comunicar, luego imaginemos que una máquina pueda preguntar a todas las demás (todo el Internet) si tienen lo que está buscando. Entonces las máquinas solo tendrían que hablar entre ellas y transferir la información. Si le damos a las máquinas la posibilidad de crear el lenguaje y usarlo a su antontojo habremos creado la verdadera red semántica. En realidad a fin de cuentas, sería para nuestros ojos, una sola máquina, un gran oráculo.
Arturo, concuerdo contigo y me parece un tema interesante sin duda. Creo que hemos sido testigos de grandes avances, pero sin duda aún falta mucho por ver. Aunque estos cambios acelerados suelen causar reacciones negativas o de resistencia de quienes ya tienen una rutina o parámetro establecido.
Buenisimo, por fin la red sera inteligente por si misma, como programdro estoy de acurdo con el comentario anteroir la limitacion no estan en las maquinas sino en los lenguajes que creemo apra que procesen la informacion