Les bibliothèques de données, vers des hypercatalogues ?

Les grandes bibliothèques sont en train d’expérimenter un nouveau type de catalogue basé sur le web de données (souvent dénommé « web sémantique ») qui englobe les références des auteurs et de leurs oeuvres.

La BNF avec « data.bnf« , ainsi que l’Europeana, offrent cette nouvelle exploitation des métadonnées.
Si l’on fait par exemple une recherche sur Antonin Artaud sur data.bnf, on trouve sur la page du résultat, outre une biographie succincte du poète, l’ensemble de ses oeuvres entant qu’auteur, mais aussi toutes ses contributions, en tant qu’adaptateur, commentateur, compositeur, dessinateur, acteur, interprète, etc. (la vie du « Momo » était très diversifiée … !). Et ce, sur l’ensemble des ressources BNF (Catalogue général, Gallica, Archives et manuscrits, etc.). La page pointe aussi vers des ressources extérieures (Catalogue collectif de France, Europeana, SUDOC, OCLC), puis enfin vers l’article Antonin Artaud de Wikipedia.

Le Portail Europeana rassemble, quant à lui, toutes les données multimédias sur un auteur ou une oeuvre, recueillies auprès de bibliothèques, de musées, d’archives ou même de particuliers.
Sur le personnage de « James Bond« , on dispose de 25 textes, 80 images, 36 vidéos et 7 fichiers son. Mais si les images et les vidéos se rapportent bien à l’agent secret au service de Sa Gracieuse Majesté (personnage de fiction), près de la moitié des textes concerne les écrits d’un Pr James Bond (plutôt réel), expert en commerce international et développement durable ….
On touche là à la limite actuelle du web sémantique …;-(
Comme l’explique « La petite histoire du web sémantique », citant Tim Berners-Lee dans « La Recherche » en novembre 2007 : « Le terme sémantique prête un peu à confusion car la sémantique s’intéresse au sens du langage pour en déduire des constructions logiques. » En fait, le web sémantique ne cherche pas à réaliser des opérations d’intelligence artificielle basées sur le langage naturel, mais cherche simplement à relier des données entre elles. C’est l’idée du « Linked data » (qu’on peut traduire par « web de données ») qu’une machine ou un être humain pourrait explorer.

Le projet « Linked Open Data » auquel participe l’Europeana, repose sur l’ontologie Yago, une base de connaissance qui unifie le lexique sémantique WordNet et Wikipedia. Sa structure est fondée sur les relations (« signifie », « année de naissance », « a remporté le prix ») entre le sujet et ses attributs.
Exemple : « AlbertEinstein » année de naissance « 1879 » ou « AlbertEinstein » a remporté le « prix Nobel », etc..

Wikipedia est aussi à l’origine de la base de connaissance DBpedia. Cette initiative communautaire, soutenue par l’Université libre de Berlin et l’Université de Leipzig, a pour objectif d’extraire des informations structurées à partir des articles de Wikipedia, notamment sur les villes et les pays. On arrive ainsi à une base de données encyclopédique, où on peut utiliser de nombreux filtres pour sa requête. Exemple : « les scientifiques français nés au XIXe siècle ».
Mais gare aux homonymes, qui possèdent les mêmes nom et prénom (sans même une initiale ou un deuxième prénom), comme pour notre James Bond, l’erreur est au coin de l’ontologie …!

Staypressed theme by Themocracy