Posts tagged: Web sémantique

Humanités numériques : nouvelle discipline ou méthodologie des Sciences humaines et sociales ?

perles-alphabet-en-bois-300-perlesComme le rappelait  Etienne Cavalié (Lully) dans son post de Bibliothèques (reloaded) en janvier 2015 « le concept d’humanités numériques est vraiment en train de se répandre » depuis quelques années. Mais que représente cette notion qui prend de plus en plus de place dans le champ des sciences humaines et sociales (SHS) ? L’annonce d’une série « Humanités numérique » au baccalauréat général de même que la création d’un Executive Master Digital Humanities à Sciences Po interroge encore plus sur la place de cet objet ‘technoscientifique’ …

Définition

« Les humanités numériques2 sont un domaine de recherche, d’enseignement et d’ingénierie au croisement de l’informatique et des arts, lettres, sciences humaines et sciences sociales.
Elles se caractérisent par des méthodes et des pratiques liées à l’utilisation des outils numériques, en ligne et hors ligne, ainsi que par la volonté de prendre en compte les nouveaux contenus numériques, au même titre que des objets d’étude plus traditionnels.
Les humanités numériques s’enracinent souvent d’une façon explicite dans un mouvement en faveur de la diffusion, du partage et de la valorisation du savoir. »

Dans cette définition de Wikipédia on retrouve les deux pôles de ce champ de connaissance : ‘un domaine de recherche et d’ingénierie’ où l’informatique s’intègre dans les sciences humaines grâce aux outils numériques. La définition ne se limite pas aux méthodes et pratiques que ces outils instaurent, mais souligne aussi « la volonté de prendre en compte nouveaux contenus numériques ». On voit dans cette acceptation un dépassement de l’opposition que notait Alexandre Moatti dans Bibnum en octobre 2014 où il soulignait « deux tendances […] : ceux qui pensent que les des DH sont d’abord et avant tout une pratique, un outil, à intégrer aux champs disciplinaires universitaires […] ; ceux qui pensent que ce doit être une théorie, une discipline … ». Le chercheur se rattache lui-même à la première tendance (méthode, outil) tout en reconnaissant que les deux acceptations puissent coexister. Social_Network_Analysis_Visualization

C’est cette dimension transversale des HN, « ce carrefour, cette convergence entre savoirs et savoir-faire technologiques » qu’analyse Elydia Barret dans son mémoire ENSSIB. Pour elle, les « SHS et les disciplines littéraires et artistiques connaissent une mutation numérique ». Ce sont aussi bien « les méthodes et les modes de travail que les problématiques et les productions scientifiques qui évoluent sous l’effet de la généralisation du numérique ». On se trouve donc bien devant un nouveau domaine de recherche qui requiert des compétences aussi bien des chercheurs dans chaque discipline mais aussi d’autres professionnels de l’information : informaticiens mais aussi bibliothécaires/documentalistes, archivistes et autres gestionnaires de productions esthétiques et sémantiques (conservateurs de musées, iconographes, etc.). C’est l’objet de ce mémoire qui souligne l’importance de la coopération entre chercheurs et bibliothécaires « Les humanités numériques font appel à des problématiques et à des compétences familières aux bibliothèques ». C’est aussi le point de vue que défend Etienne Cavalié dans son Projet de mode d’emploi sur les Humanités numériques où il explique un projet de livre sur les HN réalisé par deux tandems chercheurs/bibliothécaires « Les chercheurs vont progressivement s’emparer des technologies et méthodologies comprises dans l’appellation d’humanités numériques «

De plus, comme le rappelle la définition de Wikipédia, les HN « s’enracinent souvent dans un mouvement en faveur de la diffusion, du partage et de la valorisation du savoir ». Ce mouvement des « Archives ouvertes », lancé par des collectifs de chercheurs à la fin des années 1990, a été soutenu, relayé et alimenté par des professionnels de la documentation. dig-hum

Périmètre des Humanités numériques

Que recouvrent les HN et quelles sont les pratiques habituellement désignées par ces termes ?

  • Numérisation et archivage électronique des différents objets concernés : textes, image, sons, etc.
  • Edition électronique « open access » à travers des dépôts institutionnels comme HAL ou Spire à Sciences Po, mais aussi édition d’ouvrages et de revues en ligne à travers le portail Open Edition
  • Constitution de corpus numériques : textes, images et son, soit par numérisation de documents existants, soit par recueil de documents ‘nativement numériques’ : sites web, réseaux sociaux, etc. Exemple : le corpus COP21 réalisé par le Médialab et la Bibliothèque de Sciences Po
  • Capture, analyse et traitement des données numériques : traitement linguistique (TAL), fouille de textes, traitement de l’image et du son, etc.
  • Représentation graphique et visualisation des données.

Comme le rappelle Elydia Barret dans son mémoire, l’utilisation d’outils informatiques pour traiter les humanités n’est pas si nouvelle, puisque, dès la fin des années 1940, le père Roberto Busa entreprend l’élaboration d’un index des œuvres de Saint Thomas d’Aquin avec l’aide des informaticiens d’IBM, soit 11 millions de mots ! Ces ‘Humanities Computing’ continuent dans les années 1960 à 1980 et concernent essentiellement le traitement linguistique de corpus de textes comme le Brown Corpus aux Etats-Unis où un million de mots sont sélectionnés pour représenter la langue américaine … Les humanités numériques se distinguent en effet de ses précurseurs par la diversité et l’hétérogénéité de leurs objets, aussi bien que des méthodes et des outils mis en œuvre.

64018-cartographie-des-tweets-du-thatcamp-www-martingrandjean-ch-cc-by-nc-sa-3-0Les HN : nouvelles méthodes ou discipline spécifique ?

Cette controverse continue de diviser les différents acteurs (chercheurs, ingénieurs, professionnels de l’information). Comme le souligne Laurence Monnoyer-Smith dans son article « Ouvrir la boite à outils de la recherche numérique » : « Si les méthodes numériques mobilisées dans le cadre de recherche en sciences humaines ne sont pas radicalement différentes, elles renouvellent toutefois les débats épistémologiques provenant du croisement entre informatique et SHS ». Elle cite à ce propos l’article de Noortje Marres qui défend la théorie d’une ‘redistribution’ des méthodes qui a lieu au sein de la recherche numérique. D’après cette auteure, « les outils numériques et les sources de données en ligne transposent sur le web des méthodes traditionnelles en SHS, tout en les adaptant aux nouvelles propriétés du support ». Les chercheurs adaptent donc ces méthodes et les modifient pour faire face à de nouveaux défis épistémologiques.

En revanche, le Manifeste des Digital Humanities (THATCAMP 2010) proclame « Les Digital Humanities désignent une transdiscipline, porteuse des méthodes, des dispositifs et des perspectives heuristiques liées au numérique dans le domaine des sciences humaines et sociales ». Les participants du Thatcamp ne négligent pas pour autant les méthodes traditionnelles « elles s’appuient sur l’ensemble des paradigmes, savoir-faire et connaissances propres à ces disciplines tout en mobilisant les outils et les perspectives singulières du champ du numérique ».

Il est indéniable que le numérique a changé notre rapport aux objets généralement étudiés par les humanités et les SHS. Par rapport à l’écrit par exemple, aussi bien la lecture que l’écriture connaissent une transformation par le numérique, grâce aux liens hypertexte et l’éditorialisation des contenus, sans oublier les groupes de lecture ou d’écriture en réseau … Quant aux pratiques sociales, elles ont été ‘cannibalisées’ par les outils de communication et de réseaux sociaux et l’utilisation d’algorithmes à l’intérieur de ces dispositifs changent complètement la donne !

Face à ce changement radical qui transforme notre relation cognitive au monde, Michel Wieviorka dans son manifeste l’Impératif numérique [analyse de Jean-François Blanchard] exhorte les chercheurs « à ne pas abandonner le domaine à des spécialistes et à prendre la mesure des enjeux qui sont vitaux pour les SHS. Utiliser les ressources numériques, intégrer le numérique dans les méthodes de travail et les objets d’étude constituerait une première avancée vers une appropriation du changement ».  bandeau_humanum

Manifeste des Digital Humanities/par Marin Dacos. – THATCAMP Paris, 2010 maj. 25/01/12. – Hypothèse.org

Berra, Aurélien. – Faire des humanités numériques. – in Read/Write 2/Pierre Mounier, dir. – Open Edition Books, p.25-43. – 2012

Plantin, Jean-Christophe ; Monnoyer-Smith. – Ouvrir la boite à outils de la recherche numérique. – Tic&Société vol.7:n°2, 2e semestre 2013

Blanchard, Jean-François. – Michel Wieviorka, l’impératif numérique ou la nouvelle ère des sciences humaines et sociales ? - Lectures Revues.org. – comptes-rendus 2013

Barret, Elydia. – Quel rôle pour les bibliothèques dans les humanités numériques ? Mémoire d’étude – ENSSIB -Université de Lyon, janvier 2014

Dacos, Marin ; Mounier, Pierre. – Rapport Humanités numériques. – Institut français ; Open Édition, 20/06/14 via Slideshare.net

Humanités numériques. – Institut français, 2014. – Publication d’une étude consacrée aux humanités numériques, soutien à la participation de chercheurs français à la conférence Digital Humanities 2014 de Lausanne, table ronde au Salon du livre, rencontres et débats dans le réseau culturel.

Humanités et cultures numériques : éléments d’histoire et de prospective/Milad Douehi ; Louise Merzeau. – DHNord 2014 Humanisme et humanités numériques. – Publie.meshs, 27/05/14

Dunleavy, Patrick. – Big data and the future of social sciences. – LSE podcasts – Audible impact episode 3, 06/08/14

Moatti, Alexandre. – Quelle acceptation du terme « humanités numériques ». – Bibnum, 19/11/14

Levy, Pierre. – My talk at « The Future of Text 2014. Communication presented at The Future of Text symposium IV at the Google’s headquarters in London (2014). – Pierre Levy’s Blog, 02/11/14

Quels agencements pour les humanités numériques ?/ Eddie Soulier.dirLes Cahiers du numérique. – Numéro spécial, vol.10 – 2014/4. – via Cairn.info

Cavalié, Etienne. – Projet de mode d’emploi des humanités numériques. – Bibliothèques (reloaded), 30/01/15

Qu’est-ce que les humanités numériques ? - France Culture Plus, 25/05/15 [Alexandre Gefen (fabula.org), Pierre Mounier (CLEO), Michel Wieviorka (FMSH). Rencontre animée par Xavier de La Porte (France Culture) au Salon du Livre, Paris 2014).

 

Libre accès et partage des données de la recherche … Vers une science ouverte ? II – L’exploration de contenus

text_mining_analytics_survey_softwareAprès la disposition permettant aux chercheurs de mettre gratuitement en ligne leurs publications réalisées dans le cadre de recherches sur fonds publics, nous allons examiner l’impact des amendements autorisant la fouille automatique de textes et de données (Text and Data Mining –TDM) sur le développement de la recherche.

Au départ cette mesure ne devait pas apparaître dans la loi ; en attendant une réglementation européenne sur la question, le Ministère de la Culture et de la Communication avait nommé une mission pour en faciliter le recours comme exception au droit d’auteur comme le signale Antoine Oury dans un article d’Actualitté. Les éditeurs, dans leur ensemble, étaient plutôt réticents à ouvrir leurs collections, même si certains grands acteurs, comme Elsevier ou Springer, accordaient des licences limitées aux chercheurs.

Le TDM : aspects juridique et technique

Que représente exactement ce traitement et qu’apporte-t-il à la recherche ? Une partie de la réponse se trouve dans la tribune parue dans le Monde le 7 mars dernier, signé par un grand nombre de chercheurs « Pour une science ouverte à tous ». Après avoir rappelé l’importance du libre accès des publications scientifiques, notamment dans l’archive ouverte HAL, les chercheurs invitent les sénateurs à voter l’article 18 bis en s’assurant que la fouille de données ne soit pas soumise à des négociations avec un tiers. « La fouille de données doit devenir un droit ».

L’article en faveur du TDM permettra donc « d’extraire de l’ensemble de la production scientifique mondiale de nouvelles connaissances grâce à l’exploitation automatisée, à l’aide d’algorithmes, de corpus désormais gigantesques. » Application-du-processus-de-fouille-de-donnees-dusage-du-web-sur-les-fichiers-logs-du-site-cubba16

Contrairement à d’autres pays (Etats-Unis, Royaume Uni), en France, les chercheurs n’étaient pas autorisés à pratiquer cette fouille de contenus de façon automatique et certains laboratoires étaient obligés de se rendre à l’étranger pour réaliser cette opération … ! Si certains éditeurs accordent des licences, celles-ci sont limitées (10 000 articles par semaine pour Elsevier sur la plateforme Science Direct). La Contribution de l’ABDU au CNNUM est très claire sur cette question : 10 000 articles/semaine cela peut paraître beaucoup, mais si l’hypothèse de recherche n’est pas validée au bout de X jeux de 10 000 articles de Science Direct, comment explorer les Y jeux nécessaires, et aussi sur d’autres bases de données ? Et ce, sans jamais pouvoir fouiller en une seule fois l’ensemble du corpus. De plus, Elsevier impose aux chercheurs de publier sous licence CC-BY-NC (pas d’utilisation commerciale) les extraits pertinents retenus en limitant leur longueur à 350 mots … Quant à Springer, il impose que chaque projet de TDM portant sur ses contenus soit décrit et enregistré via à un formulaire en ligne et se réserve le droit de décider si la demande est fondée … « Une ingérence inacceptable du point de vue de l’indépendance de la recherche ».

En effet, en procédant à ce traitement, les chercheurs n’ont pas comme objectif « la dissémination indue de ces contenus sous droit ou de leur exploitation commerciale ». Mais cette ‘lecture computationnelle’ implique la création d’une copie numérique du corpus à fouiller, ce qui soulève un problème de propriété intellectuelle. Il est évident qu’une solution doit être trouvée pour les ayants droit, d’autant que la plupart des chercheurs impliqués sont eux-mêmes des auteurs … !

Les éditeurs ont fait pression sur l’UE pour qu’une solution contractuelle soit priorisée par rapport à une révision du cadre juridique qui passerait par la création d’une nouvelle exception au droit d’auteur. C’est déjà le cas au Royaume Uni où la loi a consacré une nouvelle exception au droit d’auteur couvrant les ‘analyses computationnelles’ de contenus protégés, effectuées dans un cadre de recherche sans but lucratif, comme le souligne Calimaq dans un post de S.I.Lex sur l’exploration des données. C’est aussi la raison pour laquelle les chercheurs insistent sur la désignation d’un ‘tiers de confiance’, extérieur au milieu de l’édition commerciale, pour réaliser ces opérations. C’est ce que propose l’ABDU : une super base de données sur une plateforme publique pouvant « héberger tous les corpus du web visible et invisible aux seules fins d’en permettre la lecture algorithmique». Cette immense base de contenus constituerait une ‘base maître’ qui ne serait accessible et manipulable que par le tiers de confiance. Pour chaque demande de recherche, un ‘bac à sable’ serait constitué en copiant les corpus à partir de la ‘base maître’ ; cette copie serait détruite en ne conservant que les occurrences pertinentes, une fois les opérations de TDM terminées. Cela permet de répondre aux besoins des chercheurs tout en assurant la protection des ayants droit.

Le TDM comme service aux chercheurs text-mining

Dans les sciences dites ‘dures’ l’exploitation des données de la recherche est largement répandue et souvent effectuée par les chercheurs eux-mêmes ; c’est beaucoup moins le cas en sciences humaines et sociales (SHS) et dans les humanités où la formation aux outils numériques est moins répandue. Le traitement linguistique nécessaire à la fouille de texte est généralement confié à un service hybride de documentation et d’ingénierie linguistique. Frédérique Bordignon analyse ce service dans un récent billet du Carnet’IST. Cette ingénieure de recherche explique le fonctionnement d’un des outils nécessaire à la fouille automatique de textes RapidMiner et le service que ces spécialistes peuvent apporter aux chercheurs. Cette nouvelle activité pourrait s’imposer auprès des bibliothèques et des laboratoires de recherche, comme le Medialab à Sciences Po.

C’est cette activité de ‘data librarian’ qu’évoque Alexandre Tur dans un article de Catherine Muller sur le blog de l’ENSSIB. Ce conservateur de bibliothèque a effectué son stage au Canada dans le département de services aux chercheurs de la Quenn’s University de Kingston (Ontario). Il a travaillé surtout sur l’assistance à la gestion de données de la recherche auprès des chercheurs en humanités et à la promotion de l’open access dans l’université. text-mining _1

Alexandre Tur prend soin de distinguer les données scientifiques des données publiques qui sont proposées librement, les ‘open data’ (données ouvertes). Ces dernières proviennent généralement des Etats et des administrations publiques, en France c’est la Mission ETALAB qui les représente, (statistiques économiques, démographiques, géographiques, sociales et culturelles). Comme le souligne le Comité d’éthique du CNRS (COMETS) dans son avis du 7 mai 2015 sur les enjeux éthiques du partage des données, « Les politiques qui promeuvent l’ouverture des données publiques n’ont pas les mêmes objectifs que celles du partage des données scientifiques ». Si les données scientifiques produites sur fonds publics ont vocation à devenir publiques, les données publiques ont vocation à devenir scientifiques lorsqu’elles concernent l’environnement, la société ou la santé. Dans ces domaines, les questions éthiques doivent être évoquées lorsque ces données sont sensibles et relèvent de la vie privée.

Les bibliothèques de recherche représentent un partenaire ‘naturel’ pour héberger et gérer ces données. Comme l’explique William M. Cross dans son article du Library Journal : les bibliothèques vont se développer comme un ‘écosystème open data’. On va passer de l’idée d’infrastructure des données, centrée autour des revues scientifiques et des dépôts institutionnels à une ‘écologie des données de la recherche’. Cette  écologie implique une évolution dans plusieurs domaines, comme le développement de nouvelles normes autour de la validation des données de la recherche, de l’identification de la provenance des jeux de données et des nouveaux types de gestion et de propriété de ces données.

Les métadonnées deviennent centrales dans ce processus de transition entre le web documentaire et le web de données. Comme le dit Valérie Tesnières, citée dans « Gérer les données de la recherche », une formation de la TGIR Humanum, « L’enjeu est moins de produire des données que de les connecter les unes avec les autres […] Produire des métadonnées permet à la fois l’interopérabilité des données et à en assurer une meilleure pérennisation »

C’est ce que soutient aussi Gildas Ilien dans un récent article d’Archimag : de nouveaux formats doivent permettre d’adapter le catalogage à l’environnement web et numérique des bibliothèques. Cette « revanche des données » nous oblige à revenir à une sorte de catalogue pour s’y retrouver dans la jungle du numérique, même si l’usager n’a pas besoin de les voir … ! Seules les machines les traiteront. Ce retour aux sources (catalogage) implique néanmoins un changement de structures et de système : la transition bibliographique où la logique du document s’efface au profit de la logique de l’information.

Cette ‘révolution copernicienne’ dans la documentation  explique le slogan des chercheurs du LERU (Ligue des universités européennes de recherche) justifiant la fouille de textes et de données « The right to read is the right to mine » (Le droit de lire est le droit d’explorer).

llc_droit_d_auteur

Langlais, Pierre-Carl. - Text mining : vers un nouvel accord avec Elsevier. – Sciences communes, 29/10/14

Exploration des données : un environnement juridique en évolution. – S.I.Lex, 05/12/14

Consultation du Conseil national du numérique : contributions de l’ABDU.- ABDU, 02/15

Les enjeux éthiques du partage de données scientifiques : avis du COMETS. – CNRS, 07/05/15

Oury, Antoine. – Déclaration de la Haye : le copyright contre les connaissances. – Actualitté, 11/05/15

Naegelen, Pierre. – Données de la recherche : quel positionnement et quels rôles pour les bibliothèques ? – SCD Université Toulouse III Paul Sabatier, 15/06/15

LERU Statement : the right to read is the right to mine. – League of European Research Universities, 15/06/15

Demange, Julie. – Gérer les données de la recherche, de la création à l’interopérabilité (1/3). – Archives des mondes contemporains, 14/10/15

Fradin, Andrea. – Premier bug : la fouille automatique de données es adoptée.Rue89/L’Obs, 21/01/16

Oury, Antoine. – France : une mission pour faciliter la fouille et l’exploration de textes et de données. – Actualitté, 21/01/16

La circulation des données et du savoir. Projet de loi pour une République numérique adopté par l’Assemblée nationale en première lecture. – Assemblée nationale, 26/01/16

Cross, William M. – Libraries support data-sharing across the research lifecycle. – Librairy Journal, 01/02/16

Langlais, Pierre-Carl. – Text-mining : une licence nationale contre l’exception ? - Sciences communes, 19/02/16

Bordignon, Frédérique. – Le text-mining comme service aux chercheurs.CarnetIST, 05/03/16

Pour une science ouverte à tous. – Le Monde, 08/03/16

Ilien, Gildas. – Transition bibliographique : la revanche des données ?Archimag, 14/03/16

 

 

Lire, écrire à l’ère numérique – 2 – Ecriture et éditorialisation

La grammatologie

84135761_oComme il a été évoqué dans le post précédent, l’écriture est très liée au dispositif de lecture. L’écriture n’est pas la transcription fidèle de la parole pleine sur un support, ce n’est pas une simple reproduction du langage. C’est ce que Derrida explique dans la De la Grammatologie[1]  « La brisure [de l’écriture] marque l’impossibilité pour un signe, pour l’unité d’un signifiant et d’un signifié, de se produire dans la plénitude d’un présent et d’une présence absolue ». Cette distance de l’écriture par rapport au langage et à la pensée, va être traduite par la notion de ‘trace’ : « cette trace est l’ouverture de la première extériorité en général […] : l’espacement ». Derrida arrive ensuite à la notion de ‘gramme’ (que l’on retrouve dans ‘programme’ « Depuis l’’inscription génétique’ et les ‘courtes chaînes’ programmatiques réglant le comportement de l’amibe ou de l’annélide jusqu’au passage au-delà de l’écriture alphabétique de l’ordre du logos et d’un certain homo sapiens, la possibilité du gramme structure le mouvement de son histoire ». On retrouve ici l’idée de codage spécifique de certaines aires neuronales que le neuropsychologue Stanislas Dehaene avait identifié pour la lecture. C’est ce que souligne aussi Christian Fauré dans son post Généalogie d’un lecteur : L’écriture est une ‘grammatisation’ (le codage) d’un message et la lecture, la ‘dégrammatisation’. En lisant, on écrit aussi dans le cerveau, on décode ce qui est tracé sur le support. Si on n’effectuait pas ce processus de décodage, on lirait comme une ‘tête de lecture’, sans rien comprendre … ! Ou tout au moins en ne comprenant que très partiellement …. traces

La lecture, surtout dans un environnement scientifique, s’accompagne souvent d’écriture, soit sur le support lui-même, annotations, surlignages, soit sur un autre support : fiche de lecture, notice, etc. Ces balisages divers signalent que la lecture a dépassé le stade alphabétique pour atteindre un stade cognitif : tri, sélection. Comme le fait remarquer Christian Fauré, peu importe si on ne relit pas ses propres annotations, car « souligner un livre c’est aussi et en même temps écrire dans son cerveau ». Ces gribouillis si souvent réprimés par les éducateurs et les bibliothécaires – c’est vrai qu’ils endommagent les ouvrages – vont retrouver une nouvelle vie avec le numérique ! Les lecteurs ‘écrivants’ d’aujourd’hui vont aussi pouvoir partager leurs commentaires avec d’autres lecteurs comme dans les bibliothèques du Moyen-Age où chaque clerc ajoutait son commentaire dans la marge ! La différence, c’est que l’on peut les faire apparaître ou disparaître en fonction des besoins.

Dans l’environnement numérique des e-books, chaque lecteur peut conserver ses annotations sur la plateforme de lecture en ligne. De même, de nombreux outils existent pour catégoriser et annoter les articles et blogs sur la Toile. C’est ce qui me permet d’écrire moi-même ce post à partir de tous les articles que j’ai recensé sur Diigo à partir du tag ‘écriture’moleskine_ecriture_infinie_698

L’éditorialisation du web

Le grammatologue allemand Ulmer appelle cette nouvelle compétence ‘electracy’, electronic literacy. C’est pourquoi l’écriture dans l’environnement numérique ne peut être la reproduction à l’identique de l’œuvre numérisée, comme c’est le cas aujourd’hui des e-books et des revues en ligne. C’est l’objet de la série de séminaires organisés depuis 2011 par l’IRI au Centre Georges Pompidou « Ecritures numériques et éditorialisation ». Dominique Cardon et Audrey Laplante démontrent dans une de ces conférences comment fonctionne le dispositif d’éditorialisation de contenus sur le web. Grâce à une structuration des données par des algorithmes, l’internaute les atteint après un ‘parcours de lecture’. Il ne se trouve pas directement en relation avec les producteurs de contenus. La plupart du temps, il doit passer par les algorithmes des moteurs de recherche (PageRank de Google) ou des réseaux sociaux (EdgeRank de Facebook).

L’écriture sur le web passe aussi par les différentes sortes de messageries (mels, messageries instantanées, microblogging) qui permettent aux individus d’exprimer leurs opinions et leurs sentiments sur toutes sortes d’informations et d’évènements. Et ce, pas seulement au moyen d’écriture alphabétique mais aussi à travers plusieurs autres médias : infographies, photos, vidéos, etc.

Avec les sites web, blogs et réseaux sociaux, l’écriture n’est plus réservée aux seuls professionnels, journalistes ou spécialistes en communication des entreprises ou des organismes publics. Chacun peut devenir rédacteur ou éditeur de son propre contenu … Malgré l’importance et l’omniprésence des images, fixes ou animées, les jeunes n’ont jamais autant écrit qu’en ce début de 21e siècle !

De plus, des outils dédiés (Framapad) permettent de plus en plus une écriture collaborative, qui va de l’administration à la recherche (compte rendus de réunions, de colloques) à la fiction (cadavres exquis, romans collectifs).

Toutes ces activités laissent évidemment des traces sur les réseaux. Nous retrouvons donc ici la notion-clé de l’écriture théorisée par Derrida : la ‘trace’. Ce sont ces traces qui vont alimenter aussi bien la surveillance des « Big brothers » dictatoriaux ou démocratiques que les serveurs des entreprises et des organisations à travers le traitement des mégadonnées (Big Data)… !

2013-05-22 003Le traitement de certaines traces, les métadonnées, vont servir de balises sémantiques pour se repérer dans le chaos du web, c’est le rôle des moteurs de recherche. Ces derniers explorent le web en lisant d’abord des milliards de pages à l’aide de logiciels robots et les indexent automatiquement. Ensuite, ils ne se contentent pas de présenter les résultats de façon brute : ceux-ci sont présentés, éditorialisés en fonction d’algorithmes bien précis (PageRank).

En attendant les robots-écrivains, les ‘robots-journalistes’ !

Slate signale l’expérience d’Associated Press avec la rédaction d’articles par des logiciels robots. Pour le moment il s’agit essentiellement de dépêches traitant les résultats financiers d’entreprises financières américaines qui vont être intégrées en direct dans le fil international d’AP. Même s’il s’agit pour le moment de tâches de base qui ne passionnent pas les journalistes (extraire des informations des bases de données) mais que les automates sont beaucoup plus rapides et efficaces à traiter … Tous les professionnels de l’information, documentalistes, veilleurs, traducteurs, rédacteurs se sentent menacés par l’émergence de cette concurrence virtuelle, mais l’intelligence artificielle a encore de grands progrès à faire avant mettre en dangers toutes ces professions intellectuelles … automated robot journalism

[1] Derrida, Jacques. – De la grammatologie. – Paris, Ed. de Minuit, 1967.


 Enseigner l’écriture numérique. – Dossier séminaire PRECIP – UTC de Compiègne, 4-5 avril 2012 – Revue Skhole.fr

Généalogie d’un lecteur (2) : l’écriture du lecteur. – Christian Fauré, 01/07/12

L’écriture numérique, une écriture sociale ? – Le rendez-vous des lettres – Eduscol, 2012

Gilliot, Jean-Marie ; Scarlatti, Serge. – Écritures collaboratives pour des cours ouverts sur le web. – Institut Mines Télécom – Télécom Bretagne, 2012

How does writing modifies your brain ? [infographic]. – Daily Infographic, 26/05/13

750 auteurs réunis pour l’écriture d’un roman collectif. – Actualitté, 07/11/13

De la stratégie de contenu web à la stratégie d’information web. – Plume interactive, 10/06/13

Sicot, Timothée. – SMS et réseaux sociaux améliorent l’écriture des étudiants. – L’Atelier : disrupture innovation, 24/09/13

Cardon, Dominique ; Laplante, Audrey. – Algorithmes et éditorialisation automatisée – Ecriture numérique et éditorialisation. – Polemic Tweet, 24/04/14

Oresmus, Will. – Journalisme-robot : le soulèvement des machines à écrire. – Slate, 27/07/14

 

 

Big Data, petite synthèse : quelle évolution ?

Big-DataLe « Big Data » est en train d’envahir tous les secteurs d’activité et du savoir. Les entreprises, l’administration publique, l’université et la recherche ne jurent plus que par le recueil, l’analyse, le traitement et la représentation  de ces « grandes données ». L’internet, et particulièrement le Web 2.0, occupe évidemment une place privilégiée dans ce dispositif, notamment grâce aux réseaux sociaux qui drainent à eux seuls des téraoctets, voire des pétaoctets d’informations … Il existe aussi d’autres lieux, les silos d’informations que représentent les bases de données ‘factuelles’, engrangées par les grandes entreprises ou les institutions publiques, locales, nationales, européennes et internationales  (INSEE, Eurostat, OCDE, etc.).

Mais alors, qu’est-ce qui différencie le ‘big data’ de ces bases de données ‘historiques’ que les statisticiens produisent et traitent depuis des décennies ?

Définition de Wikipedia : Les big data, littéralement les grosses données2,3, parfois appelées données massives4, est une expression anglophone utilisée pour désigner des ensembles de données qui deviennent tellement volumineux qu’ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l’information. L’on parle aussi de datamasse5 en français par similitude avec la biomasse.

 

Les sept caractéristiques

Rob Kitchin, dans une interview du blog de la LSE « Impact of Social Sciences » les définit par sept traits caractéristiques : d’abord les 3 V : volume, vélocité et variété. La volumétrie est énorme sans commune mesure avec les bases de données ; la vitesse est proche du temps réel, quant à la variété, elle concerne toutes sortes de données, structurées ou non structurées, avec des références temporelles ou spatiales. Ensuite l’exhaustivité de l’objectif (saisir une population ou un système en entier), la granularité dans la résolution, avec des informations aussi détaillées que possible et indexées. Enfin, l’aspect relationnel, avec des champs communs (catégories) permettant de générer des ensembles de données différents, la flexibilité et l’évolutivité : on peut à tout moment ajouter ou modifier des champs.

big-data-will-drive-the-next-phase-of-innovation-in-mobile-computingOn comprend ainsi en quoi les big data sont différentes des grandes bases de données traditionnelles. Si on prend l’exemple du recensement, la base est aussi très importante en volume (la population d’un pays), exhaustive, relationnelle et indexée, mais elle a une vitesse très basse (une fois tous les dix ans), une très faible variété d’informations (30-40 questions au maximum), et ne présente aucune flexibilité ou évolutivité.

 

Protéiforme, incertain et partiel …

Les big data sont cependant loin d’être parfaites ! Elles présentent un certain nombre de caractéristiques qui tiennent à la complexité de leur production. Malgré leur désir d’exhaustivité, elles sont toujours partielles, incomplètes, pleines de biais et d’incertitudes … Mais surtout, ces données ne viennent pas de nulle part, elles ont été produites, construites par des systèmes, conçus et testés dans un environnement scientifique, entourées par des contextes et des intérêts divers. Dans ces conditions, contrairement à l’allégation de Chris Anderson dans Wired, les données ne vont pas « parler par elles-même », on ne va pas « laisser les algorithmes trouver des modèles là où la science est impuissante », et faire que « la corrélation remplace la causalité », notre compréhension du monde émergerait alors des données et non d’une théorie, « de l’induction, plutôt que de la déduction » …

Si les données sont liées à une pratique scientifique, les sciences sont aussi basées sur les données (data driven science), notamment grâce à la ‘fouille de données’ (data mining). D’où l’importance de l’analyse exploratoire avec une approche contextuelle qui permettra de déterminer si les modèles qui en ressortent ont un sens ou sont aléatoires … C’est là que devrait s’instituer une philosophie, une épistémologie des datasciences.

big-data-318x211

L’importance du contexte : la « fabrication des données »

C’est cette ‘culture des données’ que souligne aussi Evelyne Ruppert, maître de conférence en sociologie au Goldsmith College de Londres et spécialiste des données, dans un  article de MyScienceWork. Les données sont construites et le processus de fabrication est aussi important que la donnée elle-même. Il est donc indispensable de disposer d’informations sur la construction des données, sur les pratiques et les décisions sur la façon dont elles sont consignées par l’administration (pour les données publiques). C’est le rôle des métadonnées. Les données brutes ne sont pas utilisables en tant que telles. Il existe des diversités de saisie et de pratiques qui ne peuvent pas être homogénéisées. Il faut distinguer entre les corrélations inédites qui peuvent ressortir des jeux de données et interprétations qui en sont déduites.

Dans le contexte de la réutilisation des données, il ne faudrait pas réduire la complexité qui les caractérise en simplifiant aussi bien les données que les outils. Il existe très peu de personnes qui peuvent télécharger tel quel un jeu de données. D’où l’importance de la médiation avec la présence d’infomédiaires, des experts bénévoles (ou pas ?) qui présentent les données à travers de représentations graphiques, d’interfaces de visualisation. On trouve aussi des applications gratuites produites par des associations. Mais cela implique de choisir ce qui doit être mis en lumière, ainsi que des valeurs et des jugements. L’open data ne représente qu’une petite partie de ce qui est disponible. Cette sélection  nécessite une prise de conscience de ce qui doit être diffusé et de l’esprit critique …

Jean-Pierre Malle souligne aussi l’importance de l’incertitude et de l’aspect ‘constructiviste’ des big data dans le MOOC sur « la Datascience et l’analyse situationnelle » (IonisX). En datascience, il n’y a pas de ‘vérité scientifique’, chacun doit la construire en fonction de ses besoins ou de ses intérêts … Pour une discipline qui est censée engendrer l’industrie du 21e siècle et restructurer toute l’économie, on pourrait s’inquiéter à moins ! Apparemment, c’est grâce à son caractère polymorphe et protéiforme que la ‘datamasse’ pourrait changer la donne dans un univers dominé par l’incertitude et l’individualisme … !

La disparition de la moyenne marque aussi la différence essentielle entre les big data et les statistiques. Comme le souligne Lev Manovich, dans son interview sur Place de la Toile, cité par Xavier de la Porte dans InternetActu, la statistique vise la moyenne, par exemple la taille des soldats en 1830, alors que l’objectif des big data est l’exception. Elles débusquent les ‘signaux faibles’ que l’on perçoit moins dans les grandes masses, la ‘longue traîne’ des usages particuliers ! C’est aussi le propos de Tyler Cowen dans son ouvrage « Average is over » (la fin de la moyenne), cité par Jean-Laurent Cassely dans Slate. Cette évolution ouvre le règne du « sur mesure » (customised) : les services devront s’adapter à la diversité de la clientèle. Les clients noteront bientôt les services (médecins, avocats, professeurs, commerçants), comme ils seront eux-mêmes notés en tant que consommateurs ou usagers de ces services. Le score de l’e-réputation de chacun le suivra partout, grâce à la vente de fichiers ! Et si l’on refuse d’être noté, on risque de disparaître des radars et ainsi de devenir suspect, donc mal-noté !

Cette « physique sociale » comme la nomme Sandy Pentland, chercheur au Media Lab du MIT, cité par Hubert Guillaud dans InternetActu, résulterait de la rencontre entre les big data et les sciences sociales. L’ »extraction de la réalité » rendrait possible la modélisation mathématique de la société ! Avec les big data, nous allons pouvoir recueillir suffisamment de données comportementales pour permettre aux scientifiques de développer « une théorie causale de la structure sociale » et d’établir une « explication mathématique » de la société … Les scientifiques vont pouvoir ainsi recueillir des milliards d’informations en temps réel sur des millions de personnes et pouvoir appréhender en même temps le niveau global et singulier. Cette physique sociale permettra aussi une meilleure circulation des idées qui devrait renouveler les relations sociales, par exemple, dans une ville.

 

Valoriser les données données de la recherche

Mais les données de la recherche, surtout en sciences sociales, sont loin d’avoir les moyens de valoriser leurs résultats. C’est ce qu’expliquent Dave Carr et Natalie Banner du Wellcome Trust, dans un article d’Impact of social sciences. Ils préconisent le partage des données entre chercheurs pour optimiser les effets du big data. Actuellement, il existe peu de stimuli pour le partage des données. Une enquête auprès des chercheurs montre les barrières qui ralentissent ce processus : manque de financement, detemps,  de compétences, de dépôts institutionnels ou de ressources informatiques. Mais c’est surtout le manque de reconnaissance et de valorisation, le peu de protection de la vie privée, les données utilisées de façon inappropriée, la perte de crédit intellectuel qui inquiètent les chercheurs ! Seul un changement de paradigme dans la culture scientifique permettrait d’apporter un meilleur soutien aux chercheurs. C’est ce que propose un organisme britannique transdisciplinaire, l’EAGDA Calls (Expert Advisadory Group on Data Access). Ses recommandations portent sur trois grands points : le financement de la gestion des données pendant tout le cycle de vie de la recherche ; la reconnaissance du partage des données comme valorisation des résultats de la recherche ; le soutien aux compétences clés et aux ressources, notamment à travers des partenariats avec de nouveaux métiers (data manager).

 

Les Plans pour une économie du Big Data en France et en Europe

Face à ce nouveau secteur de l’économie de la connaissance, l’Union européenne et la France ont prévu des programmes pour développer des infrastructures et encadrer la réglementation de cette activité.

La Commission européenne compte sur le partenariat public-privé pour le développement du Big data en Europe. Elle veut s’appuyer sur les secteurs innovants de l’informatique et de la robotique pour mettre en place de grandes infrastructures : des réseaux d’outils de traitement de données destinés aux PME, à la recherche-développement et au  secteur public ; un grand réseau pour la recherche et l’éducation ; une fondation technologique pour le big data dans l’industrie des communications mobiles.

Des mesures juridiques sont aussi prévues pour des licences standards, les jeux de données et la réutilisation, surtout en ce qui concerne les données ouvertes (Open Data). En matière de confiance et sécurité, la Commission a prévu un Guide des bonnes pratiques pour un archivage sécurisé, une réflexion sur la propriété des données et le contrôle des usagers sur la technologie infonuagique (Trusted Cloud Europe).

En France, le Plan Big data vise un marché de 9 milliards d’euros et 130 000 emplois (dont 80 000 créations) à l’horizon 2020. Il a comme objectifs le soutien à l’écosystème des start-up et l’assouplissement de la loi informatique et liberté. Il veut faire de la France le leader mondial des Big Data, grâce à la formation de ‘data scientists’ et à la ‘French Tech’. La création, en partenariat avec la FING (expérience MesInfos), d’un « Espace personnel de confiance Big Data »

Le plan s’appuie aussi sur un partenariat public-privé impliquant les écoles et les organismes de recherche, les acteurs publics et les industries et acteurs privés : Orange, La Poste, Axa, GDF, etc.

data-672x372

 

Ruppert, Evelyne ; Kadri, Pierre-Sofiane. – L’open data est-il un leurre politique ? Entretien. - MyScienceWork, 08/07/14

La Porte, Xavier de. – Une société de données n’est pas une société statistique. – InternetActu, 07/07/14

Biseul, Xavier. – Le plan big data vise à créer 80 000 emplois d’ici 2020. – 01Net, 03/07/14

Faucheux, Olivia. – Public : la révolution du Big Data. – Acteurs Publics, 02/07/14 (vidéo)

Making the most of Data-driven Economy. – Commission européenne – Memo 14/455, 02/07/14

Carr, Dave ; Banner, Natalie. – Maximising the value of research data: developing incentives and changing cultures. – Impact of Social Sciences, 01/07/14

Kichin, Rob ; Carrigan, Mark. – The philosophy of Data Science (Series) – Rob Kichin « Big data should complement small data not replace it ». – Impact of Social Sciences, 27/06/14

Cassely, Jean-Laurent. – Pourquoi on notera bientôt nos comportements d’usagers, de consommateurs et d’être humain. – Slate, 17/06/14

Guillaud, Hubert. – Big Data : vers l’ingénierie sociale. – InternetActu, 20/05/14

Datascience et analyse situationnelle : dans les coulisses du Big Data (MOOC). – IONISx, 04/06/14-26/07/14

Big data et web sémantique : une opportunité pour les profeessionnels de l’information

A propos du système Prism, François Géré de l’Institut d’Analyse Stratégique l’a reconnu dans Libération : « En France nous faisons la même chose que les Américains […] Toutefois, nous réduisons le périmètre aussi bien géographique (essentiellement en Europe et en Afrique) que sémantique (le nombre de mots-clés) ».
Mots-clés, métadonnées, web sémantique, les documentalistes se trouvent ici en terrain connu !

Avec les « Big data » et leurs réservoirs énormes de données, un champ immense s’ouvre aux professionnels de l’information, la sélection et la qualification des métadonnées qui leur sont attachées, autrement dit l’indexation.
Bien sûr, d’importants progrès ont été réalisés en indexation automatique et en traitement automatique du langage (TAL), et avec les masses de données textuelles que l’on peu traiter, des rapprochements de termes peuvent s’effectuer et produire des modèles de description, comme l’explique Nathalie Aussenac-Gilles dans Graphéméride. « Pour faciliter la recherche d’informations précises, de points de vue, d’opinions [… ] il est nécessaire de caractériser la nature des informations et des connaissances véhiculées par les contenus […] ne pas rester au niveau des mots, donc de passer au niveau des concepts ».

Avec le web sémantique (ou web de données ou ‘linked data’), « les données de toutes formes produites par tous les acteurs se trouvent interconnectées, identifiées sans ambiguïté et reliées les unes aux autres » Hervé Verdier, Directeur d’Etalab. En ‘typant’ ces données dans des ontologies, le web sémantique « met en place une indexation des pages web, mais aussi potentiellement des concepts absents du web dont une description sur le web est possible (personne, lieu, date, élément abstrait, objet physique » Pierre Couchet, « A quoi sert le Web sémantique en histoire et philosophie des sciences et des techniques » Semantic HPST

Ces nouveaux thesaurus linguistiques s’appuient sur des ‘triplets’ : sujet, prédicat et objet.
« Concrètement, un thésaurus relie des concepts entre eux selon des relations précises : synonyme, homonyme, hiérarchie, terme associé. L’ontologie ajoute des règles et des outils de comparaison sur et entre les termes, groupes de termes et relations : équivalence, symétrie, contraire, cardinalité, transitivité… Ainsi, l’ontologie est une étape supérieure au thésaurus selon l’ontology spectrum. » – Définir une ontologie avec OWL. – Les Petites Cases 11/11/05
En taggant par exemple un fichier contenant une photo, on pourra non seulement caractériser la photo, mais si ces mots-clés sont partagés, on pourra regrouper des photos similaires. Grâce à cette organisation des connaissances, on pourra classer une photo du Château de Versailles, rejetée comme « monument de Paris », si l’on a l’information que « Versailles est ‘Acôtéde’ Paris ou que Versailles et Paris sont deux villes ‘SituéeDans’ l’Ile de France » Nathalie Assenac-Gilles.

Bien sûr, ces langages OWL (Ontology Web Langage) demandent une bonne familiarité avec l’informatique (XML) et la logique, sans parler de connaissances linguistiques, mais les bibliothécaires/documentalistes ont tout à fait leur rôle à jouer dans la construction de ces bases de connaissances. L’exemple de l’ontologie du vin réalisée à Stanford, cité par le WC3, le montre : on retrouve des mots-clés, des caatégories, des propriétés et des noms de lieux.

Les professionnels de l’information qu’ils (elles) sont pourraient aussi bien construire ces bases de connaissances (en collaboration avec des informaticiens) que servir d’appui aux chercheurs pour qualifier les résultats de la recherche. La BNF l’a d’ailleurs bien compris avec la réalisation avec le projet « data.bnf.fr« web sémantique

Géré, François ; Hofnung, Thomas. – « En France, nous faisons la même chose ». Libération, 1er juillet 2013

Couchet, Pierre. – À quoi sert le web sémantique, en Histoire et Philosophie des Sciences et des Techniques ?. – Semantic HPST, 13/06/13

Fabien Gandon – Le web sémantique. – Graphemeride, 15/04/13

Le Web de données à la BnF : data.bnf.fr

Berners-Lee, Tim et al. – A Framework for Web Science. – Foundations and trends in web science, vol.1:n°1, 2006

Définir une ontologie avec OWL. – Les petites cases, 11/11/05

OWL Web Ontology Language Guide. – W3C, 10/02/04

Ontology of wines

Bachimont, Bruno. – Engagement sémantique et engagement ontologique : conception et réalisation d’ontologies en Ingénierie des connaissances.- INA, 2000 (pdf)

L’exploitation des données : un secteur très prometteur ….

« Quand je serai grand, je ferai du commerce de données personnelles ! » Cette remarque ironique exprimée dans l’émission néanmoins sérieuse de France 5 sur le numérique, le « Vinvinteur« , résume assez bien l’importance que prennent ces nouvelles ressources.

Les données, personnelles ou publiques, sont devenues le nouvel « or noir » du 21e siècle ! Celles que l’on appelle le « Big data » sont maintenant extraites en très grande quantités dans les flux des réseaux sociaux et des très nombreuses communications qui s’échangent sur la Toile.

Comme le souligne Michel Vajou dans la dernière Dépêche du GFII, IBM, grâce à son dernier outil, le Social Media Analytics va pouvoir analyser et synthétiser de très gros volumes de données issues des réseaux sociaux. Contrairement à ce qui se passait précédemment, ces données ne sont pas « propriétaires », elles n’appartiennent pas à des entreprises qui les auraient consolidées et structurées dans des entrepôts, ce sont des données ouvertes, transitant par des réseaux ouverts.
Grâce à ce service, les grandes marques de consommation pourront connaître les avis et les réactions (‘sentiment analysis’) des consommateurs sur leurs produits.

Mais les données ne se trouvent pas seulement sur les réseaux sociaux. On les détecte aussi à partir des objets qui nous entourent, à commencer par le smartphone, notre ‘double’ numérique, si l’on en croit Dominique Boullier et son projet Habitele.
Dans le cadre d’une recherche globale sur ‘smartphone et vie privée’, la CNIL s’est associée à l’INRIA avec le projet « Mobilitis ». Celui-ci consiste à analyser en profondeur les données personnelles enregistrées, stockées et diffusées par le smartphone. En constituant une expérience ‘in vivo’ sur un nombre limité de personnes (6 iPhones) et d’applications (géolocalisation, photos, carnet d’adresses et identifiants téléphone), les chercheurs comptent pouvoir répondre à un certain nombre de questions vitales pour la vie privée des utilisateurs : qui accède à l’identifiant unique de l’appareil, à la localisation, au carnet d’adresse, etc.
De nombreuses applications récupèrent, par exemple, l’identifiant unique Apple du téléphone (UDID), qui ne peut pas être modifié par l’utilisateur. Apple a annoncé que cette situation va bientôt être modifiée, mais en attendant de nombreux acteeurs (développeurs d’applis) sont destinataires de ces données, invisibles pour l’utilisateur …!
La CNIL souhaite développer l’accompagnement de ces acteurs pour qu’ils intègrent les problématiques « Informatique et Libertés » dans une démarche « Privacy by Design ».

Mais le smartphone n’est pas le seul ‘mouchard’ de notre environnement numérique, bientôt d’autres objets rempliront cette fonction pour le plus grand bonheur de l’Intelligent Business’. Votre voiture pourra renseigner l’assureur sur vos habitudes de conduites, ou votre frigo intelligent déduira vos croyances religieuses à partir de vos habitudes alimentaires … Déjà nos liseuses nous trahissent ! Amazon prévient ses acheteurs de Kindle : outre les données pratiques (mémoire disponibles, historique des connexions, puissance du signal), le logiciel fournit aussi des informations sur le contenu numérique (la dernière page lue, les annotations, les signets, les passages surlignés, etc. .). Lire des e-book génère donc des informations pour les éditeurs et les distributeurs …! On pourra savoir quels lecteurs abandonnent un texte et lesquels finissent leurs livres … Et surtout les différentes formes de lecture par type de document (essai, fiction, poésie, etc.).

L’analyse des flux de Twitter a déjà permis de prédire le résultat d’élections de vedettes dans une émission de télé-réalité, style « Nouvelle Star » aux Etats-Unis. En recueillant des données très détaillées sur le comportement social des téléspectateurs sur Twitter pendant l’émission, des chercheurs de la Northeastern University de Boston ont démontré que l’élimination des concurrents pouvait être anticipée… Les données de géolocalisation ont semblé jouer un rôle non-négligent dans cette analyse, car on a pu déceler l’influence importante de l’origine géographique des participants sur le vote.

Une activité importante se dessine pour les années à venir dans l’exploitation de cette nouvelle ressource, notamment dans le secteur de la publicité ciblée et du commerce en ligne. Mais il ne faudrait pas que ces pratiques lèsent la source même de ces données : les personnes physiques : en fait vous, moi, n’importe qui un tant soit peu connecté aux outils et aux réseaux numériques !
D’où l’importance du combat pour la protection des données personnelles, aussi bien au niveau national, qu’européen et international.

Y-a-t-il une menace Internet ? Le gros t’chat avec Xavier de La Porte : entretien par Jean Marc Manach. – Le Vinvinteur, France 5, 18/05/13

Vajou, Michel . – Big Data : quand IBM décrypte les messages sur les réseaux sociaux. – La Dépêche du GFII, 22/05/13

Léonard, Clara. – Big Data : quand IBM décrypte les messages sur les réseaux sociaux. – ZDNet, 17/05/13

Guillaud, Hubert. – Big Data, la nouvelle étape de l’informatisation du monde. – InternetActu, 14/05/13

Pouilly, Denis. – L’internet des objets, le prochain chantier de la confidentialité des données. – Regards sur le numérique, 18/04/13

Voyage au cœur des smartphones et des applications mobiles avec la CNIL et Inria. – CNIL, 09/04/13

Lang, Daniel ; Pillet, Jean-Luc. – Menaces des TIC : données privées et comportement des utilisateurs. – Infosec – Université de Genève (Suisse).

Pépin, Guénaël. – La CNIL veut peser dans le débat européen sur la vie privée. – Le Monde, 23/04/13

Data : le nouvel or noir : dossier. – Inriality, 28/01/13

Alerte : notre vie privée bientôt détruite à Bruxelles. – La Quadrature du Net, 22/01/13

Habitele

Twitter data crunching the new crystal ball. – Science Blog, 30/08/12

Beuth, Marie-Catherine. – Lire des ebooks génère des données pour les éditeurs. – Étreintes digitales – Le Figaro, 02/07/12

Les métadonnées … Une preuve de confiance pour le numérique !

« Les métadonnées sont un ensemble de données structurées décrivant des ressources physiques ou numériques. Elles sont un maillon essentiel pour le partage de l’information et l’interopérabilité des ressources électroniques. »
Dans cette définition, tirée du « Dublin Core » simplifié et proposée par l’INIST , on remarque l’importance de l’aspect structuré de ces données pour la recherche et le partage de l’information.
Et pourtant ces métadonnées, si précieuses, sont aussi vieilles que le traitement de l’information et on les trouve avec les premières bibliothèques !

La question de la confiance, c’est un des intervenants aux « Entretiens du nouveau monde industriel » (portant cette année sur la confiance et le crédit) qui l’a posée en introduisant le « Carrefour des possibles » au Centre Pompidou le 19 décembre dernier : sur le web, un document qui se présente « nu », sans métadonnées, n’inspire pas confiance. Ce sont les métadonnées, qui, en le qualifiant, en lui donnant un contexte, le socialisent d’une certaine façon et lui permettent de gagner notre confiance …!

Les métadonnées ont aussi été à l’honneur lors des « Retours » des voyages d’étude du GFII, aussi bien pour la foire de Francfort que pour le salon Online de Londres
Ruth Martinez et Michel Vajou ont souligné l’importance de cette notion dans ces manifestations. Elle est devenue un des « buzzwords » de l’année 2011 !
La gestion des données est devenue une priorité stratégique pour les livres numériques : les titres avec des métadonnées complètes connaissent des ventes à 70% plus importantes ! Et cela a un impact sur le classement du site de l’éditeur sur Google …
Des entreprises se spécialisent dans l’enrichissement des contenus, comme TEMIS et on assiste au transfert de fonctions comme le catalogage, l’indexation ou la description, des bibliothèques vers l’édition.
Avec des métadonnées sémantiques, les contenus deviennent attractifs et on les retrouve plus facilement dans les moteurs de recherche et grâce à des pages thématiques … et ils peuvent servir à des publicités contextuelles !
La production éditoriale se tourne de plus en plus vers la catégorisation et le taggage automatique.

Mais là où les métadonnées deviennent un enjeu important dans l’industrie de l’information, c’est dans la corrélation qui existe avec les méthode du « Discovery ». Dans cette nouvelle manière d’explorer les informations, grâce à des graphiques et des cartographies, la métadonnée devient multi-dimensionnelle et dépasse la simple dimension bibliographique. Les métadonnées deviennent le pivot des logiques de navigation : on accède ainsi à un degré de granularité de l’information et le document traité peut être « éclaté » en plusieurs « nano-publications ». On peut ensuite proposer ces contenus sous plusieurs déclinaisons …

Avant que des robots n’annexe ces précieux outils, les professionnels de l’information ont encore quelques cartes à jouer, aussi bien en amont (indexation) qu’en aval (recherche documentaire) dans la construction du web sémantique !

Les « Retours » des voyages d’étude de Francfort et de Londres du GFII ont été très bien résumés dans les comptes-rendus de Michèle Battisti dans Paralipomènes :
Online Information 2011 ou le pouls du marché de l’information professionnelle
Édition scientifique et professionnelle tendances

Les bibliothèques de données, vers des hypercatalogues ?

Les grandes bibliothèques sont en train d’expérimenter un nouveau type de catalogue basé sur le web de données (souvent dénommé « web sémantique ») qui englobe les références des auteurs et de leurs oeuvres.

La BNF avec « data.bnf« , ainsi que l’Europeana, offrent cette nouvelle exploitation des métadonnées.
Si l’on fait par exemple une recherche sur Antonin Artaud sur data.bnf, on trouve sur la page du résultat, outre une biographie succincte du poète, l’ensemble de ses oeuvres entant qu’auteur, mais aussi toutes ses contributions, en tant qu’adaptateur, commentateur, compositeur, dessinateur, acteur, interprète, etc. (la vie du « Momo » était très diversifiée … !). Et ce, sur l’ensemble des ressources BNF (Catalogue général, Gallica, Archives et manuscrits, etc.). La page pointe aussi vers des ressources extérieures (Catalogue collectif de France, Europeana, SUDOC, OCLC), puis enfin vers l’article Antonin Artaud de Wikipedia.

Le Portail Europeana rassemble, quant à lui, toutes les données multimédias sur un auteur ou une oeuvre, recueillies auprès de bibliothèques, de musées, d’archives ou même de particuliers.
Sur le personnage de « James Bond« , on dispose de 25 textes, 80 images, 36 vidéos et 7 fichiers son. Mais si les images et les vidéos se rapportent bien à l’agent secret au service de Sa Gracieuse Majesté (personnage de fiction), près de la moitié des textes concerne les écrits d’un Pr James Bond (plutôt réel), expert en commerce international et développement durable ….
On touche là à la limite actuelle du web sémantique …;-(
Comme l’explique « La petite histoire du web sémantique », citant Tim Berners-Lee dans « La Recherche » en novembre 2007 : « Le terme sémantique prête un peu à confusion car la sémantique s’intéresse au sens du langage pour en déduire des constructions logiques. » En fait, le web sémantique ne cherche pas à réaliser des opérations d’intelligence artificielle basées sur le langage naturel, mais cherche simplement à relier des données entre elles. C’est l’idée du « Linked data » (qu’on peut traduire par « web de données ») qu’une machine ou un être humain pourrait explorer.

Le projet « Linked Open Data » auquel participe l’Europeana, repose sur l’ontologie Yago, une base de connaissance qui unifie le lexique sémantique WordNet et Wikipedia. Sa structure est fondée sur les relations (« signifie », « année de naissance », « a remporté le prix ») entre le sujet et ses attributs.
Exemple : « AlbertEinstein » année de naissance « 1879 » ou « AlbertEinstein » a remporté le « prix Nobel », etc..

Wikipedia est aussi à l’origine de la base de connaissance DBpedia. Cette initiative communautaire, soutenue par l’Université libre de Berlin et l’Université de Leipzig, a pour objectif d’extraire des informations structurées à partir des articles de Wikipedia, notamment sur les villes et les pays. On arrive ainsi à une base de données encyclopédique, où on peut utiliser de nombreux filtres pour sa requête. Exemple : « les scientifiques français nés au XIXe siècle ».
Mais gare aux homonymes, qui possèdent les mêmes nom et prénom (sans même une initiale ou un deuxième prénom), comme pour notre James Bond, l’erreur est au coin de l’ontologie …!

Les nouvelles tendances de l’organisation des connaissances : thème du colloque de l’ISKO

« Stabilité et dynamisme dans l’organisation des connaissances », c’est le thème du 8e Colloque de l’International Society for Knowledge Organization (ISKO) qui se tiendra les 27-28 à l’Université Charles-de-Gaulle Lille 3.
Le débat portera autant sur l’évolution des langages contrôlés à l’ère du ‘web sémantique’ et sur les mutations dans les pratiques professionnelles (pratiques collaboratives, transformation des formes documentaires, dématérialisation, nouvelles formes éditoriales et nouveaux modes de représentation et de circulation de l’information et des connaissances) que des nouvelles pratiques des usagers et des usages de nouveau outils de classification et de catégorisation (folksonomies).

Staypressed theme by Themocracy