Posts tagged: Métadonnées

Surveillance : le tour de vis occidental

fingerprint with bar codeOn assiste, depuis quelques semaines, au renforcement de la surveillance de masse en Europe et dans les pays occidentaux. La vague d’attentats et le repli sécuritaire qui touche les démocraties pourraient expliquer ce phénomène.

En France, après le vote de la loi Renseignement en juillet 2015, nous avons eu début novembre l’annonce de la création du fichier TES qui devrait rassembler dans une seule base de données « les informations personnelles et biométriques de la quasi-totalité de la population » (Numérama).  Au Royaume Uni, le nouveau projet de loi sur le renseignement Investigatory Powers Act « qui marque un durcissement de la surveillance et légalise des pratiques déjà exercées en dehors de tout cadre juridique par les services de renseignement » (Le Monde). Avec cette loi, un certain nombre d’institutions et d’organismes britanniques – finances publiques, Agence de l’alimentation, Commission des paris, services de santé – en plus des services de police et de renseignement de tout le Royaume, pourra avoir accès à toutes les connections et enregistrements internet des citoyens et résidents en Grande-Bretagne (Independent).

Outre-Atlantique, la situation est aussi inquiétante : aux Etats-Unis, le FBI a passé un accord avec la société Dataminr pour accéder en temps réel aux 500 millions de publications quotidiennes de Twitter. Comme on le lit dans Les Echos, « Ce spécialiste du croisement des données (data mining) permet à ses clients (médias, banques, fonds d’investissements) d’obtenir des informations liées aux menaces terroristes, aux troubles sociaux et politiques etc.. ».  Après la victoire de Trump, la messagerie sécurisée Signal, a con a connu une augmentation de 400% de téléchargement comme le souligne Buzz Feed News. Le site Intercept a aussi interrogé les multinationales de l’internet pour savoir si elles étaient prêtes à collaborer pour mettre en place le « fichier des musulmans » préconisé par Trump : seul Twitter a refusé cette collaboration …

Et le Monde vient de révéler, suite aux derniers documents publiés par Snowden, que les smartphones des passagers d’Air France étaient espionnés en plein vol au profit de la NSA ou du GCHQ (services secrets britanniques) …

Au Québec, les services de police de la Ville de Montréal mettent sur écoute des journalistes comme Patrick Lagacé de la Presse, informe le blog Veille pour un(e) bibliothécaire engagé(e)Security camera

Néanmoins, un certain nombre d’institutions et d’organismes réagissent à ce tour de vis.

En France, le Conseil national du Numérique et la Cnil se montrent réservés vis-à-vis du Fichier TES. Le CNNum a carrément demandé la suspension de ce fichage généralisé de la totalité des Français …

Au niveau de l’Union européenne, une eurodéputée néerlandaise a attaqué devant le Conseil d’Etat la loi sur la surveillance internationale des communications électroniques, qui complète la loi sur le renseignement. « Sophie In’t Veld du groupe libéral ADLE a décidé de déposer 2 recours devant le Conseil d’Etat pour contester l’une de ces lois » écrit Julien Lausson dans Numérama.

Comment en est-on arrivé là ?

Nous avions évoqué les systèmes de surveillance massive dans des posts précédents, notamment l’intrusion de la NSA dans les communications électroniques, mais depuis la vague d’attentats en France et la mise en place de l’état d’urgence, un certain nombre de mesures de sécurité ont été renforcées.

La Loi Renseignement, votée en 2015, avait été partiellement retoquée par le Conseil Constitutionnel, notamment en ce qui concerne le volet surveillance internationale des communications électroniques. Ce texte, destiné à encadrer le renseignement à l’étranger, écarte explicitement les personnes résidant en France. Or deux députés socialistes, Patricia Adam et Philippe Nauche, ont déposé, à la demande du gouvernement en septembre 2015, une proposition de loi visant à combler « le seul trou laissé par le Conseil constitutionnel » comme  l’exprime Guillaume Champeau de Numérama. En facilitant l’interception massive des communications sur internet et les conversations téléphoniques, ce texte vise à « tranquilliser les agents de la DGSE qui agissent actuellement dans la plus grande illégalité, faute de loi encadrant leur surveillance ».  Le texte « aménage un régime spécial pour les services de renseignement qui souhaitent collecter et analyser massivement des communications électroniques depuis l’étranger ». Mais il concerne aussi les écoutes de communications émises « depuis l’étranger » ou si les personnes sont déjà « identifiées comme  présentant une menace au regard des intérêts fondamentaux de la Nation ». Donc, si des personnes résidant en France communiquent avec des personnes situées hors du territoire français, c’est le régime de cette proposition de loi qui s’appliquerait, comme le souligne Guillaume Champeau . Pour Sophie In’t Veld, cette loi malmènerait les droits dont bénéficie n’importe quel citoyen européen. Ses propres communications vers et depuis l’étranger – elle se rend souvent au Parlement européen à Strasbourg en tant qu’eurodéputée – « sont susceptibles d’avoir été interceptées ». En questionnant la légalité de ces mesures de surveillances, ces recours visent à obtenir la suppression des données personnelles collectées entre 2008 et 2015 (avant la loi sur la surveillance internationale) et ensuite démontrer qu’il existe une sorte de discrimination entre les Français et les autres citoyens de l’UE, ce qui va à l’encontre de la Charte des droits fondamentaux. postcard-surveillance-webversion1

Contenu et métadonnées : que surveille-t-on au juste ?

On a beaucoup évoqué le chiffrement des données pour échapper au piratage ou à la surveillance des communications électroniques. Mais le chiffrement porte généralement sur le contenu des communications et plus rarement sur les métadonnées, ces données techniques qui permettent le bon acheminement des communications (origine, destinataire, date, position géographique, etc.). Le Conseil national du numérique s’est penché sur le problème du chiffrement dans un article d’approfondissement, et plus précisément sur le chiffrement des métadonnées. S’il existe de manière de masquer certaines métadonnées, avec des réseaux de type Tor, la plupart des applications grand public, « assurent la confidentialité des contenus, mais ne peuvent pas garantir l’anonymat des utilisateurs ou des terminaux utilisés ».

Alors que traditionnellement les services de renseignement s’intéressaient au contenu des communications, on privilégie aujourd’hui de plus en plus le traitement automatisé des métadonnées. Ce passage du contenu au contenant, s’explique par plusieurs raisons. D’abord, l’analyse des métadonnées se prête mieux à une surveillance généralisée et automatisée : les métadonnées sont plus difficilement sécurisables et l’analyse des contenus implique un traitement individuel, donc plus coûteux. En plus, les contenus surveillés ne sont généralement pas explicites : les terroristes ne vont jamais dire « Rendez-vous à tel endroit pour placer la bombe » comme l’explique Rémi Récio délégué général à la Commission générale de contrôle des interceptions de sécurité (CNCIS), cité par le CNNum. « en revanche, il est plus important de reconstituer un réseau, donc des données techniques sont plus importantes que ce que vont dire les gens ».

Mais que faire avec ces quantités énormes de données ? Va-t-on analyser tous les renseignements collectés ? En fait, en prenant exemple sur la veille stratégique et l’intelligence économique, le système vise  « à débusquer les signaux faibles d’une activité criminelle ou terroriste par une surveillance généralisée des réseaux. Surveiller pour prévenir, mais aussi pour prédire ».

Une fois traitées par de puissants algorithmes, les données collectées en masse vont servir à l’établissement de ‘graphes sociaux’ (cartographie de réseaux de connexions et de relations entre individus en lien avec leur activité sur internet). Combinés à des outils statistiques, ces graphes sociaux vont aider à la constitution de patterns ou modèles de comportements, afin d’anticiper les risques d’une attaque terroriste. C’est ce que prévoit la Loi Renseignement de Juillet 2015, avec l’utilisation des fameuses ‘boites noires’ pour détecter les comportements ‘signants’.

arton15480-47b03Cette attitude est très dangereuse, car tout algorithme a une marge d’erreur et va donc identifier des personnes sans intention terroriste (des ‘faux positifs’). Si la marge d’erreur est de 1% (considérée comme faible), cela pourrait faire 600 000 personnes sur une population de 60 millions ! Alors que si le nombre de vrais terroristes est de 60, ils ne représentent que 0,01% …

Cela peut amener à des dérives, comme le fait de condamner à deux ans de prison ferme une personne ayant consulté de façon répétée des sites faisant l’apologie du terrorisme [quelle que soit la radicalisation effective du suspect, qui s’est révélée être assez importante]. Comme le souligne Olivier Ertzschied dans son post « De la confidentialité de l’acte de lecture », l’année où Mein Kampf entre dans le domaine public, « serait-il possible de condamner à deux ans de prison ferme un homme pour lecture régulière et répétée de Mein Kampf ? » Qu’y a-il de différent entre « la lecture répétée de brochure papier faisant l’apologie du terrorisme distribuées (et lues) en divers endroits de la planète et la lecture répétée de sites faisant l’apologie du terrorisme ? ». Pour le chercheur, « la confidentialité de l’acte de lecture est l’un des fondements essentiels de toute démocratie ». Encore une fois, c’est privilégier une idée de la sécurité au détriment des libertés fondamentales. « Pénaliser la lecture […] c’est condamner une intentionnalité supposée, c’est un ‘effet cigogne'[corrélation plutôt que causalité]». surveillance-electronique

Malheureusement, cette condamnation d’une intentionnalité de la lecture est en train de se concrétiser aux États-Unis, comme on le découvre dans le post de Thomas Fourmeux dans Biblio Numéricus « Bibliothécaires, agissez maintenant pour protéger vos utilisateurs (avant qu’il ne soit trop tard) ». Cette transcription d’un article de l’EFF (Electronic Frontier Foundation) appelle les bibliothécaires à protéger leurs usagers les plus fragiles (adolescents, sans-abris, chômeurs, migrants) contre les agents du gouvernement qui viendraient enquêter sur les livres empruntés ou consultés et les mots-clés recherchés en ligne. Comme après la mise en place du « Patriot Act », les bibliothécaires américains s’inquiètent de la future administration Trump. « Les bibliothèques pourraient recevoir de la part du gouvernement des demandes de renseignements sans précédent sur les usagers »…

digital surveillance

 

Loi 2015-912 du 24 juillet 2015 relative au renseignement. – Légifrance, 27/07/15

Repenser l’impact de la surveillance après l’affaire Snowden : sécurité nationale, droits de l’homme, démocratie, subjectivité et obéissance/Zigmunt Bauman, Didier Bigo, Paulo Esteves, Elspeth Guild et al. – Cultures et conflits, 2015/2 via Cairn.info

Rees, Marc. - Renseignement : l’exécutif annonce une proposition de loi sur la surveillance internationale. – NextInpact, 02/09/16

Champeau, Guillaume. – Surveillance internationale : ce que prévoit la proposition de loi. – Numérama, 10/09/15

Chantrel, Flavien. – Tristan Nitot « Une société sous surveillance n’est plus une société libre ». – Blog du modérateur, 05/07/16

De la confidentialité de l’acte de lecture : les algorithmes en prison. – Affordance.info, 14/08/16

Nitot, Tristan. – Surveillance : // Les libertés au défi du numérique : comprendre et agir. – Paris : C&F éditions, Blogcollection, 2016

Rees, Marc. – Loi Renseignement : un an après, où en est la centralisation des données . – NextInpact, 10/10/16

Conseil National du Numérique. – Communiqué de presse : Fichier TES : le CNNum appelle le gouvernement à suspendre sa mise en oeuvre et s’autorise à examiner des alternatives techniques plus modernes et respctueuse des lois et des libertés. – Paris, 07/11/16

Rees, Marc. – Le CNNum demande la suspension du fichage 60 millions de Français. – NextInpact, 07/11/16

Lausson, Julien. - Le CNNum demande la suspension du fichage biométrique des Français. – Numérama, 07/11/16

Il faut renoncer à l’extension de la collecte des données biométriques /Un collectif. – Libération, 20/11/16

Grondin, Anaelle. - Plus aucun tweet n’échappera au FBI. – Les Echos, 17/11/16

Surveillance : ce que contient la nouvelle loi sur le renseignement britannique. – Le Monde, 21/11/16

Griffin, Andrew. – Everyone can now see your entire internet history. – The Independent,  24/11/16

Investigatory Powers Act - Parliament UK, 29/11/16 :

Untersinger, Martin ; Follerou, Jacques. – Espionnage des avions, d’Israël et de l’Autorité palestinienne : nouvelles révélations de Snowden. – Le Monde, 07/12/16

Fourmeux, Thomas. - Bibliothécaires, agissez maintenant pour protéger vos utilisateurs (avant qu’il ne soit trop tard). – Biblio Numericus, 08/12/16

 

 

Libre accès et partage des données de la recherche … Vers une science ouverte ? II – L’exploration de contenus

text_mining_analytics_survey_softwareAprès la disposition permettant aux chercheurs de mettre gratuitement en ligne leurs publications réalisées dans le cadre de recherches sur fonds publics, nous allons examiner l’impact des amendements autorisant la fouille automatique de textes et de données (Text and Data Mining –TDM) sur le développement de la recherche.

Au départ cette mesure ne devait pas apparaître dans la loi ; en attendant une réglementation européenne sur la question, le Ministère de la Culture et de la Communication avait nommé une mission pour en faciliter le recours comme exception au droit d’auteur comme le signale Antoine Oury dans un article d’Actualitté. Les éditeurs, dans leur ensemble, étaient plutôt réticents à ouvrir leurs collections, même si certains grands acteurs, comme Elsevier ou Springer, accordaient des licences limitées aux chercheurs.

Le TDM : aspects juridique et technique

Que représente exactement ce traitement et qu’apporte-t-il à la recherche ? Une partie de la réponse se trouve dans la tribune parue dans le Monde le 7 mars dernier, signé par un grand nombre de chercheurs « Pour une science ouverte à tous ». Après avoir rappelé l’importance du libre accès des publications scientifiques, notamment dans l’archive ouverte HAL, les chercheurs invitent les sénateurs à voter l’article 18 bis en s’assurant que la fouille de données ne soit pas soumise à des négociations avec un tiers. « La fouille de données doit devenir un droit ».

L’article en faveur du TDM permettra donc « d’extraire de l’ensemble de la production scientifique mondiale de nouvelles connaissances grâce à l’exploitation automatisée, à l’aide d’algorithmes, de corpus désormais gigantesques. » Application-du-processus-de-fouille-de-donnees-dusage-du-web-sur-les-fichiers-logs-du-site-cubba16

Contrairement à d’autres pays (Etats-Unis, Royaume Uni), en France, les chercheurs n’étaient pas autorisés à pratiquer cette fouille de contenus de façon automatique et certains laboratoires étaient obligés de se rendre à l’étranger pour réaliser cette opération … ! Si certains éditeurs accordent des licences, celles-ci sont limitées (10 000 articles par semaine pour Elsevier sur la plateforme Science Direct). La Contribution de l’ABDU au CNNUM est très claire sur cette question : 10 000 articles/semaine cela peut paraître beaucoup, mais si l’hypothèse de recherche n’est pas validée au bout de X jeux de 10 000 articles de Science Direct, comment explorer les Y jeux nécessaires, et aussi sur d’autres bases de données ? Et ce, sans jamais pouvoir fouiller en une seule fois l’ensemble du corpus. De plus, Elsevier impose aux chercheurs de publier sous licence CC-BY-NC (pas d’utilisation commerciale) les extraits pertinents retenus en limitant leur longueur à 350 mots … Quant à Springer, il impose que chaque projet de TDM portant sur ses contenus soit décrit et enregistré via à un formulaire en ligne et se réserve le droit de décider si la demande est fondée … « Une ingérence inacceptable du point de vue de l’indépendance de la recherche ».

En effet, en procédant à ce traitement, les chercheurs n’ont pas comme objectif « la dissémination indue de ces contenus sous droit ou de leur exploitation commerciale ». Mais cette ‘lecture computationnelle’ implique la création d’une copie numérique du corpus à fouiller, ce qui soulève un problème de propriété intellectuelle. Il est évident qu’une solution doit être trouvée pour les ayants droit, d’autant que la plupart des chercheurs impliqués sont eux-mêmes des auteurs … !

Les éditeurs ont fait pression sur l’UE pour qu’une solution contractuelle soit priorisée par rapport à une révision du cadre juridique qui passerait par la création d’une nouvelle exception au droit d’auteur. C’est déjà le cas au Royaume Uni où la loi a consacré une nouvelle exception au droit d’auteur couvrant les ‘analyses computationnelles’ de contenus protégés, effectuées dans un cadre de recherche sans but lucratif, comme le souligne Calimaq dans un post de S.I.Lex sur l’exploration des données. C’est aussi la raison pour laquelle les chercheurs insistent sur la désignation d’un ‘tiers de confiance’, extérieur au milieu de l’édition commerciale, pour réaliser ces opérations. C’est ce que propose l’ABDU : une super base de données sur une plateforme publique pouvant « héberger tous les corpus du web visible et invisible aux seules fins d’en permettre la lecture algorithmique». Cette immense base de contenus constituerait une ‘base maître’ qui ne serait accessible et manipulable que par le tiers de confiance. Pour chaque demande de recherche, un ‘bac à sable’ serait constitué en copiant les corpus à partir de la ‘base maître’ ; cette copie serait détruite en ne conservant que les occurrences pertinentes, une fois les opérations de TDM terminées. Cela permet de répondre aux besoins des chercheurs tout en assurant la protection des ayants droit.

Le TDM comme service aux chercheurs text-mining

Dans les sciences dites ‘dures’ l’exploitation des données de la recherche est largement répandue et souvent effectuée par les chercheurs eux-mêmes ; c’est beaucoup moins le cas en sciences humaines et sociales (SHS) et dans les humanités où la formation aux outils numériques est moins répandue. Le traitement linguistique nécessaire à la fouille de texte est généralement confié à un service hybride de documentation et d’ingénierie linguistique. Frédérique Bordignon analyse ce service dans un récent billet du Carnet’IST. Cette ingénieure de recherche explique le fonctionnement d’un des outils nécessaire à la fouille automatique de textes RapidMiner et le service que ces spécialistes peuvent apporter aux chercheurs. Cette nouvelle activité pourrait s’imposer auprès des bibliothèques et des laboratoires de recherche, comme le Medialab à Sciences Po.

C’est cette activité de ‘data librarian’ qu’évoque Alexandre Tur dans un article de Catherine Muller sur le blog de l’ENSSIB. Ce conservateur de bibliothèque a effectué son stage au Canada dans le département de services aux chercheurs de la Quenn’s University de Kingston (Ontario). Il a travaillé surtout sur l’assistance à la gestion de données de la recherche auprès des chercheurs en humanités et à la promotion de l’open access dans l’université. text-mining _1

Alexandre Tur prend soin de distinguer les données scientifiques des données publiques qui sont proposées librement, les ‘open data’ (données ouvertes). Ces dernières proviennent généralement des Etats et des administrations publiques, en France c’est la Mission ETALAB qui les représente, (statistiques économiques, démographiques, géographiques, sociales et culturelles). Comme le souligne le Comité d’éthique du CNRS (COMETS) dans son avis du 7 mai 2015 sur les enjeux éthiques du partage des données, « Les politiques qui promeuvent l’ouverture des données publiques n’ont pas les mêmes objectifs que celles du partage des données scientifiques ». Si les données scientifiques produites sur fonds publics ont vocation à devenir publiques, les données publiques ont vocation à devenir scientifiques lorsqu’elles concernent l’environnement, la société ou la santé. Dans ces domaines, les questions éthiques doivent être évoquées lorsque ces données sont sensibles et relèvent de la vie privée.

Les bibliothèques de recherche représentent un partenaire ‘naturel’ pour héberger et gérer ces données. Comme l’explique William M. Cross dans son article du Library Journal : les bibliothèques vont se développer comme un ‘écosystème open data’. On va passer de l’idée d’infrastructure des données, centrée autour des revues scientifiques et des dépôts institutionnels à une ‘écologie des données de la recherche’. Cette  écologie implique une évolution dans plusieurs domaines, comme le développement de nouvelles normes autour de la validation des données de la recherche, de l’identification de la provenance des jeux de données et des nouveaux types de gestion et de propriété de ces données.

Les métadonnées deviennent centrales dans ce processus de transition entre le web documentaire et le web de données. Comme le dit Valérie Tesnières, citée dans « Gérer les données de la recherche », une formation de la TGIR Humanum, « L’enjeu est moins de produire des données que de les connecter les unes avec les autres […] Produire des métadonnées permet à la fois l’interopérabilité des données et à en assurer une meilleure pérennisation »

C’est ce que soutient aussi Gildas Ilien dans un récent article d’Archimag : de nouveaux formats doivent permettre d’adapter le catalogage à l’environnement web et numérique des bibliothèques. Cette « revanche des données » nous oblige à revenir à une sorte de catalogue pour s’y retrouver dans la jungle du numérique, même si l’usager n’a pas besoin de les voir … ! Seules les machines les traiteront. Ce retour aux sources (catalogage) implique néanmoins un changement de structures et de système : la transition bibliographique où la logique du document s’efface au profit de la logique de l’information.

Cette ‘révolution copernicienne’ dans la documentation  explique le slogan des chercheurs du LERU (Ligue des universités européennes de recherche) justifiant la fouille de textes et de données « The right to read is the right to mine » (Le droit de lire est le droit d’explorer).

llc_droit_d_auteur

Langlais, Pierre-Carl. - Text mining : vers un nouvel accord avec Elsevier. – Sciences communes, 29/10/14

Exploration des données : un environnement juridique en évolution. – S.I.Lex, 05/12/14

Consultation du Conseil national du numérique : contributions de l’ABDU.- ABDU, 02/15

Les enjeux éthiques du partage de données scientifiques : avis du COMETS. – CNRS, 07/05/15

Oury, Antoine. – Déclaration de la Haye : le copyright contre les connaissances. – Actualitté, 11/05/15

Naegelen, Pierre. – Données de la recherche : quel positionnement et quels rôles pour les bibliothèques ? – SCD Université Toulouse III Paul Sabatier, 15/06/15

LERU Statement : the right to read is the right to mine. – League of European Research Universities, 15/06/15

Demange, Julie. – Gérer les données de la recherche, de la création à l’interopérabilité (1/3). – Archives des mondes contemporains, 14/10/15

Fradin, Andrea. – Premier bug : la fouille automatique de données es adoptée.Rue89/L’Obs, 21/01/16

Oury, Antoine. – France : une mission pour faciliter la fouille et l’exploration de textes et de données. – Actualitté, 21/01/16

La circulation des données et du savoir. Projet de loi pour une République numérique adopté par l’Assemblée nationale en première lecture. – Assemblée nationale, 26/01/16

Cross, William M. – Libraries support data-sharing across the research lifecycle. – Librairy Journal, 01/02/16

Langlais, Pierre-Carl. – Text-mining : une licence nationale contre l’exception ? - Sciences communes, 19/02/16

Bordignon, Frédérique. – Le text-mining comme service aux chercheurs.CarnetIST, 05/03/16

Pour une science ouverte à tous. – Le Monde, 08/03/16

Ilien, Gildas. – Transition bibliographique : la revanche des données ?Archimag, 14/03/16

 

 

Big Data, petite synthèse : quelle évolution ?

Big-DataLe « Big Data » est en train d’envahir tous les secteurs d’activité et du savoir. Les entreprises, l’administration publique, l’université et la recherche ne jurent plus que par le recueil, l’analyse, le traitement et la représentation  de ces « grandes données ». L’internet, et particulièrement le Web 2.0, occupe évidemment une place privilégiée dans ce dispositif, notamment grâce aux réseaux sociaux qui drainent à eux seuls des téraoctets, voire des pétaoctets d’informations … Il existe aussi d’autres lieux, les silos d’informations que représentent les bases de données ‘factuelles’, engrangées par les grandes entreprises ou les institutions publiques, locales, nationales, européennes et internationales  (INSEE, Eurostat, OCDE, etc.).

Mais alors, qu’est-ce qui différencie le ‘big data’ de ces bases de données ‘historiques’ que les statisticiens produisent et traitent depuis des décennies ?

Définition de Wikipedia : Les big data, littéralement les grosses données2,3, parfois appelées données massives4, est une expression anglophone utilisée pour désigner des ensembles de données qui deviennent tellement volumineux qu’ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l’information. L’on parle aussi de datamasse5 en français par similitude avec la biomasse.

 

Les sept caractéristiques

Rob Kitchin, dans une interview du blog de la LSE « Impact of Social Sciences » les définit par sept traits caractéristiques : d’abord les 3 V : volume, vélocité et variété. La volumétrie est énorme sans commune mesure avec les bases de données ; la vitesse est proche du temps réel, quant à la variété, elle concerne toutes sortes de données, structurées ou non structurées, avec des références temporelles ou spatiales. Ensuite l’exhaustivité de l’objectif (saisir une population ou un système en entier), la granularité dans la résolution, avec des informations aussi détaillées que possible et indexées. Enfin, l’aspect relationnel, avec des champs communs (catégories) permettant de générer des ensembles de données différents, la flexibilité et l’évolutivité : on peut à tout moment ajouter ou modifier des champs.

big-data-will-drive-the-next-phase-of-innovation-in-mobile-computingOn comprend ainsi en quoi les big data sont différentes des grandes bases de données traditionnelles. Si on prend l’exemple du recensement, la base est aussi très importante en volume (la population d’un pays), exhaustive, relationnelle et indexée, mais elle a une vitesse très basse (une fois tous les dix ans), une très faible variété d’informations (30-40 questions au maximum), et ne présente aucune flexibilité ou évolutivité.

 

Protéiforme, incertain et partiel …

Les big data sont cependant loin d’être parfaites ! Elles présentent un certain nombre de caractéristiques qui tiennent à la complexité de leur production. Malgré leur désir d’exhaustivité, elles sont toujours partielles, incomplètes, pleines de biais et d’incertitudes … Mais surtout, ces données ne viennent pas de nulle part, elles ont été produites, construites par des systèmes, conçus et testés dans un environnement scientifique, entourées par des contextes et des intérêts divers. Dans ces conditions, contrairement à l’allégation de Chris Anderson dans Wired, les données ne vont pas « parler par elles-même », on ne va pas « laisser les algorithmes trouver des modèles là où la science est impuissante », et faire que « la corrélation remplace la causalité », notre compréhension du monde émergerait alors des données et non d’une théorie, « de l’induction, plutôt que de la déduction » …

Si les données sont liées à une pratique scientifique, les sciences sont aussi basées sur les données (data driven science), notamment grâce à la ‘fouille de données’ (data mining). D’où l’importance de l’analyse exploratoire avec une approche contextuelle qui permettra de déterminer si les modèles qui en ressortent ont un sens ou sont aléatoires … C’est là que devrait s’instituer une philosophie, une épistémologie des datasciences.

big-data-318x211

L’importance du contexte : la « fabrication des données »

C’est cette ‘culture des données’ que souligne aussi Evelyne Ruppert, maître de conférence en sociologie au Goldsmith College de Londres et spécialiste des données, dans un  article de MyScienceWork. Les données sont construites et le processus de fabrication est aussi important que la donnée elle-même. Il est donc indispensable de disposer d’informations sur la construction des données, sur les pratiques et les décisions sur la façon dont elles sont consignées par l’administration (pour les données publiques). C’est le rôle des métadonnées. Les données brutes ne sont pas utilisables en tant que telles. Il existe des diversités de saisie et de pratiques qui ne peuvent pas être homogénéisées. Il faut distinguer entre les corrélations inédites qui peuvent ressortir des jeux de données et interprétations qui en sont déduites.

Dans le contexte de la réutilisation des données, il ne faudrait pas réduire la complexité qui les caractérise en simplifiant aussi bien les données que les outils. Il existe très peu de personnes qui peuvent télécharger tel quel un jeu de données. D’où l’importance de la médiation avec la présence d’infomédiaires, des experts bénévoles (ou pas ?) qui présentent les données à travers de représentations graphiques, d’interfaces de visualisation. On trouve aussi des applications gratuites produites par des associations. Mais cela implique de choisir ce qui doit être mis en lumière, ainsi que des valeurs et des jugements. L’open data ne représente qu’une petite partie de ce qui est disponible. Cette sélection  nécessite une prise de conscience de ce qui doit être diffusé et de l’esprit critique …

Jean-Pierre Malle souligne aussi l’importance de l’incertitude et de l’aspect ‘constructiviste’ des big data dans le MOOC sur « la Datascience et l’analyse situationnelle » (IonisX). En datascience, il n’y a pas de ‘vérité scientifique’, chacun doit la construire en fonction de ses besoins ou de ses intérêts … Pour une discipline qui est censée engendrer l’industrie du 21e siècle et restructurer toute l’économie, on pourrait s’inquiéter à moins ! Apparemment, c’est grâce à son caractère polymorphe et protéiforme que la ‘datamasse’ pourrait changer la donne dans un univers dominé par l’incertitude et l’individualisme … !

La disparition de la moyenne marque aussi la différence essentielle entre les big data et les statistiques. Comme le souligne Lev Manovich, dans son interview sur Place de la Toile, cité par Xavier de la Porte dans InternetActu, la statistique vise la moyenne, par exemple la taille des soldats en 1830, alors que l’objectif des big data est l’exception. Elles débusquent les ‘signaux faibles’ que l’on perçoit moins dans les grandes masses, la ‘longue traîne’ des usages particuliers ! C’est aussi le propos de Tyler Cowen dans son ouvrage « Average is over » (la fin de la moyenne), cité par Jean-Laurent Cassely dans Slate. Cette évolution ouvre le règne du « sur mesure » (customised) : les services devront s’adapter à la diversité de la clientèle. Les clients noteront bientôt les services (médecins, avocats, professeurs, commerçants), comme ils seront eux-mêmes notés en tant que consommateurs ou usagers de ces services. Le score de l’e-réputation de chacun le suivra partout, grâce à la vente de fichiers ! Et si l’on refuse d’être noté, on risque de disparaître des radars et ainsi de devenir suspect, donc mal-noté !

Cette « physique sociale » comme la nomme Sandy Pentland, chercheur au Media Lab du MIT, cité par Hubert Guillaud dans InternetActu, résulterait de la rencontre entre les big data et les sciences sociales. L’ »extraction de la réalité » rendrait possible la modélisation mathématique de la société ! Avec les big data, nous allons pouvoir recueillir suffisamment de données comportementales pour permettre aux scientifiques de développer « une théorie causale de la structure sociale » et d’établir une « explication mathématique » de la société … Les scientifiques vont pouvoir ainsi recueillir des milliards d’informations en temps réel sur des millions de personnes et pouvoir appréhender en même temps le niveau global et singulier. Cette physique sociale permettra aussi une meilleure circulation des idées qui devrait renouveler les relations sociales, par exemple, dans une ville.

 

Valoriser les données données de la recherche

Mais les données de la recherche, surtout en sciences sociales, sont loin d’avoir les moyens de valoriser leurs résultats. C’est ce qu’expliquent Dave Carr et Natalie Banner du Wellcome Trust, dans un article d’Impact of social sciences. Ils préconisent le partage des données entre chercheurs pour optimiser les effets du big data. Actuellement, il existe peu de stimuli pour le partage des données. Une enquête auprès des chercheurs montre les barrières qui ralentissent ce processus : manque de financement, detemps,  de compétences, de dépôts institutionnels ou de ressources informatiques. Mais c’est surtout le manque de reconnaissance et de valorisation, le peu de protection de la vie privée, les données utilisées de façon inappropriée, la perte de crédit intellectuel qui inquiètent les chercheurs ! Seul un changement de paradigme dans la culture scientifique permettrait d’apporter un meilleur soutien aux chercheurs. C’est ce que propose un organisme britannique transdisciplinaire, l’EAGDA Calls (Expert Advisadory Group on Data Access). Ses recommandations portent sur trois grands points : le financement de la gestion des données pendant tout le cycle de vie de la recherche ; la reconnaissance du partage des données comme valorisation des résultats de la recherche ; le soutien aux compétences clés et aux ressources, notamment à travers des partenariats avec de nouveaux métiers (data manager).

 

Les Plans pour une économie du Big Data en France et en Europe

Face à ce nouveau secteur de l’économie de la connaissance, l’Union européenne et la France ont prévu des programmes pour développer des infrastructures et encadrer la réglementation de cette activité.

La Commission européenne compte sur le partenariat public-privé pour le développement du Big data en Europe. Elle veut s’appuyer sur les secteurs innovants de l’informatique et de la robotique pour mettre en place de grandes infrastructures : des réseaux d’outils de traitement de données destinés aux PME, à la recherche-développement et au  secteur public ; un grand réseau pour la recherche et l’éducation ; une fondation technologique pour le big data dans l’industrie des communications mobiles.

Des mesures juridiques sont aussi prévues pour des licences standards, les jeux de données et la réutilisation, surtout en ce qui concerne les données ouvertes (Open Data). En matière de confiance et sécurité, la Commission a prévu un Guide des bonnes pratiques pour un archivage sécurisé, une réflexion sur la propriété des données et le contrôle des usagers sur la technologie infonuagique (Trusted Cloud Europe).

En France, le Plan Big data vise un marché de 9 milliards d’euros et 130 000 emplois (dont 80 000 créations) à l’horizon 2020. Il a comme objectifs le soutien à l’écosystème des start-up et l’assouplissement de la loi informatique et liberté. Il veut faire de la France le leader mondial des Big Data, grâce à la formation de ‘data scientists’ et à la ‘French Tech’. La création, en partenariat avec la FING (expérience MesInfos), d’un « Espace personnel de confiance Big Data »

Le plan s’appuie aussi sur un partenariat public-privé impliquant les écoles et les organismes de recherche, les acteurs publics et les industries et acteurs privés : Orange, La Poste, Axa, GDF, etc.

data-672x372

 

Ruppert, Evelyne ; Kadri, Pierre-Sofiane. – L’open data est-il un leurre politique ? Entretien. - MyScienceWork, 08/07/14

La Porte, Xavier de. – Une société de données n’est pas une société statistique. – InternetActu, 07/07/14

Biseul, Xavier. – Le plan big data vise à créer 80 000 emplois d’ici 2020. – 01Net, 03/07/14

Faucheux, Olivia. – Public : la révolution du Big Data. – Acteurs Publics, 02/07/14 (vidéo)

Making the most of Data-driven Economy. – Commission européenne – Memo 14/455, 02/07/14

Carr, Dave ; Banner, Natalie. – Maximising the value of research data: developing incentives and changing cultures. – Impact of Social Sciences, 01/07/14

Kichin, Rob ; Carrigan, Mark. – The philosophy of Data Science (Series) – Rob Kichin « Big data should complement small data not replace it ». – Impact of Social Sciences, 27/06/14

Cassely, Jean-Laurent. – Pourquoi on notera bientôt nos comportements d’usagers, de consommateurs et d’être humain. – Slate, 17/06/14

Guillaud, Hubert. – Big Data : vers l’ingénierie sociale. – InternetActu, 20/05/14

Datascience et analyse situationnelle : dans les coulisses du Big Data (MOOC). – IONISx, 04/06/14-26/07/14

Données personnelles : entre utilisation et protection : où en sommes-nous dans la gestion du « pétrole du 21e siècle » ?

1639802-donnees-personnelles-internet-a-besoin-d-un-bouton-effacer-selon-eric-schmidtDepuis quelques mois, une certaine paranoïa s’est emparée de nombre de citoyens utilisant les services en ligne, surtout à partir de terminaux mobiles. Des ‘portes dérobées’ (back doors), cachées dans leurs appareils, donneraient accès à des informations confidentielles à des organismes publics (services secrets) ou privés (« géants du Net »). Les révélations d’Edward Snowden sur la surveillance électronique massive de la NSA à travers un système auquel personne n’échappe, pas même la chancelière allemande ou la présidente du Brésil, ont amplifié ce phénomène …

Mais que représentent ces fameuses données que les pouvoirs économiques et politiques se disputent ? Comment sont-elles collectées et traitées, de même que les métadonnées qui les accompagnent ?  Peut-on les protéger tout en participant à l’univers numérique ?

La plupart du temps, nous donnons nous-même ces informations au système d’exploitation de l’appareil ou aux différentes applications auxquelles on s’abonne. Il en va de même pour les métadonnées : géolocalisation, contacts téléphoniques, réseaux personnels ou professionnels à travers les différents réseaux sociaux. Nos centres d’intérêts et nos goûts s’affichent aussi sur les médias sociaux …

La préoccupation de la protection des informations confidentielles dans les systèmes informatiques ne date pas d’hier. En France, la loi « Informatique et liberté » remonte à 1978 et a été à l’origine de toutes les CNIL européennes ! Une dernière mise à jour de cette loi précise les conditions d’utilisation des techniques biométriques.

Mais le traitement de ces données peut aussi s’avérer positif, comme dans le cas d’applications de e-santé qui permettent de surveiller un certain nombre d’indicateurs physiologiques (glycémie, cholestérol, tension artérielle, etc.). Ou alors, comme l’affirme Alex Pentland, professeur d’ingénierie sociale au Medialab (MIT), permettre une amélioration des relations sociales par une observation de tous les flux d’informations échangés par des individus à l’intérieur d’une communauté. C’est ce qu’il explique dans un entretien au Spiegel « Le Big data est à l’étude du comportement social ce que le microscope était à l’étude des bactéries. Pour construire une meilleure société, on a besoin d’une représentation complète des interactions sociales. » ! Évidemment, ce traitement se fait avec l’autorisation des personnes impliquées, mais cette intrusion dans l’intimité des gens semble assez osée même pour une cause aussi philanthropique ! Ce chercheur pense que la meilleure façon de les protéger est de partager les données à travers un « New Deal » des données !

fichage_protection_donnees-1ed41

En matière de e-santé, la CNIL envisage aussi de labelliser les applications mobiles pour inciter les éditeurs à informer les consommateurs sur l’utilisation de leurs données personnelles. Car avec l’’internet des objets’ tout le monde va pouvoir surveiller et contrôler tout le monde si l’on n’y prend pas garde … !

Le scandale de la surveillance généralisée du système Prism mise en place par la NSA a fonctionné comme un électrochoc dans nos sociétés mondialisées et connectées. La plupart des démocraties a voulu prendre ses distances avec l’espionnage américain et les multinationales (américaines) de l’internet. Au sein de l’Union européenne, la France et l’Allemagne en renforçant leurs réglementations, mais aussi à travers une décision de la Cour européenne de Justice reconnaissant le droit à l’oubli face aux informations remontées par le moteur de recherche Google. La protection des données personnelles représente aussi un des enjeux de la négociation du Grand Traité Transatlantique.  En France, le futur projet de loi numérique devrait traiter de ces aspects, notamment en encadrant mieux le régime juridique des services de renseignements (Rapport du Sénateur J.P Sueur).

Mais ces précautions juridiques ne vont pas empêcher l’industrie de l’information de puiser dans le nouvel Eldorado constitué par le Big Data dans lequel les données personnelles sont loin de représenter la portion congrue … C’est ce prévoit le Pew Research Internet Project dans son étude prospective sur l’internet des objets en 2025. La prolifération de capteurs ‘intelligents’, caméras de surveillance, logiciels, bases de données et data centers massifs vont produire dans le monde entier un environnement informatique invisible et omniprésent. Accompagnées par les produits de la ‘réalité augmentée’ que l’on portera sur soi comme les lunettes Google, montres ou vêtements intelligents, toutes ces données seront indexées (tags) et analysées par des experts de l’ingénierie sociale pour des « data brokers ». Comme l’indique un rapport de la Federal Trade Commission, cité par Slate  « Les “data brokers” collectent les données de consommateurs à partir de sources en ligne et en dehors, très généralement sans que ces consommateurs soient au courant. Ils classent tout, des achats en ligne, à l’activité sur les médias sociaux, en passant par les contrats d’assurance, les abonnements aux magazines, les tendances religieuses et politiques, et d’autres détails du quotidien de ces consommateurs. » C’est pourquoi la FTC recommande au Congrès un plus grand contrôle de ces activités pour protéger les consommateurs. donnees-persos-111705

La Commission européenne est aussi préoccupée par ces intrusions massives dans la vie privée et même par les « effets secondaires » impliqués par les les procédures d’identification et d’authentification.  Elle a confié à une équipe de recherche le projet ABC4Trust (Attribute-based Credentials for Trust), financé par l’UE, qui protège l’identité des personnes tout en préservant la sécurité des systèmes. Désormais, pour se connecter au site de sa banque, au lieu de s’identifier avec des informations personnelles, on utilisera une sorte de certificat (attribut) qui permet de s’identifier sans risques. Des pilotes de ce projet sont actuellement testés sur des étudiants en Suède et en Grèce.

Le secteur de la e-sécurité devrait se développer en même temps que le Big Data, mais les consommateurs semblent faire plus confiance aux logiciels libres qu’aux systèmes propriétaires !

Données personnelles : la directive européenne s’applique à Google Inc.  – Legalis, 13/05/14

Léonard, Thierry ; Wéry, Etienne. – Arrêt Google : la Cour de justice a-t-elle condamné à mort les moteurs de recherche. - Droit & Technologies, 15/05/14

Monnier, Cécile. – TAFTA et la protection des données personnelles : les enjeux cachés de l’élection européenne. – Blog Médiapart, 16/05/14

Les données numériques : un enjeu d’éducation et de citoyenneté. - Conseil économique, social et environnemental, 19/05/14

Isabelle Falque-Pierrotin : « Je ne crois pas du tout à la fin de la vie privée ». – Le Monde, 19/05/14

La CNIL envisage de labelliser les applications de santé. - TICSanté.com, 19/05/14

Vion-Dury, Philippe. – Et si l’internet des objets était une mauvaise chose pour nous ? - Rue 89, 19/05/14

Anderson, Janna ; Rainie, Lee. – The internet of things will thrive by 2025. - Pew Research Internet Project, 14/05/14

Interview with Alex Pentland : Can we use Big Data to make society Better ? - Spiegel.de, 10/05/14

Manach, Jean-Marc. – DGSE/Orange : Joue-la comme Super-Dupont (#Oupas).Bug Brother – Blog Le Monde, 20/05/14

Sénécat, Adrien. Les ruses de Facebook, Google et Netflix pour récupérer vos données personnelles. – L’Express, 20/05/14

Kerry, Cameron F. – Missed connections : Talking with Europe about data, privacy and surveillance. - Brookings, 20/05/14

Cuny, Delphine. –  Un an après Snowden, la France envisage de mieux encadrer l’utilisation des données. - La Tribune, 22/05/14

Méta-objets du méta-monde. –  Affordance info, 25/05/14

Rethinking Personnal Data : a new lens for strenghening trust. – Prepared in collaboration with A.T. Kearney – World Economic Forum – Industry Agenda, May 2014

Gorce, Gaëtan (auteur de la proposition de loi). – Techniques biométriques. – Sénat, 27/05/14

La sécurité et la confidentialité : désormais les deux peuvent aller de pair. – Commission européenne – Cordis, 27/05/14

Jourdan, Camille. – Certaines de vos données sont aspirées par milliards, et non Google et Facebook n’y sont pour rien. – Slate, 28/05/14

 

 

 

Le web a 25 ans … Survivra-t-il à toutes ses déviances ?

Internet1Le 12 mars 1989, il y a exactement 25 ans, l’informaticien britannique Tim Berners-Lee publiait un document qui décrivait le fonctionnement du World Wide Web. Élaboré dans un laboratoire du CERN à Genève, cet outil de communication devait surtout servir aux chercheurs du nucléaire …
Mais c’est grâce à ce navigateur que l’internet a été popularisé auprès du grand public. C’est lui qui, aujourd’hui, permet à 2,7 milliards d’internautes de se connecter sur la Toile et surtout d’interagir sur les réseaux sociaux ! Malheureusement, comme toute grande invention, le Web a aussi ses côtés négatifs, et ces dernières années ont été marquées du signe de la défiance, surtout depuis les révélations d’Edward Snowden sur les pratiques d’espionnage massif de la NSA et de détournements de données personnelles des internautes…

Sir Berners-Lee a d’ailleurs appelé ces jours-ci à un sursaut de civisme et d’éthique sur les réseaux par l’institution du d’une « Magna Carta » du Web.
En effet, le web était au départ porteur de valeurs de partage, d’échange et d’égalité, venues essentiellement des pionniers de la contre-culture américaine, comme le montre bien l’article d’Hubert Guillaud dans InternetActu, qui visaient une gestion collective et non commerciale de la circulation des informations et du savoir …
Aujourd’hui, l’essentiel du web est aux mains de multinationales de l’information, les « Géants du Web », les fameux GAFA (Google Apple Facebook Amazon et autre Microsoft …) et les internautes (enfin, ceux qui en sont conscients …) se méfient de plus en plus de moteurs qui pillent sans états d’âme les données personnelles pour les vendre aux publicitaires ou les donner (??) aux services secrets … La vie privée, est en effet devenue une « anomalie » aujourd’hui, comme l’a déclaré Vint Cerf, Chef évangéliste chez Google, ou tout au plus une illusion pour Mark Zuckerberg, le patron de Facebook … !

big-data-will-drive-the-next-phase-of-innovation-in-mobile-computing
Dans une étude récente le Pew Internet Project présente « 15 thèses sur l’avenir du numérique ». Malgré l’enthousiasme des chercheurs sur les progrès techniques, notamment en matière de santé, d’enseignement, d’évolution des relations internationales (« printemps arabe ») et de sécurité, 5 de ces thèses se présentent de façon beaucoup moins optimistes, « Less hopeful theses ».
Elles soulignent, d’abord l’élargissement du fossé numérique entre nantis et démunis (have & have not) qui reflète l’inégalité croissante des sociétés actuelles, amplifiée par l’écho des réseaux sociaux … !! De nombreux conflits risquent de se développer à l’instar des révolutions arabes.
Les abus et la criminalité se multiplient sur la toile, et évidemment le cyber-terrorisme. Outre la disparition de la vie privée et de la confidentialité, les « maladies numériques » (physiques, mentales et sociales) affectent de plus en plus les individus, familles et communautés.
Mais un des impacts majeurs se trouve au niveau géopolitique : Internet représente en effet un phénomène de mondialisation achevé qui ne reconnait plus la souveraineté des États ; les lois des différents pays ont du mal à s’appliquer à cet acteur transnational.
D’autre part, les gouvernements vont de plus en plus utiliser internet comme un instrument de contrôle politique et social : en répondant par la censure et la fermeture aux velléités d’ouverture et de liberté d’expression de leurs concitoyens …
De plus, en raison de la montée de la cyber-criminalité, la e-sécurité est en train de devenir le principal soucis des consommateurs et des internautes en général … bigdata_image2

Olivier Ertzscheid a une vision encore plus noire de l'avenir du Net. Pour ce spécialiste de l'information, l'internet va se diviser en deux entités : OuterWeb et InfraNet. Le web va se dissoudre et se diffuser dans une multiplicité d'objets connectés (l '»internet des objets ») tout autour de nous : écrans, murs, voiture, lunettes, montres, etc. Il deviendra le « World Wide Wear », un accessoire que l'on 'porte sur nous' … En devenant invisible, il sera d'autant plus dangereux !!

Les acteurs du web seront d'ailleurs de moins en moins humains. Les robots représentent déjà la majorité du trafic sur la Toile : certains pour nous rendre service (moteurs de recherche), d'autres pour des pratiques beaucoup moins avouables (cookies, surveillance, indexation des métadonnées des internautes à des fin commerciales, policières ou malveillantes). Ces informations vont servir à développer l'industrie du « Big data » qui devrait pouvoir prédire le comportement d'un grand nombre de consommateurs-citoyens par le traitement de masse de milliards de données et de métadonnées glanées sur les moteurs de recherche, les messageries et les réseaux sociaux.
Dans ces nouveaux réseaux, « l'essentiel des interactions s'effectuera en deçà de notre seuil de perception » !
Le premier web s'était construit autour du document et de l'écrit (clavier, souris), les nouveaux internets, mobiles désormais, s'élaborent autour des gestes et de la voix. L'image prend aussi une part prépondérante avec la multiplication des écrans : téléphone, tablettes, ordinateur portable viennent compléter l'usage de la télévision (connectée ou pas). Voir l'étude de Médiamétrie sur la consommation de vidéo.
On assiste aussi à une certaine privatisation des réseaux à travers les applications mobiles qui remettent en cause la gratuité et la neutralité du Net. Demain, il faudra peut-être payer pour avoir accès à un internet « nettoyé » des pilleurs de données personnelles, grâce un « opt-out » !

Aurélie Barbaux, dans l’Usine digitale s’inquiète d’une probable « mort d’internet ». Son article part aussi des révélations de Snowden qui risquent de donner le coup fatal. Les géants du Net vont passer « une année d’enfer » pour regagner la confiance des internautes et des gouvernements. Ces derniers ont d’ailleurs des tentations protectionnistes qui peuvent s’avérer « interneticides » … !
Aussi bien Jean-Marc Ayrault pour la France, qu’Angela Merkel pour l’Europe proposent des infrastructures « sûres » pour de nouveaux internets … ! Ces internets « privés », entourés de frontières, vont à l’encontre de l’idée du Réseau des réseaux et surtout sont en contradiction avec l’espace mondial où il se situe !
A. Barbaux cite l’ouvrage de Boris Beaude, chercheur à l’EPFL (Polytechnique de Lausanne), « Les fins d’Internet ». Celui-ci reprend « les mises à mal quasi définitives des valeurs qui ont porté la création du réseau mondial : liberté d’expression, résilience, abolition de l’espace, intelligence collective et partagée, gratuité et décentralisation. » Pour sauver l’internet, le chercheur appelle à forger une nouvelle valeur, « porter l’émergence du monde comme horizon politique pertinent pour l’humanité, comme espace d’identification et de projection autour d’intérêts communs »
On retrouve ici les enjeux éthiques, politiques et géopolitiques exprimés aussi bien par les thèses du Pew Internet Center que par Tim Berners Lee.

EFF_version_of_NSA_logo

Crochet-Damais, Antoine. – Le World Wide Web fête ses 25 ans. – Journal du Net, 10/003/14

Kiss, Jemima. – An online Magna Carta: Berners-Lee calls for bill of rights for web. – The Guardian, 12/03/14

Berners-Lee, Tim. – Statement from Sir Tim Berners-Lee on the 25th Anniversary of the Web. – PewResearch Internet Project, 11/03/14

Anderson, Janna ; Rainie, Lee. – 15 Theses About the Digital Future. – PewResearch Internet Project, 11/03/14

Ertzscheid, Olivier. – Outerweb et infranet : rendez-vous en 2063. – Affordance.Info, 02/02/14

Barbaux, Aurélie. – Internet peut-il mourir ?. – L’Usine digitale, 27/02/14

Guillaud, Hubert. – Ce que l’internet n’a pas réussi (1/4) : des rêves de pionniers à un monde post-Snowden. – InternetActu, 04/02/14

Anizon, Emmanuelle ; Tesquet, Olivier. – Que reste-t-il de notre vie privée sur Internet ?. – Télérama, 15/02/14

Things the NSA doesn’t want you to know. And why you should know about it :). – La Quadrature du Net, 2014

Les métadonnées … Une preuve de confiance pour le numérique !

« Les métadonnées sont un ensemble de données structurées décrivant des ressources physiques ou numériques. Elles sont un maillon essentiel pour le partage de l’information et l’interopérabilité des ressources électroniques. »
Dans cette définition, tirée du « Dublin Core » simplifié et proposée par l’INIST , on remarque l’importance de l’aspect structuré de ces données pour la recherche et le partage de l’information.
Et pourtant ces métadonnées, si précieuses, sont aussi vieilles que le traitement de l’information et on les trouve avec les premières bibliothèques !

La question de la confiance, c’est un des intervenants aux « Entretiens du nouveau monde industriel » (portant cette année sur la confiance et le crédit) qui l’a posée en introduisant le « Carrefour des possibles » au Centre Pompidou le 19 décembre dernier : sur le web, un document qui se présente « nu », sans métadonnées, n’inspire pas confiance. Ce sont les métadonnées, qui, en le qualifiant, en lui donnant un contexte, le socialisent d’une certaine façon et lui permettent de gagner notre confiance …!

Les métadonnées ont aussi été à l’honneur lors des « Retours » des voyages d’étude du GFII, aussi bien pour la foire de Francfort que pour le salon Online de Londres
Ruth Martinez et Michel Vajou ont souligné l’importance de cette notion dans ces manifestations. Elle est devenue un des « buzzwords » de l’année 2011 !
La gestion des données est devenue une priorité stratégique pour les livres numériques : les titres avec des métadonnées complètes connaissent des ventes à 70% plus importantes ! Et cela a un impact sur le classement du site de l’éditeur sur Google …
Des entreprises se spécialisent dans l’enrichissement des contenus, comme TEMIS et on assiste au transfert de fonctions comme le catalogage, l’indexation ou la description, des bibliothèques vers l’édition.
Avec des métadonnées sémantiques, les contenus deviennent attractifs et on les retrouve plus facilement dans les moteurs de recherche et grâce à des pages thématiques … et ils peuvent servir à des publicités contextuelles !
La production éditoriale se tourne de plus en plus vers la catégorisation et le taggage automatique.

Mais là où les métadonnées deviennent un enjeu important dans l’industrie de l’information, c’est dans la corrélation qui existe avec les méthode du « Discovery ». Dans cette nouvelle manière d’explorer les informations, grâce à des graphiques et des cartographies, la métadonnée devient multi-dimensionnelle et dépasse la simple dimension bibliographique. Les métadonnées deviennent le pivot des logiques de navigation : on accède ainsi à un degré de granularité de l’information et le document traité peut être « éclaté » en plusieurs « nano-publications ». On peut ensuite proposer ces contenus sous plusieurs déclinaisons …

Avant que des robots n’annexe ces précieux outils, les professionnels de l’information ont encore quelques cartes à jouer, aussi bien en amont (indexation) qu’en aval (recherche documentaire) dans la construction du web sémantique !

Les « Retours » des voyages d’étude de Francfort et de Londres du GFII ont été très bien résumés dans les comptes-rendus de Michèle Battisti dans Paralipomènes :
Online Information 2011 ou le pouls du marché de l’information professionnelle
Édition scientifique et professionnelle tendances

Staypressed theme by Themocracy