Prospectibles Recherche Archives

Category: Recherche

L’apprentissage entre neurosciences et intelligence artificielle

By Dinah GALLIGO, 5 novembre 2018

La rentrée 2018 a été marquée par l’importance accordée par le Ministre de l’éducation aux bases neuroscientifiques de l’apprentissage avec la nomination de Stanislas Dehaene, chercheur en sciences cognitives, à la présidence du Conseil scientifique de l’éducation. Un post de Prospectibles avait souligné l’importance des recherches de ce neuropsychologue dans la compréhension du phénomène de la lecture. Quant à l’’apprentissage profond’, il devient le nouveau défi de l’intelligence artificielle en démontrant la capacité d’entités informatiques (réseaux de neurones) de développer une sorte d’apprentissage en s’’entraînant’ à l’aide d’algorithmes qui s’auto-corrigent.

Ces deux programmes n’ont pas manqué de susciter des polémiques, notamment dans l’enseignement où les pédagogues ont souligné l’aspect multifactoriel de l’apprentissage qui ne se limite pas à un phénomène neurobiologique et comporte de nombreux facteurs sociaux. D’autres se sont inquiétés de l’utilisation de la notion d’intelligence pour désigner l’activité de super-programmes informatiques. Car ce qui manque encore à ces machine pensantes, c’est la dimension émotionnelle de l’intelligence, qui, contrairement à l’idée reçue cartésienne est un facteur important dans la cognition, comme le souligne Frédéric Duriez dans Thot Cursus. Et on est encore loin de « voir une machine pleurer » comme le prédit Yann Le Cun, chercheur en intelligence artificielle, dans une interview à 20 minutes. Ce spécialiste de l’apprentissage profond chez Facebook est d’ailleurs le co-auteur avec Stanislas Dehaene, d’un ouvrage sur l’histoire de intelligence, qui vient de paraître chez Robert Lafont.

La neuropédagogie, nouvelle tendance éducative

Pascal Roulois, enseignant et chercheur en neuropédagogie, la définit ainsi sur son site « la neuropédagogie est la rencontre entre la pédagogie et les sciences cognitives : neurosciences, psychologie, philosophie. Elle vise principalement à renforcer l’efficacité de l’apprentissage (intellectuel, manuel) et de l’enseignement en analysant et intégrant de nombreux paramètres, biologiques aussi bien que psychologiques. Discipline systémique qui fait le lien entre « l’ordinateur » (le cerveau) et les « logiciels » (connaissance, compétence, savoir, savoir-être, information…), son champ d’application est donc large. ». Dans ce texte de 2013, il rappelle que cette discipline puise dans une longue histoire et que des pédagogues comme Philippe Meirieu (qui critique aujourd’hui l’orientation actuelle de l’enseignement basée sur les neurosciences) et bien d’autres sont à l’origine de nombreux concepts de neuropédagogie … Philippe Meirieu reconnaît dans son ouvrage « Apprendre, oui mais comment ?« , l’importance des processus mentaux dans la progression de la compréhension. En effet, contrairement au modèle de cours habituel : identification (repérer des informations) – signification (comprendre les informations) – utilisation (résoudre des exercices), « Une information n’est identifiée que si elle est associée à un projet d’utilisation intégrée dans la dynamique du sujet et c’est ce processus d’interaction entre l’identification et l’utilisation qui est générateur de signification, c’est-à-dire de compréhension ».

Pascal Roulois reconnaît néanmoins dans un texte plus récent que « Les neurosciences bénéficient d’une aura exagérée, alors que bien souvent, elles ne remplissent pas les critères ordinaires que l’on applique aux autres sciences ». Il souligne aussi que « les neurosciences ont permis à l’intelligence artificielle de faire un bond technologique prodigieux, qui a été rendu possible grâce à l’observation du cerveau humain, si bien que les grands projets cherchent à fabriquer des neurones et synapses artificiels. Les retombées pratiques se mesureront très prochainement, y compris en matière d’apprentissage. ». Or la neuropédagogie est « fondamentalement pluridisciplinaire » : elle est « formée de neurosciences, mais aussi de psychologie, plus particulièrement de psychologie de l’éducation et de psychologie cognitive ». D’où son importance dans la compréhension du phénomène de l’apprentissage.

Ce que les neurosciences nous apprennent, c’est qu’il existe deux modes d’apprentissage, avec ce que Rémy Sussan, citant l’ouvrage de Barbara Oakley dans Internet Actu, appelle le ‘paradoxe de la créativité’. « Autrement dit, lorsqu’on cherche à résoudre un problème, la partie du cerveau qui y travaille n’est pas celle qui trouve la solution ». Selon la chercheuse, le cerveau fonctionne sur deux modes : le ‘diffus’ et le ‘concentré’. Le mode concentré suit un cheminement logique en enchaînant les associations d’idées claires et évidentes ; le mode diffus est celui de l’inconscient où notre train de pensées associe les idées les plus éloignées. C’est à ce moment-là, devant un problème inédit ou difficile que nous avons besoin de nouvelles connexions entre nos neurones. Ces deux modes sont complètement liés et complémentaires « En fait, l’inconscient, le mode diffus, n’est capable que de résoudre les questions sur lesquelles le mode concentré a intensément travaillé auparavant. »

Mais comme le souligne, Michel Lussault, ancien Président du Conseil supérieur des programme, cité dans Libération, «Les élèves ne sont pas juste des cerveaux dans des bocaux. Il y a une interaction permanente entre le corps, le cerveau et l’environnement ». Cela explique l’appel du syndicat du primaire Sniupp, cosigné par 60 chercheurs pour alerter l’opinion et mettre en garde le Ministre « Un conseil scientifique, oui, mais représentant toute la recherche… Dans le dialogue permanent que l’école doit entretenir avec la recherche, aucune discipline ne peut légitimement s’imposer aux autres et aucune ne doit être ignorée. La recherche ne peut être instrumentalisée dans des débats médiatiques le plus souvent réducteurs. ». C’est cette position que défend vigoureusement le psychologue Luc-Laurent Salvador dans Agoravox. Face à S. Dehaene affirmant dans l’ouvrage Apprendre à lire : des sciences cognitives à la salle de classe, que les enseignants doivent « devenir experts de la dynamique cérébrale », L.L. Salvador rappelle que « le cerveau est le produit de l’activité humaine et non pas l’inverse ». C’est à travers de la répétition, de l’entraînement des activités de fonctions corporelles et mentales qui « en viennent à imposer leur trace sur le substrat neural et donc à déterminer l’organisation cérébrale la plus favorable à leur exécution jusqu’à en permettre l’automatisation. ». Pour lui, l’important n’est pas ce qui se trouve dans la boite (crânienne) et que nous dévoile l’imagerie médicale, mais ce qui se trouve à l’extérieur « là où s’accomplit l’activité : le corps, l’esprit, les autres, le monde. ». S’il reconnaît que le cerveau joue « un rôle indispensable consistant, d’une part, à permettre des coordinations internes entre nos cycles perception-action puis, d’autre part, à les conserver (comme la pâte à modeler) », pour ce professionnel, les neurosciences ont un apport pédagogique nul, n’apportant que « de simples confirmations de ce que l’on savait déjà ». Comme le souligne l’épistémologue et neurophysiologiste André Giordan dans un post d’Educavox, « la crédibilité des neurosciences n’est pas assurée sur le plan de l’éducation, les preuves de leur efficacité sont souvent fragiles ou même absentes. Les arguments avancés reposent sur des études rarement corroborées sur le terrain et comportant nombre de biais conceptuels et méthodologiques ». Il donne comme exemple la condamnation de la méthode globale en lecture. Alors que pour Dehaene « ceux qui ont une méthode alphabétique, phonique entraîne le circuit de l’hémisphère gauche qui est le circuit universel, efficace de la lecture. Les personnes qui ont une attention globale, la forme du mot, ces personnes n’utilisent pas ce circuit. Leur attention est orientée vers l’hémisphère droit qui est un circuit beaucoup moins efficace pour l’analyse de la lecture ». Pour lui, « tout autre circuit d’apprentissage éloigne l’enfant de la lecture ». Pour Giordan, en revanche, « Le processus d’apprentissage de la lecture chez chaque enfant est unique, il dépend essentiellement de son désir d’apprendre à lire et du contexte qui le favorise… ».

L’apprentissage profond : quand la machine s’autonomise

Jusqu’à récemment, l’informatique permettait aux humains de programmer des machines, aujourd’hui l’intelligence artificielle s’inspire du fonctionnement du cerveau, avec des réseaux de neurones artificiels. Le réseau est constitué de dizaines ou de centaines de couches de neurones, chacune recevant et interprétant les informations de la couche précédente, d’où le nom d’apprentissage profond (deep learning). On retrouve des « interprétations du traitement de l’information et des modèles de communication du système nerveux, à l’image de la façon dont le système nerveux établit des connexions en fonction des messages reçus, de la réponse neuronale et du poids des connexions entre les neurones du cerveau » (Wikipedia). Elles concernent plusieurs champs d’application : la reconnaissance visuelle et vocale, la vision par ordinateur, le traitement automatisé du langage, etc. (voir les exemples dans le post de Prospectibles sur l’IA) Ces systèmes ont des principes sous-jacents qu’ils partagent avec l’intelligence humaine et animale. Comme le soutient Yann Le Cun dans son interview à 20 minutes, « De même que l’aérodynamique explique à la fois comment volent les avions et les oiseaux. Les avions sont, d’une certaine manière, inspirés des oiseaux. Ils utilisent les mêmes principes sous-jacents mais ils n’ont pas de plumes ni de muscles ». Parmi ces principes, on trouve l’apprentissage. Le bébé, comme le petit animal, apprend des modèles du monde par observation, il apprend à suivre un visage, à détecter des mouvements ou qu’un objet peut être caché. Pour le moment, cet apprentissage est impossible à reproduire pour les machines. En matière d’apprentissage de modèles, on a d’abord eu l’apprentissage supervisé : « on donne l’image d’un chien à la machine et on lui dit ‘c’est un chien’. On lui donne la réponse. L’autre forme d’apprentissage, c’est l’apprentissage par renforcement, On laisse la machine faire des essais et des erreurs et, elle se corrige toute seule. ». Mais alors que dans un jeu vidéo, un humain met un quart d’heure pour atteindre un certain niveau de performance, il faut une centaine d’heure à une intelligence artificielle ! C’est aussi ce que constate Rémi Sussan, citant un article de la Technology Review dans InternetActu : « C’est pourquoi depuis les travaux de Hinton les progrès en IA ont été plus le fait de l’ingénierie (voire, nous dit le magazine, du « bricolage » ) que de la science proprement dite. On ajoute tel ou tel perfectionnement à l’algorithme, et on procède par essai et erreur. » Pour créer une véritable intelligence artificielle, analogue à celle des humains, il faudrait la doter de ‘sens commun’, d’une connaissance du monde.

Si nous arrivons à apprendre plus vite, selon Le Cun, c’est que nous avons un modèle prédictif du monde : on sait que si on tombe d’une falaise, ce sera fatal ! « Ce qui nous manque, c’est de permettre aux machines d’apprendre ces modèles prédictifs. Et on se heurte au même problème : le monde n’est pas entièrement prédictible… ». Les tâches des systèmes intelligents autonomes ne seront pas définies par des programmes, mais par des systèmes de valeurs. « Ce qui définit la tâche de ce robot, ce sera : aide l’humanité de telle manière. Un but très général. La machine définira elle-même les moyens par lesquels elle remplira ses pulsions et son système de valeurs. ». Nos pulsions « sont un système de valeurs précâblé dans notre cerveau. C’est lui qui nous dit qu’il faut respirer, manger, se reproduire. Comment va-t-on construire des machines autonomes ? En déterminant ces pulsions, ces systèmes de valeurs, de manière à ce que leur comportement s’aligne avec les valeurs humaines. ».

L’adoption du processus d’apprentissage profond, inspiré des neurosciences cognitives, a permis aux intelligences artificielles de réaliser des avancées considérables dans de nombreux domaines. Mais ces systèmes logiciels sont encore loin d’avoir acquis l’autonomie nécessaire pour se « libérer » de la direction humaine. Si ces « machines pensantes » ne sont pas encore aux portes du pouvoir, les humains disposant de ces intelligences ‘étendues’ risquent de ne pas toujours en faire un bon usage, comme le craint le sociologue Eric Sadin dans son ouvrage sur l’IA analysé par Claire Chartier dans l’Expansion …

Chartier, Claire. – La face (très) noire de l’intelligence artificielle. – L’Express L’Expansion, 25/10/18

Droit, Roger-Pol. – Figures Libres. Ainsi naquit la vérité artificielle. – Le Monde, 25/10/18

Le Cun, Yann ; Beaudonnet, Laure. – Intelligence artificielle : « Dans le futur, on pourrait voir une machine pleurer. – 20 Minutes, 23/10/18

Sadin, Eric. – L’intelligence artificielle ou l’enjeu du siècle : anatomie d’un antihumanisme radical. – Paris : l’Echappée, 19/10/18

Dehaene, Stanislas ; Le Cun, Yann ; Girardon, Jacques. – La plus belle histoire de l’intelligence – Des origines aux neurones artificiels : vers une nouvelle étape de l’évolution. – Paris : Robert Laffont, 18/10/2018

Duriez, Frédéric. – Est-ce bien raisonnable d’être rationnel ? – Thot Cursus, 08/10/18

Apprendre ! Les talents du cerveau, le défi des machines/Stanislas Dehaene, dir. – Paris : Odile Jacob, 05/09/18. (Sciences)

Johnson, Sydney. – What can machine learning really predict in Education? – EdSurge News, 25/09/18

Moragues, Manuel. – Le premier livre traduit par une IA est… un manuel de deep learning. – L’Usine nouvelle, 12/09/18

Pédagogie et neurosciences, les limites et les réussites : dossier. – La Recherche n°539, Septembre 2018.

Taddei, François ; Peiron, Denis. – « Transmettre les compétences clés du XXIe siècle » : entretien. – La Croix, 31/08/18

Beard, Alex. – How babies learn and why robots can’t compete. - The Guardian, 03/04/18

Roulois, Pascal. – Qu’est-ce que la neuropédagogie ? – Xos, 08/02/18

Salvador, Luc- Laurent. – Au secours, la neuropédagogie est au pouvoir ! – Agoravox, 25/01/18

Piquemal, Marie. – Un conseil scientifique en éducation, pourquoi faire ? – Libération, 10/01/18

Cariou, Gautier. - L’apprentissage profond bouleverse les sciences. – La Recherche, n°529, Novembre 2017

Sussan, Rémi. – Les limites du deep learning et comment les dépasser. – Internet Actu, 24/10/17

Giordan, André. – Apprendre à lire ? … – Educavox, 29/08/17

Le plaisir d’apprendre/Philippe Meirieu et col. – Paris : Autrement, 2014

Tags: Apprentissage, Biométrie, Ingénierie pédagogique, Intelligence artificielle, Neurosciences

Enseignement et formation, Recherche, Société de l'information, TICE

Big data, open data, protection des données personnelles : où en sont la science et l’utilisation des données ?

0 Comments

By Dinah GALLIGO, 12 février 2018

Les données sont partout, aussi bien dans la vie quotidienne que dans la recherche. Une nouvelle discipline, la science des données, mobilise des experts en mathématique et informatique pour analyser et traiter ce ‘pétrole’ du 21^e siècle à coup d’algorithmes et de logiciels d’intelligence artificielle. Tout au long de la journée, des ‘bots’ (petits logiciels d’IA) et des objets connectés les recueillent grâce à des capteurs. On y accède librement, grâce aux dispositifs d’open data, que ce soit dans la ville intelligente (smart city) ou au niveau de la ‘science ouverte’. Les GAFA et autres géants du net se disputent nos données personnelles en investissant des milliards pour les exploiter. Quel droit et quelles réglementations doit-on mettre en place pour protéger ces données tout en profitant de ces nouvelles ressources ?

La science des données

La science des données (en anglais data science) est une nouvelle discipline qui s’appuie sur des outils mathématiques, de statistiques, d’informatique (cette science est principalement une « science des données numériques »⁴) et de visualisation des données. Le premier objectif du « data scientist » est de produire des méthodes (automatisées, autant que possible) de tri et d’analyse de données de masse et de sources plus ou moins complexes ou disjointes de données, afin d’en extraire des informations utiles ou potentiellement utiles. Pour cela, le « scientifique des données » s’appuie sur la fouille de données, les statistiques, le traitement du signal, diverses méthodes de référencement, l’apprentissage automatique et la visualisation de données. Il s’intéresse donc à la classification, au nettoyage, à l’exploration, à l’analyse et à la protection de bases de données plus ou moins interopérables. (Wikipedia).

Comme l’énonce Stéphane Mallat, dans sa leçon inaugurale pour la création d’une chaire Science des données au Collège de France, « cette discipline s’inscrit au cœur de la problématique scientifique : extraire de la connaissance des données empiriques qui se trouvent à la base de toutes les sciences. On est dans une évolution extraordinairement rapide qui inclut toutes les sciences qui viennent avec leurs propres données. »

Les deux principaux traitements sont la modélisation et la prédiction. L’enjeu en est la généralisation. Dans ce domaine, l’informatique a une avance considérable sur les mathématiques. Elle permet à partir d’un exemple qu’on connaît, d’extrapoler pour les exemples qu’on ne connaît pas. Elle s’appuie sur un très grand nombre de variables (ex : millions de pixels dans une image).

En ce qui concerne la gestion des données scientifiques, les professionnels de l’information, dans les bibliothèques de recherche par exemple, peuvent être de précieux collaborateurs pour les chercheurs. Comme le soulignent Ayoung Yoon et Theresa Schulz dans leur article du College & Research Libraries « les bibliothèques universitaires se sont activement impliquées dans les services des données de la recherche : des services qui portent sur l’ensemble du cycle de vie des données comprenant le plan de gestion, la curation numérique (sélection, conservation, maintenance et archivage), la création de métadonnées et la conversion. ». Un nouveau service, le TDM ‘Text and Data Mining’ (fouille automatique de texte et de données) a pu être récemment être ajouté grâce à une série d’amendements au droit d’auteur en France, mais aussi au Royaume Uni.

Les données numériques et la « ville intelligente »

Dans la ‘smart city’, le recueil et le traitement des données devraient permettre aux citoyens de bénéficier de services sur mesure. A Toronto, une filiale de Google est en train d’édifier une métropole futuriste dans un quartier défavorisé au bord du lac Ontario. Comme le rappelle Ian Austen dans le New York Times fin décembre « le Premier ministre canadien, Justin Trudeau a promis que ce projet créerait ‘des technologies qui nous aideraient à construire des communautés plus intelligentes, plus vertes et plus inclusives ». Mais pour certains résidents cet enthousiasme doit être tempéré surtout quand il s’agit d’une entreprise connue pour sa collecte et analyse des données. Le projet Quayside sera chargé de capteurs et de caméras de surveillance qui traqueront tous ceux qui habitent, travaillent ou simplement passent dans le quartier. La masse de données recueillie permettra de mieux organiser et définir les besoins de la future ville, que la société appelle d’ailleurs une ‘plateforme’. L’électricité sera fournie par des mini-réseaux de voisinage, basés sur des énergies renouvelables. D’immenses auvents protègeront de la pluie et du soleil d’été et des allées chauffées feront fondre la neige l’hiver !

Mais les capteurs dans les bâtiments pourront mesurer le bruit dans les appartements tandis que les caméras et les capteurs extérieurs surveilleront aussi bien la pollution de l’air que le mouvement des personnes et des véhicules dans les carrefours … Comme le fait remarquer Pamela Robinson, professeur de planification urbaine à l’université Ryerson de Toronto « les données vont être recueillies par une entreprise privée et non par une collectivité administrative. Pour le moment rien n’a été annoncé sur qui en aura la propriété ni qui y aura accès. » De même, si Quayside promet des logements à tous les niveaux de revenus, pour le moment la seule entreprise qui a prévu de s’y installer est Google Canada, donc plutôt des jeunes cadres bien payés … D’après cette chercheuse, les données collectées pourraient être utilisées pour limiter ou décourager l’usage, par ailleurs légitime, des espaces publics par des sans-logis, des jeunes ou d’autres groupes …

Bernard Stiegler qui intervenait dans la Cité du Futur, conférence de Maddyness, déclarait « Pour faire des villes intelligentes, essayons d’être intelligent. La nouvelle urbanité, c’est la ville désautomatisée, car la ville automatisée détruit les relations de voisinage ». Citant l’expérience de Plaine Commune (Communauté de 9 communes de Seine Saint-Denis) où il est personnellement impliqué mais aussi des entreprises comme Vinci, Orange et la Caisse des Dépôts, le philosophe a expliqué que cela implique de savoir utiliser ces technologies innovantes avec la population de Seine Saint-Denis pour qu’elle y prenne part, notamment à travers un programme d’économie contributive.

C’est aussi le point de vue de Florence Durand-Tornare, fondatrice et déléguée générale de l’association Villes Internet dans l’article de Martine Courgnaud-Del Ry dans la Gazette des communes : « Plus de trente « Villes Internet » (hors métropoles) décrivent, parfois depuis longtemps, des dispositifs de mise à disposition de données informatives, techniques, juridiques ou statistiques. Ce qui me paraît significatif, c’est qu’elles ouvrent avant tout des données utiles au citoyen, et pas uniquement celles qui sont attendues par les grands opérateurs dans les zones hyper-urbaines — essentiellement relatives au transport ou à la gestion de l’énergie… Nous remarquons aussi que l’ouverture des données est l’occasion d’organiser des dispositifs participatifs avec les citoyens, qui contribuent parfois activement à choisir les applications utiles aux résidents que la donnée permet de produire. »

L’adoption du RGPD et la polémique sur la ‘patrimonialisation’ des données personnelles

L’Assemblée nationale examine en ce moment le projet de loi sur la protection des données personnelles « qui adapte notre droit au nouveau cadre juridique européen, composé d’une part, du règlement général de la protection des données (RGPD) et d’autre part de la directive sur les fichiers de police et de justice, qui entreront tous deux en vigueur en mai 2018. ». Ce règlement fixe de nouvelles obligations à toute entreprise exploitant des données : droit de portabilité d’un opérateur à l’autre, droit d’effacement et surtout, consentement explicite.

Une controverse vient de se développer dans la presse après une interview Gaspard Koenig dans Les Echos évoquant le Rapport du mouvement Génération libre vantant les mérites de la commercialisation des données personnelles. Pour G. Koenig « si la data est bien cet « or noir » du 21ème siècle, il n’y a pas de raison de ne pas payer les producteurs – nous – sans laisser aux raffineurs (les agrégateurs et les plates-formes) l’intégralité des revenus liés à l’exploitation des data. » Pour ce philosophe libéral, il y a trois options pour gérer l’accès aux données : mettre en place une « sorte d’agence nationale chargée de mettre des data encryptées à la disposition des entreprises », créer, comme la CNIL et la Commission européenne, des « droits pour les citoyens et des obligations pour les entreprises, avec le risque de judiciarisation excessive de l’économie digitale et d’étouffer l’innovation ». La troisième option qu’il privilégie et « qui peut s’articuler à la précédente, est la patrimonialité des données pour permettre aux entreprises de se les approprier après avoir justement rémunéré les citoyens. ». Cette transaction se ferait à travers « un système de ‘nanopaiements’ qui viendraient créditer ou débiter en continu un compte digital personnel ». Ceux qui refuseraient de céder leurs données seraient obligés de payer les services numériques. Cette idée a été reprise dans une tribune du Monde prônant la ‘monétisation de nos données’, signée par plusieurs personnalités (Bruno Bonnell, Laurence Parisot, Alexandre Jardin, Gaspard Koenig).

Cette « fausse bonne idée » comme la définissent Serge Abiteboul et Gilles Dowek dans une tribune dans le Monde, a été immédiatement attaquée par un grand nombre de chercheurs et de juristes dans la presse et sur les réseaux sociaux. Pour ces deux chercheurs « Le cas des données numériques est cependant un peu plus complexe que celle de des champs d’orge ou de blé, car qui cultive les données ? Ceux qui les produisent (vous et moi, les géants du Web, les hôtels…), ou ceux qui les entassent et les analysent pour en tirer du profit (ni vous et moi) ? ». Et même une fois la propriété établie, comment les internautes seront-ils assurés que le contrat ne soit pas léonin (accès au service contre ‘open bar’ pour les géants du Net) ? De plus, il n’est pas sûr que ces entreprises soient vraiment intéressées par nos données personnelles, vu qu’à travers le ‘crowdsourcing’, un grand nombre d’internautes produisent déjà du travail sur les données pour une très faibles rémunération. Mais surtout les données personnelles sont avant tout sociales : elles résultent des interactions des internautes entre eux ou avec des entreprises ou institutions (mails, commentaires, profils, etc.). Tristan Nitot dans son post sur Standblog, reprenant la comparaison avec la vente d’un rein, rappelle que déjà le CNNum estimait que « l’introduction d’un système patrimonial pour les données personnelles est une proposition dangereuse ». Comme il est interdit de faire commerce de ses organes (‘indisponibilité’ ou ‘non patrimonialité’ du corps humain), on ne peut séparer l’individu de ses données personnelles, ça serait en faire un objet qu’on peut commercialiser « permettre la patrimonialisation c’est — métaphoriquement — permettre de revendre par appartements son moi numérique, c’est faire commerce de son corps numérique, en quelque sorte, ce qui est interdit en France pour son corps physique, au nom de la dignité humaine. ». De plus, il sera très difficile à un individu de se faire payer vu les difficultés qu’a le fisc à faire payer les GAFA … Le rapport de force ne sera pas du tout en sa faveur …

Une autre position est celle développée par l’essayiste Evgeni Morozov dans l’émission Soft Power citée par Calimaq dans son post fin octobre. Plutôt que la défense individuelle de la vie privée, Morozov propose de faire des données personnelles un ‘bien public’ et de les faire relever du ‘domaine public’. Il ne pense pas « qu’on puisse régler tous les problèmes que posent les géants du net en utilisant les outils traditionnels de régulation du marché, c’est-à-dire en leur faisant payer des taxes et en mettant en place des lois anti-trust ». Il préconise même d’accélérer le processus d’automatisation et d’analyse des données, car tout n’est pas négatif. Si les cancers pourront bientôt être dépistés grâce aux données, cela ne devrait pas se faire en donnant autant de pouvoir à des entreprises de la Silicon Valley ! Un système dans lequel les données appartiennent à la communauté permet à tout un chacun de se saisir de ces données pour en faire quelque chose, même au niveau local. E. Morozov préconise « un système hybride empruntant à la fois des éléments à la domanialité publique et à la propriété intellectuelle, tout en s’inspirant de certains mécanismes des licences libres ».

Cette hybridation entre protection personnelle et usage collectif se retrouve dans le point de vue du sociologue Antonio Casilli qui défend dans un article du Monde avec Paola Tubaro, l’idée que « la défense de nos informations personnelles ne doit pas exclure celle des travailleurs de la donnée ». Pour ces chercheurs « Nos informations ne sont plus ” chez nous “. Elles sont disséminées sur les profils Facebook de nos amis, dans les bases de données des commerçants qui tracent nos transactions, dans les boîtes noires algorithmiques qui captent le trafic Internet pour les services de renseignement. Il n’y a rien de plus collectif qu’une donnée personnelle. La question est donc moins de la protéger de l’action d’intrus qui cherchent à en pénétrer la profondeur que d’harmoniser une pluralité d’acteurs sociaux qui veulent y avoir accès. ». C’est pourquoi plutôt que la protection individuelle des données, Casilli et Tubaro défendent une négociation collective contre des services. Lionel Maurel et Laura Aufère développent cette approche dans un post très détaillé de S.I.Lex. Ces chercheurs prônent une protection sociale au sens large du terme, car « si les données sont produites dans le cadre d’activités assimilables à de nouvelles formes de travail, alors ce sont des mécanismes de protection sociale enracinés dans le droit social qu’il convient de déployer pour garantir les droits des personnes. ». Ils préconisent de se doter de moyens adéquats pour engager ces négociations dont les termes restent encore dictés par le cadre imposé par les plateformes. Dans cet article, repris d’ailleurs par Libération, les chercheurs dessinent les contours de ce nouveau droit social du 21^e s. Jusqu’à présent, la protection des données était restreinte au niveau individuel. Comme le soulignent la juriste Antoinette Rouvroy et Valérie Peugeot de l’association Vecam, que ce soit pour l’obligation de consentement que pour la portabilité des données, aussi bien la CNIL que le RGPD se concentrent trop sur le niveau individuel. D’où l’importance de « mobiliser un nouvel imaginaire pour construire un cadre de négociation collectives sur les données ».

Rochfeld, Judith ; Farchy, Joëlle ; Forteza, Paula ; Peugeot, Valérie. - « Les internautes réclament un usage moins opaque et une maîtrise de leurs données personnelles ». Tribune. – Le Monde, 07/02/18

Loi données personnelles : dans l’apathie des débats, une envolée néo-libérale absurde ! - La Quadrature du Net, 07/02/18

Courgnaud-Del Ry, Martine. – Des services numériques communs émergent enfin sur tout le territoire. – Gazette des communes, 07/02/18

Guillaud, Hubert. – Pourquoi mes données personnelles ne peuvent pas être à vendre ! – Internet Actu, 06/02/18

Données personnelles : le projet de loi qui va mieux nous protéger. – La Dépêche, 06/02/18

Assemblée nationale. – Société : protection des données personnelles – Projet de loi déposé le 13 décembre 2017- discussion 06-08/02/18/Paula Forteza, Rapporteure.

Wiggleworth, Robert (FT). – Big data : les données numériques peuvent-elles révolutionner l’action politique ? – Nouvel Economiste, 06/02/18

Collectif. – Nos « données personnelles » nous appartiennent : monétisons-les ! - Le Monde, 05/02/18

Casilli, Antonio ; Jeanticou, Romain. – La domination des géants du numérique est-elle un nouveau colonialisme ? Entretien. – Télérama, 05/02/18

Abiteboul, Serge ; Dowek, Gilles. – « La propriété des données est une fausse bonne idée ». – Le Monde, 05/02/18

Maurel, Lionel ; Aufrère, Laura. – Pour une protection sociale des données personnelles. – S.I.Lex, 05/02/18

Nitot, Tristan. – Données personnelles et droit de vendre des organes humains. – Standblog, 02/02/18

Lévêque, Rémy. – « Facebook nous prend en otage ». – Usbek & Rica, 02/02/18

Parapadapis, George. – RGPD, de l’incertitude aux solutions pratiques. – Informatique News, 31/01/18

Revendre ses données « personnelles », la fausse bonne idée. – Mais où va le web ?, 29/01/18

Ertzscheid, Olivier. – Faut pas prendre les usagers des GAFAM pour des datas sauvages. – Affordance.info, 28/01/18

Pour une patrimonialité des données : Rapport. – Mes data sont à moi/Collectif data. – Génération libre.eu, 25/01/18

Naughton, John. – Who’s doing Google and Facebook dirty work?- The Guardian, 24/01/18

Casilli, Antonio ; Tubaro, Paola. – La vie privée des travailleurs de la donnée (Le Monde, 22/01/18) – Antonio A. Casilli

Mallat, Stéphane. – Sciences des données : leçon inaugurale (vidéo). – Collège de France, 11/01/18

Schmitt, Fabienne ; Madelaine, Nicolas. – Gaspard Koenig : « Chaque citoyen doit pouvoir vendre ses données personnelles ». – Les Echos, 07/01/18

Rey, Olivier ; Rouvroy, Antoinette. – Données, savoir et pouvoir (Table ronde). – PhiloInfo, décembre 2017 (vidéo).

Austen, Ian. – City of the Future? Humans, not technology, are the challenge in Toronto. – The New York Times, 29/12/17

Calimaq (Lionel Maurel). – Evgeni Morozov et le « domaine public » des données personnelles. – S.I.Lex, 29/10/17

Tags: Bibliothèques universitaires, Données personnelles, Données publiques, Droit à la vie privée, science des données

Droit de l'information, Economie numérique, Recherche, Société de l'information

Humanités numériques : nouvelle discipline ou méthodologie des Sciences humaines et sociales ?

0 Comments

By Dinah GALLIGO, 8 juin 2016

Comme le rappelait Etienne Cavalié (Lully) dans son post de Bibliothèques (reloaded) en janvier 2015 « le concept d’humanités numériques est vraiment en train de se répandre » depuis quelques années. Mais que représente cette notion qui prend de plus en plus de place dans le champ des sciences humaines et sociales (SHS) ? L’annonce d’une série « Humanités numérique » au baccalauréat général de même que la création d’un Executive Master Digital Humanities à Sciences Po interroge encore plus sur la place de cet objet ‘technoscientifique’ …

Définition

« Les humanités numériques² sont un domaine de recherche, d’enseignement et d’ingénierie au croisement de l’informatique et des arts, lettres, sciences humaines et sciences sociales.
Elles se caractérisent par des méthodes et des pratiques liées à l’utilisation des outils numériques, en ligne et hors ligne, ainsi que par la volonté de prendre en compte les nouveaux contenus numériques, au même titre que des objets d’étude plus traditionnels.
Les humanités numériques s’enracinent souvent d’une façon explicite dans un mouvement en faveur de la diffusion, du partage et de la valorisation du savoir. »

Dans cette définition de Wikipédia on retrouve les deux pôles de ce champ de connaissance : ‘un domaine de recherche et d’ingénierie’ où l’informatique s’intègre dans les sciences humaines grâce aux outils numériques. La définition ne se limite pas aux méthodes et pratiques que ces outils instaurent, mais souligne aussi « la volonté de prendre en compte nouveaux contenus numériques ». On voit dans cette acceptation un dépassement de l’opposition que notait Alexandre Moatti dans Bibnum en octobre 2014 où il soulignait « deux tendances […] : ceux qui pensent que les des DH sont d’abord et avant tout une pratique, un outil, à intégrer aux champs disciplinaires universitaires […] ; ceux qui pensent que ce doit être une théorie, une discipline … ». Le chercheur se rattache lui-même à la première tendance (méthode, outil) tout en reconnaissant que les deux acceptations puissent coexister.

C’est cette dimension transversale des HN, « ce carrefour, cette convergence entre savoirs et savoir-faire technologiques » qu’analyse Elydia Barret dans son mémoire ENSSIB. Pour elle, les « SHS et les disciplines littéraires et artistiques connaissent une mutation numérique ». Ce sont aussi bien « les méthodes et les modes de travail que les problématiques et les productions scientifiques qui évoluent sous l’effet de la généralisation du numérique ». On se trouve donc bien devant un nouveau domaine de recherche qui requiert des compétences aussi bien des chercheurs dans chaque discipline mais aussi d’autres professionnels de l’information : informaticiens mais aussi bibliothécaires/documentalistes, archivistes et autres gestionnaires de productions esthétiques et sémantiques (conservateurs de musées, iconographes, etc.). C’est l’objet de ce mémoire qui souligne l’importance de la coopération entre chercheurs et bibliothécaires « Les humanités numériques font appel à des problématiques et à des compétences familières aux bibliothèques ». C’est aussi le point de vue que défend Etienne Cavalié dans son Projet de mode d’emploi sur les Humanités numériques où il explique un projet de livre sur les HN réalisé par deux tandems chercheurs/bibliothécaires « Les chercheurs vont progressivement s’emparer des technologies et méthodologies comprises dans l’appellation d’humanités numériques «

De plus, comme le rappelle la définition de Wikipédia, les HN « s’enracinent souvent dans un mouvement en faveur de la diffusion, du partage et de la valorisation du savoir ». Ce mouvement des « Archives ouvertes », lancé par des collectifs de chercheurs à la fin des années 1990, a été soutenu, relayé et alimenté par des professionnels de la documentation.

Périmètre des Humanités numériques

Que recouvrent les HN et quelles sont les pratiques habituellement désignées par ces termes ?

Numérisation et archivage électronique des différents objets concernés : textes, image, sons, etc.
Edition électronique « open access » à travers des dépôts institutionnels comme HAL ou Spire à Sciences Po, mais aussi édition d’ouvrages et de revues en ligne à travers le portail Open Edition
Constitution de corpus numériques : textes, images et son, soit par numérisation de documents existants, soit par recueil de documents ‘nativement numériques’ : sites web, réseaux sociaux, etc. Exemple : le corpus COP21 réalisé par le Médialab et la Bibliothèque de Sciences Po
Capture, analyse et traitement des données numériques : traitement linguistique (TAL), fouille de textes, traitement de l’image et du son, etc.
Représentation graphique et visualisation des données.

Comme le rappelle Elydia Barret dans son mémoire, l’utilisation d’outils informatiques pour traiter les humanités n’est pas si nouvelle, puisque, dès la fin des années 1940, le père Roberto Busa entreprend l’élaboration d’un index des œuvres de Saint Thomas d’Aquin avec l’aide des informaticiens d’IBM, soit 11 millions de mots ! Ces ‘Humanities Computing’ continuent dans les années 1960 à 1980 et concernent essentiellement le traitement linguistique de corpus de textes comme le Brown Corpus aux Etats-Unis où un million de mots sont sélectionnés pour représenter la langue américaine … Les humanités numériques se distinguent en effet de ses précurseurs par la diversité et l’hétérogénéité de leurs objets, aussi bien que des méthodes et des outils mis en œuvre.

Les HN : nouvelles méthodes ou discipline spécifique ?

Cette controverse continue de diviser les différents acteurs (chercheurs, ingénieurs, professionnels de l’information). Comme le souligne Laurence Monnoyer-Smith dans son article « Ouvrir la boite à outils de la recherche numérique » : « Si les méthodes numériques mobilisées dans le cadre de recherche en sciences humaines ne sont pas radicalement différentes, elles renouvellent toutefois les débats épistémologiques provenant du croisement entre informatique et SHS ». Elle cite à ce propos l’article de Noortje Marres qui défend la théorie d’une ‘redistribution’ des méthodes qui a lieu au sein de la recherche numérique. D’après cette auteure, « les outils numériques et les sources de données en ligne transposent sur le web des méthodes traditionnelles en SHS, tout en les adaptant aux nouvelles propriétés du support ». Les chercheurs adaptent donc ces méthodes et les modifient pour faire face à de nouveaux défis épistémologiques.

En revanche, le Manifeste des Digital Humanities (THATCAMP 2010) proclame « Les Digital Humanities désignent une transdiscipline, porteuse des méthodes, des dispositifs et des perspectives heuristiques liées au numérique dans le domaine des sciences humaines et sociales ». Les participants du Thatcamp ne négligent pas pour autant les méthodes traditionnelles « elles s’appuient sur l’ensemble des paradigmes, savoir-faire et connaissances propres à ces disciplines tout en mobilisant les outils et les perspectives singulières du champ du numérique ».

Il est indéniable que le numérique a changé notre rapport aux objets généralement étudiés par les humanités et les SHS. Par rapport à l’écrit par exemple, aussi bien la lecture que l’écriture connaissent une transformation par le numérique, grâce aux liens hypertexte et l’éditorialisation des contenus, sans oublier les groupes de lecture ou d’écriture en réseau … Quant aux pratiques sociales, elles ont été ‘cannibalisées’ par les outils de communication et de réseaux sociaux et l’utilisation d’algorithmes à l’intérieur de ces dispositifs changent complètement la donne !

Face à ce changement radical qui transforme notre relation cognitive au monde, Michel Wieviorka dans son manifeste l’Impératif numérique [analyse de Jean-François Blanchard] exhorte les chercheurs « à ne pas abandonner le domaine à des spécialistes et à prendre la mesure des enjeux qui sont vitaux pour les SHS. Utiliser les ressources numériques, intégrer le numérique dans les méthodes de travail et les objets d’étude constituerait une première avancée vers une appropriation du changement ».

Manifeste des Digital Humanities/par Marin Dacos. – THATCAMP Paris, 2010 maj. 25/01/12. – Hypothèse.org

Berra, Aurélien. – Faire des humanités numériques. – in Read/Write 2/Pierre Mounier, dir. – Open Edition Books, p.25-43. – 2012

Plantin, Jean-Christophe ; Monnoyer-Smith. – Ouvrir la boite à outils de la recherche numérique. – Tic&Société vol.7:n°2, 2e semestre 2013

Blanchard, Jean-François. – Michel Wieviorka, l’impératif numérique ou la nouvelle ère des sciences humaines et sociales ? - Lectures Revues.org. – comptes-rendus 2013

Barret, Elydia. – Quel rôle pour les bibliothèques dans les humanités numériques ? Mémoire d’étude – ENSSIB -Université de Lyon, janvier 2014

Dacos, Marin ; Mounier, Pierre. – Rapport Humanités numériques. – Institut français ; Open Édition, 20/06/14 via Slideshare.net

Humanités numériques. – Institut français, 2014. – Publication d’une étude consacrée aux humanités numériques, soutien à la participation de chercheurs français à la conférence Digital Humanities 2014 de Lausanne, table ronde au Salon du livre, rencontres et débats dans le réseau culturel.

Humanités et cultures numériques : éléments d’histoire et de prospective/Milad Douehi ; Louise Merzeau. – DHNord 2014 Humanisme et humanités numériques. – Publie.meshs, 27/05/14

Dunleavy, Patrick. – Big data and the future of social sciences. – LSE podcasts – Audible impact episode 3, 06/08/14

Moatti, Alexandre. – Quelle acceptation du terme « humanités numériques ». – Bibnum, 19/11/14

Levy, Pierre. – My talk at « The Future of Text 2014. Communication presented at The Future of Text symposium IV at the Google’s headquarters in London (2014). – Pierre Levy’s Blog, 02/11/14

Quels agencements pour les humanités numériques ?/ Eddie Soulier.dir – Les Cahiers du numérique. – Numéro spécial, vol.10 – 2014/4. – via Cairn.info

Cavalié, Etienne. – Projet de mode d’emploi des humanités numériques. – Bibliothèques (reloaded), 30/01/15

Qu’est-ce que les humanités numériques ? - France Culture Plus, 25/05/15 [Alexandre Gefen (fabula.org), Pierre Mounier (CLEO), Michel Wieviorka (FMSH). Rencontre animée par Xavier de La Porte (France Culture) au Salon du Livre, Paris 2014).

Tags: Bibliothèques universitaires, Humanités numériques, Professionnels de l'information, Web sémantique

Bibliothèques, Numérique, Outils, Recherche, Société de l'information

Libre accès et partage des données de la recherche … Vers une science ouverte ? II – L’exploration de contenus

Un commentaire

By Dinah GALLIGO, 15 mars 2016

Après la disposition permettant aux chercheurs de mettre gratuitement en ligne leurs publications réalisées dans le cadre de recherches sur fonds publics, nous allons examiner l’impact des amendements autorisant la fouille automatique de textes et de données (Text and Data Mining –TDM) sur le développement de la recherche.

Au départ cette mesure ne devait pas apparaître dans la loi ; en attendant une réglementation européenne sur la question, le Ministère de la Culture et de la Communication avait nommé une mission pour en faciliter le recours comme exception au droit d’auteur comme le signale Antoine Oury dans un article d’Actualitté. Les éditeurs, dans leur ensemble, étaient plutôt réticents à ouvrir leurs collections, même si certains grands acteurs, comme Elsevier ou Springer, accordaient des licences limitées aux chercheurs.

Le TDM : aspects juridique et technique

Que représente exactement ce traitement et qu’apporte-t-il à la recherche ? Une partie de la réponse se trouve dans la tribune parue dans le Monde le 7 mars dernier, signé par un grand nombre de chercheurs « Pour une science ouverte à tous ». Après avoir rappelé l’importance du libre accès des publications scientifiques, notamment dans l’archive ouverte HAL, les chercheurs invitent les sénateurs à voter l’article 18 bis en s’assurant que la fouille de données ne soit pas soumise à des négociations avec un tiers. « La fouille de données doit devenir un droit ».

L’article en faveur du TDM permettra donc « d’extraire de l’ensemble de la production scientifique mondiale de nouvelles connaissances grâce à l’exploitation automatisée, à l’aide d’algorithmes, de corpus désormais gigantesques. »

Contrairement à d’autres pays (Etats-Unis, Royaume Uni), en France, les chercheurs n’étaient pas autorisés à pratiquer cette fouille de contenus de façon automatique et certains laboratoires étaient obligés de se rendre à l’étranger pour réaliser cette opération … ! Si certains éditeurs accordent des licences, celles-ci sont limitées (10 000 articles par semaine pour Elsevier sur la plateforme Science Direct). La Contribution de l’ABDU au CNNUM est très claire sur cette question : 10 000 articles/semaine cela peut paraître beaucoup, mais si l’hypothèse de recherche n’est pas validée au bout de X jeux de 10 000 articles de Science Direct, comment explorer les Y jeux nécessaires, et aussi sur d’autres bases de données ? Et ce, sans jamais pouvoir fouiller en une seule fois l’ensemble du corpus. De plus, Elsevier impose aux chercheurs de publier sous licence CC-BY-NC (pas d’utilisation commerciale) les extraits pertinents retenus en limitant leur longueur à 350 mots … Quant à Springer, il impose que chaque projet de TDM portant sur ses contenus soit décrit et enregistré via à un formulaire en ligne et se réserve le droit de décider si la demande est fondée … « Une ingérence inacceptable du point de vue de l’indépendance de la recherche ».

En effet, en procédant à ce traitement, les chercheurs n’ont pas comme objectif « la dissémination indue de ces contenus sous droit ou de leur exploitation commerciale ». Mais cette ‘lecture computationnelle’ implique la création d’une copie numérique du corpus à fouiller, ce qui soulève un problème de propriété intellectuelle. Il est évident qu’une solution doit être trouvée pour les ayants droit, d’autant que la plupart des chercheurs impliqués sont eux-mêmes des auteurs … !

Les éditeurs ont fait pression sur l’UE pour qu’une solution contractuelle soit priorisée par rapport à une révision du cadre juridique qui passerait par la création d’une nouvelle exception au droit d’auteur. C’est déjà le cas au Royaume Uni où la loi a consacré une nouvelle exception au droit d’auteur couvrant les ‘analyses computationnelles’ de contenus protégés, effectuées dans un cadre de recherche sans but lucratif, comme le souligne Calimaq dans un post de S.I.Lex sur l’exploration des données. C’est aussi la raison pour laquelle les chercheurs insistent sur la désignation d’un ‘tiers de confiance’, extérieur au milieu de l’édition commerciale, pour réaliser ces opérations. C’est ce que propose l’ABDU : une super base de données sur une plateforme publique pouvant « héberger tous les corpus du web visible et invisible aux seules fins d’en permettre la lecture algorithmique». Cette immense base de contenus constituerait une ‘base maître’ qui ne serait accessible et manipulable que par le tiers de confiance. Pour chaque demande de recherche, un ‘bac à sable’ serait constitué en copiant les corpus à partir de la ‘base maître’ ; cette copie serait détruite en ne conservant que les occurrences pertinentes, une fois les opérations de TDM terminées. Cela permet de répondre aux besoins des chercheurs tout en assurant la protection des ayants droit.

Le TDM comme service aux chercheurs

Dans les sciences dites ‘dures’ l’exploitation des données de la recherche est largement répandue et souvent effectuée par les chercheurs eux-mêmes ; c’est beaucoup moins le cas en sciences humaines et sociales (SHS) et dans les humanités où la formation aux outils numériques est moins répandue. Le traitement linguistique nécessaire à la fouille de texte est généralement confié à un service hybride de documentation et d’ingénierie linguistique. Frédérique Bordignon analyse ce service dans un récent billet du Carnet’IST. Cette ingénieure de recherche explique le fonctionnement d’un des outils nécessaire à la fouille automatique de textes RapidMiner et le service que ces spécialistes peuvent apporter aux chercheurs. Cette nouvelle activité pourrait s’imposer auprès des bibliothèques et des laboratoires de recherche, comme le Medialab à Sciences Po.

C’est cette activité de ‘data librarian’ qu’évoque Alexandre Tur dans un article de Catherine Muller sur le blog de l’ENSSIB. Ce conservateur de bibliothèque a effectué son stage au Canada dans le département de services aux chercheurs de la Quenn’s University de Kingston (Ontario). Il a travaillé surtout sur l’assistance à la gestion de données de la recherche auprès des chercheurs en humanités et à la promotion de l’open access dans l’université.

Alexandre Tur prend soin de distinguer les données scientifiques des données publiques qui sont proposées librement, les ‘open data’ (données ouvertes). Ces dernières proviennent généralement des Etats et des administrations publiques, en France c’est la Mission ETALAB qui les représente, (statistiques économiques, démographiques, géographiques, sociales et culturelles). Comme le souligne le Comité d’éthique du CNRS (COMETS) dans son avis du 7 mai 2015 sur les enjeux éthiques du partage des données, « Les politiques qui promeuvent l’ouverture des données publiques n’ont pas les mêmes objectifs que celles du partage des données scientifiques ». Si les données scientifiques produites sur fonds publics ont vocation à devenir publiques, les données publiques ont vocation à devenir scientifiques lorsqu’elles concernent l’environnement, la société ou la santé. Dans ces domaines, les questions éthiques doivent être évoquées lorsque ces données sont sensibles et relèvent de la vie privée.

Les bibliothèques de recherche représentent un partenaire ‘naturel’ pour héberger et gérer ces données. Comme l’explique William M. Cross dans son article du Library Journal : les bibliothèques vont se développer comme un ‘écosystème open data’. On va passer de l’idée d’infrastructure des données, centrée autour des revues scientifiques et des dépôts institutionnels à une ‘écologie des données de la recherche’. Cette écologie implique une évolution dans plusieurs domaines, comme le développement de nouvelles normes autour de la validation des données de la recherche, de l’identification de la provenance des jeux de données et des nouveaux types de gestion et de propriété de ces données.

Les métadonnées deviennent centrales dans ce processus de transition entre le web documentaire et le web de données. Comme le dit Valérie Tesnières, citée dans « Gérer les données de la recherche », une formation de la TGIR Humanum, « L’enjeu est moins de produire des données que de les connecter les unes avec les autres […] Produire des métadonnées permet à la fois l’interopérabilité des données et à en assurer une meilleure pérennisation »

C’est ce que soutient aussi Gildas Ilien dans un récent article d’Archimag : de nouveaux formats doivent permettre d’adapter le catalogage à l’environnement web et numérique des bibliothèques. Cette « revanche des données » nous oblige à revenir à une sorte de catalogue pour s’y retrouver dans la jungle du numérique, même si l’usager n’a pas besoin de les voir … ! Seules les machines les traiteront. Ce retour aux sources (catalogage) implique néanmoins un changement de structures et de système : la transition bibliographique où la logique du document s’efface au profit de la logique de l’information.

Cette ‘révolution copernicienne’ dans la documentation explique le slogan des chercheurs du LERU (Ligue des universités européennes de recherche) justifiant la fouille de textes et de données « The right to read is the right to mine » (Le droit de lire est le droit d’explorer).

Langlais, Pierre-Carl. - Text mining : vers un nouvel accord avec Elsevier. – Sciences communes, 29/10/14

Exploration des données : un environnement juridique en évolution. – S.I.Lex, 05/12/14

Consultation du Conseil national du numérique : contributions de l’ABDU.- ABDU, 02/15

Les enjeux éthiques du partage de données scientifiques : avis du COMETS. – CNRS, 07/05/15

Oury, Antoine. – Déclaration de la Haye : le copyright contre les connaissances. – Actualitté, 11/05/15

Naegelen, Pierre. – Données de la recherche : quel positionnement et quels rôles pour les bibliothèques ? – SCD Université Toulouse III Paul Sabatier, 15/06/15

LERU Statement : the right to read is the right to mine. – League of European Research Universities, 15/06/15

Demange, Julie. – Gérer les données de la recherche, de la création à l’interopérabilité (1/3). – Archives des mondes contemporains, 14/10/15

Fradin, Andrea. – Premier bug : la fouille automatique de données es adoptée. – Rue89/L’Obs, 21/01/16

Oury, Antoine. – France : une mission pour faciliter la fouille et l’exploration de textes et de données. – Actualitté, 21/01/16

La circulation des données et du savoir. Projet de loi pour une République numérique adopté par l’Assemblée nationale en première lecture. – Assemblée nationale, 26/01/16

Cross, William M. – Libraries support data-sharing across the research lifecycle. – Librairy Journal, 01/02/16

Langlais, Pierre-Carl. – Text-mining : une licence nationale contre l’exception ? - Sciences communes, 19/02/16

Bordignon, Frédérique. – Le text-mining comme service aux chercheurs. – CarnetIST, 05/03/16

Pour une science ouverte à tous. – Le Monde, 08/03/16

Ilien, Gildas. – Transition bibliographique : la revanche des données ? – Archimag, 14/03/16

Tags: données scientifiques, fouille de textes, Humanités numériques, Métadonnées, Web sémantique

Bibliothèques, Droit de l'information, Numérique, Recherche

Libre accès et partage des données de la recherche … Vers une science ouverte ? I – Publications en libre accès

8 commentaires

By Dinah GALLIGO, 14 février 2016

Deux dispositions, adoptées dans le cadre du Projet de loi numérique vont sensiblement changer le travail des chercheurs en France. Elles concernent, d’une part la publication en libre accès d’articles scientifiques dans certaines conditions, d’autre part le traitement et la fouille automatique de données dans un corpus constitué.

Des parlementaires déterminés ont bravé l’opposition des éditeurs et même d’une partie du gouvernement pour faire passer certains amendements !

L’article 17 de la future loi pour une République numérique permet aux auteurs dont les travaux sont financés à hauteur de 50% sur fonds publics de mettre gratuitement en ligne leurs articles, au terme d’un délai maximum de de 6 mois après la première publication (12 mois pour les Humanités/SHS), même si l’auteur a accordé l’exclusivité à un éditeur ! Ce droit s’étend aussi à d’autres publications comme les actes de congrès et de colloques ainsi que les recueils de mélange. Les données associées aux articles sont aussi concernées. Comme le souligne Axelle Lemaire sur France Inter, citée par Actualitté « La recherche, si elle n’est pas ouverte, si elle n’est pas internationale, si elle n’est pas partagée avec la communauté des chercheurs la plus élargie possible, eh bien elle ne rayonne pas. Donc, moi je me pose la question : est-ce bien le gouvernement qui se veut le fossoyeur de la recherche en 2016, lorsqu’il cherche à étendre le périmètre d’influence des chercheurs, ou sont-ce les éditeurs ? »

En matière de données de la recherche, une série d’amendements a été adoptée en faveur de la fouille automatique de texte et de données (TDM, Text and Data Mining) contre l’avis du gouvernement et même du rapporteur ! Comme le fait remarquer Andrea Fradin dans son article sur l’Obs/Rue 89, malgré l’avènement du Big data et de ses outils de traitement, il était jusqu’alors impossible pour les chercheurs d’extraire automatiquement des mots ou des données d’un corpus de documents informatisés. Avec cet amendement, la France devance même l’UE en la matière, celle-ci n’ayant pas encore statué sur la question. Axelle Lemaire s’était d’ailleurs abritée derrière cet argument pour ne pas prendre parti, préconisant d’attendre la directive européenne …

Ces deux dispositions vont permettre à la recherche française d’être moins dépendante du lobby de l’édition scientifique. En effet, comme le rappelle Pierre Carl Langlais sur son blog Hôtel Wikipedia, « dans l’édition scientifique, les auteurs ne sont jamais payés (ils paient même pour être publiés) ».

Libre accès : voie verte, voie dorée … Ou en diamant !

La voie dorée, c’est la stratégie que certains éditeurs ont trouvé pour répondre au mouvement du libre accès (Open Access Initiative) lancé en 1996 : obliger les chercheurs à payer pour voir leurs travaux publiés … Et les lecteurs pourront y accéder gratuitement ! La ‘voie dorée’ (gold open access) se positionne par rapport à la ‘voie verte’ (green open access) en mettant en avant la qualité d’une édition scientifique professionnelle avec surtout la sélection et l’évaluation des articles par des spécialistes (‘peer review’). Tout n’est pas à condamner à priori dans ce modèle et certains auteurs y trouvent leur compte … Mais il existe des éditeurs qui sont de véritables prédateurs : c’est ce que démontre Jeffrey Beall, bibliothécaire chargé des publications en ligne et professeur associé à l’Université de Denver, Colorado dans une interview à Scholarly Kitchen. Contacté par de nombreux éditeurs ‘gold’, il s’est rendu compte, que pour certains « leur mission n’était pas de promouvoir et rendre disponibles les travaux de recherche mais plutôt d’exploiter le modèle de gold open access ‘auteurs-payants’ ». Pour lutter contre cette déviance et permettre aux chercheurs de choisir les revues pour leurs publications en connaissance de cause, Beall a publié une liste noire de ces éditeurs.

Les chercheurs déposent de plus en plus leurs travaux sur des plateformes de partage comme Academia.edu ou ResearchGate. Mais ces sites gratuits ne semblent pas présenter toutes les garanties de sécurité et de sérieux nécessaires à des publications scientifiques …

Pour dépasser ces problèmes et les conflits d’intérêt qu’ils pourraient occasionner, le Comité des sciences sociales de Science Europe, propose une « voie de diamant », ou plutôt un ‘engagement de diamant comme le souligne Marin Dacos dans son post sur Blogo-numericus. Avec cet engagement les « productions scientifiques seront nativement numériques et nativement en accès ouvert, sans frais à payer pour l’auteur (APC : Articles Processing Fees) ». Pour cela les auteurs devront demander aux éditeurs l’autorisation de déposer leur publication dans une archive ouverte sous la forme de ‘postprint’ (version auteur acceptée et revue par les pairs avant correction et mise en page par l’éditeur). Les éditeurs gardent ainsi une certaine marge dans leurs publications. Marin Dacos regrette que ce dispositif ne concerne que les archives ouvertes, comme SPIRE de Sciences Po, et ne prend pas en compte les plateformes de publications comme Revues.org ou OpenEditionBooks. Sonia Livingstone, professeur en media et communication à London School of Economics (LSE), interviewé sur The Impact Blog, apprécie beaucoup la facilité et le professionnalisme des archives ouvertes et notamment LSE Rechearch Online, le dépôt institutionnel de la LSE. Elle y dépose toutes sortes de travaux : articles, mais aussi rapports de recherche, questionnaires, chapitres d’ouvrages, etc. La chercheuse préfère aussi déposer la version ‘postprint’, prête à être publiée. Et si ses articles sont encore sous paywall (embargo d’un ou deux ans) chez un éditeur commercial, les résultats d’une recherche sur Google Scholar affichent les PDF disponibles dans le dépôt de la LSE.

Martin Haspelmath a une autre vision pour cet engagement dans son post sur Free Science Blog ; il part d’abord d’un constat : le mouvement open access stagne. Malgré le fait qu’un sixième de toutes les publications est en libre accès, la majorité des abonnements (payants) est stable. Les experts en OA n’en cherchent pas la raison. Pourtant l’explication est simple, personne n’a envie que ça change : les éditeurs font des bénéfices avec leurs abonnements et les chercheurs ont besoin des éditeurs pour publier dans des revues prestigieuses pour leur carrière … ! Or les publications scientifiques ne sont pas un service qu’on peut déléguer à un prestataire extérieur (outsourcing), elles sont une partie intégrale du processus scientifique. Ce sont seulement quelques aspects techniques comme la mise en page ou l’hébergement qui peuvent sous-traités à des fournisseurs extérieurs. Ce que propose ce chercheur, c’est que les pouvoirs publics et les universités financent des éditions universitaires plutôt que d’arroser les maisons d’éditions commerciales. Chaque éditeur institutionnel pourrait créer un bouquet de revues prestigieuses et les financer comme on paye pour le personnel et les bâtiments de la recherche. Les lecteurs et les auteurs n’auraient rien à payer pour ces revues en accès libre ‘diamant’. Les financeurs tireront profit de ces investissements de la même façon qu’ils tirent profit de la recherche : en accroissant leur prestige !

Comme le souligne Sonia Livingstone, « tous les chercheurs doivent repenser leur attitude en matière de publications scientifiques … Je me réjouis de la lutte (encore incertaine) entre la propriété [intellectuelle] et l’accès au savoir ».

Dacos, Marin. – Un engagement de diamant pour l’open access : position du Comité des sciences sociales de Science Europe. – Blogus numéricus, 18/08/15

Contribution de l’ABDU à la consultation nationale « Ambition sur le numérique » : TDM et open access. – ABDU, 09/15

Livingstone, Sonia. – Five minutes with Professor Sonia Livingstone on the benefits of open access and institutional repositories : entretien. – Impact of Social Sciences, 20/10/15

Lau-Suchet, Soliné. – Les enjeux de la science ouverte : retour sur les 6es journées « open access » (1/4) #OA. – Bulac, 23/10/15

« Open access » pour les revues scientifiques : il faut plusieurs modèles. – The Conversation, 10/11/15

Projet de loi pour une République numérique. – Assemblée nationale, 09/12/15

Report on Berlin 12 Open Access Conference. – Association of Research Libraries, 18/12/15

Haspelmath, Martin. - How to switch Quickly to diamond open access: the best journals are free for authors and readers – Free Science Blog, 28/12/15

Clavey, Martin. – Publications scientifiques : l’open access va entrer dans la loi. – Educpros, 09/12/15

Archives ouvertes et licences Creative Commons : des synergies à conforter. – S.I.Lex, 19/01/16

Mazin, Cécile. – Axelle Lemaire : Le gouvernement, fossoyeur de la recherche ou les éditeurs. – Actualitté, 20/01/16

Langlais, Pierre-Carl. – Vite, une loi pour garantir l’accès aux connaissances. - Hôtel Wikipédia – L’Obs-Rue 89, 20/01/16

La CPU et le CNRS demandent la libre diffusion des publications scientifiques et des fouilles de données à la mesure des enjeux scientifiques. – CNRS : communiqués de presse, 21/01/16

Academic social networks and Open Access: French Researchers at the Crossroads. – InfoDoc Microveille, 24/01/16

Esposito, Joseph. – An Interview with Jeffrey Beall. – Scholarly Kitchen, 08/02/16

Tags: archives ouvertes, Bibliothèques universitaires, Edition électronique, Open Access

Bibliothèques, Droit de l'information, Economie numérique, Recherche

Environnement et numérique : opposition ou complémentarité. Le cas des « cleantechs »

0 Comments

By Dinah GALLIGO, 8 décembre 2015

Apparus tous deux dans les années 1970, les enjeux de l’environnement et du numérique sont souvent associés dans les ruptures sociétales du 21e siècle (les premiers ‘geeks’ étaient souvent écolos), mais aussi opposés en raison de l’énorme consommation énergétique et des pollutions provoquées par l’usage des technologies de l’information et de la communication. L’empreinte écologique d’internet et des dispositifs numériques a notamment été interrogée et suspectée de participer au dérèglement climatique. Un certain nombre d’associations ont tiré le signal d’alarme et on assiste depuis quelque temps à des propositions de solutions ‘propres’ et responsables aussi bien de la part de grandes sociétés que de jeunes pousses, les ‘cleantechs’.

L’empreinte écologique : la consommation énergétique du numérique

L’internet pèserait 300 millions de tonnes de CO2 par an d’après le site Ecolo Info. Quant aux data centers, ils représenteraient à eux seuls près de 3% des 10% de l’électricité mondiale consommée par l’écosystème numérique d’après le blog de Completel. Comme l’a rappelé Axelle Lemaire lors de sa présentation des cleantechs ambassadrices à la COP21 le 30 novembre, les seuls mails du Ministère (Bercy) consomment l’équivalent de 14 allers-retours Paris-New-York !

On pourrait multiplier les chiffres, cela n’épuiserait pas le sujet …. C’est ce qu’explique Hubert Guillaud dans son dernier post : si la consommation énergétique d’internet s’est sensiblement réduite depuis quelques années, l’augmentation des utilisateurs du réseau et surtout la consommation croissante d’énergie par chacun (multiplication des appareils mobiles, même s’ils consomment moins que les fixes) augmente la consommation énergétique globale, surtout en raison de la consommation de données distantes et particulièrement de vidéos.

Ce qu’il faudrait c’est une « limitation de vitesse » sur internet comme sur l’autoroute … Le réseau des réseaux serait peut-être un peu moins performant mais plus durable dans une économie décarbonnée ! Si les géants du Net (Apple, Facebook, Google) font des efforts pour utiliser des énergies renouvelables dans leurs data centers, comme le reconnaît Greenpeace, cité par Guillaume Serries dans son article sur ZDNet, Microsoft est obligé d’admettre, en revanche, que « sa neutralité carbone », réalisée depuis 2012, est remise en question par la croissance des services de cloud …

Ces grandes infrastructures (data centers, cloud) ne sont pas les seules en cause dans la surconsommation d’énergie : tous les appareils en mode ‘veille’ sont également impliqués. En outre, de plus en plus d’équipements domestiques et industriels doivent rester en permanence en fonctionnement : ordinateurs de bureau, serveurs, routeurs, caméras de surveillance …

L’empreinte écologique : les pollutions chimique et électronique

Notre communication quotidienne ne pourrait pas se réaliser sans le concours de matériaux toxiques indispensables (jusqu’à présent) à la fabrication des appareils mobiles, notamment pour les batteries : les ‘terres rares’ ou lanthanides. Comme le souligne l’article de Géo : « l’extraction et le traitement des terres rares polluent et produisent des déchets toxiques ». Et évidemment, cette extraction se passe souvent dans les pays du Sud et dans des conditions souvent indignes : « en Mongolie intérieure, la radioactivité mesurée dans les villages près de la mine de Baotou serait 32 fois supérieure à la normale (contre 14 fois à Tchernobyl) » !

Une solution serait le recyclage des déchets électroniques pour répondre à la demande croissante de terres rares. Mais là aussi, ce n’est pas toujours le comportement responsable qui prévaut dans cette industrie. Le recyclage des ‘Déchets d’équipements électriques et électroniques’ ou D3E est très contrôlé et encadré en France et en Europe, comme l’explique la FAQ de Future Arte, mais il existe un trafic international d’exportations illégales de déchets électroniques où les conditions de travail et d’exploitation de matériaux échappent à toute réglementation … !

Un peu plus controversé, l’effet nocif des ondes électromagnétiques. Des cas de personnes électrohypersensibles ont été reconnus, dus à l’intolérance aux ondes électromagnétiques provenant des équipements de téléphonie mobile dans l’environnement. Même si l’Agence nationale de sécurité sanitaire de l’environnement française (ANSES) estime que les données scientifiques ne montrent pas d’’effet avéré’ des ondes sur la santé, elle préconise néanmoins un certain nombre de précautions aux personnes hypersensibles, les effets à long terme étant encore inconnus (article de TVinfo). En revanche, les associations comme EHS-MCS préconisent une totale isolation du système numérique aux personnes électrohypersensibles !

Le numérique au secours des dérèglements climatiques : désinvestissement des énergies fossiles et investissement dans l’économie décarbonnée

Tous les jours, de grandes entreprises, des institutions et des collectivités locales abandonnent les énergies fossiles pour investir dans l’énergie propre. Lors de la présentation Cleantech, Pascal Canfin évoque $ 500 milliards d’investissement public et privé dans des projets qui contribuent à la décarbonisation de l’économie.

De grands patrons de multinationales dont plusieurs du secteur numérique (Bill Gates de Microsoft, Jeff Bezos d’Amazon, Marc Zuckerberg de Facebook, Xavier Niel de Free, Jack Ma d’Alibaba, etc.) ont fondé l’initiative « Breakthrough energy coalition » qui a pour objectif est d’investir dans les technologies d’énergie propre en misant sur les entreprises émergentes.

Ces initiatives sont révélatrices de l’émergence d’une disruption dans l’industrie et l’économie mondiale. Pascal Canfin a comparé la situation actuelle à celle de l’Europe à la veille de la Première guerre mondiale : dans les années 1900, Paris était envahi par le crottin de cheval qui représentait une véritable pollution à l’époque … Le développement de l’automobile pendant la guerre de 14 a fait disparaître ce problème (tout en créant un autre). Pour parvenir à une économie décarbonnée, neutre en carbone en 2060, il n’y a pas d’autre moyen que la jonction de l’économie verte et de l’économie numérique. En 2006, Nicolas Stern, chef du service économique britannique, a présenté dans un rapport indépendant (Stern Review) le caractère inéluctable du changement climatique et analysé ses coûts et conséquences sur la croissance et le développement. Cet économiste, qui est à présent le vice-président de la Banque Mondiale, a démontré que si on n’apportait pas de solutions durables à ce problème, le changement climatique risquait de coûter plus cher à l’économie mondiale … !

La COP21 représente une partie de ce défi (politique mondiale), mais il faut aussi que des entrepreneurs le relèvent aussi. L’économie contemporaine finance encore trop de projets avec l’énergie fossile …

L’innovation au service du climat : la recherche-développement des ‘cleantechs’

Comme l’a souligné Axelle Lemaire, il y a urgence à apporter des solutions par l’innovation. C’est pourquoi la French Tech se met au vert. Le numérique est devenu une transition nécessaire dans la transition écologique.

Des géants industriels aussi bien que des universités et des centres de recherche ont fait le pari de l’innovation en soutenant des jeunes pousses.

Au côté de grands groupes, les organismes de recherche participent à une exposition au Grand Palais pour présenter au public l’action des scientifiques sur la question climatique à l’occasion de la COP21. Les chercheurs partagent leurs connaissances avec les visiteurs et présentent des solutions pour lutter et s’adapter au changement climatique. L’INRIA, représentant la recherche en informatique et automatique, est partie prenante de plusieurs projets (énergie alternative, recyclage des déchets, transport, ville intelligente).

Au niveau des entreprises innovantes, les start-ups ‘greentech’ ont l’avantage d’être agiles et participatives. Sur les 21 start-ups sélectionnées pour être les ambassadrices à la COP21, 13 ont été choisies par le public. Le contenu des solutions numériques est aussi transversal et transdisciplinaire. Certaines solutions permettent le suivi précis et prédictif des consommations d’énergie. L’intelligence des mégadonnées permet de créer des ‘smart data’, notamment avec des objets connectés et de promouvoir de nouveaux usages, comme l’application Plume Labs. Créée par une équipe de jeunes ingénieurs pour démocratiser l’accès à l’information concernant la qualité de l’air urbain, cette start-up française permet aux utilisateurs de suivre, prédire et réduire leur exposition à la pollution de l’air !

Ces jeunes pousses s’appuient aussi bien sur la participation du public que sur un partenariat industriel public et privé. Ces initiatives ne sont qu’un premier pas dans un cercle vertueux qui devrait amener à une prochaine révolution industrielle. C’est le thème du Forum de l’OCDE qui doit se tenir à Paris les 14 et 15 décembre 2015.

HM Treasury – Cabinet Office. – Stern Review on the Economics of Climate Change. – The National Archives, [2006]. Pdf.

Rapport Stern : coût des changements climatiques. – Réseau Action Climat France, 12/10/06

Manach, Jean-Marc. – Ecologie : le numérique fait partie de la solution, pas du problème. – InternetActu, 14/04/09

Livre ou Ipad ? – Carbone 4, 2012 [Métro, 03/03/11]

La Porte, Xavier de. – Energie, pollution et internet. – InternetActu, 01/10/12

Flipo, Fabrice ; Dobré, Michèle ; Michot, Manon. – La face cachée du numérique : l’impact environnemental des nouvelles technologies. – Paris, L’Echappée, 2013

Weiler, Nolwlenn. – Cette empreinte écologique que les consommateurs ont bien du mal à voir. – Bastamag, 20/01/14

Le numérique c’est plus écologique ? – Kaizen, 22/04/14

Paris désinvestit des énergies fossiles. Maison de la Chimie, 1er Septembre 2015. – European Greens.

Redefining industrial revolution : OECD 2015 Green Growth and Sustainable Development Forum (14-15 December 2015, Paris). – OECD Insights, 07/11/15

21 start-ups des cleantechs ambassadrices de la French Tech à la COP21 : le concours du 12 au 27 novembre 2015/ Sous le haut patronage du Ministère de l’Economie, de l’industrie et du Numérique. – Dossier de presse pdf.

Serries, Guillaume. – COP21 : quid de l’impact des data centers ? – ZDNet, 27/11/15

COP21 : La recherche se mobilise pour le climat. Solutions Cop21, Paris 2015. – Ministère de l’Enseignement supérieur et de la recherche, 27/11/15

Breackthrough Energy coalition. – [28 November 2015]

Dolan, Kerry A. – Bill Gates, Mark Zuckerberg & more than 20 other billionaires launch coalition to invest in clean energy. – Forbes, 29/11/15

Jost, Clémence. – COP21 : nos pratiques numériques sont-elles écologiques ? – Archimag, 30/11/15

Guillaud, Hubert. – Avons-nous besoin d’une vitesse limitée sur l’internet ? – InternetActu, 01/12/15

Tags: changement climatique, Entreprises, innovation, Prospective

Economie numérique, Environnement, Outils, Recherche

Le « Meilleur des mondes » des GAFA : l’intelligence artificielle et les biotechnologies aux commandes des « Big companies » du Net

0 Comments

By Dinah GALLIGO, 5 septembre 2015

Les GAFA (Google Apple Facebook Amazon) – que l’on devrait désormais appeler AAFA, Google, le moteur de recherche historique n’étant plus qu’un département de l’entité Alphabet qui couvre plusieurs champs de recherche – misent de plus en plus sur l’intelligence artificielle et les sciences et technologies de la santé dans leur course à l’hégémonie sur la toile …

Si XLab, labo de recherche de Google a déjà lancé la Google Car (voiture autonome) et les Google Glasses (lunettes de réalité augmentée), d’après 01Net « M », l’assistant personnel de Facebook nous promet de trouver le cadeau idéal pour nos ‘amis’ en utilisant les millions de données personnelles que le réseau social recueille (à leur insu souvent …) sur le web. Avec un milliard d’utilisateurs, c’est un jeu d’enfant !

Mais, qu’il s’agisse de mégadonnées (big data) ou d’intelligence artificielle, on reste encore dans l’informatique, or les Géants du net ont voulu se diversifier dans un domaine qui va prendre de plus en plus d’importance au 21^e siècle : la santé et les biotechnologies. C’est Bill Gates, l’ancien patron de Microsoft qui s’est lancé le premier avec sa fondation contre le paludisme.

Comme l’explique Olivier Ertzscheid dans Rue 89, Le Web 4.0 sera celui du génome : on est passé du web 1.0 qui a permis d’indexer des documents et de les rechercher (moteurs de recherche) au web 2.0, le web social qui recense les profils sur les réseaux sociaux ; avec le web 3.0 on passe aux objets connectés et au World Wide Wear « où le corps devient une interface comme les autres ». Après cela, après les plateformes de l’’économie du partage’ qui concurrencent de plus en plus de secteurs traditionnels, que reste-il à indexer ? L’ADN. C’est ce champ que les big companies vont investir pour créer le « web généticiel ». Olivier Ertzschied cite une étude du MIT l’Internet de l’ADN « dont l’objectif est de documenter chaque variation de chaque gène humain et de déterminer quelles sont les conséquences de ces différences ». Il évoque ainsi la possibilité « de structurer une économie de ‘servicialisation’ du vivant ». Dans cette bio-économie, Google est, bien sûr, très présent. Mais pour le moment, en dehors des délires transhumanistes du gourou Ray Kurtzweil, fondateur de la Singularity University, dont le modeste objectif est de « vaincre la mort », la société de biotech Calico du groupe Alphabet, pose ses jalons. Elle vient de s’allier avec les laboratoires français SANOFI pour travailler sur le traitement du diabète ; la société de biotechnologie avait déjà réalisé un partenariat avec la firme de santé Dexcom sur des minuscules capteurs permettant de mesurer le taux de glucose dans le sang et Google X avec Novartis pour des lentilles de contact connectées pour le même objectif, mais là à partir des larmes … !

Les autres grands acteurs du net s’investissent aussi dans d’autres secteurs comme les plateformes de services ou les objets connectés. « Amazon Home Services » connecte l’internaute à des professionnels de services à domicile, du plombier au professeur de yoga comme l’indique Charlotte Volta dans un post de l’Atelier, tandis que le Pentagone s’allie à Apple pour créer des objets connectés militaires (article du Monde Informatique).
Google se retrouve évidemment dans ce genre de plateformes, la société prévoit même de lancer sa propre place de marché permettant de connecter les internautes avec les fournisseurs de services directement, à partir de la page de résultats ! Quant aux TICE et à l’éducation en ligne, Google a déjà sa plateforme, cf post de Frédéric Lardinois sur Techcrunch, et propose son école en ligne devançant toutes les réformes des éducations nationales ! Toujours au niveau de l’éducation, Amazon fournit désormais les manuels scolaires aux écoles de New York pour une période de trois ans. Mais, comme le souligne l’article d’Actualitté, les e-books comportent des DRM qui les rendent impossibles à utiliser pour les malvoyants …

Mais les géants du Net ne sont pas tous américains … Alibaba, la star montante chinoise investit aussi dans l’intelligence artificielle pour traiter les big data. C’est ce qu’explique Guillaume Périssat dans l’Informaticien : la société « vient d’ouvrir une plateforme cloud dédiée à l’analyse de grands volumes de données, mêlant deep learning, machine learning et analyse prédictive avec une puissance de calcul inégalée et une ergonomie à toute épreuve ».

Devant toutes ces initiatives, notamment dans les secteurs de la santé et de l’éducation, on peut se poser la question : quid des États et des institutions internationales ? Or, comme le souligne le chirurgien Laurent Alexandre, cité par Hervé le Crosnier, invité des Matins d’été sur France Culture « Google et les autres géants du net sont plus puissants que les Etats. Quel Etat peut investir un milliard de dollars dans la recherche ? Pourtant, il est de la responsabilité du politique d’investir dans les nouvelles technologies ». Or comme rappelle Hervé le Crosnier, « un milliard c’est ce que Google doit au fisc français … ». Ces activités donnent un pouvoir énorme à ces entreprises : les algorithmes mis en œuvre permettent de comprendre beaucoup de choses à partir des données personnelles et à agir. Grâce à l’intelligence artificielle et au ‘deep learning’, ils peuvent non seulement classifier et interpréter les données recueillies, mais aussi analyser les émotions (ex : reconnaissance faciale des photos dans Facebook) et ainsi définir les « besoins » des utilisateurs. Des chercheurs de Cambridge assurent dans une étude pouvoir déduire l’âge, le genre, la religion et l’opinion politique des utilisateurs à partir des seuls « like » du réseau social … !

D’autre part, lorsque l’ont fait une recherche sur Google, le ‘Page rank’, l’algorithme du moteur de recherche, va sélectionner sur l’ensemble des résultats ceux qui correspondent le plus à l’utilisateur : à partir des recherches précédentes mais aussi de la géolocalisation (programmes du cinéma d’à côté, par ex.). Cet algorithme représente le modèle que Google se fait de ce que nous sommes. On arrive ici à la limite de la personnalisation.

Comme l’exprime Henri Verdier dans son blog, « C’est le réel lui-même qui est retranscrit en données, qui est analysé à un nouveau niveau de granularité ». Le ‘quantified self’, ce ‘moi quantifié’ peut traduire, à travers les mesures des objets connectés de bien-être (bracelets, vêtements), soit « un désir de maitrise de son propre destin, de connaissance de soi, soit une menace sur la vie privée […] la pénétration de l’empire du management dans la sphère la plus intime du corps ».

Comme le rappelle Sophie Coisne, rédactrice en chef de La Recherche, la médecine personnalisée, si elle peut apporter des réponses appropriées dans des cas très précis, peut aussi représenter un grand danger, par exemple dans le cas des médicaments adaptés à chacun, car on n’a plus aucun contrôle sur les données … Cela implique des protocoles de recherche qui coûtent des millions, un pur fantasme !

Il faut réfléchir à la question : « Qui fixe les buts ? La machine ou les humains ? » « Deviendrons-nous les ‘entrepreneurs’ de nos données, ou serons-nous progressivement enserrés dans des étaux, asservis voire ‘marchandisés’ » (Henri Verdier) ?

Il existe néanmoins des projets institutionnels dans ces technologies de pointe. L’Union européenne, à travers son programme H2020 présente 17 projets de robotique (robots industriels, bras articulés, humanoïdes de compagnie) impliquant de l’intelligence artificielle et des éléments de cognitique.

Il en est de même en France dans le cadre du Commissariat général à la Stratégie et à la Prospective qui a produit l’étude « La dynamique d’internet : Prospective 2030 ».

A la différence de ceux des Gafa, ces projets prennent en compte les contraintes juridiques liées aux données personnelles, du moins on peut l’espérer …

France ; Premier Ministre ; Commissariat général à la stratégie et à la prospective. – La dynamique d’internet : Prospective 2030. – Études n°1, 2013. via Slideshare.

L’intelligence artificielle, le nouveau dada de Google. – ITespresso, 24/10/14

Bazin, Amélie ; Pacary, Jade ; Jean, Camille. – La lovotique : vers des machines reconnaissant les émotions ? – Culturenum, 03/12/14 (U. de Caen – notes de synthèses par les étudiant(e)s).

Regalado, Antonio. – Internet of DNA. – MIT Technology Review, 2015.

European Commission ; CORDIS. – Robotics gets celebrated with 17 new projects under H2020. – Cordis.europa, 27/01/15

Intelligence artificielle : jusqu’où iront les réseaux sociaux ? – La Recherche, avril 2015

Voltat, Charlotte. – Quand les géants du Net s’attaquent à l’industrie du service. – L’Atelier, 30/04/15

Ertzscheid, Olivier. – Le web 4.0 sera celui du génome, et il y a de quoi flipper. – Rue 89-L’Obs, 07/03/15

Belfort, Guillaume. – Google signe avec Novartis pour des lentilles de contact connectées. – Clubic, 15/07/15

Intelligence artificielle, transhumanisme : quel futur les GAFA nous préparent-ils ? – Avec Sophie Coisne et Hervé Le Crosnier. – Les matins d’été – France Culture, 19/08/15

Lardinois, Frédéric. – Google classroom gets an update ahead of new school year. – Techcrunch, 24/08/15

Périssat, Guillaume. – Alibaba lance une offre de service en intelligence artificielle destinée au Big Data. – L’informaticien, 25/08/15

Gary, Nicolas. – New-York signe avec Amazon, aveugle aux problème de lecture ? - Actualitté, 27/08/15

Facebook annonce « M », un assistant personnel intégré à la messagerie. – 01Net, 28/08/15

Filippone, Dominique. – Le Pentagone s’allie avec Apple pour créer des objets connectés militaires. – Le Monde informatique, 28/08/15

Le Quantified self, pivot de la révolution des données. – Henri Verdier Blog, 30/08/15

Dove, Jackie. – Google Life Sciences teams up withe Sanofi to,take down diabetes. – The Next Web, 01/09/15

Fredouelle, Aude. – Quels sont les projets connus de Google X ? – Journal du Net, 02/09/15

Tags: Données personnelles, Entreprises, innovation, Prospective, Réseaux sociaux

Economie numérique, Outils, Recherche

Quelle pédagogie à l’heure du numérique ?

Un commentaire

By Dinah GALLIGO, 2 juin 2015

L’innovation pédagogique est au centre du débat qui agite la société française autour de la réforme du collège. Comme le rappelle Dominique Roux dans un article des Échos, les élèves sont à présent des « digital natives » et l’usage d’outils numériques leur paraît naturel. Et ce, de la maternelle à l’université. Quels changements le numérique pourrait-il apporter à l’enseignement et comment ?

Comme le dit Michel Guillou dans son dernier billet : « J’ai l’impression qu’on n’a pas compris, après l’avoir écrit, ce que signifiait vraiment « L’école change avec le numérique » et qu’on n’a pas pris mesure, avec cette réforme du collège, des mutations en cours. » Et le bloggeur d’exposer les 31 défis amenés par le numérique, dont un des premiers est que ce phénomène n’est « ni un outil ni une fin en soi » …

En ce qui concerne l’enseignement supérieur, Educpros fait l’inventaire du Top 10 des pédagogies innovantes à l’Université. Classes inversées, fablabs, réalité virtuelle, etc. De nombreuses innovations accompagnent l’entrée du numérique dans l’enseignement, mais s’ils bouleversent les habitudes des enseignants et des étudiants, ces nouveaux outils ne suffisent pas à transformer la pédagogie. Comme le souligne Marcel Lebrun dans une interview « Le numérique peut avoir un impact sur la pédagogie, à condition que celle-ci change ».

Dans le monde anglo-saxon, on se rend compte que les enseignants ont une pratique très limitée des technologies de l’information et des compétences acquises en ligne. Katrina Schwartz explique dans son post, citant le rapport du ‘Project Tomorrow’ Learning in the 21st century, que les enseignants en formation, les ‘professeurs de demain’, apprennent des techniques d’hier, alors qu’ils maîtrisent déjà des compétences numériques plus évoluées comme l’usage des médias sociaux et des appareils mobiles … De même, Michelle Wise, souligne dans The real Revolution in Online Education isn’t MOOCs (Harvard Business Review), que ce qui va vraiment révolutionner le système éducatif ce ne sont pas les MOOCs qui offrent des cours en ligne gratuits et massifs, qui ne sont que la version technologique des cours magistraux traditionnels, mais la nouvelle architecture de transmission et d’échange de savoirs et de pratiques sur internet. Évidemment, l’auteur envisage plutôt l’aspect pragmatique de ces connaissances qui concernent plus les besoins réels des entreprises : « But there is a new wave of online competency-based learning providers […] but creating a whole new architecture of learning that has serious implications for businesses and organizations around the world. “ Là aussi l’utilisation et la pratique des médias sociaux permettent d’acquérir et de développer de nouvelles compétences, très utiles dans des secteurs comme le marketing ou la communication d’entreprise.

C’est aussi l’avis d’Emmanuel Davidenkoff dans l’article de Regards d’étudiants en ce qui concerne les MOOCs : « Parfois on appelle MOOCS un cours filmé, ce qui n’est pas plus élaboré que ce que l’on fait quand on met une caméra devant quelqu’un qui parle, et ça, on sait le faire depuis que la télévision existe » mais aussi : « Je pense effectivement qu’au vu du redécoupage des séquences que cela impose, avec la nécessité et toutes les possibilités de collecter des données sur la façon dont les gens réagissent, on devrait pouvoir de plus en plus faire des propositions assez engageantes pour que des personnes qui, aujourd’hui, seraient réticentes ou décrocheraient assez vite rentrent dans les apprentissages, et réussissent à apprendre ». Grâce au recueil de données personnelles le numérique permettrait « d’industrialiser ce qui relève aujourd’hui de l’artisanat, le suivi individuel ». E. Davidenkoff rassure aussi sur le caractère hybride de l’enseignement : les Moocs n’ont pas vocation à remplacer tous les cours en présentiel …

L’importance de la présence des enseignants est d’ailleurs rappelée par le philosophe Michel Serres dans son interview à Vousnousils : ‘On n’a jamais eu autant besoin d’enseignants’. Si les enseignants et les médecins n’ont plus le monopole du savoir, c’est une chance : « Si on s’intéresse au cancer par exemple, il est possible d’effectuer des recherches sur Internet, mais on ne va rien y comprendre. Il sera toujours indispensable de contacter un spécialiste qui pourra nous transmettre son savoir. » Il en est de même dans les amphis où les étudiants ont déjà consulté sur Wikipedia le sujet du cours, mais ont besoin des compétences de l’enseignant pour mieux assimiler ces connaissances. « Le travail des enseignants s’en trouve allégé car l’information est déjà passée, mais leur rôle de passeur de connaissances reste inchangé. »

Michael Godsey va encore plus loin dans son post The deconstruction of K12 teacher (The Atlantic). Le professeur va passer du statut d’’expert en contenu’ à celui de ‘facilitateur technologique’, les contenus étant dispensés soit par des ‘super-profs’ dans les Moocs, soit sur des sites comme TED.

C’est bien ce que souligne Marcel Lebrun dans son interview : « doter les établissements d’outils numériques ne suffit pas. Il faut des formations plus méthodologiques, qui laissent moins de place aux savoirs eux-mêmes mais sont davantage tournées vers la manière d’apprendre. » . En effet, « en allant chercher des informations autour de lui, dans la société, l’étudiant acquiert un savoir que l’enseignant n’a pas forcément, ce qui place celui-ci dans une position d’apprenant. »

On assiste ainsi à de nouvelles formes d’apprentissage comme la pollinisation comme l’explique Marc Dennery dans C-Campus. « Reprenant l’image du monde végétal, on peut dire que les grains de savoir circulent d’agents de savoir à agents de savoir, comme des grains de pollen vont de plante en plante. » Les agents du savoir pouvant être aussi bien les apprenants eux-mêmes, mais également des bases de ressources pédagogiques (wiki, réseau social d’entreprise).

Les Français sont bien conscients de l’impact de ces nouveaux types d’apprentissage, comme le souligne Dominique Roux dans l’entretien aux Echos : « 72 % des sondés considèrent que l’enseignement numérique accroît l’autonomie d’apprentissage des élèves ». C’est ce que Christine Vaufray indique dans son post MOOC : cours du prof ou cours des gens ? « Le MOOC des gens, c’est celui dans lequel les informations transmises et les activités proposées stimulent l’apparition d’une multitude de commentaires, productions, débats, actions… qui constituent en finale la véritable matière du cours, bien plus que l’information initiale. ».
Learning in the 21st century : Digital experiences and expectations of tomorrow teachers. – SpeakUp – Project Tomorrow Report, 2013.

Schwartz, Katrina. - Are teachers of tomorrow prepared to use innovative tech ? – KQED News, 13/02/13

De la transmission à la pollinisation des savoirs. – C-Campus- Le blog, 30/12/13

Weise, Michelle. – The real revolution in online education isn’t MOOCs. – Harvard Business Review, 17/10/14

« Le numérique aura toute sa place dans l’enseignement ». E. Davidenkoff. – Regards d’étudiants, 16/11/14

Blitman, Sophie. – Marcel Lebrun : « L’écart entre collaboration et aliénation numérique est étroit ». – L’Etudiant, 26/11/14

Godsey, Michael. – The deconstruction of the K12 teacher. – The Atlantic, 25/03/15

Michel Serres : “On n’a jamais eu autant besoin des enseignants !”. – Vousnousils, 03/04/15

MOOC : cours du prof ou cours des gens ? – Jamais sans mon laptop, 10/05/15

Les 31 défis pour le collège mais aussi pour l’Ecole et l’Université. – Culture numérique, 23/05/15

Roux, Dominique. – Le numérique pour enseigner autrement. – Les Echos, 27/05/15

Tags: Cours en ligne, Enseignement, Ingénierie pédagogique

Numérique, Recherche

Lire, écrire … Voir ! Les technologies au service des déficients visuels

Un commentaire

By Dinah GALLIGO, 27 février 2015

SMS, mails, objets connectés, notre monde numérique multiplie les écrans où lecture et écriture sont un passage obligé à la communication. Seul le téléphone et la radio font encore exception …

Ces usages semblent exclure un grand nombre de non-voyants et de malvoyants de l’accès à la société de l’information et de la connaissance. Or, ce sont précisément ces nouvelles technologies qui vont apporter, en partie, des réponses adéquates à ce handicap.

Le Congrès « Vision innovation » qui s’est tenu à l’UNESCO le 10 février 2015 en partenariat avec l’Institut de la vision, avait pour objectif de répondre à ces défis. Comme l’affirme le Pr Sahel, Directeur de l’Institut de la vision « Nous sommes aujourd’hui dans un moment particulier où l’innovation pourrait venir au-devant des patients que ce soit pour limiter l’aggravation de la maladie ou pour vivre mieux avec un handicap visuel.

Ces innovations sont très importantes et beaucoup de technologies proviennent d’autres domaines que la médecine. Si la dimension « accessibilité » est intégrée dans la réflexion, le design et l’ergonomie d’un produit ou d’un service, il n’en sera que plus riche et universel. ».

L’accessibilité en bibliothèque et en ligne

L’accessibilité a été un des principaux objectifs des bibliothèques pour compenser le handicap. A la Bibliothèque de Sciences Po, comme dans d’autres établissements, des aménagements ont été réalisés pour les déficients visuels : salle insonorisée et équipements adaptés, clavier et imprimante braille, synthèse vocale, zoom texte, etc. La bibliothèque de l’IEP de Toulouse s’est dotée d’un téléagrandisseur « Clearview Speech Couleur ». Équipé d’un logiciel de synthèse vocale et d’un logiciel d’agrandissement d’écran, il facilite la lecture, la création de fichiers informatiques, la numérisation des documents ainsi que la consultation sur internet. Toujours à Toulouse, mais à la médiathèque José Cabanis, une application spécifique permet l’identification par synthèse vocale de tous les documents via leur étiquette RFID. Positionné sur un document le petit lecteur DAISY (Digital Accessible Information System) énonce les principales informations : auteur, titre, résumé … En équipant ainsi tous les documents et pas seulement les collections adaptées, la Médiathèque permet une mixité entre voyants et malvoyants, lorsque ces derniers s’y rendent en famille …

Et évidemment, la bibliothèque de l’Association Valentin Haüy a créé une bibliothèque numérique de livres audio, Eole et met gratuitement à disposition de personnes handicapées plus de 6000 ouvrages sur un site internet dédié. Les ouvrages en braille numérique ou audio sont au format DAISY qui permet une navigation plus aisée. La bibliothèque bénéficie dans ce cas de l’exception « handicap » du droit d’auteur et des droits voisins qui permet la reproduction et la représentation des œuvres au profit des personnes en situation de handicap. Sur ce thème, l’ARALD (Agence Rhône-Alpes pour le livre et la documentation) organise avec la Médiathèque Valentin Haüy une Journée d’information « Bibliothèque, accessibilité et numérique » le 5 mars 2015 à Lyon.

Le copyright et l’accessibilité dans l’édition : le Traité de Marrakech (juin 2013)

Si en France et en Europe, le droit d’auteur comporte une exception de « handicap », ce n’était pas le cas dans le reste du monde et particulièrement aux Etats-Unis, où les lois sur le copyright ne permettaient pas de transformer les ouvrages numériques par la synthèse vocale ou le braille. Les associations de malvoyants ont dû mener une bataille au niveau international pour obtenir ces facilités pour les déficients visuels avec l’institution par l’Organisation mondiale de la propriété intellectuelle (OMPI) du Traité de Marrakech (27 juin 2013). Le traité reconnaît l’importance pour les personnes handicapées de disposer d’un « exemplaire en format accessible » afin « d’accéder à l’œuvre et d’y avoir accès aussi aisément et librement qu’une personne sans déficience visuelle ou autre difficulté de lecture des textes imprimés. ».

Les NBIC au service des aveugles et des déficients visuels

La journée « Vision – Innovation » a présenté toutes les solutions que les technologies actuelles permettent pour rendre la vue ou améliorer la vie aux personnes en situation de handicap.

Avec les NBIC (nanotechnologies, biotechnologies, informatique et sciences cognitives), chercheurs, ophtalmologistes, orthoptistes, laboratoires médicaux, opticiens, starts up et associations de patients tentent de répondre aux besoins des 4, 3 milliards de personnes qui ont une mauvaise vision dans le monde dont 2,5 milliards ne sont pas corrigés … Quant à la cécité, elle touche environ 5% de la population mondiale, à peu près le nombre d’habitants de l’Espagne …

Pour les plus touchés, les non-voyants, victimes de rétinopathies ou de DMLA (dégénérescence maculaire liée à l’âge), des avancées formidables sont perceptibles et font espérer une solution assez proche, comme le système de restauration de la vision IRIS, développé par la ‘jeune pousse’ Pixium Vision. Cet implant rétinien remplace les fonctions physiologiques des cellules photo-réceptricesA de l’œil en stimulant électriquement les cellules nerveuses de la rétine interne qui transmettent ensuite l’information au cerveau via le nerf optique. Ce système fonctionne avec une caméra asynchrone et un petit ordinateur de poche : il devrait permettre au patient de se déplacer de façon autonome.

D’autres solutions ont été présentées comme les lunettes « intelligentes » à réalité augmentée de Light Vision pour les personnes atteintes de DMLA. En détectant les parties encore fonctionnelles de la rétine, le système affiche les bonnes images au bon endroit ! La société pense distribuer une centaine lunettes en 2016. GenSight Biologics préconise, en revanche une thérapie génique pour des rétinites, la DMLA et la dégénérescence des cellules du nerf optique. L’objectif est de développer des vecteurs issus des « Adeno-Associated Virus » (AAV) pour le traitement génique de certaines dystrophies rétiniennes.

Mais il n’y a pas que ces grandes pathologies, dans les pays développés, la presbytie atteint un grand nombre de personnes. L’application « Back in Focus » permet de lire sur écran sans ses lunettes. Ce support numérique permet de tirer parti des appareils mobiles pour avoir l’image corrigée pour la vision de chacun. C’est l’écran qui s’adapte aux yeux des personnes (âgées souvent) plutôt que les lunettes correctrices … ! Ca simplifie beaucoup la vie pour lire un SMS ou regarder un plan sur son smartphone !

Dassault Systemes a développé une simulation de réalité virtuelle en 3D pour la recherche médicale pour faire ressentir aux utilisateurs et aux soignants ce que vit une personne malvoyante ou en fauteuil roulant … Des simulations semblables sont aussi disponibles sur la vision des animaux : chat, chien ou oiseau. On peut voir ce que perçoivent nos compagnons à poil ou à plumes, au ras du sol ou dans les airs… !

Mais ce qu’ont surtout développé les services ophtalmologistes, les laboratoires et les opticiens, ce sont des parcours de soins et d’accompagnement des malades ; l’aspect humain et organisationnel primant ainsi sur les aspects thérapeutiques et technologiques.

L’autre grande innovation, c’est l’émergence des réseaux sociaux spécialisés à partir d’association de patients comme Retina ou Carenity. Les patients ne sentent plus seuls avec leur handicap et peuvent compter sur des communautés comprenant des médecins, bénévoles, soignants et personnes connaissant les mêmes affections.

Sciences Po accessible

Vision innovation 2015
UNESCO, 10 février 2015

Taillandier, Florent. - A quand des ebooks vraiment adaptés aux déficients visuels ? – CNET France, 28/05/13

European Commission. – Marrakech Treaty : Equal Access to Books for Visually Impaired and Print Disabled. – Disabled World, 28/06/13

Organisation mondiale de la propriété intellectuelle (OMPI). – Traité de Marrakech visant à faciliter l’accès des aveugles, des déficients visuels et des personnes ayant d’autres difficultés de lecture des textes imprimés aux oeuvres publiées. – OMPI, 27/06/13

Kudzia, Kudzia. - Table ronde « Lire autrement : vers de nouveaux usages et de nouveaux services en bibliothèque. – Accessible ABF, 11/05/14

Tags: Droit d'auteur, Edition électronique, handicap, santé

Bibliothèques, Recherche, Société de l'information

Big Data, petite synthèse : quelle évolution ?

2 commentaires

By Dinah GALLIGO, 12 juillet 2014

Le « Big Data » est en train d’envahir tous les secteurs d’activité et du savoir. Les entreprises, l’administration publique, l’université et la recherche ne jurent plus que par le recueil, l’analyse, le traitement et la représentation de ces « grandes données ». L’internet, et particulièrement le Web 2.0, occupe évidemment une place privilégiée dans ce dispositif, notamment grâce aux réseaux sociaux qui drainent à eux seuls des téraoctets, voire des pétaoctets d’informations … Il existe aussi d’autres lieux, les silos d’informations que représentent les bases de données ‘factuelles’, engrangées par les grandes entreprises ou les institutions publiques, locales, nationales, européennes et internationales (INSEE, Eurostat, OCDE, etc.).

Mais alors, qu’est-ce qui différencie le ‘big data’ de ces bases de données ‘historiques’ que les statisticiens produisent et traitent depuis des décennies ?

Définition de Wikipedia : Les big data, littéralement les grosses données^2,3, parfois appelées données massives⁴, est une expression anglophone utilisée pour désigner des ensembles de données qui deviennent tellement volumineux qu’ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l’information. L’on parle aussi de datamasse⁵ en français par similitude avec la biomasse.

Les sept caractéristiques

Rob Kitchin, dans une interview du blog de la LSE « Impact of Social Sciences » les définit par sept traits caractéristiques : d’abord les 3 V : volume, vélocité et variété. La volumétrie est énorme sans commune mesure avec les bases de données ; la vitesse est proche du temps réel, quant à la variété, elle concerne toutes sortes de données, structurées ou non structurées, avec des références temporelles ou spatiales. Ensuite l’exhaustivité de l’objectif (saisir une population ou un système en entier), la granularité dans la résolution, avec des informations aussi détaillées que possible et indexées. Enfin, l’aspect relationnel, avec des champs communs (catégories) permettant de générer des ensembles de données différents, la flexibilité et l’évolutivité : on peut à tout moment ajouter ou modifier des champs.

On comprend ainsi en quoi les big data sont différentes des grandes bases de données traditionnelles. Si on prend l’exemple du recensement, la base est aussi très importante en volume (la population d’un pays), exhaustive, relationnelle et indexée, mais elle a une vitesse très basse (une fois tous les dix ans), une très faible variété d’informations (30-40 questions au maximum), et ne présente aucune flexibilité ou évolutivité.

Protéiforme, incertain et partiel …

Les big data sont cependant loin d’être parfaites ! Elles présentent un certain nombre de caractéristiques qui tiennent à la complexité de leur production. Malgré leur désir d’exhaustivité, elles sont toujours partielles, incomplètes, pleines de biais et d’incertitudes … Mais surtout, ces données ne viennent pas de nulle part, elles ont été produites, construites par des systèmes, conçus et testés dans un environnement scientifique, entourées par des contextes et des intérêts divers. Dans ces conditions, contrairement à l’allégation de Chris Anderson dans Wired, les données ne vont pas « parler par elles-même », on ne va pas « laisser les algorithmes trouver des modèles là où la science est impuissante », et faire que « la corrélation remplace la causalité », notre compréhension du monde émergerait alors des données et non d’une théorie, « de l’induction, plutôt que de la déduction » …

Si les données sont liées à une pratique scientifique, les sciences sont aussi basées sur les données (data driven science), notamment grâce à la ‘fouille de données’ (data mining). D’où l’importance de l’analyse exploratoire avec une approche contextuelle qui permettra de déterminer si les modèles qui en ressortent ont un sens ou sont aléatoires … C’est là que devrait s’instituer une philosophie, une épistémologie des datasciences.

L’importance du contexte : la « fabrication des données »

C’est cette ‘culture des données’ que souligne aussi Evelyne Ruppert, maître de conférence en sociologie au Goldsmith College de Londres et spécialiste des données, dans un article de MyScienceWork. Les données sont construites et le processus de fabrication est aussi important que la donnée elle-même. Il est donc indispensable de disposer d’informations sur la construction des données, sur les pratiques et les décisions sur la façon dont elles sont consignées par l’administration (pour les données publiques). C’est le rôle des métadonnées. Les données brutes ne sont pas utilisables en tant que telles. Il existe des diversités de saisie et de pratiques qui ne peuvent pas être homogénéisées. Il faut distinguer entre les corrélations inédites qui peuvent ressortir des jeux de données et interprétations qui en sont déduites.

Dans le contexte de la réutilisation des données, il ne faudrait pas réduire la complexité qui les caractérise en simplifiant aussi bien les données que les outils. Il existe très peu de personnes qui peuvent télécharger tel quel un jeu de données. D’où l’importance de la médiation avec la présence d’infomédiaires, des experts bénévoles (ou pas ?) qui présentent les données à travers de représentations graphiques, d’interfaces de visualisation. On trouve aussi des applications gratuites produites par des associations. Mais cela implique de choisir ce qui doit être mis en lumière, ainsi que des valeurs et des jugements. L’open data ne représente qu’une petite partie de ce qui est disponible. Cette sélection nécessite une prise de conscience de ce qui doit être diffusé et de l’esprit critique …

Jean-Pierre Malle souligne aussi l’importance de l’incertitude et de l’aspect ‘constructiviste’ des big data dans le MOOC sur « la Datascience et l’analyse situationnelle » (IonisX). En datascience, il n’y a pas de ‘vérité scientifique’, chacun doit la construire en fonction de ses besoins ou de ses intérêts … Pour une discipline qui est censée engendrer l’industrie du 21e siècle et restructurer toute l’économie, on pourrait s’inquiéter à moins ! Apparemment, c’est grâce à son caractère polymorphe et protéiforme que la ‘datamasse’ pourrait changer la donne dans un univers dominé par l’incertitude et l’individualisme … !

La disparition de la moyenne marque aussi la différence essentielle entre les big data et les statistiques. Comme le souligne Lev Manovich, dans son interview sur Place de la Toile, cité par Xavier de la Porte dans InternetActu, la statistique vise la moyenne, par exemple la taille des soldats en 1830, alors que l’objectif des big data est l’exception. Elles débusquent les ‘signaux faibles’ que l’on perçoit moins dans les grandes masses, la ‘longue traîne’ des usages particuliers ! C’est aussi le propos de Tyler Cowen dans son ouvrage « Average is over » (la fin de la moyenne), cité par Jean-Laurent Cassely dans Slate. Cette évolution ouvre le règne du « sur mesure » (customised) : les services devront s’adapter à la diversité de la clientèle. Les clients noteront bientôt les services (médecins, avocats, professeurs, commerçants), comme ils seront eux-mêmes notés en tant que consommateurs ou usagers de ces services. Le score de l’e-réputation de chacun le suivra partout, grâce à la vente de fichiers ! Et si l’on refuse d’être noté, on risque de disparaître des radars et ainsi de devenir suspect, donc mal-noté !

Cette « physique sociale » comme la nomme Sandy Pentland, chercheur au Media Lab du MIT, cité par Hubert Guillaud dans InternetActu, résulterait de la rencontre entre les big data et les sciences sociales. L’ »extraction de la réalité » rendrait possible la modélisation mathématique de la société ! Avec les big data, nous allons pouvoir recueillir suffisamment de données comportementales pour permettre aux scientifiques de développer « une théorie causale de la structure sociale » et d’établir une « explication mathématique » de la société … Les scientifiques vont pouvoir ainsi recueillir des milliards d’informations en temps réel sur des millions de personnes et pouvoir appréhender en même temps le niveau global et singulier. Cette physique sociale permettra aussi une meilleure circulation des idées qui devrait renouveler les relations sociales, par exemple, dans une ville.

Valoriser les données données de la recherche

Mais les données de la recherche, surtout en sciences sociales, sont loin d’avoir les moyens de valoriser leurs résultats. C’est ce qu’expliquent Dave Carr et Natalie Banner du Wellcome Trust, dans un article d’Impact of social sciences. Ils préconisent le partage des données entre chercheurs pour optimiser les effets du big data. Actuellement, il existe peu de stimuli pour le partage des données. Une enquête auprès des chercheurs montre les barrières qui ralentissent ce processus : manque de financement, detemps, de compétences, de dépôts institutionnels ou de ressources informatiques. Mais c’est surtout le manque de reconnaissance et de valorisation, le peu de protection de la vie privée, les données utilisées de façon inappropriée, la perte de crédit intellectuel qui inquiètent les chercheurs ! Seul un changement de paradigme dans la culture scientifique permettrait d’apporter un meilleur soutien aux chercheurs. C’est ce que propose un organisme britannique transdisciplinaire, l’EAGDA Calls (Expert Advisadory Group on Data Access). Ses recommandations portent sur trois grands points : le financement de la gestion des données pendant tout le cycle de vie de la recherche ; la reconnaissance du partage des données comme valorisation des résultats de la recherche ; le soutien aux compétences clés et aux ressources, notamment à travers des partenariats avec de nouveaux métiers (data manager).

Les Plans pour une économie du Big Data en France et en Europe

Face à ce nouveau secteur de l’économie de la connaissance, l’Union européenne et la France ont prévu des programmes pour développer des infrastructures et encadrer la réglementation de cette activité.

La Commission européenne compte sur le partenariat public-privé pour le développement du Big data en Europe. Elle veut s’appuyer sur les secteurs innovants de l’informatique et de la robotique pour mettre en place de grandes infrastructures : des réseaux d’outils de traitement de données destinés aux PME, à la recherche-développement et au secteur public ; un grand réseau pour la recherche et l’éducation ; une fondation technologique pour le big data dans l’industrie des communications mobiles.

Des mesures juridiques sont aussi prévues pour des licences standards, les jeux de données et la réutilisation, surtout en ce qui concerne les données ouvertes (Open Data). En matière de confiance et sécurité, la Commission a prévu un Guide des bonnes pratiques pour un archivage sécurisé, une réflexion sur la propriété des données et le contrôle des usagers sur la technologie infonuagique (Trusted Cloud Europe).

En France, le Plan Big data vise un marché de 9 milliards d’euros et 130 000 emplois (dont 80 000 créations) à l’horizon 2020. Il a comme objectifs le soutien à l’écosystème des start-up et l’assouplissement de la loi informatique et liberté. Il veut faire de la France le leader mondial des Big Data, grâce à la formation de ‘data scientists’ et à la ‘French Tech’. La création, en partenariat avec la FING (expérience MesInfos), d’un « Espace personnel de confiance Big Data »

Le plan s’appuie aussi sur un partenariat public-privé impliquant les écoles et les organismes de recherche, les acteurs publics et les industries et acteurs privés : Orange, La Poste, Axa, GDF, etc.