Prospectibles mars 2016 - Prospectibles

Libre accès et partage des données de la recherche … Vers une science ouverte ? II – L’exploration de contenus

By Dinah GALLIGO 15 mars 2016

Après la disposition permettant aux chercheurs de mettre gratuitement en ligne leurs publications réalisées dans le cadre de recherches sur fonds publics, nous allons examiner l’impact des amendements autorisant la fouille automatique de textes et de données (Text and Data Mining –TDM) sur le développement de la recherche.

Au départ cette mesure ne devait pas apparaître dans la loi ; en attendant une réglementation européenne sur la question, le Ministère de la Culture et de la Communication avait nommé une mission pour en faciliter le recours comme exception au droit d’auteur comme le signale Antoine Oury dans un article d’Actualitté. Les éditeurs, dans leur ensemble, étaient plutôt réticents à ouvrir leurs collections, même si certains grands acteurs, comme Elsevier ou Springer, accordaient des licences limitées aux chercheurs.

Le TDM : aspects juridique et technique

Que représente exactement ce traitement et qu’apporte-t-il à la recherche ? Une partie de la réponse se trouve dans la tribune parue dans le Monde le 7 mars dernier, signé par un grand nombre de chercheurs « Pour une science ouverte à tous ». Après avoir rappelé l’importance du libre accès des publications scientifiques, notamment dans l’archive ouverte HAL, les chercheurs invitent les sénateurs à voter l’article 18 bis en s’assurant que la fouille de données ne soit pas soumise à des négociations avec un tiers. « La fouille de données doit devenir un droit ».

L’article en faveur du TDM permettra donc « d’extraire de l’ensemble de la production scientifique mondiale de nouvelles connaissances grâce à l’exploitation automatisée, à l’aide d’algorithmes, de corpus désormais gigantesques. »

Contrairement à d’autres pays (Etats-Unis, Royaume Uni), en France, les chercheurs n’étaient pas autorisés à pratiquer cette fouille de contenus de façon automatique et certains laboratoires étaient obligés de se rendre à l’étranger pour réaliser cette opération … ! Si certains éditeurs accordent des licences, celles-ci sont limitées (10 000 articles par semaine pour Elsevier sur la plateforme Science Direct). La Contribution de l’ABDU au CNNUM est très claire sur cette question : 10 000 articles/semaine cela peut paraître beaucoup, mais si l’hypothèse de recherche n’est pas validée au bout de X jeux de 10 000 articles de Science Direct, comment explorer les Y jeux nécessaires, et aussi sur d’autres bases de données ? Et ce, sans jamais pouvoir fouiller en une seule fois l’ensemble du corpus. De plus, Elsevier impose aux chercheurs de publier sous licence CC-BY-NC (pas d’utilisation commerciale) les extraits pertinents retenus en limitant leur longueur à 350 mots … Quant à Springer, il impose que chaque projet de TDM portant sur ses contenus soit décrit et enregistré via à un formulaire en ligne et se réserve le droit de décider si la demande est fondée … « Une ingérence inacceptable du point de vue de l’indépendance de la recherche ».

En effet, en procédant à ce traitement, les chercheurs n’ont pas comme objectif « la dissémination indue de ces contenus sous droit ou de leur exploitation commerciale ». Mais cette ‘lecture computationnelle’ implique la création d’une copie numérique du corpus à fouiller, ce qui soulève un problème de propriété intellectuelle. Il est évident qu’une solution doit être trouvée pour les ayants droit, d’autant que la plupart des chercheurs impliqués sont eux-mêmes des auteurs … !

Les éditeurs ont fait pression sur l’UE pour qu’une solution contractuelle soit priorisée par rapport à une révision du cadre juridique qui passerait par la création d’une nouvelle exception au droit d’auteur. C’est déjà le cas au Royaume Uni où la loi a consacré une nouvelle exception au droit d’auteur couvrant les ‘analyses computationnelles’ de contenus protégés, effectuées dans un cadre de recherche sans but lucratif, comme le souligne Calimaq dans un post de S.I.Lex sur l’exploration des données. C’est aussi la raison pour laquelle les chercheurs insistent sur la désignation d’un ‘tiers de confiance’, extérieur au milieu de l’édition commerciale, pour réaliser ces opérations. C’est ce que propose l’ABDU : une super base de données sur une plateforme publique pouvant « héberger tous les corpus du web visible et invisible aux seules fins d’en permettre la lecture algorithmique». Cette immense base de contenus constituerait une ‘base maître’ qui ne serait accessible et manipulable que par le tiers de confiance. Pour chaque demande de recherche, un ‘bac à sable’ serait constitué en copiant les corpus à partir de la ‘base maître’ ; cette copie serait détruite en ne conservant que les occurrences pertinentes, une fois les opérations de TDM terminées. Cela permet de répondre aux besoins des chercheurs tout en assurant la protection des ayants droit.

Le TDM comme service aux chercheurs

Dans les sciences dites ‘dures’ l’exploitation des données de la recherche est largement répandue et souvent effectuée par les chercheurs eux-mêmes ; c’est beaucoup moins le cas en sciences humaines et sociales (SHS) et dans les humanités où la formation aux outils numériques est moins répandue. Le traitement linguistique nécessaire à la fouille de texte est généralement confié à un service hybride de documentation et d’ingénierie linguistique. Frédérique Bordignon analyse ce service dans un récent billet du Carnet’IST. Cette ingénieure de recherche explique le fonctionnement d’un des outils nécessaire à la fouille automatique de textes RapidMiner et le service que ces spécialistes peuvent apporter aux chercheurs. Cette nouvelle activité pourrait s’imposer auprès des bibliothèques et des laboratoires de recherche, comme le Medialab à Sciences Po.

C’est cette activité de ‘data librarian’ qu’évoque Alexandre Tur dans un article de Catherine Muller sur le blog de l’ENSSIB. Ce conservateur de bibliothèque a effectué son stage au Canada dans le département de services aux chercheurs de la Quenn’s University de Kingston (Ontario). Il a travaillé surtout sur l’assistance à la gestion de données de la recherche auprès des chercheurs en humanités et à la promotion de l’open access dans l’université.

Alexandre Tur prend soin de distinguer les données scientifiques des données publiques qui sont proposées librement, les ‘open data’ (données ouvertes). Ces dernières proviennent généralement des Etats et des administrations publiques, en France c’est la Mission ETALAB qui les représente, (statistiques économiques, démographiques, géographiques, sociales et culturelles). Comme le souligne le Comité d’éthique du CNRS (COMETS) dans son avis du 7 mai 2015 sur les enjeux éthiques du partage des données, « Les politiques qui promeuvent l’ouverture des données publiques n’ont pas les mêmes objectifs que celles du partage des données scientifiques ». Si les données scientifiques produites sur fonds publics ont vocation à devenir publiques, les données publiques ont vocation à devenir scientifiques lorsqu’elles concernent l’environnement, la société ou la santé. Dans ces domaines, les questions éthiques doivent être évoquées lorsque ces données sont sensibles et relèvent de la vie privée.

Les bibliothèques de recherche représentent un partenaire ‘naturel’ pour héberger et gérer ces données. Comme l’explique William M. Cross dans son article du Library Journal : les bibliothèques vont se développer comme un ‘écosystème open data’. On va passer de l’idée d’infrastructure des données, centrée autour des revues scientifiques et des dépôts institutionnels à une ‘écologie des données de la recherche’. Cette écologie implique une évolution dans plusieurs domaines, comme le développement de nouvelles normes autour de la validation des données de la recherche, de l’identification de la provenance des jeux de données et des nouveaux types de gestion et de propriété de ces données.

Les métadonnées deviennent centrales dans ce processus de transition entre le web documentaire et le web de données. Comme le dit Valérie Tesnières, citée dans « Gérer les données de la recherche », une formation de la TGIR Humanum, « L’enjeu est moins de produire des données que de les connecter les unes avec les autres […] Produire des métadonnées permet à la fois l’interopérabilité des données et à en assurer une meilleure pérennisation »

C’est ce que soutient aussi Gildas Ilien dans un récent article d’Archimag : de nouveaux formats doivent permettre d’adapter le catalogage à l’environnement web et numérique des bibliothèques. Cette « revanche des données » nous oblige à revenir à une sorte de catalogue pour s’y retrouver dans la jungle du numérique, même si l’usager n’a pas besoin de les voir … ! Seules les machines les traiteront. Ce retour aux sources (catalogage) implique néanmoins un changement de structures et de système : la transition bibliographique où la logique du document s’efface au profit de la logique de l’information.

Cette ‘révolution copernicienne’ dans la documentation explique le slogan des chercheurs du LERU (Ligue des universités européennes de recherche) justifiant la fouille de textes et de données « The right to read is the right to mine » (Le droit de lire est le droit d’explorer).

Langlais, Pierre-Carl. - Text mining : vers un nouvel accord avec Elsevier. – Sciences communes, 29/10/14

Exploration des données : un environnement juridique en évolution. – S.I.Lex, 05/12/14

Consultation du Conseil national du numérique : contributions de l’ABDU.- ABDU, 02/15

Les enjeux éthiques du partage de données scientifiques : avis du COMETS. – CNRS, 07/05/15

Oury, Antoine. – Déclaration de la Haye : le copyright contre les connaissances. – Actualitté, 11/05/15

Naegelen, Pierre. – Données de la recherche : quel positionnement et quels rôles pour les bibliothèques ? – SCD Université Toulouse III Paul Sabatier, 15/06/15

LERU Statement : the right to read is the right to mine. – League of European Research Universities, 15/06/15

Demange, Julie. – Gérer les données de la recherche, de la création à l’interopérabilité (1/3). – Archives des mondes contemporains, 14/10/15

Fradin, Andrea. – Premier bug : la fouille automatique de données es adoptée. – Rue89/L’Obs, 21/01/16

Oury, Antoine. – France : une mission pour faciliter la fouille et l’exploration de textes et de données. – Actualitté, 21/01/16

La circulation des données et du savoir. Projet de loi pour une République numérique adopté par l’Assemblée nationale en première lecture. – Assemblée nationale, 26/01/16

Cross, William M. – Libraries support data-sharing across the research lifecycle. – Librairy Journal, 01/02/16

Langlais, Pierre-Carl. – Text-mining : une licence nationale contre l’exception ? - Sciences communes, 19/02/16

Bordignon, Frédérique. – Le text-mining comme service aux chercheurs. – CarnetIST, 05/03/16

Pour une science ouverte à tous. – Le Monde, 08/03/16

Ilien, Gildas. – Transition bibliographique : la revanche des données ? – Archimag, 14/03/16

Tags: données scientifiques, fouille de textes, Humanités numériques, Métadonnées, Web sémantique

Bibliothèques, Droit de l'information, Numérique, Recherche

Prospectibles

Libre accès et partage des données de la recherche … Vers une science ouverte ? II – L’exploration de contenus

Catégories

Mots-clés

Archives