Big Data, petite synthèse : quelle évolution ?

Big-DataLe « Big Data » est en train d’envahir tous les secteurs d’activité et du savoir. Les entreprises, l’administration publique, l’université et la recherche ne jurent plus que par le recueil, l’analyse, le traitement et la représentation  de ces « grandes données ». L’internet, et particulièrement le Web 2.0, occupe évidemment une place privilégiée dans ce dispositif, notamment grâce aux réseaux sociaux qui drainent à eux seuls des téraoctets, voire des pétaoctets d’informations … Il existe aussi d’autres lieux, les silos d’informations que représentent les bases de données ‘factuelles’, engrangées par les grandes entreprises ou les institutions publiques, locales, nationales, européennes et internationales  (INSEE, Eurostat, OCDE, etc.).

Mais alors, qu’est-ce qui différencie le ‘big data’ de ces bases de données ‘historiques’ que les statisticiens produisent et traitent depuis des décennies ?

Définition de Wikipedia : Les big data, littéralement les grosses données2,3, parfois appelées données massives4, est une expression anglophone utilisée pour désigner des ensembles de données qui deviennent tellement volumineux qu’ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l’information. L’on parle aussi de datamasse5 en français par similitude avec la biomasse.

 

Les sept caractéristiques

Rob Kitchin, dans une interview du blog de la LSE « Impact of Social Sciences » les définit par sept traits caractéristiques : d’abord les 3 V : volume, vélocité et variété. La volumétrie est énorme sans commune mesure avec les bases de données ; la vitesse est proche du temps réel, quant à la variété, elle concerne toutes sortes de données, structurées ou non structurées, avec des références temporelles ou spatiales. Ensuite l’exhaustivité de l’objectif (saisir une population ou un système en entier), la granularité dans la résolution, avec des informations aussi détaillées que possible et indexées. Enfin, l’aspect relationnel, avec des champs communs (catégories) permettant de générer des ensembles de données différents, la flexibilité et l’évolutivité : on peut à tout moment ajouter ou modifier des champs.

big-data-will-drive-the-next-phase-of-innovation-in-mobile-computingOn comprend ainsi en quoi les big data sont différentes des grandes bases de données traditionnelles. Si on prend l’exemple du recensement, la base est aussi très importante en volume (la population d’un pays), exhaustive, relationnelle et indexée, mais elle a une vitesse très basse (une fois tous les dix ans), une très faible variété d’informations (30-40 questions au maximum), et ne présente aucune flexibilité ou évolutivité.

 

Protéiforme, incertain et partiel …

Les big data sont cependant loin d’être parfaites ! Elles présentent un certain nombre de caractéristiques qui tiennent à la complexité de leur production. Malgré leur désir d’exhaustivité, elles sont toujours partielles, incomplètes, pleines de biais et d’incertitudes … Mais surtout, ces données ne viennent pas de nulle part, elles ont été produites, construites par des systèmes, conçus et testés dans un environnement scientifique, entourées par des contextes et des intérêts divers. Dans ces conditions, contrairement à l’allégation de Chris Anderson dans Wired, les données ne vont pas « parler par elles-même », on ne va pas « laisser les algorithmes trouver des modèles là où la science est impuissante », et faire que « la corrélation remplace la causalité », notre compréhension du monde émergerait alors des données et non d’une théorie, « de l’induction, plutôt que de la déduction » …

Si les données sont liées à une pratique scientifique, les sciences sont aussi basées sur les données (data driven science), notamment grâce à la ‘fouille de données’ (data mining). D’où l’importance de l’analyse exploratoire avec une approche contextuelle qui permettra de déterminer si les modèles qui en ressortent ont un sens ou sont aléatoires … C’est là que devrait s’instituer une philosophie, une épistémologie des datasciences.

big-data-318x211

L’importance du contexte : la « fabrication des données »

C’est cette ‘culture des données’ que souligne aussi Evelyne Ruppert, maître de conférence en sociologie au Goldsmith College de Londres et spécialiste des données, dans un  article de MyScienceWork. Les données sont construites et le processus de fabrication est aussi important que la donnée elle-même. Il est donc indispensable de disposer d’informations sur la construction des données, sur les pratiques et les décisions sur la façon dont elles sont consignées par l’administration (pour les données publiques). C’est le rôle des métadonnées. Les données brutes ne sont pas utilisables en tant que telles. Il existe des diversités de saisie et de pratiques qui ne peuvent pas être homogénéisées. Il faut distinguer entre les corrélations inédites qui peuvent ressortir des jeux de données et interprétations qui en sont déduites.

Dans le contexte de la réutilisation des données, il ne faudrait pas réduire la complexité qui les caractérise en simplifiant aussi bien les données que les outils. Il existe très peu de personnes qui peuvent télécharger tel quel un jeu de données. D’où l’importance de la médiation avec la présence d’infomédiaires, des experts bénévoles (ou pas ?) qui présentent les données à travers de représentations graphiques, d’interfaces de visualisation. On trouve aussi des applications gratuites produites par des associations. Mais cela implique de choisir ce qui doit être mis en lumière, ainsi que des valeurs et des jugements. L’open data ne représente qu’une petite partie de ce qui est disponible. Cette sélection  nécessite une prise de conscience de ce qui doit être diffusé et de l’esprit critique …

Jean-Pierre Malle souligne aussi l’importance de l’incertitude et de l’aspect ‘constructiviste’ des big data dans le MOOC sur « la Datascience et l’analyse situationnelle » (IonisX). En datascience, il n’y a pas de ‘vérité scientifique’, chacun doit la construire en fonction de ses besoins ou de ses intérêts … Pour une discipline qui est censée engendrer l’industrie du 21e siècle et restructurer toute l’économie, on pourrait s’inquiéter à moins ! Apparemment, c’est grâce à son caractère polymorphe et protéiforme que la ‘datamasse’ pourrait changer la donne dans un univers dominé par l’incertitude et l’individualisme … !

La disparition de la moyenne marque aussi la différence essentielle entre les big data et les statistiques. Comme le souligne Lev Manovich, dans son interview sur Place de la Toile, cité par Xavier de la Porte dans InternetActu, la statistique vise la moyenne, par exemple la taille des soldats en 1830, alors que l’objectif des big data est l’exception. Elles débusquent les ‘signaux faibles’ que l’on perçoit moins dans les grandes masses, la ‘longue traîne’ des usages particuliers ! C’est aussi le propos de Tyler Cowen dans son ouvrage « Average is over » (la fin de la moyenne), cité par Jean-Laurent Cassely dans Slate. Cette évolution ouvre le règne du « sur mesure » (customised) : les services devront s’adapter à la diversité de la clientèle. Les clients noteront bientôt les services (médecins, avocats, professeurs, commerçants), comme ils seront eux-mêmes notés en tant que consommateurs ou usagers de ces services. Le score de l’e-réputation de chacun le suivra partout, grâce à la vente de fichiers ! Et si l’on refuse d’être noté, on risque de disparaître des radars et ainsi de devenir suspect, donc mal-noté !

Cette « physique sociale » comme la nomme Sandy Pentland, chercheur au Media Lab du MIT, cité par Hubert Guillaud dans InternetActu, résulterait de la rencontre entre les big data et les sciences sociales. L’ »extraction de la réalité » rendrait possible la modélisation mathématique de la société ! Avec les big data, nous allons pouvoir recueillir suffisamment de données comportementales pour permettre aux scientifiques de développer « une théorie causale de la structure sociale » et d’établir une « explication mathématique » de la société … Les scientifiques vont pouvoir ainsi recueillir des milliards d’informations en temps réel sur des millions de personnes et pouvoir appréhender en même temps le niveau global et singulier. Cette physique sociale permettra aussi une meilleure circulation des idées qui devrait renouveler les relations sociales, par exemple, dans une ville.

 

Valoriser les données données de la recherche

Mais les données de la recherche, surtout en sciences sociales, sont loin d’avoir les moyens de valoriser leurs résultats. C’est ce qu’expliquent Dave Carr et Natalie Banner du Wellcome Trust, dans un article d’Impact of social sciences. Ils préconisent le partage des données entre chercheurs pour optimiser les effets du big data. Actuellement, il existe peu de stimuli pour le partage des données. Une enquête auprès des chercheurs montre les barrières qui ralentissent ce processus : manque de financement, detemps,  de compétences, de dépôts institutionnels ou de ressources informatiques. Mais c’est surtout le manque de reconnaissance et de valorisation, le peu de protection de la vie privée, les données utilisées de façon inappropriée, la perte de crédit intellectuel qui inquiètent les chercheurs ! Seul un changement de paradigme dans la culture scientifique permettrait d’apporter un meilleur soutien aux chercheurs. C’est ce que propose un organisme britannique transdisciplinaire, l’EAGDA Calls (Expert Advisadory Group on Data Access). Ses recommandations portent sur trois grands points : le financement de la gestion des données pendant tout le cycle de vie de la recherche ; la reconnaissance du partage des données comme valorisation des résultats de la recherche ; le soutien aux compétences clés et aux ressources, notamment à travers des partenariats avec de nouveaux métiers (data manager).

 

Les Plans pour une économie du Big Data en France et en Europe

Face à ce nouveau secteur de l’économie de la connaissance, l’Union européenne et la France ont prévu des programmes pour développer des infrastructures et encadrer la réglementation de cette activité.

La Commission européenne compte sur le partenariat public-privé pour le développement du Big data en Europe. Elle veut s’appuyer sur les secteurs innovants de l’informatique et de la robotique pour mettre en place de grandes infrastructures : des réseaux d’outils de traitement de données destinés aux PME, à la recherche-développement et au  secteur public ; un grand réseau pour la recherche et l’éducation ; une fondation technologique pour le big data dans l’industrie des communications mobiles.

Des mesures juridiques sont aussi prévues pour des licences standards, les jeux de données et la réutilisation, surtout en ce qui concerne les données ouvertes (Open Data). En matière de confiance et sécurité, la Commission a prévu un Guide des bonnes pratiques pour un archivage sécurisé, une réflexion sur la propriété des données et le contrôle des usagers sur la technologie infonuagique (Trusted Cloud Europe).

En France, le Plan Big data vise un marché de 9 milliards d’euros et 130 000 emplois (dont 80 000 créations) à l’horizon 2020. Il a comme objectifs le soutien à l’écosystème des start-up et l’assouplissement de la loi informatique et liberté. Il veut faire de la France le leader mondial des Big Data, grâce à la formation de ‘data scientists’ et à la ‘French Tech’. La création, en partenariat avec la FING (expérience MesInfos), d’un « Espace personnel de confiance Big Data »

Le plan s’appuie aussi sur un partenariat public-privé impliquant les écoles et les organismes de recherche, les acteurs publics et les industries et acteurs privés : Orange, La Poste, Axa, GDF, etc.

data-672x372

 

Ruppert, Evelyne ; Kadri, Pierre-Sofiane. – L’open data est-il un leurre politique ? Entretien. - MyScienceWork, 08/07/14

La Porte, Xavier de. – Une société de données n’est pas une société statistique. – InternetActu, 07/07/14

Biseul, Xavier. – Le plan big data vise à créer 80 000 emplois d’ici 2020. – 01Net, 03/07/14

Faucheux, Olivia. – Public : la révolution du Big Data. – Acteurs Publics, 02/07/14 (vidéo)

Making the most of Data-driven Economy. – Commission européenne – Memo 14/455, 02/07/14

Carr, Dave ; Banner, Natalie. – Maximising the value of research data: developing incentives and changing cultures. – Impact of Social Sciences, 01/07/14

Kichin, Rob ; Carrigan, Mark. – The philosophy of Data Science (Series) – Rob Kichin « Big data should complement small data not replace it ». – Impact of Social Sciences, 27/06/14

Cassely, Jean-Laurent. – Pourquoi on notera bientôt nos comportements d’usagers, de consommateurs et d’être humain. – Slate, 17/06/14

Guillaud, Hubert. – Big Data : vers l’ingénierie sociale. – InternetActu, 20/05/14

Datascience et analyse situationnelle : dans les coulisses du Big Data (MOOC). – IONISx, 04/06/14-26/07/14

Leave a Reply

Staypressed theme by Themocracy