La slow science pour calmer le monde des Big Data
Comment se fait-il que ce soit au moment où plus de données sont accessibles plus largement que jamais, que s’installe précisément une ère du doute sur la fiabilité de ces données ? Réponses et remède par la chercheuse italienne adepte de la « slow science » Sabina Leonelli dans son ouvrage « La recherche scientifique à l’heure des Big Data. Cinq façons dont les Big Data nuisent à la science et comment la sauver » (éditions Mimésis-Philosophie, 2019).
par Maël Lemoine, philosophe des sciences médicales.
Ce petit livre de 120 pages, traduit de l’italien, a pour auteur une chercheuse exceptionnelle : Sabina Leonelli, professeur de philosophie des sciences à l’Université d’Exeter, a mené des travaux de terrain dans le domaine des données massives depuis 10 ans, interviewé des centaines de chercheurs, siégé dans diverses commissions mandatées par l’Union Européenne et rédigé des rapports pour plusieurs gouvernements sur ce sujet. Elle résume ici dans un style accessible quelques fondamentaux du Big Data et livre un résumé limpide des idées principales de son vaste travail académique.
Le livre s’ouvre sur le constat d’un double paradoxe. Tout d’abord, comment se fait-il que ce soit au moment où plus de données sont accessibles plus largement que jamais, que s’installe précisément une ère du doute sur la fiabilité de ces données ? Et deuxièmement, la pertinence d’une donnée n’est pas une propriété de cette donnée, mais une propriété de l’usage qu’on en fait, de sorte qu’il n’y a pas des données utiles d’un côté et des données nuisibles de l’autre, mais des données susceptibles d’avoir de nombreux usages différents. Et toutes, souligne Leonelli, sont susceptibles d’avoir un usage commercial.
Que sont les mégadonnées, données massives ou Big Data ?
On caractérise traditionnellement le Big Data par le volume, la vélocité, la variété, et quelques autres mots en « V ». Il y a une caractéristique supplémentaire de ces données massives, c’est le fait de faire communiquer entre elles des données auparavant séparées par diverses barrières – techniques ou sociales. Avant cela, la médecine s’était déjà construite sur la communication entre des faits apparemment hétérogènes, comme l’observation des symptômes et celle des lésions à l’autopsie ; pour la science médicale, le Big Data n’est qu’une étape supplémentaire sur ce trajet.
La deuxième caractéristique importante du Big Data est le décentrement de la « théorie ». La conception traditionnelle de la science lui donne en effet une place centrale, les données n’ayant qu’un rôle accessoire de justification. A l’ère du Big Data, c’est la donnée qui occupe une place centrale, et les théories qui paraissent relatives et interchangeables.
Vue la masse des données disponibles, celles-ci ne seraient pas utilisables sans « métadonnées », c’est-à-dire, des données de classification des données. Or ces métadonnées s’appuient sur des présupposés théoriques sur la nature des données et leurs usages possibles. Cela donne aux curateurs des bases de données un rôle stratégique prépondérant.
Apparaît cependant une troisième caractéristique importante : vue la masse des données disponibles, celles-ci ne seraient pas utilisables sans « métadonnées », c’est-à-dire, des données de classification des données. Or ces métadonnées s’appuient sur des présupposés théoriques sur la nature des données et leurs usages possibles. Cela donne aux curateurs des bases de données un rôle stratégique prépondérant. Ils ont des choix cruciaux à opérer, notamment entre disponibilité massive et standardisation, quantité et qualité des données. Pour ce faire, ils s’appuient sur une véritable « théorie classificatoire ».
Enfin, les données massives sont, en principe, traçables : elles suivent un itinéraire de leur acquisition à leur stockage à leur utilisation en passant par leur archivage et, parfois, par leur transfert d’une base à l’autre. En d’autres termes, les données massives circulent.
Dangers du Big Data
À l’horizon du livre de Sabina Leonelli se trouvent, bien sûr, tous les dangers dont il est le plus souvent question dans les médias : dangers pour les libertés individuelles et publiques, monopoles, fake news et autres joyeusetés du monde numérique. Mais c’est sur les dangers du Big Data pour la recherche que le chapitre 2, le plus long du livre, s’attarde.
Le premier est le conservatisme. Si paradoxal que cela puisse sembler, le Big Data est aussi conservateur qu’il est novateur. En arrimant les données à des métadonnées que définissent des théories anciennes que le contenu des données dépasse potentiellement, on court en effet le risque de protéger ces théories contre ce qui les affaiblit ou les invalide. Ce danger est majoré par le recyclage des données anciennes issues de précédentes bases de données.
Le deuxième danger est le manque de fiabilité. Certaines bases de données ne sont pas filtrées le moins du monde, d’autres sont soigneusement vérifiées et entretenues. Il est difficile d’adopter des standards dans un monde où des bases de données nouvelles apparaissent fréquemment, et où la multiplicité des usages fait peser des contraintes opposées à la définition des catégories de données. Sans compter que mêler des données moins fiables à des données vérifiées invalide potentiellement tous les résultats que l’on peut tirer de la base.
Le troisième danger est celui de la mystification. Par ce terme, Sabina Leonelli entend la tendance à oublier le caractère partiel, et de ce fait partial, des données récoltées par rapport à la réalité qu’elles sont censées représenter. Nous vivons dans l’illusion que le Big Data est si gros qu’il contient « l’essentiel » des informations de la réalité. Le préfixe « -ome » est utilisé pour afficher cette ambition. Mais comme le séquençage de « l’intégralité » du génome humain l’a montré, ce « tout » n’est en réalité qu’une petite partie de la réalité d’une cellule, qui est loin de refléter tout ce qui s’y passe.
La sauvegarde absolue du caractère privé des données constitue notamment une condition essentielle de la survie à moyen et long terme des programmes de recherche
Le quatrième danger est celui de la corruption. La plupart des bases de données scientifiques sont détenues à titre privée. Ce qu’elles contiennent ayant une valeur avant tout commerciale, elles ne donnent en libre accès que ce qui leur paraît présenter un intérêt moindre. Ceci constitue le terreau favorable au développement d’usages malhonnêtes des données, voire de création artificielle de données fausses visant à peser sur un choix, toutes pratiques motivées par l’intérêt financier ou par l’intérêt politique.
Le cinquième danger est celui de dommages sociaux. Un programme de recherche visant à récolter sur Twitter ou Facebook toutes les déclarations d’individus quant à d’éventuelles difficultés respiratoires, et à les croiser avec des dossiers médicaux, un suivi de la pollenisation et des pics de pollution, des trajectoires de déplacement et des informations alimentaires, pourrait avoir une grande utilité pour détecter précocément les crises d’asthme, affiner notre connaissance de leurs causes et engager des programmes préventifs ciblés d’une très grande efficacité. Mais les chercheurs sont incités à chercher et publier des résultats simplistes tirés de leurs bases de données, au lieu de l’image certainement nuancée et complexe qu’ils devraient en obtenir. Ils peuvent céder trop facilement à la pression du temps limité et considérer le sérieux et l’éthique comme des contraintes chronophages. Pourtant, la sauvegarde absolue du caractère privé des données constitue notamment une condition essentielle de la survie à moyen et long terme de ces programmes de recherche.
Les remèdes
La philosophe des sciences attache ces dangers à la vision « représentative » des données : l’idée qu’elles seraient une représentation, fixe et déterminée, et donc fiable, de la réalité. Il s’agirait de les exploiter de la manière convenable pour découvrir de nouvelles propriétés du monde. A cette vision, il s’agit de substituer la vision « relationnelle » des données, selon laquelle les données sont des objets qui ne fournissent de connaissance que par leur mise en relation avec une question non résolue, et dans un contexte donné – une situation spécifique. Dans cette conception, n’importe quel objet peut être une donnée, s’il est traité ainsi et rendu accessible.
La conception relationnelle des données permet de mettre en évidence l’importance des procédures de contrôle et notamment de croisement des données. Car elle peut paraître générer un risque important de relativisme : l’idée que n’importe quoi peut être dit à partir des données. En réalité, il existe des méthodes de vérification par recoupement qui permettent de crédibiliser plus ou moins les données que l’on utilise. Ce sont cependant des procédures complexes, et non des recettes magiques qui permettraient de garantir la fiabilité d’une information par une simple petite étiquette.
Conclusion
Cet excellent ouvrage, qui fourmille d’exemples concrets et d’idées, se termine sur une apologie de la lenteur : de même que le slow food, la slow science est en mesure de nous aider à dominer le monde du Big Data. La précipitation prétendue devrait nous être suspecte : elle cache souvent la volonté de faire passer en contrebande la possibilité d’usages du Big Data dont nous ne voudrions jamais, après mûre réflexion. Pour nourrir cette réflexion, nous avons absolument besoin d’ouvrages comme celui de Sabina Leonelli, qui ne tombe ni dans l’invective facile, ni dans la célébration béate, mais fournit une analyse mesurée et informée du monde du Big Data.
- par Maël Lemoine