Données fantômes : ce qui n'est pas compté et qui compte

La discrimination par la collecte de données et la catégorisation informatique

Article

Thursday 31 May 2018

Données fantômes : ce qui n'est pas compté et qui compte

The Library of missing Data Sets - Mimi Onuoha

Certaines données sont collectées, d'autres sont manquantes. Qu'est-ce qui préside à ce choix ? L'artiste et chercheuse nigérienne-américaine Mimi Onuoha interroge les façons dont les individus sont catégorisés. Elle s'attache à mettre en évidence que la collecte, l'enregistrement et l'archivage des données sont liés aux questions de contrôle et de pouvoir.

Ce sujet est présenté lors de la cinquième séance du cycle Afrocyberféminismes à la Gaîté Lyrique, le 13 juin 2018, sur le thème : "La race et le genre à l'épreuve du code" (ouvert à tou.te.s de 4 à 6€).

Le travail de Mimi Onuoha autour des "banques de données manquantes" éclaire la discrimination et la violence algorithmique qui est infligée aux queers, aux migrants et aux minorités, souvent exclus et mal représentés par les systèmes de décision automatique. Alors que les algorithmes sont de plus en plus utilisés dans l'élaboration des politiques civiques, sociales et culturelles, il devient crucial de réfléchir de manière critique aux politiques qui façonnent nos infrastructures numériques.

Voici la traduction de l'un des textes de Mimi Onuoha intitulé "What is missing is still there", tiré du n°7 de la revue Nichons-nous dans l'Internet (avril 2018) :

L’irrémédiable apparition des choses ignorées

"Mon intérêt pour les choses ignorées est né en découvrant certaines d’entre elles.

Pendant longtemps, j’ai gardé une petite feuille de papier scotchée dans un coin de mon bureau. À mesure qu’elle se remplissait, elle est devenue froissée, marquée de taches de thé, disparaissant parfois sous une pile de livres. Mais elle servait toujours le même but : lister les ensembles de données les plus excentriques que je pouvais découvrir sur le web.

Le fait qu’un groupe de fans inconditionnels de la comédie musicale Hamilton ait créé un document partagé recensant l’intégralité des paroles avant même que la bande originale du spectacle ne soit commercialisée méritait par exemple de figurer dans cette liste. Autre exemple : en 2016, un utilisateur de Reddit a mis à disposition les métadonnées de toutes les histoires publiées à ce jour sur fanfiction.net, un site connu pour ses fictions écrites par des fans.

Et ainsi de suite : le nombre de ballons de football produit quotidiennement par l’usine Wilson Sporting Goods de la ville d’Ada, dans l’Iowa (soit 4000 en 2008) ; le nombre de hot-dogs avalés par les Américains à chaque fête de l’Independance Day (soit 150 millions selon les dernières estimations) ; l’emplacement de toutes les toilettes publiques d’Australie (plus de 17000)."

Qu'est-ce qu'une donnée ?

"Mitchell Whitelaw, universitaire australien, définit les données comme "des mesures extraites du flux de la réalité". En général, lorsqu’on pense à de grands ensembles de données, il s’agit de choses importantes : le recensement d’une population, les données de l’Organisation mondiale de la santé, et toutes les informations amassées par les grandes entreprises comme Google, Amazon ou Facebook.

De ce point de vue, cette définition est admirablement concise et efficace. L’emploi du verbe "extraire" désigne avec pertinence les données comme des matières premières. De la même manière que Shosana Zuboff parle de "capitalisme de surveillance" en expliquant que le capitalisme actuel monétise des données recueillies par le biais d’une surveillance généralisée, la formulation de Mitchell Whitelaw évoque la conception des entreprises : les données sont des ressources à exploiter. Dans une société capitaliste, enregistrer des données ne peut être que bon pour les affaires. Le monde est ainsi enregistré, classifié, rendu déchiffrable, rentable.

Quant à ma liste, son rapport direct avec ces concepts d’extraction de ressources et de surveillance omniprésente n’est pas forcément évident. Elle regroupe des ensembles de données qui sont peut-être assez inédits, mais ils sont le summum de la quantification, ce sont des faits extraits de pans insolites de la réalité. Une définition plus simple me vient à l’esprit.

Données : choses que nous mesurons et qui comptent à nos yeux.

C’est ce qui fait toute la beauté de cette étrange liste. Si la définition de Mitchell Whitelaw décrit le monde comme n’étant qu’une immense source de matières premières à extraire pour remplir les cellules bien alignées d’un fichier Excel, la mienne affirme l’inverse : tous les ensembles de données sont créés par des êtres humains dans un but bien précis.

La réciproque est aussi vraie : si l’on veut savoir précisément ce qui compte aux yeux de nos sociétés, de nos entreprises ou des différentes populations, il suffit de regarder quelles données sont recueillies. Nous ne mesurons que les choses qui nous intéressent."

Les êtres humains appréhendent le monde par discrimination

"Au début, je ne savais pas trop pourquoi j’avais dressé cette liste de données insolites. C’était certainement par pure curiosité, sans doute aussi par fascination pour de nouvelles formes de procrastination. J’ai fini par comprendre pourquoi je l’avais créée, et j’y ai ajouté une citation. C’était une phrase reprise d’une conversation que j’avais eue un jour avec un ancien collègue : "Les êtres humains appréhendent le monde par discrimination."

La phrase était de Johnn Fass, un chercheur du Royal College of Art de Londres qui s’était intéressé au design et à la conception d’interfaces. Nous étions en train de discuter dans un restaurant universitaire désert, et il m’expliquait le plus naturellement du monde que pour lui, la discrimination était une caractéristique fondamentale du design. La seule façon pour nous d’appréhender le monde, insistait-il, est de trier les informations en permanence, décider celles qu’il faut exclure ou non à chaque instant. Un récit ne fonctionne qu’à condition de mettre de côté les détails sans intérêt. En un sens, toutes les histoires que nous nous racontons sont un exercice d’exclusion.

Ce n’était pas la première fois que j’entendais cette théorie, mais ce jour-là, elle ne me laissait pas indifférente. Dans Sorting Things Out, un livre fondamental (et assez aride), Geoffrey Bowker et Susan Leigh Star intitulent leur introduction "To classify is human" : classifier les choses est naturel chez l'être humain. Ils avancent que notre compréhension du monde dépend de la création et de l’utilisation de catégories implicites permettant de le structurer. La différence entre l’extérieur et l’intérieur, par exemple, définit différentes manières de s’habiller, différents types d’activités, etc.

Plus loin dans le livre, les auteurs soulèvent un point déterminant de cette classification du monde. "Aucun système de classification n’est capable d’organiser la réalité pour tout le monde", préviennent-ils. "Exemple : le rouge, l’orange et le vert des feux tricolores ne fonctionnent pas pour les personnes non voyantes, elles ont besoin d’un signal sonore. Si l’on considère ces schémas de classification comme le moyen d’organiser le passé, il est facile d’oublier ceux qui en ont été exclus."

Les données générées par des systèmes de classification sont le produit fini d’une volonté organisatrice délibérée. Ma liste insolite n’est qu’un petit exemple parmi les innombrables manières de catégoriser le monde qui nous entoure.

Les feux tricolores sont symptomatiques de ce qui compte le plus (la vision) et de ceux qui sont ignorés (les non-voyants). De la même manière, tout ensemble de données révèle, en creux, les choses qui n’ont pas été prises en compte. Et si notre appréhension du monde se fait vraiment par discrimination, alors il est probable que ce que nous mettons de côté soit particulièrement révélateur."

Missing Datasets : les informations manquantes

"Voici quelques exemples de données que nous ignorons :

Le nombre de personnes vivant dans des sous-locations illégales à New York,
La traçabilité des armes vendues aux États-Unis et les informations sur leurs propriétaires,
Le nombre de gens expulsés des États-Unis selon l’État où ils vivaient,
Le nombre de Rohingyas en Birmanie.

J’emploie le terme "Missing Datasets", pour désigner ces informations manquantes, angles morts d’un monde qui semble aujourd’hui criblé de données. Autant de fantômes qui font penser à la liste scotchée sur un coin de mon bureau. Ces données représentent tout autant la réalité de notre monde, summum d’une quantification qui a été mise de côté. Nous ne mesurons que les choses qui nous intéressent suffisamment. Les données manquantes ont aussi de la valeur, mais elles ne peuvent pas être mesurées.

Mon recueil des données manquantes existe sous des formes bien plus pérennes qu’un bout de papier. Il prend notamment la forme d’une œuvre d’art intitulée The Library of Missing Datasets. Au premier abord, cette "bibliothèque des données ignorées" ressemble à un banal bloc de tiroirs, mais les étiquettes des classeurs qu’il renferme identifient ces absences. Les classeurs sont évidemment vides, puisque les données sont inexistantes.

Je me suis faite la documentaliste de cette bibliothèque qui ne cesse de s’agrandir. À travers ces absences, j’ai découvert que l’exclusion suit des modèles précis, qu’il existe des structures qui décident de ce qui doit ou ne doit pas être inventorié. J’ai pris note des caractéristiques qui font que certains endroits sont immunisés contre cette quantification croissante du monde. Plus d’une fois, je me suis retrouvée à aider des gens pour recueillir des données auparavant manquantes, ou bien à expliquer pourquoi tout ne pouvait pas — ou ne devait pas — être mesuré.

Plus la liste s’allonge, plus je suis frappée par les questions hautement symboliques que soulèvent ces données fantômes. Elles ne risquent pas de disparaître : tant que nous catégorisons les choses et que nous cataloguons le monde en conséquence, il y aura toujours des données manquant à l’appel. Il y aura toujours des informations qui échapperont aux tableaux de chiffres, des choses qu’on ne peut pas ou qu’on ne doit pas prendre en compte. L’appréhension du monde par la discrimination implique une certaine simplicité, et les données manquantes, en vertu de leur existence et de leur absence, remettent en cause cette simplification.

La complexité et le désordre de ces données sont passionnants, car elles trahissent un certain type de pouvoir. Une absence toujours remarquée laisse entrevoir le spectre d’un autre monde, où les priorités seraient différentes. Aucune donnée n’existe sur les violences policières faites aux Amérindiens, mais que se passerait-il si c’était le cas ?

Ces données manquantes n’apportent aucune réponse, mais elles font office de rappel cinglant : nous sommes responsables de la manière dont nous cataloguons le monde. En choisissant les données à prendre en compte et en leur allouant une crédibilité, nous déterminons les limites de notre monde. Si tel est le cas, alors nous sommes aussi capables de changer cet état de fait, et à chaque instant, de changer notre monde."

Traduction : Aurélien Ivars
Le texte est tiré du n°7 de la revue Nichons-nous dans l'Internet, disponible sur leur site et à la librairie de la Gaîté Lyrique.

Voir aussi :

Afrocyberféminismes #5 : La race et le genre à l’épreuve du code
avec Peggy Pierrot et Mimi Onuhoa
le mercredi 13 juin 2018 à 19h00
à la Gaîté Lyrique, Paris

data politique société

This article is associated with the cycle:

Cycle

Afrocyberféminismes

Pimp your brain !

21.02–04.07.18

Magazine highlights

Article

Tribune • 27 février 2025

Pourquoi il faut soutenir la Gaîté Lyrique : plus de 300 acteurs culturels, politiques et de la société civile appelent les pouvoirs publics à sauver la Gaîté Lyrique en trouvant une solution urgente de relogement pour les 400 jeunes qui l’occupent.