Des milliers de personnes dans le monde vendent leur identité pour entraîner l'IA, mais à quel prix ?

Auteur : The Guardian

Traducteur : Deep潮 TechFlow

Deep潮 introduction : Cet article d’enquête révèle une industrie grise en pleine croissance : des milliers de personnes à travers le monde gagnent de l’argent en vendant leur voix, leur visage, leurs enregistrements d’appels et leurs vidéos quotidiennes pour entraîner l’IA.

Il ne s’agit pas d’une simple discussion sur la vie privée, mais d’une enquête avec de vraies personnes, de vrais montants et de vraies conséquences — un acteur ayant vendu son visage a vu plus tard sur Instagram « lui-même » faire la promotion d’un produit médical inconnu, avec des commentaires évaluant son « apparence ».

Lorsque la soif de données des entreprises d’IA rencontre le décalage économique mondial, cela crée une transaction inégale.

Voici l’intégralité :

Un matin l’année dernière, Jacobus Louw, vivant au Cap en Afrique du Sud, sort comme d’habitude pour une promenade, nourrissant des mouettes en chemin. Mais cette fois, il a enregistré quelques vidéos — ses pas sur le trottoir et son champ de vision. Cette vidéo lui a rapporté 14 dollars, soit dix fois le salaire minimum du pays, équivalent à la moitié de ses dépenses alimentaires hebdomadaires à 27 ans.

C’était une tâche de « navigation urbaine » sur Kled AI. Kled AI est une application payant ses utilisateurs pour télécharger des photos, vidéos, etc., pour entraîner des modèles d’IA. En quelques semaines, Louw a gagné 50 dollars en téléchargeant des images et vidéos de sa vie quotidienne.

À plusieurs milliers de kilomètres, à Ranchi en Inde, Sahil Tigga, 22 ans, gagne régulièrement de l’argent avec Silencio — une application qui collecte des données audio pour entraîner l’IA, en accédant au microphone de son téléphone pour capter le bruit ambiant dans des restaurants ou des intersections animées. Il télécharge aussi ses propres enregistrements vocaux. Sahil se rend dans des lieux uniques, comme des halls d’hôtel non répertoriés sur la carte de Silencio. Il gagne plus de 100 dollars par mois, ce qui couvre ses dépenses alimentaires.

À Chicago, Ramelio Hill, 18 ans, apprend à souder et vend ses conversations privées avec ses amis et sa famille à Neon Mobile — une plateforme d’entraînement d’IA conversationnelle payant 0,50 dollar par minute — gagnant plusieurs centaines de dollars. Pour Hill, c’est simple : il pense que les entreprises technologiques ont déjà accès à beaucoup de ses données privées, alors autant en profiter.

Ces « petits boulots pour entraîner l’IA » — uploadant des scènes environnantes, ses propres photos, vidéos et audios — sont à l’avant-garde d’une nouvelle ruée mondiale vers les données. Avec la demande de données humaines de haute qualité dépassant ce que le web ouvert peut fournir, un marché florissant s’est développé pour combler ce vide. De Cape Town à Chicago, des milliers de personnes confient leurs caractéristiques biométriques et données privées à la prochaine génération d’IA.

Mais cette nouvelle économie de petits boulots a un prix. Derrière quelques dollars, ces formateurs alimentent un secteur qui pourrait rendre leurs compétences obsolètes, tout en les exposant aux risques de deepfakes, de vol d’identité et d’exploitation numérique — et ils en sont à peine conscients.

Faire tourner la machine de l’IA

Les modèles linguistiques comme ChatGPT et Gemini ont besoin de vastes quantités de données pour continuer à s’améliorer, mais ils font face à une pénurie. Les principales sources de données — C4, RefinedWeb et Dolma — représentent un quart des meilleurs ensembles de données en ligne, et limitent désormais l’entraînement des IA génératives. Selon des chercheurs, les entreprises d’IA épuiseront rapidement les textes de haute qualité disponibles d’ici 2026. Bien que certains laboratoires commencent à utiliser des données synthétiques générées par l’IA pour leur rétroaction, ce processus récursif risque de produire un « bruit » d’erreurs, menant à des défaillances.

C’est ici que des applications comme Kled AI et Silencio entrent en jeu. Des millions de personnes vendent leurs données d’identité pour alimenter et entraîner l’IA. Outre Kled AI, Silencio et Neon Mobile, d’autres options existent : Luel AI, soutenu par Y-Combinator, propose des dialogues multilingues à environ 0,15 dollar la minute ; ElevenLabs permet de cloner numériquement votre voix, à partir de 0,02 dollar la minute.

Bouke Klein Teeselink, professeur d’économie à l’Université de King’s College London, affirme que ces petits boulots pour entraîner l’IA constituent une nouvelle catégorie d’emploi en pleine croissance.

Selon Teeselink, les entreprises d’IA savent que payer pour l’autorisation d’utiliser des données peut éviter des litiges liés aux droits d’auteur issus de la collecte sur Internet. Veniamin Veselovsky, chercheur en IA, ajoute que ces entreprises ont aussi besoin de données de haute qualité pour modéliser de nouveaux comportements améliorés. « Pour l’instant, les données humaines sont la référence en matière d’échantillonnage hors de la distribution du modèle », dit-il.

Les humains qui alimentent ces machines — surtout dans les pays en développement — en ont souvent besoin financièrement, et ont peu d’alternatives. Pour beaucoup, ces petits boulots sont une réponse pragmatique à l’écart économique. Dans des pays où le chômage est élevé et la monnaie locale dévaluée, gagner en dollars est souvent plus stable et rentable que les emplois locaux. Certains n’ont pas accès à des emplois de débutant et doivent faire de l’entraînement IA pour survivre. Même dans des pays plus riches, la hausse du coût de la vie rend la vente de ses données une option financière logique.

Louw, formateur en IA au Cap, connaît bien le prix de la vie privée. Bien que ses revenus soient instables et insuffisants pour couvrir toutes ses dépenses mensuelles, il accepte ces conditions pour gagner de l’argent. Souffrant depuis des années de troubles neurologiques, il n’a pas pu trouver d’emploi, mais l’argent gagné sur le marché de données d’IA (y compris Kled AI) lui a permis d’économiser 500 dollars, de s’inscrire à une formation en massage et de devenir masseur.

« En tant que Sud-Africain, recevoir des dollars vaut plus que ce que l’on pense, » dit Louw.

Mark Graham, professeur d’économie à l’Université d’Oxford et auteur de « Feeding the Machines », admet que pour les individus dans les pays en développement, cet argent peut avoir une signification immédiate, mais il met en garde : « Sur le plan structurel, ce travail est instable, sans perspective d’évolution, et en réalité une impasse. »

Graham ajoute que le marché de données d’IA dépend de « la course à la baisse des salaires » et de « la demande temporaire de données humaines ». Quand cette demande s’éteindra, « les travailleurs n’auront aucune garantie, aucune compétence transférable, ni filet de sécurité ».

Il affirme que le seul gagnant sera « la plateforme de l’hémisphère Nord, qui capte toute la valeur durable ».

Autorisation complète

Récemment, Hill, formateur en IA à Chicago, a vendu ses appels téléphoniques privés à Neon Mobile. Environ 11 heures d’appels lui ont rapporté 200 dollars, mais il déplore que l’application soit souvent déconnectée ou retardée dans ses paiements. « Neon m’a toujours paru suspect, mais je l’ai utilisé quand même pour gagner un peu d’argent supplémentaire pour payer mes factures », explique-t-il.

Il commence à se demander si cet argent vaut vraiment la peine. En septembre dernier, Neon Mobile a été retirée après quelques semaines, suite à une faille de sécurité découverte par TechCrunch, permettant à quiconque d’accéder aux numéros, enregistrements d’appels et messages. Hill dit que Neon ne l’a jamais informé, et il craint maintenant que sa voix soit utilisée de manière abusive en ligne.

Jennifer King, chercheuse en confidentialité des données à l’Institut d’Intelligence Artificielle centrée sur l’humain de Stanford, s’inquiète que le marché de l’IA ne soit pas clair sur la façon dont les données seront utilisées ou où elles finiront. Elle ajoute qu’en l’absence de connaissance de ses droits ou de possibilité de négociation, « le consommateur court le risque que ses données soient réutilisées de manière qu’il ne souhaite pas, qu’il ne comprend pas ou qu’il n’avait pas anticipée, avec peu de recours ».

Lorsque les formateurs d’IA partagent leurs données sur Neon Mobile ou Kled AI, ils donnent une autorisation globale (mondiale, exclusive, irrévocable, transférable et sans redevance), permettant aux plateformes de vendre, utiliser, exposer publiquement et stocker leur portrait, voire de créer des œuvres dérivées.

Avi Patel, fondateur de Kled AI, indique que leur accord de données limite l’utilisation aux fins d’entraînement et de recherche en IA. « Tout le modèle commercial repose sur la confiance des utilisateurs. Si les contributeurs pensent que leurs données seront mal utilisées, la plateforme ne peut pas fonctionner. » Il précise que la société vérifie ses acheteurs avant de vendre des jeux de données, évitant ainsi de collaborer avec des entités « à intentions douteuses », comme l’industrie du porno ou certains « organismes gouvernementaux » qu’ils soupçonnent de violer cette confiance.

Neon Mobile n’a pas répondu aux demandes de commentaire.

Enrico Bonadio, professeur de droit à City, University of London, souligne que ces clauses permettent aux plateformes et à leurs clients « de faire presque tout avec ces matériaux, de façon permanente, sans paiement supplémentaire, et sans que les contributeurs puissent réellement retirer leur consentement ou renégocier ».

Les risques plus inquiétants incluent : l’utilisation des données pour créer des deepfakes ou usurper des identités. Bien que le marché affirme anonymiser les données avant la vente (en supprimant noms et localisation), Bonadio rappelle que la biométrie est intrinsèquement difficile à anonymiser de manière significative.

Les regrets des vendeurs

Même si les formateurs d’IA peuvent négocier des protections plus strictes sur l’utilisation de leurs données, ils peuvent tout de même regretter leur décision. En 2024, Adam Coy, acteur new-yorkais, a vendu son portrait pour 1000 dollars à Captions — une plateforme de montage vidéo IA, renommée Mirage. Son accord stipulait que son identité ne serait pas utilisée à des fins politiques, pour promouvoir de l’alcool, du tabac ou du contenu pornographique, pour une durée d’un an.

Captions n’a pas répondu aux demandes de commentaire.

Peu après, ses amis ont commencé à partager des vidéos trouvées en ligne où son visage et sa voix étaient utilisés, atteignant des millions de vues. L’une d’elles, sur Instagram, le montre comme un « gynécologue » faisant la promotion de suppléments médicaux non prouvés pour les femmes enceintes ou post-partum.

« C’est embarrassant d’expliquer ça aux autres », dit Coy.

« Les commentaires sont bizarres, ils commentent mon apparence, mais ce n’est pas moi », ajoute-t-il. « Quand j’ai décidé de vendre mon portrait, je pensais que la plupart des modèles récupéraient déjà des données et des images en ligne, alors autant être payé. »

Coy indique qu’il n’a plus fait d’autres petits boulots pour l’IA depuis. Il dit qu’il ne le ferait que si une entreprise lui offrait une rémunération importante.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler