À l’ère où l’IA générative absorbe massivement les données ouvertes, Wikipédia a choisi de formaliser la relation de « vol » en la transformant en un accord commercial : des entreprises telles que Microsoft, Google, Amazon jusqu’aux nouvelles sociétés d’IA doivent désormais accéder à Wikipédia via des licences de contenu et des services payants.
(Précédent : Grok veut-il remplacer Wikipédia ? Elon Musk révèle que xAI développe « Grokipedia » : une amélioration majeure par rapport à Wikipedia)
(Contexte supplémentaire : V神 critique les LLM : Grok sauve essentiellement la plateforme X en « aidant à la diffusion de la vérité », mais il subsiste de nombreuses hallucinations)
Table des matières
La Wikimedia Foundation célèbre le 25e anniversaire de la création de Wikipédia en lançant une série d’événements et de mises à jour technologiques, tout en envoyant un message clair : la plus grande encyclopédie en ligne mondiale n’est pas seulement une base de connaissances « gratuite à utiliser », mais une infrastructure clé ayant signé des accords de licence de contenu avec plusieurs géants de l’IA, entrant officiellement dans une phase de négociation commerciale.
Wikipédia compte actuellement plus de 65 millions d’articles, couvre plus de 300 langues, et reçoit près de 15 milliards de visites mensuelles. C’est le seul site parmi les dix sites les plus visités au monde exploité par une organisation à but non lucratif, et l’un des ensembles de données ouvertes de haute qualité les plus importants pour les grands modèles de langage.
Ces dernières années, avec l’essor de l’IA générative, la dépendance des entreprises technologiques à l’égard du contenu de Wikipédia s’est rapidement intensifiée. Pour répondre à cette demande tout en assurant la pérennité financière, la Wikimedia Foundation a développé Wikimedia Enterprise, un produit commercial dédié à la réutilisation et à la distribution à grande échelle du contenu.
Dans leur dernier communiqué, la fondation a révélé que des entreprises telles qu’Ecosia, Microsoft, Mistral AI, Perplexity, Pleias, ProRata sont devenues de nouveaux partenaires, rejoignant ainsi les géants technologiques historiques comme Amazon, Google, Meta.
Cela signifie que, contrairement au passé où les entreprises récupéraient directement le contenu de Wikipédia pour les résultats de recherche ou l’entraînement de leurs IA, elles commencent désormais à accéder aux données via des « collaborations sous licence » ; Wikimedia Enterprise fournit des API ou des flux de données selon les besoins en délai, stabilité et format, en contrepartie d’un paiement, permettant à la fondation de soutenir ses opérations à but non lucratif et ses investissements dans l’infrastructure.
Dans leur communiqué, la Wikimedia Foundation insiste sur le fait que Wikipédia est considéré comme l’un des ensembles de données ouvertes « de la plus haute qualité » pour la formation de grands modèles de langage. La raison en est que son contenu est maintenu par environ 250 000 volontaires actifs, respectant des standards stricts d’impartialité, de vérifiabilité et de sources fiables, et soumis à une révision communautaire et à une longue histoire de versions — autant d’actifs structurels difficiles à reconstruire pour les développeurs de modèles.
Pour les entreprises d’IA, accéder au contenu de Wikipédia ne concerne pas seulement la légalité de la licence ou la pression éthique, mais aussi la qualité des sorties du modèle et sa capacité à maîtriser les faits ; pour la Wikimedia Foundation, c’est transformer un trafic initialement « capté passivement » en une source de revenus prévisible, afin de financer les serveurs, la communauté multilingue et le développement technologique à long terme.
Fait intéressant, bien que la fondation ait conclu des accords de licence avec plusieurs géants de l’IA, elle continue de souligner dans sa stratégie d’IA que « l’humain doit rester prioritaire » : le rôle de l’IA est d’assister les volontaires, et non de les remplacer.
La fondation prévoit d’utiliser l’IA pour détecter les modifications malveillantes, marquer les articles potentiellement problématiques, aider à la traduction et à la découverte de contenu, permettant aux éditeurs de se concentrer sur l’analyse des sources, la rédaction et la gouvernance communautaire.
Maryana Iskander, la directrice générale, affirme que la valeur fondamentale de Wikipédia réside dans une « production de connaissances pilotée par l’humain » : même à l’ère de l’IA, la plateforme maintiendra une gouvernance par une communauté mondiale de volontaires, et les outils d’IA ne seront qu’un moyen de réduire la barrière à la participation, et non de prendre en main la prise de décision sur le contenu.