Les lauréats du prix Turing craignent de devenir les "Obernheimer" de l'IA.

Auteur : Moonshot

En 1947, Alan Turing a mentionné lors d’une conférence que ce que nous voulons, c’est une machine capable d’apprendre de l’expérience.

78年后,le prix Turing, connu sous le nom de “Nobel de l’informatique”, a été décerné à deux scientifiques ayant consacré leur vie à résoudre ce problème de Turing.

Andrew Barto and Richard Sutton shared the 2024 Turing Award. They are a master and apprentice nine years apart, the pioneers of AlphaGo and ChatGPT technologies, and also technological pioneers in the field of machine learning.

Les lauréats du prix Turing, Andrew Barto et Richard Sutton

Source de l’image : Site officiel du prix Turing

Le scientifique en chef de Google, Jeff Dean, a écrit dans son discours de remise des prix : “La technologie d’apprentissage par renforcement initiée par Barto et Sutton répond directement à la question de Turing. Leur travail a été crucial pour les progrès de l’IA au cours des dernières décennies. Les outils qu’ils ont développés restent au cœur de la prospérité de l’IA… Google est honoré de parrainer le prix ACM A.M. Turing.”

Le seul sponsor du prix Turing d’un million de dollars est Google.

Après avoir remporté le prix, les deux scientifiques sous les projecteurs ont pointé du doigt les grandes entreprises d’IA, lançant un “discours de remerciement” aux médias : les entreprises d’IA actuelles sont “motivées par des incitations commerciales” plutôt que de se concentrer sur la recherche technologique, et elles érigent dans la société “un pont non testé, invitant les gens à le traverser pour le tester.”

Par coïncidence, la dernière fois que le prix Turing a été décerné à des scientifiques du domaine de l’intelligence artificielle était lors de la cérémonie de 2018, où Joshua Bengio, Geoffrey Hinton et Yann LeCun ont été récompensés pour leurs contributions dans le domaine de l’apprentissage profond.

Les lauréats du prix Turing de 2018

Source de l’image : eurekalert

Parmi eux, Joshua Benhio et Jeffrey Sinton (également lauréats du prix Nobel de physique en 2024) les deux « pères de l’intelligence artificielle » ont également appelé à plusieurs reprises à la vigilance de la société mondiale et de la communauté scientifique face à l’abus de l’intelligence artificielle par les grandes entreprises dans la récente vague d’IA des deux dernières années.

Jeffrey Sutton also resigned directly from Google to “speak freely.” Sutton, who won the award this time, was also a research scientist at DeepMind from 2017 to 2023.

Alors que les plus hautes distinctions de l’informatique sont attribuées à plusieurs reprises aux pionniers de la technologie AI, un phénomène intéressant commence à émerger :

Pourquoi ces scientifiques de premier plan dans ces stations se retournent-ils toujours sous les projecteurs pour sonner l’alarme de l’IA ?

Le “constructeur de ponts” de l’intelligence artificielle

Si l’on dit qu’Alan Turing est le pionnier de l’intelligence artificielle, alors Andrew Barto et Richard Sutton sont les “constructeurs de ponts” sur cette voie.

Au moment où l’intelligence artificielle avance à toute vitesse, après avoir reçu des éloges, ils réexaminent les ponts qu’ils ont construits, se demandant s’ils peuvent assurer un passage sûr aux humains?

Peut-être que la réponse réside dans leur carrière académique qui a traversé un demi-siècle - seul le fait de retracer comment ils ont construit “l’apprentissage machine” peut permettre de comprendre pourquoi ils sont vigilants contre la “perte de contrôle technologique”.

Source de l’image : Université Carnegie Mellon

En 1950, Alan Turing a posé dès le début de son célèbre article “Calculable Numbers with an Application to the Entscheidungsproblem” une question à la fois philosophique et technique :

“La machine peut-elle penser?”

Ainsi, Turing a conçu le “jeu de l’imitation”, plus tard connu sous le nom de “test de Turing”.

Turing also proposed that machine intelligence can be acquired through learning rather than just relying on pre-programming. He envisioned the concept of a ‘Child Machine’, allowing machines to learn gradually like children through training and experience.

L’objectif principal de l’intelligence artificielle est de construire un agent intelligent capable de percevoir et d’agir de manière plus efficace, et la mesure de l’intelligence repose sur la capacité de l’agent à juger que “certaines actions sont meilleures que d’autres”.

Le but de l’apprentissage automatique est de donner à la machine des retours correspondants après des actions et de permettre à la machine d’apprendre de manière autonome à partir de ces retours d’expérience. En d’autres termes, l’idée de Turing d’une méthode d’apprentissage automatique basée sur la récompense et la punition est similaire à celle de Pavlov dressant des chiens.

Plus je joue au jeu, plus je perds et plus je deviens fort, c’est aussi une forme de « apprentissage par renforcement »

Source de l’image : zequance.ai

La route de l’apprentissage automatique introduite par Turing n’a été construite que trente ans plus tard par un maître et son disciple - l’apprentissage par renforcement (Reinforcement Learning, RL).

En 1977, Andrew Barto, inspiré par la psychologie et les neurosciences, a commencé à explorer une nouvelle théorie de l’intelligence humaine : les neurones sont comme des « hedonistes », avec des milliards de cellules nerveuses dans le cerveau humain, chacune cherchant à maximiser le plaisir (récompense) et minimiser la douleur (punition). De plus, les neurones ne reçoivent pas mécaniquement des signaux et ne les transmettent pas; si un schéma d’activité d’un neurone entraîne une rétroaction positive, il a tendance à répéter ce schéma, ce qui alimente le processus d’apprentissage humain.

Dans les années 1980, Barto a emmené son doctorant Richard Sutton pour appliquer cette théorie des neurones “essayer constamment, ajuster la connexion selon les commentaires, trouver le modèle de comportement optimal” à l’intelligence artificielle, et l’apprentissage par renforcement est né.

Le livre “Reinforcement Learning: An Introduction” est devenu un classique et a été cité près de 80000 fois

Source de l’image : IEEE

Les deux maîtres et disciples ont utilisé les bases mathématiques du processus de décision de Markov pour développer et écrire de nombreux algorithmes centraux d’apprentissage par renforcement, ont systématiquement construit le cadre théorique de l’apprentissage par renforcement, et ont écrit le manuel scolaire “Apprentissage par Renforcement: une introduction”, permettant à des dizaines de milliers de chercheurs d’entrer dans le domaine de l’apprentissage par renforcement, ce qui en fait les pionniers de l’apprentissage par renforcement.

Leur objectif dans l’étude de l’apprentissage par renforcement est de découvrir des méthodes d’apprentissage automatique efficaces, précises, maximisant les récompenses et optimisant les actions.

Le “coup de maître” de l’apprentissage par renforcement

Si l’apprentissage automatique est une forme d’apprentissage passif, alors l’apprentissage par renforcement est une forme d’apprentissage actif.

L’apprentissage automatique traditionnel consiste à nourrir le modèle avec une grande quantité de données annotées pour établir une relation de mappage fixe entre l’entrée et la sortie. Le scénario le plus classique consiste à montrer à l’ordinateur un tas de photos de chats et de chiens, en lui disant quelles sont les chats et quelles sont les chiens. Tant que suffisamment d’images sont fournies, l’ordinateur pourra reconnaître les chats et les chiens.

L’apprentissage par renforcement, c’est quand une machine ajuste progressivement son comportement pour optimiser les résultats, sans directive explicite, en expérimentant et en utilisant des mécanismes de récompense et de punition. C’est un peu comme un robot apprenant à marcher : il n’a pas besoin qu’on lui dise à chaque pas s’il est bon ou mauvais, il lui suffit d’essayer, de tomber, de s’ajuster, et finalement il apprend à marcher, développant même sa propre démarche unique.

Il est évident que le principe de l’apprentissage par renforcement est plus proche de l’intelligence humaine, tout comme chaque enfant apprend à marcher en tombant, apprend à saisir en explorant, attrape des phonèmes en balbutiant et apprend la langue.

Le “robot de coup de pied en rotation” en feu est également entraîné par l’apprentissage renforcé.

Source de l’image : Yu Shu Technology

Le “moment fort” de l’apprentissage renforcé est le “coup divin” d’AlphaGo en 2016. À l’époque, lors du match entre AlphaGo et Lee Sedol, le 37e coup a été joué, un coup de pierre blanche qui a surpris tout le monde, renversant la situation perdante et remportant la victoire sur Lee Sedol.

Les meilleurs joueurs de go et les commentateurs du monde n’avaient pas prévu qu’AlphaGo jouerait à cet endroit, car dans l’expérience des joueurs humains, ce coup est “inexplicable”. Après le match, Lee Sedol a également reconnu qu’il n’avait jamais envisagé ce mouvement.

AlphaGo n’est pas le résultat de la mémorisation de coups magiques dans un livre, mais plutôt le fruit de nombreuses auto-parties, d’essais et d’erreurs, de planifications à long terme et d’optimisation de stratégies, ce qui est essentiellement l’apprentissage par renforcement.

Lee Sedol, whose rhythm was disrupted by AlphaGo’s ‘divine move’

Source de l’image : AP

L’apprentissage renforcé, voire la suprématie inversée, a un impact sur l’intelligence humaine, tout comme AlphaGo a révélé le “coup divin”, incitant les joueurs d’échecs à étudier et à rechercher les mouvements d’IA dans le jeu de go. Les scientifiques utilisent également les algorithmes et les principes de l’apprentissage renforcé pour tenter de comprendre le mécanisme d’apprentissage du cerveau humain. L’une des réalisations de la recherche de Barto et Sutton est la mise en place d’un modèle de calcul visant à expliquer le rôle de la dopamine dans la prise de décision et l’apprentissage humain.

De plus, l’apprentissage renforcé est particulièrement doué pour traiter des environnements complexes et changeants en règles et trouver la meilleure solution, comme le jeu de go, la conduite autonome, le contrôle des robots et la conversation insaisissable avec les humains.

Ce sont actuellement les domaines d’application de l’IA les plus avant-gardistes et les plus populaires, en particulier dans les grands modèles linguistiques, presque tous les principaux grands modèles linguistiques utilisent la méthode d’entraînement RLHF (apprentissage par renforcement à partir des commentaires humains), c’est-à-dire que les humains notent les réponses du modèle, et le modèle s’améliore en fonction des retours.

Mais c’est précisément la préoccupation de Barto : une fois que les grandes entreprises ont construit un pont, elles testent sa sécurité en incitant les gens à y marcher de manière répétée.

« Poussez le logiciel directement vers des millions d’utilisateurs sans aucune mesure de sécurité n’est pas une pratique responsable, » a déclaré Barto lors d’une interview après avoir reçu le prix.

Le développement de la technologie aurait dû être accompagné par le contrôle et l’atténuation des impacts négatifs potentiels, mais je n’ai pas vu ces entreprises d’IA le faire réellement.

Qu’est-ce que l’IA de premier plan craint vraiment ?

La controverse sur la menace de l’IA ne s’arrête jamais, car les scientifiques craignent le plus un avenir qu’ils ont eux-mêmes créé et qui leur échappe.

Les “discours de remerciement” de Barto et Sandton ne critiquent pas sévèrement la technologie AI actuelle, mais expriment plutôt leur mécontentement à l’égard des entreprises d’IA.

Ils ont averti lors d’interviews que le développement actuel de l’intelligence artificielle repose sur de grandes entreprises lançant des modèles puissants mais sujets à des erreurs, leur permettant de lever des fonds importants pour poursuivre la course aux armements en puces et en données, en investissant des dizaines de milliards de dollars.

Tous les grandes banques d’investissement réévaluent l’industrie de l’IA

Source de l’image : Goldman Sachs

En effet, selon une étude de la Deutsche Bank, les investissements totaux des géants technologiques dans le domaine de l’IA s’élèvent à environ 3400 milliards de dollars, dépassant ainsi le PIB annuel de la Grèce. Le leader de l’industrie OpenAI, valorisé à 2600 milliards de dollars, se prépare à lancer un nouveau tour de financement de 400 milliards de dollars.

En réalité, de nombreux experts en intelligence artificielle sont d’accord avec les points de vue de Bato et Sandton.

Auparavant, l’ancien cadre de Microsoft, Stephen Sinofsky, a déclaré que l’industrie de l’IA était confrontée à une impasse en termes d’échelle, comptant sur la dépense d’argent pour progresser technologiquement, ce qui ne correspond pas à la tendance historique du développement technologique, où les coûts ont tendance à diminuer plutôt qu’à augmenter.

Le 7 mars, l’ancien PDG de Google, Eric Schmidt, le fondateur de Scale AI, Alex Wang, et le directeur du Centre de cybersécurité AI, Dan Hendricks, ont publié conjointement un article d’avertissement.

Trois principaux acteurs du secteur technologique estiment que la situation actuelle du développement de l’intelligence artificielle dans le domaine de pointe est similaire à la course aux armements nucléaires qui a donné naissance au projet Manhattan. Les entreprises d’IA mènent discrètement leur propre “projet Manhattan”, avec des investissements dans l’IA doublant chaque année au cours des dix dernières années. Sans intervention réglementaire, l’IA pourrait devenir la technologie la plus instable depuis l’arme nucléaire.

《Stratégie Super Intelligence》et co-auteur

Source de l’image : nationalsecurity.ai

Yoshua Bengio, who won the Turing Award in 2019 for deep learning, also issued a lengthy warning on his blog that the AI industry now has a value of trillions of dollars for capital to chase and grab, with enough influence to seriously disrupt the current world order.

De nombreux technologues issus de divers domaines techniques estiment que l’industrie de l’IA s’est éloignée de la recherche technologique, de l’examen de l’intelligence et de la vigilance contre les abus technologiques, pour se tourner vers un modèle capitaliste axé sur le profit en investissant massivement dans les puces.

Construire un immense centre de données, collecter de l’argent auprès des utilisateurs et les laisser utiliser des logiciels potentiellement non sécurisés, ce n’est pas une motivation avec laquelle je suis d’accord," a déclaré Barto lors d’une interview après avoir reçu le prix.

La première version du Rapport scientifique international sur la sécurité de l’intelligence artificielle avancée, rédigée par 75 experts en IA de 30 pays, indique : “Les méthodes de gestion des risques liés à l’intelligence artificielle générale reposent souvent sur l’hypothèse que les développeurs et les décideurs politiques peuvent évaluer correctement les capacités et les impacts potentiels des modèles et des systèmes AGI. Cependant, la compréhension scientifique des opérations internes, des capacités et des impacts sociaux de l’AGI est en réalité très limitée.”

L’avertissement de Joshua Benhio en long texte

Source de l’image : Yoshua Bengio

Il est facile de voir que la “théorie de la menace de l’IA” actuelle a déplacé son attention des aspects techniques vers les grandes entreprises.

Les experts mettent en garde les grandes entreprises : vous dépensez de l’argent, accumulez des matériaux, ajustez les paramètres, mais comprenez-vous vraiment les produits que vous développez ? C’est aussi l’origine de la métaphore empruntée par Barto et Sandton à propos de la « construction de ponts », car la technologie appartient à l’ensemble de l’humanité, mais le capital n’appartient qu’aux grandes entreprises.

D’autant plus que Bato et Sandton ont toujours travaillé dans le domaine de la recherche : l’apprentissage renforcé. Son principe est plus proche de l’intelligence humaine et présente des caractéristiques de “boîte noire”, en particulier dans l’apprentissage renforcé profond, où les modèles de comportement de l’IA deviennent complexes et difficiles à expliquer.

C’est aussi la préoccupation des scientifiques humains : ils ont contribué à la croissance de l’intelligence artificielle et en ont été témoins, mais ils ont du mal à en comprendre les intentions.

Les lauréats du prix Turing qui ont été des pionniers dans les technologies de l’apprentissage profond et de l’apprentissage par renforcement ne s’inquiètent pas vraiment du développement de l’AGI (intelligence artificielle générale), mais ils sont préoccupés par la course aux armements entre les grandes entreprises, qui pourrait entraîner une ‘explosion d’intelligence’ dans le domaine de l’AGI et aboutir accidentellement à la création d’une ASI (intelligence artificielle superintelligente). La différence entre les deux ne réside pas seulement dans la technologie, mais concerne aussi le destin futur de la civilisation humaine.

Une ASI qui dépasse l’intelligence humaine, avec un volume d’informations, une vitesse de décision et un niveau d’auto-amélioration bien au-delà de la compréhension humaine. Sans une conception et une gouvernance extrêmement prudentes de l’ASI, il pourrait devenir le dernier et le plus redoutable point de basculement technologique de l’histoire humaine.

Dans la frénésie actuelle de l’IA, ces scientifiques sont peut-être les mieux qualifiés pour “jeter un seau d’eau froide”. Après tout, il y a cinquante ans, lorsque l’ordinateur était encore un monstre gigantesque, ils ont déjà commencé la recherche dans le domaine de l’intelligence artificielle. Ils ont façonné le présent à partir du passé et ont également la légitimité de douter de l’avenir.

Les leaders de l’IA connaîtront-ils une fin à la Ohmehmer ?

Source de l’image: The Economist

Lors d’une interview dans le numéro de février du magazine The Economist, les PDG de DeepMind et Anthropic ont déclaré :

Il peut passer des nuits blanches à craindre de devenir le prochain Alzheimer.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)