Rebeca Moen
04 juil. 2025 04:27
Character.AI présente TalkingMachines, une avancée dans la génération vidéo IA en temps réel, utilisant des modèles de diffusion avancés pour l’animation de personnages interactive et audio-guidée.
Character.AI a annoncé une avancée significative dans la génération de vidéos en temps réel avec le lancement de TalkingMachines, un modèle de diffusion autoregressif innovant. Cette nouvelle technologie permet la création de vidéos interactives, audio-driven, de style FaceTime, permettant aux personnages de converser en temps réel à travers divers styles et genres, comme rapporté par le blog de Character.AI.
TalkingMachines s’appuie sur le travail précédent de Character.AI, AvatarFX, qui alimente la génération vidéo sur leur plateforme. Ce nouveau modèle prépare le terrain pour des interactions visuelles immersives en temps réel et des personnages animés alimentés par l’IA. En utilisant simplement une image et un signal vocal, le modèle peut générer un contenu vidéo dynamique, ouvrant de nouvelles possibilités pour le divertissement et les médias interactifs.
Le modèle s’appuie sur l’architecture Diffusion Transformer (DiT), utilisant une méthode connue sous le nom de distillation de connaissances asymétrique. Cette approche transforme un modèle vidéo bidirectionnel de haute qualité en un générateur rapide et en temps réel. Les caractéristiques clés incluent :
Cette percée va au-delà de l’animation faciale, ouvrant la voie à des personnages IA audiovisuels interactifs. Elle prend en charge une large gamme de styles, allant du photoréaliste à l’anime et aux avatars 3D, et est prête à améliorer le streaming avec des phases de parole et d’écoute naturelles. Cette technologie jette les bases du jeu de rôle, de la narration et de la construction de mondes interactifs.
La recherche de Character.AI marque plusieurs avancées, y compris la génération en temps réel, la distillation efficace et une grande évolutivité, avec des opérations pouvant fonctionner sur seulement deux GPU. Le système prend également en charge les interactions multispeakers, permettant des dialogues de personnages fluides.
Bien qu’il ne s’agisse pas encore d’un lancement de produit, ce développement est une étape cruciale dans la feuille de route de Character.AI. L’entreprise travaille à l’intégration de cette technologie dans sa plateforme, visant à permettre des expériences similaires à FaceTime, le streaming de personnages et la création de mondes visuels. L’objectif ultime est de démocratiser la création et l’interaction avec des personnages audiovisuels immersifs.
Character.AI a investi massivement dans l’infrastructure de formation et la conception de systèmes, en utilisant plus de 1,5 million de clips vidéo sélectionnés et un pipeline de formation en trois étapes. Cette approche illustre la précision et l’objectif de la recherche de pointe dans la technologie de l’IA.
Source de l’image : Shutterstock