Ребека Мойн
04 липня 2025 04:27
Character.AI представляє TalkingMachines, прорив у генерації відео з використанням штучного інтелекту в реальному часі, що використовує передові дифузійні моделі для інтерактивної анімації персонажів, керованої аудіо.
Character.AI оголосила про значний прогрес у генерації відео в реальному часі з представленням TalkingMachines, інноваційної авторегресивної дифузійної моделі. Ця нова технологія дозволяє створювати інтерактивні, аудіоорієнтовані відео у стилі FaceTime, що дозволяє персонажам спілкуватися в реальному часі в різних стилях і жанрах, як повідомляє блог Character.AI.
TalkingMachines базується на попередній роботі Character.AI, AvatarFX, яка забезпечує генерацію відео на їхній платформі. Ця нова модель прокладає шлях для занурювальних, реальних AI-управлінських візуальних взаємодій та анімованих персонажів. Використовуючи лише зображення та аудіосигнал, модель може генерувати динамічний відеоконтент, відкриваючи нові можливості для розваг та інтерактивних медіа.
Модель використовує архітектуру Diffusion Transformer (DiT), застосовуючи метод, відомий як асиметрична дистиляція знань. Цей підхід перетворює високоякісну, двосторонню відеомодель у швидкий, генератор в реальному часі. Ключові особливості включають:
Цей прорив виходить за межі анімації обличчя, прокладаючи шлях для інтерактивних аудіовізуальних AI персонажів. Він підтримує широкий спектр стилів, від фотореалістичних до аніме та 3D аватарів, і готовий покращити трансляцію з природними фазами говоріння та слухання. Ця технологія закладає основу для рольових ігор, розповідання історій та інтерактивного створення світів.
Дослідження Character.AI відзначає кілька досягнень, включаючи генерацію в реальному часі, ефективну дистиляцію та високу масштабованість, з можливістю роботи на всього лише двох GPU. Система також підтримує взаємодії з кількома спікерами, що дозволяє безшовні діалоги персонажів.
Хоча це ще не запуск продукту, цей розвиток є критично важливою віхою в дорожній карті Character.AI. Компанія працює над інтеграцією цієї технології у свою платформу, прагнучи забезпечити досвід, подібний до FaceTime, потокове відео персонажів та візуальне створення світів. Остаточною метою є демократизація створення та взаємодії з занурювальними аудіовізуальними персонажами.
Character.AI значно інвестував у навчальну інфраструктуру та проектування системи, використовуючи понад 1,5 мільйона відібраних відеокліпів і трьохетапний навчальний процес. Цей підхід є прикладом точності та мети передових досліджень у технології штучного інтелекту.
Джерело зображення: Shutterstock