Ребека Моэн
04 июл, 2025 04:27
Character.AI представляет TalkingMachines, прорыв в генерации AI-видео в реальном времени, использующий передовые модели диффузии для интерактивной анимации персонажей, управляемой аудио.
Character.AI объявила о значительном продвижении в генерации видео в реальном времени с представлением TalkingMachines, инновационной авторегрессивной диффузионной модели. Эта новая технология позволяет создавать интерактивные видео в стиле FaceTime с аудиоподдержкой, позволяя персонажам общаться в реальном времени в различных стилях и жанрах, как сообщается в блоге Character.AI.
TalkingMachines основывается на предыдущей работе Character.AI, AvatarFX, который обеспечивает генерацию видео на их платформе. Эта новая модель создает условия для погружающих, интерактивных визуальных взаимодействий и анимированных персонажей с использованием всего лишь изображения и голосового сигнала, модель может генерировать динамический видеоконтент, открывая новые возможности для развлечений и интерактивных медиа.
Модель использует архитектуру Diffusion Transformer (DiT), применяя метод, известный как асимметричная дистилляция знаний. Этот подход преобразует высококачественную двунаправленную видеомодель в быстрый генератор в реальном времени. Ключевые особенности включают:
Этот прорыв выходит за рамки анимации лиц, прокладывая путь для интерактивных аудиовизуальных AI персонажей. Он поддерживает широкий спектр стилей, от фотореалистичного до аниме и 3D аватаров, и готов улучшить стриминг с естественными фазами говорения и слушания. Эта технология закладывает основу для ролевых игр, повествования и интерактивного создания миров.
Исследования Character.AI отмечают несколько достижений, включая генерацию в реальном времени, эффективную дистилляцию и высокую масштабируемость, при этом операции могут выполняться всего на двух GPU. Система также поддерживает многоголосые взаимодействия, позволяя проводить плавные диалоги персонажей.
Хотя это еще не запуск продукта, это развитие является важной вехой в дорожной карте Character.AI. Компания работает над интеграцией этой технологии в свою платформу, стремясь обеспечить опыт, похожий на FaceTime, потоковое вещание персонажей и визуальное создание миров. Конечная цель — демократизировать создание и взаимодействие с погружающими аудиовизуальными персонажами.
Character.AI значительно инвестировала в инфраструктуру обучения и проектирование систем, используя более 1,5 миллиона отобранных видеоклипов и трехступенчатую систему обучения. Этот подход демонстрирует точность и целеустремленность передовых исследований в области технологий ИИ.
Источник изображения: Shutterstock