Rebeca Moen
04 tháng 7, 2025 04:27
Character.AI giới thiệu TalkingMachines, một bước đột phá trong việc tạo video AI thời gian thực, sử dụng các mô hình khuếch tán tiên tiến cho hoạt hình nhân vật tương tác, dựa trên âm thanh.
Character.AI đã công bố một bước tiến quan trọng trong việc tạo video thời gian thực với sự ra mắt của TalkingMachines, một mô hình khuếch tán tự hồi quy sáng tạo. Công nghệ mới này cho phép tạo ra các video tương tác, điều khiển bằng âm thanh, theo phong cách FaceTime, cho phép các nhân vật trò chuyện theo thời gian thực với nhiều phong cách và thể loại khác nhau, như đã được báo cáo bởi Blog của Character.AI.
TalkingMachines dựa trên công việc trước đây của Character.AI, AvatarFX, cái mà cung cấp khả năng tạo video trên nền tảng của họ. Mô hình mới này tạo điều kiện cho các tương tác hình ảnh hấp dẫn, theo thời gian thực, được hỗ trợ bởi AI và các nhân vật hoạt hình. Bằng cách sử dụng chỉ một hình ảnh và một tín hiệu giọng nói, mô hình có thể tạo ra nội dung video động, mở ra những khả năng mới cho giải trí và truyền thông tương tác.
Mô hình này tận dụng kiến trúc Diffusion Transformer (DiT), sử dụng một phương pháp được gọi là tinh chế kiến thức không đối xứng. Phương pháp này biến một mô hình video hai chiều chất lượng cao thành một trình tạo nhanh, thời gian thực. Các tính năng chính bao gồm:
Đột phá này không chỉ giới hạn ở hoạt hình khuôn mặt, mà còn mở đường cho các nhân vật AI tương tác đa phương tiện. Nó hỗ trợ nhiều phong cách, từ chân thực đến anime và hình đại diện 3D, và sẵn sàng nâng cao trải nghiệm phát trực tuyến với các giai đoạn nói và lắng nghe tự nhiên. Công nghệ này đặt nền tảng cho việc nhập vai, kể chuyện và xây dựng thế giới tương tác.
Nghiên cứu của Character.AI đánh dấu nhiều tiến bộ, bao gồm tạo ra thời gian thực, chưng cất hiệu quả và khả năng mở rộng cao, với các hoạt động có thể chạy chỉ trên hai GPU. Hệ thống cũng hỗ trợ tương tác đa diễn giả, cho phép các cuộc đối thoại giữa các nhân vật diễn ra liền mạch.
Mặc dù chưa phải là một sản phẩm được ra mắt, nhưng sự phát triển này là một cột mốc quan trọng trong lộ trình của Character.AI. Công ty đang làm việc để tích hợp công nghệ này vào nền tảng của họ, nhằm mục đích cho phép những trải nghiệm giống như FaceTime, phát trực tiếp nhân vật và xây dựng thế giới hình ảnh. Mục tiêu cuối cùng là dân chủ hóa việc tạo ra và tương tác với các nhân vật âm thanh hình ảnh sống động.
Character.AI đã đầu tư mạnh mẽ vào hạ tầng đào tạo và thiết kế hệ thống, sử dụng hơn 1,5 triệu video clip được tuyển chọn và một quy trình đào tạo ba giai đoạn. Cách tiếp cận này exemplifies độ chính xác và mục đích của nghiên cứu tiên phong trong công nghệ AI.
Nguồn hình ảnh: Shutterstock