Mô hình xóa video mã nguồn mở VOID của Netflix: Không chỉ xóa vật thể, còn có thể tính lại chuyển động vật lý của các vật thể còn lại

robot
Đang tạo bản tóm tắt

AIMPACT Tin nhắn, ngày 14 tháng 4 (UTC+8), Viện Nghiên cứu Netflix phối hợp với Đại học Sofia của Bulgaria INSAIT đã phát triển VOID (Video Object and Interaction Deletion), một khung AI có khả năng loại bỏ vật thể khỏi video và mô phỏng lại hành vi vật lý của các cảnh còn lại. Vào ngày 3 tháng 4, nó được mở nguồn trên Hugging Face theo giấy phép Apache 2.0, là công cụ AI công khai đầu tiên của Viện Nghiên cứu Netflix.

Các công cụ xóa video truyền thống giỏi trong việc điền vào nền, chỉnh sửa bóng tối và phản chiếu, nhưng gặp khó khăn khi xử lý các cảnh có vật thể tiếp xúc vật lý (va chạm, hỗ trợ, đẩy). Khả năng cốt lõi của VOID là hiểu nguyên nhân vật lý: loại bỏ một miếng trong hàng domino, các miếng còn lại không tiếp tục đổ; loại bỏ người nhảy vào hồ bơi, mặt nước không bắn tung tóe; loại bỏ người cầm đàn ghi-ta, đàn sẽ rơi tự nhiên xuống đất.

Chuỗi công nghệ gồm ba lớp:

  1. Meta’s SAM2 thực hiện phân đoạn vật thể, Google Gemini phân tích ý nghĩa cảnh, tạo ra “quadmask” gồm bốn giá trị, đánh dấu chủ thể, vùng chồng chéo, vùng bị ảnh hưởng và nền, cho mô hình biết không chỉ cần xóa gì, mà còn những thứ sẽ thay đổi do đó

  2. Dựa trên giai đoạn suy luận đầu tiên được tinh chỉnh từ Alibaba CogVideoX-Fun-V1.5-5b-InP (Transformer khuếch tán 50 tỷ tham số), tạo ra các quỹ đạo phản thực hợp lý về mặt vật lý

  3. Giai đoạn thứ hai tùy chọn “độ ổn định nhiễu quang động”, sử dụng chuyển động dự đoán của giai đoạn đầu để khởi tạo nhiễu thời gian liên quan, ngăn chặn biến dạng vật thể trong các đoạn dài

Dữ liệu huấn luyện được tạo ra từ hai bộ mô phỏng vật lý: khoảng 1900 bộ dữ liệu động lực học thể rắn Kubric và khoảng 4500 bộ dữ liệu bắt chuyển động cơ thể HUMOTO, hoàn thành trên 8 GPU A100 80GB. Trong 25 thử nghiệm sở thích, VOID đạt tỷ lệ lựa chọn 64.8%, vượt xa công cụ thương mại Runway với 18.4%. Quá trình suy luận yêu cầu bộ nhớ trên 40GB (cấp độ A100), bài báo chưa qua bình duyệt, Netflix cũng chưa công bố sẽ tích hợp vào quy trình sản xuất. (Nguồn: GithHub)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim