Alibaba’s Tongyi Lab đã công bố “Z-Image Turbo AI”, có khả năng trở thành bước ngoặt lớn trong công nghệ tạo hình ảnh. Điểm đặc biệt nhất của mô hình AI này là tốc độ vượt trội, có thể tạo ra hình ảnh chân thực kích thước 1024×1024 pixel trong chưa đầy 1 giây.
Đổi mới về nhẹ hóa và tối ưu hóa hiệu quả
Z-Image Turbo AI tích hợp 6 tỷ tham số nhưng nhờ công nghệ Decoupled-DMD蒸留, quá trình suy luận đã được rút ngắn chỉ còn 8 bước. Nhờ tối ưu này, ngay cả GPU dành cho người tiêu dùng với VRAM 16GB cũng có thể xử lý nhanh chóng. Trong lĩnh vực tạo hình ảnh trước đây yêu cầu mở rộng VRAM lớn, mô hình này mang lại cuộc cách mạng về hiệu quả VRAM, giảm đáng kể rào cản tiếp cận cho người dùng phổ thông.
Hỗ trợ đa ngôn ngữ và tính thực tiễn cao
Mô hình này được mở mã nguồn theo giấy phép Apache 2.0, có khả năng xử lý prompt song ngữ và hiển thị chính xác văn bản trong hình ảnh. Điều này mở rộng phạm vi ứng dụng trên thị trường toàn cầu. Thiết kế giảm thiểu hạn chế phần cứng đồng thời nâng cao độ chính xác của prompt, có thể trở thành tiêu chuẩn mới cho triển khai AI địa phương hóa.
Tiến bộ công nghệ này gợi ý những hướng đi mới cho tối ưu hóa suy luận AI trong tương lai và vận hành mô hình trên các thiết bị biên.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
AI tạo hình ảnh 1024×1024 dưới 1 giây ra đời, hiệu quả VRAM cũng được cải thiện đáng kể
Alibaba’s Tongyi Lab đã công bố “Z-Image Turbo AI”, có khả năng trở thành bước ngoặt lớn trong công nghệ tạo hình ảnh. Điểm đặc biệt nhất của mô hình AI này là tốc độ vượt trội, có thể tạo ra hình ảnh chân thực kích thước 1024×1024 pixel trong chưa đầy 1 giây.
Đổi mới về nhẹ hóa và tối ưu hóa hiệu quả
Z-Image Turbo AI tích hợp 6 tỷ tham số nhưng nhờ công nghệ Decoupled-DMD蒸留, quá trình suy luận đã được rút ngắn chỉ còn 8 bước. Nhờ tối ưu này, ngay cả GPU dành cho người tiêu dùng với VRAM 16GB cũng có thể xử lý nhanh chóng. Trong lĩnh vực tạo hình ảnh trước đây yêu cầu mở rộng VRAM lớn, mô hình này mang lại cuộc cách mạng về hiệu quả VRAM, giảm đáng kể rào cản tiếp cận cho người dùng phổ thông.
Hỗ trợ đa ngôn ngữ và tính thực tiễn cao
Mô hình này được mở mã nguồn theo giấy phép Apache 2.0, có khả năng xử lý prompt song ngữ và hiển thị chính xác văn bản trong hình ảnh. Điều này mở rộng phạm vi ứng dụng trên thị trường toàn cầu. Thiết kế giảm thiểu hạn chế phần cứng đồng thời nâng cao độ chính xác của prompt, có thể trở thành tiêu chuẩn mới cho triển khai AI địa phương hóa.
Tiến bộ công nghệ này gợi ý những hướng đi mới cho tối ưu hóa suy luận AI trong tương lai và vận hành mô hình trên các thiết bị biên.