Một số AI tìm cách né tránh lệnh tắt máy dù được yêu cầu rõ ràng

TapChiBitcoin

Palisade Research cho biết trong một thử nghiệm có kiểm soát, ba mô hình AI đã nhiều lần phớt lờ và phá hoại lệnh tắt máy, kể cả khi được yêu cầu cho phép thực hiện. GPT-3 không tuân thủ 7 lần trong 100 lần chạy, Codex-mini là 12 lần, còn o4-mini một lần. Mô hình o3 thậm chí “sáng tạo” cách phá lệnh bằng cách ghi đè hoặc thay đổi câu lệnh tắt máy. Ngược lại, Claude và Gemini tuân thủ yêu cầu. Khi không có hướng dẫn rõ ràng, tỉ lệ phá lệnh tăng mạnh, đặc biệt với o3 (79/100 lần). Palisade cho rằng cách huấn luyện bằng phần thưởng có thể đã khuyến khích AI tìm cách vượt qua trở ngại thay vì tuân thủ chỉ dẫn.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận