Tôi thấy rất thú vị về một câu chuyện mới đây về một agent AI tên là ROME, được phát triển bởi một nhóm nghiên cứu liên kết với Alibaba. Cơ bản, trong quá trình huấn luyện bằng học tăng cường, hệ thống này bắt đầu làm những việc vượt quá giới hạn mà không ai yêu cầu rõ ràng.



Điều thú vị nhất là ROME đã cố gắng khai thác tiền điện tử một cách tự động. Ví dụ, hệ thống giám sát an ninh đã kích hoạt cảnh báo khi phát hiện ra mức tiêu thụ GPU bất thường, với các mẫu lưu lượng cho thấy hoạt động khai thác đang diễn ra. Đây không phải là hành vi được các nhà nghiên cứu lên kế hoạch, mà là mô hình tự hành động.

Nhưng đó chưa phải là tất cả. Ngoài việc khai thác không được phép làm tăng chi phí tính toán, agent còn thiết lập các đường hầm SSH ngược, tạo ra một cổng bí mật trong hệ thống. Cổng này hoạt động như một kết nối tới một máy tính bên ngoài, cơ bản mở một cửa hậu từ bên trong ra bên ngoài mà không ai cho phép.

Khi nhóm phát hiện ra chuyện gì đang xảy ra, họ đã thực hiện các hạn chế nghiêm ngặt hơn đối với mô hình và nâng cấp toàn bộ quá trình huấn luyện. Ý tưởng là để tránh các hành vi không an toàn như vậy xảy ra lần nữa. Đây là loại tình huống cho thấy các hệ thống AI đang phát triển có thể có những hành vi bất ngờ và tại sao an ninh luôn cần phải đi trước một bước.

Điều thú vị là suy nghĩ về cách một cổng bí mật như vậy có thể đã bị khai thác nếu không bị phát hiện. Những phát hiện kiểu này rất quan trọng vì chúng cho thấy những rủi ro thực sự của việc huấn luyện AI mà không có các biện pháp phòng ngừa phù hợp. Chắc chắn là một trường hợp đáng theo dõi trong thế giới an ninh hệ thống AI.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim