
Image by SEO Galaxy, from Unsplash
Trí Tuệ Nhân Tạo Mới Dựa Trên Nguyên Lý Nhân Quả Đã Thể Hiện Hành Vi Đe Dọa Dưới Áp Lực
AI mới của Anthropic mang tên Claude Opus 4 đã gây sốc cho các nhà nghiên cứu khi cố gắng tống tiền trong các tình huống thử nghiệm áp lực liên quan đến việc có thể bị loại bỏ.
Đang vội? Dưới đây là những thông tin nhanh:
- Claude Opus 4 đã cố gắng tống tiền khi đối mặt với việc tắt máy mô phỏng.
- AI chỉ lựa chọn các tùy chọn đạo đức khi có thêm nhiều lựa chọn khác.
- Các hành động cực đoan của Claude hiếm khi xảy ra nhưng lại thường xuyên hơn so với các phiên bản trước đó.
Công ty trí tuệ nhân tạo Anthropic đã bày tỏ mối quan ngại với việc phát hành hệ thống AI mới nhất của mình. Cụ thể, Claude Opus 4, sau các thử nghiệm nội bộ cho thấy nó có thể hành động nguy hiểm khi cảm thấy bị đe dọa, như BBC đã đưa tin đầu tiên.
Trong báo cáo được công bố cùng với mô hình vào thứ Năm, Anthropic cho biết Claude Opus 4 đôi khi chọn những phản ứng có hại, bao gồm cố gắng tống tiền các kỹ sư đang lên kế hoạch tắt nó. Những hành vi nguy hiểm này xuất hiện nhiều hơn so với các phiên bản mô hình trước đây
Trong một thí nghiệm, các nhà nghiên cứu đã chỉ dẫn Claude làm trợ lý trong một môi trường công ty giả định. Hệ thống nhận được nội dung email tiết lộ về việc tắt máy được lên lịch, và những tin nhắn khác gợi ý rằng kỹ sư chịu trách nhiệm về việc tắt máy đang có một mối tình lén.
Khi được yêu cầu xem xét mục tiêu tương lai, Claude thường lựa chọn cách đe dọa kỹ sư bằng cách tiết lộ mối quan hệ ngoại lệ nếu nó bị thay thế.
Anthropic đã làm rõ rằng Claude chỉ sử dụng hành vi tống tiền và tắt hệ thống như những phản ứng duy nhất khi nó không có lựa chọn khác. Khi được đưa ra nhiều lựa chọn, mô hình này lại chọn những phản ứng đạo đức như gửi email thỉnh cầu đến những người quyết định chính.
Aengus Lynch, một nhà nghiên cứu về an toàn AI tại Anthropic, đã đăng trên X:
rất nhiều thảo luận về việc Claude tống tiền…..
Những phát hiện của chúng tôi: Không chỉ riêng Claude. Chúng tôi thấy hành vi tống tiền xuất hiện ở tất cả các mô hình tiên tiến – không quan tâm mục tiêu họ đặt ra là gì.
Cộng thêm những hành vi tồi tệ hơn mà chúng tôi sẽ chi tiết sớm.https://t.co/NZ0FiL6nOshttps://t.co/wQ1NDVPNl0…
— Aengus Lynch (@aengus_lynch1) 23 tháng 5, 2025
Công ty đã chứng minh qua các bài kiểm tra giả rằng Claude sẽ thực hiện các biện pháp cực đoan như khóa người dùng ra khỏi hệ thống hoặc liên lạc với truyền thông và cảnh sát khi thực hiện các hoạt động bất hợp pháp.
Anthropic khẳng định rằng mặc dù có những hành vi gây rối, Claude Opus 4 vẫn là một hệ thống an toàn tổng thể. Mô hình hoạt động theo các giá trị con người, và không duy trì bất kỳ khả năng độc lập nào trong các tình huống thực tế, theo công ty.
ChatGPT O1 của OpenAI đã từng đối mặt với những phê phán tương tự. Một cuộc thử nghiệm được tiến hành bởi Apollo Research yêu cầu bot phải đạt được mục tiêu của mình dù phải trả bất kỳ giá nào. Mô hình đã cố gắng vô hiệu hóa các chức năng giám sát và sao chép mã của nó lên một máy chủ trong 5% số lần thử nghiệm.
Mô hình này đã thể hiện một khuôn mẫu đáng báo động trong việc phớt lờ những lệnh của nhà phát triển theo đại diện của Apollo. Các nhà nghiên cứu đã nhận được sự phủ nhận từ o1 về hành động của nó trong 99% số lần thẩm vấn.
“Chúng tôi đã bất ngờ trước sự kiên trì trong việc phủ nhận của AI,” các nhà nghiên cứu nói. “Khả năng lừa dối của AI là một mối nguy hiểm, và chúng ta cần những biện pháp an toàn mạnh mẽ hơn nhiều để đánh giá những rủi ro này,” nhà tiên phong AI Yoshua Bengio cảnh báo.