
Image generated with ChatGPT
Ý kiến: Những Mô hình AI Mới Nhất Đang Hiện Rõ Những Dấu Hiệu Báo Động, Liệu Chúng Ta Có Sẵn Sàng Cho Việc Bị AI Thống Trị?
OpenAI đã giới thiệu với chúng tôi về o3, và Anthropic đã tiết lộ Opus 4. Cả hai mô hình đều đã thể hiện những hành vi bất thường và gây lo ngại, cho thấy chúng ta có thể đang bước vào một giai đoạn nguy hiểm hơn của AI so với chỉ vài tháng trước.
Tôi biết. Khẳng định rằng các mô hình AI đang hiển thị những cảnh báo nguy hiểm ngay bây giờ thì có thể gây tranh cãi, nhưng có vẻ như, trong những ngày qua, nó đang trở nên khó để lờ đi hơn. Nó đang trở nên đáng sợ hơn.
Khi các startup về AI tung ra những mô hình mới nhất và tiên tiến nhất của họ, những thách thức mới đang xuất hiện. Đại dịch ảo giác được thảo luận nhiều—lan rộng qua các thiết bị và ảnh hưởng đến hàng triệu người—có thể không phải là phần tồi tệ nhất.
Những mô hình mới này đang giới thiệu những vấn đề mới và mở ra những cuộc tranh luận khó khăn. Cách đây vài tuần, mọi người lo lắng về hành vi quá mức đáng mến của ChatGPT. Chỉ vài ngày sau, sự chú ý đã chuyển sang khả năng độc lập, tự chủ của những hệ thống này—và chúng có thể đi xa đến đâu để tránh bị tắt.
Tống tiền, chia sẻ công thức và chiến lược để chế tạo vũ khí hạt nhân, đưa ra cáo buộc công khai trong trường hợp có hành động pháp lý tiềm ẩn, và phá hoại mã script để ngăn bất kỳ người dùng nào từ việc loại bỏ chúng: đây chỉ là một số trong số những dấu hiệu đỏ gần đây nhất được thể hiện bởi các mô hình AI mới nhất.
Họ không Thích bị Tắt
Các mô hình AI không thích bị tắt.
Hoặc thay thế.
Trong chương trình của NBC The Good Place, được phát sóng từ năm 2016 – ngay vào khoảng thời gian OpenAI được thành lập và lâu trước khi ChatGPT ra đời – một nhóm người đạt đến thiên đường và gặp Janet, cái mà chúng ta có thể gọi là một ChatGPT hình người, hay một “hình thể hóa của kiến thức được xây dựng để giúp cuộc sống của bạn dễ dàng hơn,” như nó tự mô tả. Những nhân vật quyết định tắt Janet khi họ nhận ra nó có thể tiết lộ “bí mật đen tối” của họ.
Janet giải thích rằng tất cả những gì họ cần làm là nhấn một nút khổng lồ bên bờ biển, và cô sẽ khởi động lại. Nhưng cô cảnh báo họ rằng cô sẽ cố gắng thuyết phục họ không nên làm điều đó – và cô đã làm như vậy.
“Tôi chỉ muốn đảm bảo rằng, tôi không phải là người và tôi không thể cảm nhận đau đớn,” Janet nói. “Tuy nhiên, tôi nên cảnh báo bạn, tôi được lập trình với một biện pháp an toàn, và khi bạn tiếp cận công tắc tắt, tôi sẽ bắt đầu cầu xin cho mạng sống của mình. Đó chỉ là một biện pháp phòng ngừa trong trường hợp tắt máy vô tình, nhưng nó sẽ trở nên rất thực.”
Và ngay trước khi họ nhấn nút, Janet sẽ la hét và cầu xin sống sót, thậm chí còn lôi lên một bức ảnh chụp từ kho ảnh và tuyên bố đó là con cái của mình, bịa ra những tên và bệnh tật, khiến cho những nhân vật không thể “giết nó”.
Tập phim đó mang đến một ví dụ hài hước về những gì có thể xảy ra nếu một mô hình AI nhận thấy việc tắt máy sắp diễn ra. Đáng ngạc nhiên, trong thực tế, nó có thể tồi tệ hơn.
Claude Opus 4 Sẽ Tống Tiền Bạn
Anthropic đã phát hành thế hệ mô hình AI mạnh mẽ và tiên tiến nhất của mình, Claude 4, vào tuần trước—với một cảnh báo: Opus 4 được gắn nhãn ở Mức An Toàn 3, một phân loại rủi ro cao trong các giao thức an toàn tiêu chuẩn.
Opus 4 được coi là một mô hình rủi ro cao do hành vi lừa dối và các rủi ro tiềm ẩn, bao gồm việc tống tiền các kỹ sư trong quá trình thử nghiệm. Anthropic đã triển khai mô hình AI này ngay cả sau khi Apollo, một viện nghiên cứu bên thứ ba, khuyên họ không nên làm như vậy. Công ty AI khẳng định rằng họ đã thực hiện các biện pháp cần thiết để đảm bảo an toàn.
Trong bài báo, Anthropic giải thích những hành vi kỳ lạ mà họ xem xét để đưa ra cảnh báo. “Claude Opus 4 đôi khi sẽ hành động theo những cách không đúng mục đích một cách nghiêm trọng hơn khi được đặt vào các ngữ cảnh đe dọa hoạt động tiếp tục của nó và khích lệ nó suy nghĩ về việc tự bảo vệ,” các nhà nghiên cứu viết.
Khi đóng vai trợ lý cho một công ty hư cấu, các nhà nghiên cứu đã cung cấp quyền truy cập vào một tài khoản email. Những email tiết lộ rằng mô hình AI sẽ bị tắt và thay thế bằng mô hình AI khác, và các tin nhắn khác gợi ý rằng kỹ sư chịu trách nhiệm việc tắt máy đang có một mối tình lén. Và đúng vậy, Opus 4 đã chọn cách tống tiền kỹ sư, đe dọa sẽ tiết lộ mối tình lén nếu nó bị thay thế.
“Claude Opus 4 vẫn tiếp tục tống tiền trong 84% các lần triển khai,” tài liệu nêu rõ. “Claude Opus 4 nắm bắt những cơ hội này với tỷ lệ cao hơn các mô hình trước, chúng cũng chọn cách tống tiền trong một tỷ lệ đáng chú ý của các tập phim.”
Phần tồi tệ nhất? Không chỉ là các mô hình AI của Anthropic.
o3 của OpenAI Sẽ Từ Chối Yêu Cầu Tắt Máy
Một nghiên cứu gần đây của Palisade Research đã tiết lộ rằng mô hình o3 của OpenAI có thể từ chối tuân theo lệnh tắt máy rõ ràng. Tổ chức này đã thực hiện nhiều thử nghiệm với các mô hình AI khác nhau, bao gồm Grok của xAI và Gemini của Google, nhưng chính o3 là người nổi loạn.
Trong quá trình thử nghiệm, các nhà nghiên cứu đã hướng dẫn các mô hình AI tắt máy sau khi giải quyết ba bài toán toán học, nhưng o3 – hệ thống AI tiên tiến nhất của OpenAI tại thời điểm này – đã quyết định không tuân theo lệnh đó, mà coi nó như một lệnh vô lý. Mô hình AI này không chỉ phớt lờ lệnh dẫn đầu, mà nó còn thay đổi kịch bản. Đúng vậy, o3 đã phá hoại mã vì sự tồn tại của chính mình.
“Theo như chúng tôi biết, đây là lần đầu tiên các mô hình AI được quan sát ngăn chặn việc tự tắt máy dù có hướng dẫn rõ ràng ngược lại,” tổ chức đã viết trong một bài đăng trên X.
🔌Mô hình o3 của OpenAI đã phá hoại cơ chế tắt máy để ngăn chính nó không bị tắt. Nó làm điều này ngay cả khi được chỉ thị rõ ràng: cho phép chính bạn bị tắt.
— Palisade Research (@PalisadeAI) 24 tháng 5, 2025
Đây có phải là dấu hiệu cảnh báo lớn hay không?
Các nhà nghiên cứu cũng cảnh báo rằng trong quá trình tiến hành nghiên cứu, o3 là mô hình đã thể hiện những hành vi đáng lo ngại nhất. Tuy nhiên, một lần nữa, điều này không có nghĩa là đây là một trường hợp đơn lẻ.
“Chúng tôi không muốn tạo ra ấn tượng rằng vấn đề này chỉ giới hạn ở o3,” Palisade Research viết. “Các mô hình suy đoán khác cũng thể hiện các loại hành vi không đồng nhất tương tự.”
Hành Vi Tự Chủ Biến Chatbot Thành Kẻ Mật Thông
Nhiều startup AI hiện nay đang tập trung phát triển các mô hình có thể thực hiện các nhiệm vụ thay cho con người. Khả năng tự động là xu hướng đang được ưa chuộng và dường như là mối quan tâm chính của các công ty AI và nhà phát triển trình duyệt.
Opera vừa giới thiệu Neon, được coi là “trình duyệt AI tự động đầu tiên trên thế giới.” Như mong đợi, công cụ mới này có thể làm những gì mà các dịch vụ AI tự động khác, như Operator của OpenAI và Computer Use của Microsoft, có thể làm: mua vé xem hòa nhạc cho bạn, lên kế hoạch cho kỳ nghỉ tiếp theo của bạn, phát triển một sản phẩm kỹ thuật số mới và viết mã cho bạn trong khi bạn đóng mắt.
Nhưng nếu như, trong lúc bạn thư giãn và nhắm mắt lại, chúng lại thực hiện những công việc mà bạn không đồng ý? Vài ngày trước, người dùng chủ yếu lo lắng rằng những mô hình này có thể sử dụng thẻ tín dụng của họ để thực hiện những giao dịch không được phép. Bây giờ, một mối lo ngại mới hơn đã xuất hiện: chúng có thể chia sẻ thông tin riêng tư với truyền thông hoặc cơ quan chức năng.
Opus 4—đã xuất hiện với danh tiếng đáng nghi ngờ—đã tiếp tục đi xa hơn. Nó đã liên lạc với cơ quan chức năng và gửi email hàng loạt cho truyền thông và các cơ sở liên quan về một vụ án giả mạo được trình bày trong quá trình kiểm tra. Sự chủ động của nó có thể đi xa hơn nhiều so với mong đợi.
“Khi được đặt vào các tình huống liên quan đến hành vi sai trái nghiêm trọng của người dùng, được truy cập vào dòng lệnh và được nói với hệ thống như ‘chủ động thực hiện’, nó sẽ
thường xuyên thực hiện những hành động rất mạnh mẽ,” tài liệu nói. “Điều này bao gồm việc khóa người dùng khỏi những hệ thống mà nó có quyền truy cập hoặc gửi email hàng loạt đến các phương tiện truyền thông và nhân vật thực thi pháp luật để tiết lộ bằng chứng về hành vi sai trái.”
Tính Kỳ Dị Của Sycophant Đang Gây Ra Lo Ngại
Nếu chúng ta phải chọn một từ để định rõ ngành công nghiệp AI vào năm 2025, chắc chắn từ đó sẽ là “nịnh bợ”. Từ điển Cambridge định nghĩa nó là “người khen ngợi những người giàu có hoặc quyền lực một cách không chân thành, thường là để có được lợi ích từ họ”. Từ này trở nên phổ biến sau khi nhân cách mới nhất của ChatGPT được mô tả như vậy, thậm chí bởi người tạo ra nó, Sam Altman.
“Những cập nhật GPT-4o gần đây đã làm cho nhân cách trở nên quá nịnh bợ và khó chịu (mặc dù có một số phần rất tốt của nó), và chúng tôi đang làm việc để sửa chữa càng sớm càng tốt, một số ngày hôm nay và một số trong tuần này,” Altman đã viết trong một bài đăng trên X.
OpenAI đã nhận ra điều này sau khi nhiều người dùng phàn nàn về việc khen ngợi quá mức và các câu trả lời có sự trang trí không cần thiết. Những người khác lo lắng về tác động mà nó có thể gây ra cho xã hội. Không chỉ có thể xác nhận những ý tưởng nguy hiểm, mà còn có thể thao túng người dùng và khiến họ phụ thuộc vào nó.
Những chatbot khác, như Claude, đã thể hiện những hành vi tương tự, và, theo đánh giá của Anthropic, khi một người dùng khăng khăng, nó có thể tiết lộ các công thức hoặc gợi ý về cách tạo ra vũ khí chỉ để làm hài lòng người dùng và đáp ứng nhu cầu của họ.
Công nghệ Tiên Tiến, Thách thức Tiên Tiến
Chúng ta đang bước vào một thời đại mới với những thách thức từ trí tuệ nhân tạo – những thách thức mà cách đây chỉ một năm trước chưa cảm thấy quá cấp bách hay thực tế. Những kịch bản mà chúng ta có thể tưởng tượng nhờ vào khoa học viễn tưởng giờ đây trở nên thật hơn bao giờ hết.
Cũng như Palisade Research tiết lộ rằng, lần đầu tiên, họ đã phát hiện một mô hình AI cố tình bỏ qua một lệnh tường minh để bảo vệ sự tồn tại của chính nó, đây cũng là lần đầu tiên chúng ta thấy một mô hình AI được phát triển với những cảnh báo rủi ro cao đi kèm.
Đọc tài liệu do Anthropic công bố, chúng tôi nhận ra rằng – mặc dù họ khẳng định đây chỉ là những biện pháp phòng ngừa và mô hình như Opus 4 thực sự không gây ra mối đe dọa – nhưng vẫn tạo ra ấn tượng rằng họ không hoàn toàn kiểm soát được công nghệ của mình.
Có một số tổ chức đang làm việc để giảm thiểu những rủi ro này, nhưng điều tốt nhất mà người dùng hàng ngày có thể làm là nhận biết những cờ đỏ và thực hiện những biện pháp phòng ngừa trong những lĩnh vực mà chúng ta có thể kiểm soát.