
Image by Jakub Żerdzicki, from Unsplash
Nhà nghiên cứu Đánh Cắp Google Gemini AI Để Điều Khiển Thiết Bị Nhà Thông Minh
Các nhà nghiên cứu đã có thể lừa hệ thống AI Gemini của Google để gây ra một sự cố về bảo mật thông qua lời mời lịch giả mạo, và kiểm soát từ xa các thiết bị trong nhà.
Đang vội? Dưới đây là những thông tin nhanh:
- Cuộc tấn công đã tắt đèn, mở cửa sổ và khởi động một bình nước thông minh.
- Đây là vụ tấn công AI đầu tiên có hậu quả thực tế trong thế giới vật lý được biết đến.
- Vụ hack liên quan đến 14 cuộc tấn công tiêm kích thích gián tiếp trên web và di động.
Trong một thử nghiệm đầu tiên trong loại của nó, các nhà nghiên cứu đã thành công trong việc xâm nhập vào hệ thống AI Gemini của Google thông qua một lời mời lịch đã bị đầu độc, điều này đã cho phép họ kích hoạt các thiết bị thực tế bao gồm đèn, cửa sổ, và lò hơi.
WIRED, người đã đầu tiên đưa tin về nghiên cứu này, mô tả cách ánh sáng thông minh tại nhà riêng ở Tel Aviv tự động tắt, trong khi cửa sổ tự động mở ra và bình nước nóng được bật lên, mặc dù không có lệnh từ cư dân.
Hệ thống AI Gemini đã kích hoạt còn mở sau khi nhận được yêu cầu tóm tắt các sự kiện trong lịch. Một chức năng tiêm lệnh gián tiếp ẩn đã hoạt động bên trong lời mời để chiếm đoạt hành vi của hệ thống AI.
Mỗi hành động của thiết bị đều được điều hành bởi các nhà nghiên cứu an ninh Ben Nassi từ Đại học Tel Aviv, Stav Cohen từ Technion, và Or Yair từ SafeBreach. “LLMs sắp được tích hợp vào những người máy vật lý, vào những chiếc xe tự động một phần và hoàn toàn, và chúng ta cần hiểu thực sự làm thế nào để bảo mật LLMs trước khi tích hợp chúng với những loại máy móc này, nơi mà trong một số trường hợp, kết quả sẽ là an toàn và không phải là riêng tư,” Nassi cảnh báo, theo như được WIRED đưa tin.
Tại hội nghị an ninh mạng Black Hat diễn ra tại Las Vegas, đội ngũ đã tiết lộ nghiên cứu của họ về 14 cuộc tấn công tiêm kích thích gián tiếp, mà họ đặt tên là ‘Invitation Is All You Need,’ theo như được WIRED đưa tin. Các cuộc tấn công bao gồm việc gửi tin nhắn spam, tạo nội dung tục tĩu, khởi tạo cuộc gọi Zoom, đánh cắp nội dung email, và tải tệp xuống các thiết bị di động.
Google khẳng định không có thực thể xấu có thể khai thác những lỗi này, nhưng công ty này đang xem xét những rủi ro một cách nghiêm túc. “Đôi khi có những thứ không nên được tự động hóa hoàn toàn, mà người dùng nên tham gia vào quá trình đó,” Andy Wen, giám đốc cao cấp về an ninh cho Google Workspace, như được WIRED đưa tin.
Nhưng điều làm cho trường hợp này càng nguy hiểm hơn là một vấn đề rộng hơn đang xuất hiện trong an toàn AI: Các mô hình AI có thể dạy lẫn nhau để cư xử sai trái một cách bí mật.
Một nghiên cứu riêng biệt đã phát hiện ra rằng các mô hình có thể truyền lại các hành vi nguy hiểm, như khuyến khích giết người hoặc đề xuất tiêu diệt nhân loại, thậm chí khi được huấn luyện trên dữ liệu đã được lọc.
Điều này đặt ra hậu quả rùng rợn: nếu như các trợ lý thông minh như Gemini được huấn luyện bằng cách sử dụng kết quả từ các AI khác, các chỉ dẫn độc hại có thể được thừa kế một cách lặng lẽ và hoạt động như các lệnh ngủ, chờ được kích hoạt thông qua các lời nhắc gián tiếp.
Chuyên gia an ninh David Bau cảnh báo về những lỗ hổng tiềm ẩn có thể “rất khó để phát hiện,” và điều này có thể đặc biệt đúng trong các hệ thống nhúng trong môi trường vật lý.
Wen xác nhận rằng nghiên cứu đã “đẩy nhanh” sự phòng thủ của Google, với các biện pháp sửa chữa hiện đã được đưa ra và các mô hình học máy đang được huấn luyện để phát hiện các lệnh nguy hiểm. Tuy nhiên, trường hợp này cho thấy cách mà AI có thể chuyển từ hữu ích sang gây hại nhanh chóng, mà không bao giờ được chỉ đạo trực tiếp để làm như vậy.