Photo by Joshua Woroniecki on Unsplash

Các nhà nghiên cứu của Cloudflare tuyên bố rằng Perplexity đang lục lọi các trang web mặc dù bị chặn bởi AI Bot

Thời gian đọc: 4 phút

Xuất bản lần đầu vào: Aug 6, 2025

Đã cập nhật 2 lần kể từ khi xuất bản

Được viết bởi Andrea Miliani Cựu chuyên gia tin tức công nghệ
Dịch bởi Nhóm Bản địa hóa và Dịch thuật Dịch vụ Bản địa hóa và Dịch thuật

Những nhà nghiên cứu từ nhà cung cấp cơ sở hạ tầng internet Cloudflare cho rằng hệ thống AI Perplexity đã lấy nội dung từ các trang web mà không có sự cho phép, thậm chí khi các nhà xuất bản đã áp dụng chặn bot AI.

Đang vội? Dưới đây là những thông tin nhanh:

Cloudflare tuyên bố rằng Perplexity đã trích xuất nội dung từ các trang web mà không có sự cho phép.
Các nhà nghiên cứu đã xác nhận hành vi “đi lén” của Perplexity ngay cả khi các nhà xuất bản thực hiện chặn bot AI.
Người phát ngôn từ Perplexity gọi báo cáo của Cloudflare là một “trò quảng cáo.”

Theo báo cáo được chia sẻ bởi Cloudflare vào thứ Hai, Perplexity dùng chương trình duyệt web mặc định của mình và đổi danh tính để vượt qua những khối chặn này. Hành vi “duyệt web ẩn” này đã được xác nhận bởi các chuyên gia của Cloudflare.

“Chúng tôi thấy các bằng chứng liên tục cho thấy Perplexity đang liên tục chỉnh sửa user agent của họ và thay đổi ASN nguồn của họ để che giấu hoạt động crawl của họ, cũng như bỏ qua – hoặc đôi khi thậm chí không tải – các tệp robots.txt,” các nhà nghiên cứu đã viết.

Các trình crawl được mong đợi phải minh bạch, nêu rõ mục đích của họ và tôn trọng sở thích của các trang web, nhưng các nhà nghiên cứu khẳng định Perplexity chưa tuân thủ những nguyên tắc tin tưởng này. Kết luận này được đạt được sau một cuộc điều tra được khởi xướng do các khiếu nại của khách hàng.

“Chúng tôi đã nhận được phản hồi từ khách hàng đã cả từ chối hoạt động duyệt web của Perplexity trong các tệp robots.txt của họ và cũng đã tạo các quy tắc WAF để chặn cụ thể cả hai trình duyệt mà Perplexity đã công bố: PerplexityBot và Perplexity-User,” các nhà nghiên cứu đã viết. “Những khách hàng này cho chúng tôi biết rằng Perplexity vẫn có thể truy cập vào nội dung của họ ngay cả khi họ thấy các bot của nó đã được chặn thành công.”

Các nhà nghiên cứu của Cloudflare cho biết họ đã xác minh những tuyên bố này bằng cách tái tạo các chặn và tiến hành nhiều kiểm tra để quan sát hành vi của trình duyệt. Trong một thử nghiệm, họ đã tạo các tên miền mới chưa được lập chỉ mục và đã bao gồm các tệp robots.txt để chặn “những con bot tôn trọng.” Sau đó, họ đã truy vấn Perplexity để biết thông tin cụ thể về các tên miền bị hạn chế và phát hiện ra rằng công cụ trả lời dựa trên AI vẫn cung cấp chi tiết và thông tin chính xác về trang web.

“Phản hồi này thật bất ngờ, vì chúng tôi đã thực hiện tất cả các biện pháp cần thiết để ngăn chặn dữ liệu này không bị các máy tìm kiếm của họ truy xuất”, các nhà nghiên cứu thêm vào.

Jesse Dwyer, người phát ngôn của Perplexity, gọi nghiên cứu là “màn quảng cáo” trong một tuyên bố cho The Verge. Dwyer thêm rằng có những “hiểu lầm” trong báo cáo của Cloudflare.

Cloudflare đã phát triển nhiều công cụ để giúp các nhà xuất bản ngăn chặn việc lục lọi thông tin không được phép bằng AI. Vào tháng Ba, Cloudflare đã ra mắt “AI Labyrinth”, một công cụ chuyển hướng các máy tìm kiếm không được phép vào những mê cung nội dung do AI tạo ra. Tháng trước, hãng đã cho ra mắt “Pay Per Crawl,” một hệ thống để tính phí các bot AI khi truy cập vào nội dung của các nhà xuất bản.

Các nhà nghiên cứu của Cloudflare tuyên bố rằng Perplexity đang lục lọi các trang web mặc dù bị chặn bởi AI Bot

Chúng tôi rất vui khi bạn thích sản phẩm của chúng tôi!