
Image by Xavi Cabrera, from Unsplash
LegoGPT: AI Biến Đề Xuất Văn Bản Thành Tác Phẩm Lego
Các nhà nghiên cứu tại Đại học Carnegie Mellon đã giới thiệu LegoGPT, một hệ thống AI mới có khả năng xây dựng các tác phẩm Lego thực tế từ các mô tả bằng văn bản.
Đang vội? Dưới đây là những thông tin nhanh:
- Nó đảm bảo sự ổn định vật lý bằng cách sử dụng chức năng quay lại nhận biết vật lý.
- Được huấn luyện trên 47,000 cấu trúc Lego ổn định và những chú thích GPT-4o.
- Chỉ sử dụng 8 loại gạch trong một không gian 20×20×20.
Đây là AI đầu tiên trong loại của mình không chỉ tuân theo một lời nhắc văn bản – như “một chiếc thuyền dài, thon gọn” – mà còn đảm bảo cấu trúc kết quả vững chắc về mặt vật lý và có thể được xây dựng, từng viên gạch một.
“Để đạt được điều này, chúng tôi xây dựng một bộ dữ liệu quy mô lớn, ổn định về mặt vật lý về các thiết kế LEGO, cùng với các chú thích liên quan của chúng,” đội ngũ nghiên cứu giải thích trong bài báo nghiên cứu của họ.
LegoGPT đã được huấn luyện bằng cách sử dụng hơn 47,000 mô hình Lego ổn định được ghép cặp với các chú thích chi tiết do GPT-4o tạo ra. Những mô hình này được xây dựng từ các hình 3D, chuyển đổi thành cấu trúc Lego, sau đó được kiểm tra độ ổn định trong thế giới thực bằng cách sử dụng mô phỏng vật lý.
Mỗi cấu trúc cũng được mô tả từ 24 góc độ để AI có thể học cách diễn đạt các thiết kế khác nhau bằng ngôn ngữ.
Nhóm đã sử dụng một kỹ thuật đặc biệt được gọi là “physics-aware rollback”, nơi các phần không ổn định của thiết kế được loại bỏ và xây dựng lại cho đến khi toàn bộ cấu trúc đứng vững. Điều này đã cải thiện tỷ lệ thành công của việc xây dựng từ 24% lên đến 98.8%.
Mô hình AI, dựa trên LLaMA-3.2-Instruct của Meta, dự đoán viên gạch Lego tiếp theo cần đặt – tương tự như cách ChatGPT dự đoán từ tiếp theo. Mỗi viên gạch được đề xuất sẽ được kiểm tra vị trí đặt, kích thước, và khả năng xung đột trước khi được thêm vào mô hình.
Các tác phẩm của LegoGPT có thể được xây dựng bởi cả con người và robot. “Thí nghiệm của chúng tôi cho thấy LegoGPT tạo ra các thiết kế Lego ổn định, đa dạng, và có tính thẩm mỹ cao, đi đôi với những lời nhắc văn bản đầu vào,” các nhà nghiên cứu đã viết.
Hiện tại, LegoGPT chỉ sử dụng tám loại gạch cơ bản và hoạt động trong không gian 20×20×20, nhưng nhóm hy vọng sẽ mở rộng nó.
Bộ dữ liệu, mã nguồn và mô hình đầy đủ của họ đều miễn phí để truy cập, do đó người khác có thể tiếp tục xây dựng trên nghiên cứu này. Hoặc bạn chỉ cần thử nghiệm với bản demo của họ.