Asset 15

Google triển khai SIMA 2 – AI Agent đa năng trong thế giới ảo 3D

Asset 15

Tiếp nối thành công của SIMA (Scalable Instructable Multiworld Agent) – AI Agent có khả năng thực hiện chỉ dẫn tại các môi trường ảo khác nhau, Google vừa chính thức giới thiệu SIMA 2. Phiên bản mới này đánh dấu bước tiến vượt bậc nhờ tích hợp sức mạnh từ các mô hình Gemini, cho phép AI không chỉ hiểu và thực thi mệnh lệnh ngôn ngữ tự nhiên mà còn có khả năng tư duy mục tiêu, đối thoại hai chiều và tự hoàn thiện theo thời gian. Đây là cột mốc quan trọng hướng tới Trí tuệ Nhân tạo Tổng quát (Artificial General Intelligence, AGI), mở ra triển vọng to lớn cho lĩnh vực robotics và AI-embodiment. Hãy cùng Cloud Ace tìm hiểu nhé.

Khả năng suy luận của Google SIMA 2

Phiên bản đầu tiên của SIMA đã học hơn 600 kỹ năng làm theo hướng dẫn ngôn ngữ. SIMA vận hành trong các môi trường ảo tương tự như cách con người tương tác: quan sát màn hình và sử dụng bàn phím, chuột ảo để điều hướng mà không cần truy cập vào dữ liệu hay cơ chế vận hành ngầm của game. Với SIMA 2, khả năng của hệ thống đã vượt xa việc chỉ làm theo hướng dẫn. Nhờ tích hợp mô hình Gemini vào lõi agent, SIMA 2 không chỉ dừng lại ở việc phản hồi mệnh lệnh, mà còn sở hữu khả năng tư duy và suy luận sâu sắc về các yêu cầu đó.

Kiến trúc mới của SIMA 2 tích hợp năng lực suy luận vượt trội từ mô hình Gemini, giúp agent này hiểu được mục tiêu tổng thể của người dùng, thực hiện các bước lập luận phức tạp và triển khai các hành động trong game một cách khéo léo và có định hướng. Google đã training cho SIMA 2 bằng cách kết hợp video minh họa do con người thực hiện kèm chú thích, được tạo bới Gemini để có thể giải thích cho người dùng những gì hệ thống dự định làm và mô tả chi tiết từng bước thực hiện nhằm hoàn thành mục tiêu đề ra.

Trong quá trình thử nghiệm, Google ghi nhận rằng SIMA 2 mang lại trải nghiệm tương tác giống như làm việc với một đối tác có khả năng phân tích và suy luận về nhiệm vụ, thay vì chỉ tiếp nhận mệnh lệnh một chiều. Thông qua việc hợp tác với các đối tác trong ngành game, Google đã mở rộng quy mô huấn luyện và đánh giá SIMA 2 trên nhiều tựa game đa dạng hơn

Đây là minh chứng cho năng lực mà Gemini mang đến cho Embodied AI: một nền tảng suy luận mạnh mẽ, có khả năng quan sát, thấu hiểu ngữ cảnh và thực thi hành động chính xác trong các môi trường 3D phức tạp — mở ra tiềm năng ứng dụng rộng lớn cho doanh nghiệp trong nhiều lĩnh vực

Năng lực khái quát hóa

Việc tích hợp Gemini đã giúp SIMA 2 cải thiện đáng kể về độ tin cậy và khả năng khái quát hóa cho hệ thống. So với phiên bản trước đó, SIMA 2 có thể  thấu hiểu các mệnh lệnh phức tạp, chứa đựng nhiều sắc thái ý nghĩa, đồng thời thực hiện chúng chính xác hơn. Đặc biệt trong những tình huống hoặc game mà hệ thống chưa từng được huấn luyện, như ASKA, hay MineDojo.

Hiểu và thực hiện các nhiệm vụ dài và phức tạp

Xử lý linh hoạt các câu lệnh đa phương thức

Hỗ trợ đa ngôn ngữ và giải mã được ý nghĩa của các emoji

Nhằm kiểm chứng giới hạn năng lực khái quát hóa của SIMA 2, Google đã kết hợp mô hình này với Genie 3 – một dự án nghiên cứu mang tính đột phá với khả năng kiến tạo các thế giới mô phỏng 3D real-time chỉ từ một hình ảnh hoặc câu prompt đơn giản.

Khi Google triển khai SIMA 2 trong các môi trường vừa được khởi tạo này, mô hình đã cho thấy khả năng tự định hướng, thấu hiểu chỉ dẫn của người dùng và thực hiện các hành động phù hợp để đạt mục tiêu, dù chưa từng tiếp xúc những dữ liệu này trước đó. Kết quả thử nghiệm đã minh chứng cho mức độ thích ứng vượt trội chưa từng có.

Khả năng tự cải thiện

Một trong những tính năng đột phá nhất của SIMA 2 là năng lực tự hoàn thiện. Thực tế cho thấy trong quá trình training, các agent SIMA 2 có khả năng thực hiện những nhiệm vụ mới với độ phức tạp ngày càng cao, dựa trên cơ chế trial-and-error và các phản hồi từ mô hình Gemini.

Cụ thể, sau giai đoạn đầu học hỏi từ các thao tác mẫu của con người, SIMA 2 có thể chuyển sang tự học trong các tựa game mới thông qua cơ chế tự vận hành, từ đó phát triển kỹ năng trong những môi trường chưa từng tiếp cận mà không cần bổ sung dữ liệu từ con người. Trong các chu kỳ kế tiếp, dữ liệu kinh nghiệm tích lũy của chính SIMA 2 sẽ được tận dụng để training các phiên bản kế nhiệm với năng lực vượt trội hơn. Khả năng tự hoàn thiện này thậm chí đã được ứng dụng thành công trong các môi trường Genie mới được kiến tạo – một bước tiến quan trọng hướng tới việc huấn luyện các tác nhân tổng quát trên quy mô các thế giới ảo đa dạng.

Cloud Ace - Managed Service Partner của Google Cloud

  • Trụ sở: Tòa Nhà H3, Lầu 1, 384 Hoàng Diệu, Phường Khánh Hội, TP. HCM.
  • Văn phòng đại diện: Tầng 2, 25t2 Hoàng Đạo Thúy, Phường Yên Hòa, Thành phố Hà Nội.
  • Email: sales.vn@cloud-ace.com
  • Hotline: 028 6686 3323
  • Website: https://cloud-ace.vn/

Tin tức liên quan

Shopping Basket
en_USEnglish