Công nghệ Agentic Vision trong Gemini 3 Flash

Công nghệ Agentic Vision trong Gemini 3 Flash

Các mô hình AI tiên tiến như Gemini thường xử lý dữ liệu thông qua một cái nhìn tĩnh, dễ bỏ sót chi tiết nhỏ và buộc mô hình phải suy đoán. Với Agentic Vision trong Gemini 3 Flash, nâng cấp khả năng hiểu hình ảnh từ phân tích tĩnh sang chủ động. Mô hình có thể phóng to, kiểm tra và xử lý hình ảnh theo từng bước, kết hợp suy luận thị giác và thực thi code để đưa ra kết quả dựa trên bằng chứng trực quan. Nhờ đó, chất lượng xử lý hình ảnh được cải thiện ổn định lên đến 5–10% trên hầu hết các tiêu chuẩn đánh giá. Hãy cùng Cloud Ace tìm hiểu công nghệ này nhé.

Để trả lời các câu hỏi bằng hình ảnh, Gemini 3 Flash sẽ lập ra “kế hoạch phóng to, kiểm tra và thao tác hình ảnh từng bước một”. Cụ thể, Agentic Vision sẽ tận dụng vòng lặp các tác nhân Think - Act - Observe:

🔹Think (Suy nghĩ): Mô hình phân tích truy vấn của người dùng cùng hình ảnh từ đó thiết lập một kế hoạch thực thi đa bước.
🔹Act (Hành động): Mô hình tạo và thực thi Python code để chủ động xử lý hình ảnh (ví dụ: cắt, xoay, chú thích) hoặc phân tích chuyên sâu (ví dụ: thực hiện phép tính, đếm số bounding box, etc.)
🔹Observe (Quan sát): Hình ảnh sau khi xử lý sẽ được đưa trở lại cửa sổ ngữ cảnh. Điều này cho phép Google Cloud kiểm tra dữ liệu mới với ngữ cảnh tốt hơn trước khi đưa ra phản hồi cuối cùng.

Việc kích hoạt code execution trong API giúp mở ra nhiều tính năng mới, trong đó nhiều ví dụ đã được minh hoa trực tiếp qua các bản demo tại Google AI Studio. Từ ứng dụng Gemini đến các startup, cộng đồng nhà phát triển đang tích hợp khả năng này cho nhiều mục đích, điển hình như:

1. Phóng to và kiểm tra chi tiết

Gemini 3 Flash được huấn luyện để tự động phóng to khi cần nhận diện các chi tiết nhỏ, phức tạp

Nền tảng PlanCheckSolver.com, chuyên kiểm tra và xác thực bản vẽ xây dựng bằng AI, đã tăng độ chính xác thêm 5% nhờ kích hoạt code execution với Gemini 3 Flash để phân tích hình ảnh độ phân giải cao theo từng bước. Dữ liệu log backend cho thấy rõ quy trình “agentic”: Gemini 3 Flash tự tạo Python code để cắt và phân tích các vùng cụ thể thành các hình ảnh mới. Các hình ảnh này sau đó được đưa trở lại ngữ cảnh xử lý, giúp mô hình gắn kết suy luận trực quan và xác minh việc tuân thủ các tiêu chuẩn xây dựng phức tạp.

2. Chú thích hình ảnh

Agentic Vision cho phép mô hình tương tác với môi trường xung quanh thông qua việc chú thích trực tiếp lên hình ảnh. Thay vì chỉ mô tả những gì quan sát được, Google Cloud đã thiết lập để Gemini 3 Flash có thể thực thi mã nguồn nhằm vẽ trực tiếp lên khung hình, giúp xác thực hóa các lập luận logic.

Ví dụ: Khi được yêu cầu đếm số ngón tay trong ứng dụng Gemini, mô hình sử dụng Python để vẽ khung bao và gán nhãn số cho từng ngón tay được nhận diện. “visual scratchpad” này giúp đảm bảo câu trả lời cuối cùng dựa trên sự hiểu biết chính xác đến từng điểm ảnh.

3. Xử lý toán học trực quan và tạo biểu đồ

Agentic Vision có khả năng phân tích các bảng dữ liệu dày đặc và thực thi Python code để trực quan hóa các kết quả tìm được. Các LLM tiêu chuẩn thường gặp hiện tượng "hallucinate" (ảo giác) khi thực hiện các phép tính toán trực quan đa bước. Gemini 3 Flash khắc phục vấn đề này bằng cách chuyển việc tính toán sang một môi trường Python xác định.

Trong ví dụ dưới đây từ ứng dụng demo của Google Cloud trên Google AI Studio, mô hình xác định dữ liệu thô, viết mã để chuẩn hóa các chỉ số SOTA trước đó về mức 1.0 và tạo ra một biểu đồ cột Matplotlib chuyên nghiệp. Quá trình này thay thế việc phỏng đoán dựa trên xác suất bằng khả năng thực thi có thể kiểm chứng.

Google Cloud đang tiếp tục hoàn thiện Agentic Vision với các mục tiêu:

Tự động hóa hành vi: Nâng cấp để mô hình tự động xoay ảnh hoặc tính toán (tương tự khả năng tự phóng to ảnh hiện tại) mà không cần lệnh nhắc cụ thể.
Mở rộng công cụ & mô hình: Tích hợp thêm tìm kiếm web, tìm kiếm hình ảnh và triển khai tính năng này trên nhiều kích thước mô hình khác ngoài Flash.

Agentic Vision hiện đã được áp dụng trên Gemini API (Google AI Studio, Vertex AI) và ứng dụng Gemini (chế độ Thinking). Các developers có thể dùng thử ngay tại AI Studio Playground bằng cách kích hoạt "Code Execution"

Cloud Ace

Google Cloud Diamond Partner