Giới thiệu Google Gemini 2.5 Flash Image (Nano Banana)

Giới thiệu Google Gemini 2.5 Flash Image (Nano Banana)

Vừa qua, Google Cloud vừa công bố mô hình Gemini 2.5 Flash Image (hay còn gọi là nano-banana) – mô hình tạo và chỉnh sửa ảnh tiên tiến nhất hiện tại, mang đến chất lượng vượt trội cùng khả năng kiểm soát sáng tạo mạnh mẽ. Phiên bản này mang đến khả năng kết hợp nhiều hình ảnh, duy trì sự nhất quán của nhân vật để xây dựng những câu chuyện phức tạp, thực hiện các biến đổi có chủ đích bằng ngôn ngữ tự nhiên, và tận dụng kiến thức sâu rộng của Gemini để tạo và chỉnh sửa hình ảnh. Hãy cùng Cloud Ace tìm hiểu nhé.

Phiên bản Gemini 2.5 Flash Image này là bước tiến tiếp theo sau sự ra mắt của tính năng tạo ảnh gốc trên Gemini 2.0 Flash được Google công bố vào đầu năm, một phiên bản vốn đã được thị trường đón nhận tích cực nhờ độ trễ thấp, chi phí thấp và dễ sử dụng. Gemini 2.5 Flash Image được phát triển nhằm đáp ứng nhu cầu ngày càng cao về chất lượng hình ảnh vượt trội và khả năng kiểm soát sáng tạo mạnh mẽ hơn từ phía người dùng chuyên nghiệp.

Mô hình này hiện đã có trên nền tảng API Gemini và Google AI Studio cho các nhà phát triển, và Vertex AI dành cho các doanh nghiệp.

Mức giá của Gemini 2.5 Flash Image được ấn định ở mức $30 cho mỗi 1 triệu output tokens, trong đó mỗi hình ảnh được tính là 1290 token (tương đương $0.039 mỗi ảnh). Chi phí cho tất cả các phương thức khác ở đầu vào và đầu ra sẽ tuân theo biểu giá chung của Gemini 2.5 Flash.

gemini-image__image-editing__no_product-reconte.original

Nhằm đơn giản hóa việc xây dựng ứng dụng với Gemini 2.5 Flash Image, Google AI Studio’s “build mode” đã được cập nhật những cải tiến quan trọng. Bản cập nhật này cho phép người dùng nhanh chóng thử nghiệm các khả năng của mô hình thông qua những ứng dụng AI tùy chỉnh, cũng như tùy biến lại chúng hoặc biến ý tưởng thành hiện thực chỉ bằng một câu prompt duy nhất. Sau khi hoàn tất, ứng dụng có thể được triển khai trực tiếp từ Google AI Studio hoặc lưu mã nguồn lên GitHub.

Người dùng có thể bắt đầu với một câu lệnh như “Tạo một ứng dụng chỉnh sửa ảnh cho phép tải ảnh lên và áp dụng các bộ lọc khác nhau", hoặc lựa chọn từ các mẫu có sẵn. Tất cả đều miễn phí.

Một thách thức cơ bản trong việc tạo hình ảnh là duy trì sự nhất quán về ngoại hình của một nhân vật hoặc đối tượng qua nhiều câu prompt và các lần chỉnh sửa khác nhau. Với phiên bản Gemini 2.5 Flash Image này , người dùng có thể đặt cùng một nhân vật vào các bối cảnh khác nhau, trưng bày một sản phẩm từ nhiều góc độ trong các bối cảnh mới, hoặc tạo ra các tài sản thương hiệu nhất quán, mà giữ nguyên chủ thể.

Để minh họa cho tính năng này, một ứng dụng mẫu đã được tích hợp sẵn trong Google AI Studio, cho phép người dùng dễ dàng tùy chỉnh và phát triển thêm mã nguồn dựa trên đó.

gemini-2-5-image-editing-character-consistency.original

Gemini 2.5 Flash Image cho phép chuyển đổi mục tiêu và chỉnh sửa cục bộ chính xác bằng ngôn ngữ tự nhiên.
Ví dụ: mô hình có thể làm mờ nền ảnh, xóa vết bẩn trên áo phông, xóa toàn bộ một người khỏi ảnh, thay đổi tư thế của chủ thể, thêm màu cho ảnh đen trắng, hoặc bất kỳ điều gì khác mà người dùng có thể nghĩ ra chỉ bằng một câu promt.

Để thể hiện những khả năng này trong thực tế, Google đã xây dựng một ứng dụng mẫu chỉnh sửa ảnh trong AI Studio, tích hợp các trình điều khiển dựa trên cả giao diện người dùng (UI) và câu prompt.

gemini-2-5-flash-prompt-based-image-editing.original

Trước đây, các mô hình thường xuất sắc trong việc tạo ra những hình ảnh có tính thẩm mỹ cao, nhưng lại thiếu sự am hiểu sâu sắc về ngữ nghĩa của thế giới thực. Với Gemini 2.5 Flash Image, mô hình tận dụng kho kiến thức của Gemini, qua đó mở ra các trường hợp sử dụng mới.

Để minh họa, một ứng dụng mẫu trong Google AI Studio đã được phát triển để biến một khung vẽ đơn giản thành một gia sư giáo dục tương tác. Ứng dụng này thể hiện khả năng của mô hình trong việc đọc và hiểu các sơ đồ vẽ tay, hỗ trợ giải đáp các câu hỏi thực tế, và thực hiện theo các hướng dẫn chỉnh sửa phức tạp chỉ trong một bước duy nhất.

Gemini 2.5 Flash Image có thể hiểu và kết hợp nhiều hình ảnh đầu vào. Người dùng có thể đặt một đối tượng vào một bối cảnh, thay đổi phong cách một căn phòng với một bảng màu hay họa tiết, và hòa trộn các hình ảnh chỉ bằng một câu prompt

Để trình diễn khả năng hòa trộn đa hình ảnh, Google đã xây dựng một ứng dụng template trong Google AI Studio cho phép kéo thả các sản phẩm vào một bối cảnh mới để nhanh chóng tạo ra một hình ảnh hòa trộn chân thực như ảnh chụp.

Cloud Ace

Google Cloud Diamond Partner