Gemini 2.5 Flash-Lite là giải pháp AI được thiết kế để tối ưu hóa sự cân bằng giữa hiệu năng và chi phí, mà không làm giảm chất lượng, đặc biệt phù hợp với các tác vụ yêu cầu độ trễ thấp như dịch thuật và phân loại. Mô hình này cung cấp khả năng suy luận tích hợp linh hoạt, cho phép người dùng tùy chỉnh bật/tắt để kiểm soát tài nguyên. Tiếp nối sự thành công của 2.5 Pro và 2.5 Flash, Google đã hoàn thiện bộ mô hình 2.5 với sự ra mắt của dòng 2.5 Flash-Lite đã sẵn sàng cho triển khai thực tế với quy mô lớn.
Dưới đây là những điểm nổi bật của dòng mô hình Gemini 2.5 Flash-Lite:
- Tốc độ xử lý cực nhanh trong phân khúc: Mô hình được tối ưu hóa để cung cấp phản hồi nhanh chóng, có độ trễ thấp hơn các phiên bản 2.0 Flash-Lite và 2.0 Flash.
- Tối ưu chi phí: Có chi phí thấp nhất từ trước đến nay, chỉ 0.10 USD cho mỗi 1 triệu token đầu vào và 0.40 USD cho mỗi 1 triệu token đầu ra. Đặc biệt, giá xử lý đầu vào âm thanh đã giảm tới 40%.
- Thông minh và chính xác: Mặc dù có chi phí thấp và tốc độ nhanh, Gemini 2.5 Flash-Lite vẫn đảm bảo chất lượng xử lý cao. Mô hình này đã chứng minh hiệu suất vượt trội trên nhiều điểm chuẩn quan trọng, bao gồm lập trình, toán học, khoa học, lý luận và hiểu biết đa phương thức.
- Đầy đủ tính năng: Khi xây dựng ứng dụng với 2.5 Flash-Lite, người dùng sẽ có: Cửa sổ ngữ cảnh lên tới 1 triệu token, tùy chỉnh chi phí suy luận và hỗ trợ các công cụ tích hợp như Tìm kiếm Google, Thực thi mã và ngữ cảnh từ URL.