Giới thiệu Gemini 2.5 Flash Native Audio

Giới thiệu Gemini 2.5 Flash Native Audio

Nếu như trước đây, rào cản lớn nhất của các Voice Agent là sự vô hồn và độ trễ, thì với phiên bản cập nhật Gemini 2.5 Flash Native Audio giúp doanh nghiệp xử lý hiệu quả các quy trình phức tạp, hiểu các hướng dẫn người dùng và trò chuyện tự nhiên hơn. Hiện giải pháp đã được áp dụng trên nền tảng Vertex AI và Google AI studio, và đang được triển khai trong Gemini Live và Search Live. Hãy cùng Cloud Ace tìm hiểu nhé.

Nhằm hỗ trợ đa dạng các trường hợp sử dụng trên nhiều nền tảng và sản phẩm, Gemini 2.5 Native Audio đã được Google Cloud cải tiến tập trung vào ba lĩnh vực trọng tâm:

🔹Gọi hàm chuẩn xác hơn: Độ tin cậy của mô hình khi kích hoạt các function bên ngoài đã được nâng cao. Mô hình có khả năng nhận diện chính xác thời điểm cần trích xuất thông tin thời gian thực trong cuộc trò chuyện và lồng ghép dữ liệu đó vào phản hồi audio một cách liền mạch, không làm gián đoạn luồng xử lý. Trên ComplexFuncBench Audio, một bài đánh giá khả năng function calling đa bước với nhiều ràng buộc – Gemini 2.5 Native Audio dẫn đầu với số điểm 71,5%.
🔹Tuân thủ chỉ dẫn nghiêm ngặt: Mô hình hiện xử lý tốt các chỉ dẫn phức tạp, nâng cao mức độ hài lòng về nội dung. Với tỷ lệ tuân thủ chỉ dẫn của developer tăng từ 84% lên 90%, kết quả đầu ra đảm bảo độ tin cậy cao hơn.
🔹Trải nghiệm hội thoại mượt mà hơn: Chất lượng hội thoại multi-turn (đa lược) đã đạt được những bước tiến đáng kể. Gemini 2.5 Flash Native Audio có khả năng truy xuất ngữ cảnh từ các lượt thoại trước hiệu quả hơn, tạo nên các cuộc hội thoại mạch lạc và gắn kết.

Gemini hiện hỗ trợ nguyên bản các tính năng live speech-to-speech (dịch thuật lời nói trực tiếp) mới, được thiết kế để xử lý cả việc continuous listening (nghe liên tục) và two-way conversation (hội thoại hai chiều).

Với chế độ continuous listening, Gemini tự động dịch lời nói từ nhiều ngôn ngữ khác nhau sang một ngôn ngữ đích duy nhất. Cơ chế này cho phép việc sử dụng tai nghe để nắm bắt thông tin từ môi trường xung quanh bằng ngôn ngữ đã chọn.

Đối với two-way conversation, tính năng live speech-to-speech của Gemini xử lý việc chuyển ngữ giữa hai ngôn ngữ theo thời gian thực, và tự động nhận biết ai đang nói để chuyển ngôn ngữ phù hợp.

Tính năng này sở hữu nhiều khả năng quan trọng, hỗ trợ hiệu quả trong thực tế:

🔹Hỗ trợ đa ngôn ngữ quy mô lớn: Dịch hơn 70 ngôn ngữ và 2.000 cặp ngôn ngữ, thông qua việc kết hợp vốn kiến thức toàn cầu của mô hình Gemini với năng lực xử lý âm thanh chuyên sâu.
🔹Chuyển đổi phong cách: Nắm bắt các sắc thái trong lời nói của con người, bằng cách bảo toàn ngữ điệu, nhịp độ và cao độ của giọng gốc trong bản dịch.
🔹Đầu vào đa ngôn ngữ: Xử lý đồng thời nhiều ngôn ngữ trong cùng một phiên làm việc, hỗ trợ theo dõi các cuộc hội thoại đa ngôn ngữ mà không cần thao tác điều chỉnh cài đặt thủ công.
🔹Tự động nhận diện: Tự động xác định ngôn ngữ nói và kích hoạt quy trình dịch thuật mà không yêu cầu xác nhận ngôn ngữ nguồn thủ công.
🔹Khả năng lọc tiếng ồn: Lọc bỏ tạp âm môi trường, đảm bảo chất lượng đàm thoại rõ ràng ngay cả tại các khu vực ồn ào hoặc không gian mở.

Hiện tại, người dùng có thể trải nghiệm phiên bản beta trên ứng dụng Google Translate hỗ trợ dịch thuật theo thời gian thực qua tai nghe. Việc kích hoạt được thực hiện bằng cách kết nối tai nghe với thiết bị và chọn mục “Live translate”. Trải nghiệm này đang được triển khai trên tất cả các thiết bị Android tại Mỹ, Mexico, Ấn Độ và sẽ sớm được hỗ trợ cho iOS và nhiều khu vực khác.

Dựa trên các phản hồi ghi nhận được, trải nghiệm này sẽ tiếp tục được Google tinh chỉnh và tích hợp vào nhiều sản phẩm khác như Gemini API vào năm 2026.

Nhận tư vấn ngay

Cloud Ace

Google Cloud Diamond Partner