Công nghệ xử lý ngôn ngữ tiên tiến vừa được nâng cấp đáng kể với khả năng audio (speech) understanding. Tính năng này có sẵn trên cả giao diện Gemini API và Google AI Studio. Người dùng có thể cung cấp dữ liệu dạng âm thanh bên cạnh hình ảnh để phân tích và tạo ra các kết quả tốt hơn.
VD: người dùng có thể trích xuất văn bản từ các file ghi âm hoặc video, xác định ý chính của bài phát biểu, thậm chí có thể tóm tắt nội dung theo yêu cầu.
Khả năng kết hợp giữa xử lý hình ảnh và xử lý tiếng nói cũng được cải thiện. Người dùng có thể upload video lên Google AI Studio để phân tích toàn diện cả nội dung video và âm thanh. Tính năng này hiện đang có sẵn trên Google AI Studio và API support sẽ sớm được cập nhật.