Sự Đột Phá Của Phiên Bản Gemini 1.5 Pro

Sự Đột Phá Của Phiên Bản Gemini 1.5 Pro

Trong năm nay, Google đã cho ra mắt phiên bản Gemini 1.5 Pro trong Google AI Studio để các nhà phát triển có thể thử nghiệm. Với khả năng hiểu ngữ cảnh lên đến 1 triệu token của mô hình này đã tạo ra những đột phá, giúp cộng đồng developers kiểm tra, sửa lỗi, sáng tạo và học hỏi hiệu quả. Vừa qua, Google đã chính thức cung cấp bản preview của Gemini 1.5 Pro thông qua Gemini API trên 180 quốc gia. Hãy cùng Cloud Ace tìm hiểu những đổi mới của phiên bản này nhé.

Công nghệ xử lý ngôn ngữ tiên tiến vừa được nâng cấp đáng kể với khả năng audio (speech) understanding. Tính năng này có sẵn trên cả giao diện Gemini API và Google AI Studio. Người dùng có thể cung cấp dữ liệu dạng âm thanh bên cạnh hình ảnh để phân tích và tạo ra các kết quả tốt hơn.

VD: người dùng có thể trích xuất văn bản từ các file ghi âm hoặc video, xác định ý chính của bài phát biểu, thậm chí có thể tóm tắt nội dung theo yêu cầu.

Khả năng kết hợp giữa xử lý hình ảnh và xử lý tiếng nói cũng được cải thiện. Người dùng có thể upload video lên Google AI Studio để phân tích toàn diện cả nội dung video và âm thanh. Tính năng này hiện đang có sẵn trên Google AI Studio và API support sẽ sớm được cập nhật.

Gemini 1.5 Pro cung cấp tính năng hướng dẫn phản hồi của mô hình bằng các hướng dẫn hệ thống. Tính năng này hiện có sẵn trên Google AI Studio và Gemini API. Người dùng có thể định nghĩa vai trò, định dạng, mục tiêu và các quy tắc để điều hướng hành vi của mô hình cho trường hợp sử dụng cụ thể.

Chế độ này cho phép trích xuất dữ liệu có cấu trúc từ văn bản hoặc hình ảnh. Hữu ích khi người dùng cần kết quả để lập trình giao diện.

API Gemini cung cấp tham số cấu hình để yêu cầu phản hồi ở định dạng JSON.

Lưu ý: Tính năng cấu hình kết quả này chỉ hỗ trợ với model Gemini 1.5 Pro.

Bạn có thể sử dụng tính năng này bằng cách đặt tham số cấu hình response_mime_type thành application/json và cung cấp cấu trúc định dạng JSON trong nội dung yêu cầu. Đoạn code ví dụ cho thấy cách yêu cầu trả về kết quả JSON cho một lời nhắc (prompt).

Người dùng có thể chọn các chế độ để giới hạn đầu ra của mô hình, cải thiện độ tin cậy. Chọn văn bản, lệnh gọi hàm hoặc chỉ chính hàm đó.

Các chế độ đầu ra: Tính năng này cho phép người dùng kiểm soát chính xác hơn những gì Gemini 1.5 Pro xuất ra. Bạn có thể chọn:

Chỉ văn bản: Chế độ này chỉ trả về kết quả dưới dạng văn bản, loại bỏ các đầu ra khó hiểu hoặc không mong muốn như mã code hay công thức.
Gọi hàm: Chế độ này cung cấp đầu ra là một hàm, có thể hữu ích khi người dùng muốn tích hợp Gemini 1.5 Pro vào quy trình làm việc của mình và tự thực thi hàm đó.

Cloud Ace

Google Cloud Diamond Partner