Khám Phá Mô Hình Gemini 1.5

Khám Phá Mô Hình Gemini 1.5

Đứng trước sự phát triển nhanh chóng của trí tuệ nhân tạo, Google vẫn đang tiếp tục dẫn đầu cuộc đua với những phát triển mới trong công nghệ Multimodal AI (AI đa phương thức). Google hiện đã công bố phiên bản Gemini 1.5 với những cải tiến đáng kể trong phương pháp xử lý và tích hợp dữ liệu đa phương thức. Hãy cùng Cloud Ace tìm hiểu nhé.

Cải thiện hiệu suất và hiệu quả:

Gemini 1.5 được xây dựng dựa trên kiến trúc MoE (Mixture of Experts) mang lại hiệu suất được cải thiện đáng kể. Có sự khác biệt cơ bản giữa các mô hình Transformers thông thường và mô hình MoE về mặt thiết kế kiến trúc. Trong khi mô hình Transformer truyền thống hoạt động như một mạng nơ-ron lớn, các mô hình MoE được chia thành các mạng nơ-ron “chuyên gia” nhỏ hơn cho phép các “chuyên gia” này cộng tác hiệu quả đồng thời giảm thiểu sự dư thừa và tối đa hóa hiệu quả trong toàn bộ hệ thống.

Cửa sổ ngữ cảnh dài:

“Context windows” – “Cửa sổ ngữ cảnh” của mô hình AI được tạo thành từ các mã token, là các khối xây dựng được sử dụng để xử lý thông tin. Mã token có thể là toàn bộ hoặc phần phụ của từ, hình ảnh, video, âm thanh hoặc code. Cửa sổ ngữ cảnh của mô hình càng lớn thì càng có nhiều thông tin có thể tiếp nhận và xử lý — làm cho kết quả đầu ra của mô hình nhất quán, phù hợp và hữu ích hơn.

Thông qua một loạt cải tiến về machine learning, Gemini 1.5 có khả năng xử lý lên tới 1 triệu mã token, cung cấp context window dài nhất. Điều này nghĩa là phiên bản 1.5 Pro có thể xử lý lượng thông tin khổng lồ trong một lần – gồm 1h video, 11h âm thanh, 30.000 dòng code hoặc hơn 700.000 từ. Những video của Google dưới đây sẽ mô tả cụ thể hơn về những gì mà Gemini 1.5 Pro có thể làm được với 1 triệu token.

Google có thể đọc hiểu 402 trang tài liệu về dự án Apollo 11 với tổng cộng 326.000 tokens và đưa ra đáp án chính xác với những yêu cầu được hỏi, trước đây Gemini 1.0 Pro không thể làm được vì giới hạn chỉ 32.000 tokens. Không chỉ là tài liệu, Gemini 1.5 Pro còn có thể xử lý và hiểu được trên nhiều phương thức dữ liệu như video hay hình ảnh.

Video này cho thấy Google Gemini 1.5 Pro có thể hiểu và phân tích được các chi tiết có thể bị bỏ qua trong bộ phim hài câm dài 44 phút, tiêu tốn khoảng 696,417 tokens.

Gemini 1.5 Pro có thể suy luận trên 100.000 dòng code để đưa ra các giải pháp, sửa đổi và giải thích hữu ích.

Khi được thử nghiệm đánh giá toàn diện về văn bản, code, hình ảnh, âm thanh và video, Google cho biết hiệu suất của phiên bản Gemini 1.5 Pro tốt hơn 87% so với phiên bản 1.0 Pro được ra mắt vào tháng 12/2023. Và khi so sánh với 1.0 Ultra trên cùng thang điểm chuẩn, phiên bản này hoạt động ở mức tương tự.

Kiểm tra đạo đức và bảo mật mở rộng

Gemini 1.5 đã trải qua các đánh giá nghiêm ngặt và sâu rộng dựa trên các nguyên tắc AI của Google (Google AI Principle) trên các lĩnh vực bao gồm cả về nội dung và đạo đức để giảm thiểu tác hại tiềm ẩn. Ngoài ra, Google sẽ tiếp tục mở rộng những nghiên cứu về rủi ro bảo mật và phát triển các kỹ thuật red-teaming để đảm bảo triển khai có trách nhiệm.

Google thông báo rằng Gemini 1.5 Pro sẽ có mặt dưới dạng ” limited preview” cho khách hàng doanh nghiệp và developers thông qua AI Studio và Vertex AI. Những đối tượng này có thể thử nghiệm mô hình với giới hạn 1 triệu token “mà không phải trả thêm chi phí“, tuy nhiên, vì đây là bản thử nghiệm nên độ trễ có thể lớn hơn bình thường.

Cloud Ace

Google Cloud Managed Service Provider