Cải thiện hiệu suất và hiệu quả:
Gemini 1.5 được xây dựng dựa trên kiến trúc MoE (Mixture of Experts) mang lại hiệu suất được cải thiện đáng kể. Có sự khác biệt cơ bản giữa các mô hình Transformers thông thường và mô hình MoE về mặt thiết kế kiến trúc. Trong khi mô hình Transformer truyền thống hoạt động như một mạng nơ-ron lớn, các mô hình MoE được chia thành các mạng nơ-ron “chuyên gia” nhỏ hơn cho phép các “chuyên gia” này cộng tác hiệu quả đồng thời giảm thiểu sự dư thừa và tối đa hóa hiệu quả trong toàn bộ hệ thống.
Cửa sổ ngữ cảnh dài:
“Context windows” – “Cửa sổ ngữ cảnh” của mô hình AI được tạo thành từ các mã token, là các khối xây dựng được sử dụng để xử lý thông tin. Mã token có thể là toàn bộ hoặc phần phụ của từ, hình ảnh, video, âm thanh hoặc code. Cửa sổ ngữ cảnh của mô hình càng lớn thì càng có nhiều thông tin có thể tiếp nhận và xử lý — làm cho kết quả đầu ra của mô hình nhất quán, phù hợp và hữu ích hơn.
Thông qua một loạt cải tiến về machine learning, Gemini 1.5 có khả năng xử lý lên tới 1 triệu mã token, cung cấp context window dài nhất. Điều này nghĩa là phiên bản 1.5 Pro có thể xử lý lượng thông tin khổng lồ trong một lần – gồm 1h video, 11h âm thanh, 30.000 dòng code hoặc hơn 700.000 từ. Những video của Google dưới đây sẽ mô tả cụ thể hơn về những gì mà Gemini 1.5 Pro có thể làm được với 1 triệu token.