Sự thiếu hụt bộ nhớ ở AI Agents là một thách thức lớn, dẫn đến các tương tác lặp lại, thiếu tính cá nhân và làm giảm trải nghiệm của người dùng. Các giải pháp truyền thống như sử dụng toàn bộ cửa sổ ngữ cảnh của LLM kém hiệu quả, gây tốn kém chi phí vận hành và làm giảm chất lượng phản hồi của mô hình. Nhằm giải đáp thách thức này Google Cloud đã cho ra mắt tính năng Memory Bank trong Vertex AI Agent Engine. Công nghệ này được thiết kế để xây dựng các agent có khả năng ghi nhớ, cho phép các cuộc hội thoại diễn ra tự nhiên, theo ngữ cảnh và liên tục, từ đó mang lại giá trị tương tác cao hơn. Hãy cùng Cloud Ace tìm hiểu nhé.
Vertex AI Agent Engine Memory Bank giúp người dùng tự động lưu trữ và tạo ra 'bộ nhớ dài hạn' từ các cuộc trò chuyện với agents. Bộ nhớ dài hạn là thông tin được cá nhân hóa có thể được truy cập qua nhiều phiên làm việc của một người dùng cụ thể. Các agents có thể sử dụng những dữ liệu này để cá nhân hóa các phản hồi, duy trì tính liên tục và liền mạch giữa các phiên làm việc
Tính năng này được tích hợp với Agent Development Kit (ADK) and Agent Engine Sessions. Người dùng có thể định nghĩa một tác nhân (agent) bằng ADK, bật Agent Engine Sessions để lưu trữ và quản lý lịch sử chat trong từng phiên riêng lẻ. Người dùng có thể bật Memory Bank để cung cấp bộ nhớ dài hạn cho các agents nhằm lưu trữ, truy xuất và quản lý thông tin liên quan qua nhiều phiên làm việc. Người dùng cũng có thể sử dụng Memory Bank để quản lý bộ nhớ của mình với các agent framework khác như LangGraph và CrewAI.
🔹 Tương thích đa môi trường: Với Vertex AI Agent Engine Sessions và Memory Bank, người dùng có thể dễ dàng lưu trữ và truy xuất dữ liệu lịch sử cho các AI Agent của mình – dù triển khai trên Vertex AI, local hay qua các môi trường khác.
🔹 Tự động trích xuất dữ liệu bằng LLM: Hệ thống sử dụng mô hình ngôn ngữ lớn (LLM) để phân tích và trích xuất thông tin quan trọng từ các phiên chat, hình thành ký ức một cách thông minh.
🔹 Xử lý memory từ xa, không đồng bộ: Quá trình tạo memory diễn ra riêng biệt, không làm gián đoạn phản hồi của Agent, giúp duy trì hiệu suất và nâng cao trải nghiệm người dùng.
🔹 Truy xuất thông minh, cá nhân hóa: Hệ thống thực hiện tìm kiếm tương đồng để truy xuất dữ liệu memory phù hợp, đồng thời giới hạn trong phạm vi của từng người dùng để đảm bảo cá nhân hóa và bảo mật.
🔹 Quản lý memory dài hạn tự động với ADK: Khi tích hợp với ADK, agent có thể tự động đọc/ghi mà không cần lập trình thủ công, giúp đơn giản hóa quá trình xây dựng agent.
Memory Bank tích hợp với Vertex AI Agent Engine Sessions để tạo ra memory từ các phiên đã được lưu trữ qua quy trình sau
CreateSession
(Khởi tạo Phiên): Một session mới được tạo ra khi cuộc hội thoại bắt đầu. Toàn bộ lịch sử tương tác giữa người dùng và agents sẽ được giới hạn trong phạm vi của session này. Mỗi session chứa một chuỗi các sự kiện (SessionEvents
) như tin nhắn của người dùng và phản hồi của agent, và phải được gắn với một ID người dùng (user_id
) để ánh xạ các memory được tạo ra.AppendEvent
(Ghi nhận Sự kiện): Các tương tác (tin nhắn, phản hồi, tool actions) được thêm vào session dưới dạng session event. Các event này tạo bản ghi chi tiết của cuộc hội thoại, làm đầu vào cho việc tạo memory.ListEvents
(Truy xuất Lịch sử): khi người dùng tương tác với agent, agent sẽ truy xuất lịch sử chat.GenerateMemories
(Tự động): Vào một khoảng thời gian nhất đinh (như cuối mỗi session hoặc mỗi lượt), Hệ thống tự động trích xuất thông tin quan trọng từ lịch sử chat để sử dụng cho các session hiện tại hoặc tương lai.
CreateMemory
(Chủ động): Agent có thể chủ động ghi một memory cụ thể trực tiếp vào Memory Bank. Phương pháp này cho phép agent kiểm soát chính xác những event được trích xuất.
RetrieveMemories
(Truy xuất Ký ức): Khi tương tác với người dùng, Agent sẽ truy xuất các memory đã lưu. Người dùng có thể truy suất tất cả các memory (simple retrieval) hoặc chỉ những memory liên quan đến cuộc trò chuyện hiện tại (similarity search retrieval). Sau đó, người dùng có thể chèn các memory đã truy suất với câu prompt.Cloud Ace - Managed Service Partner của Google Cloud