Asset 15

Nâng Cao Bảo Mật Mô Hình Gemini Hiệu Quả

Asset 15

Khi ngày càng nhiều các doanh nghiệp triển khai chatbot và trợ lý GenAI, việc bảo vệ mô hình AI khỏi các tác nhân xấu cố tình khai thác để tạo nội dung độc hại là điều rất quan trọng. Vertex AI cung cấp hai công cụ mạnh mẽ để kiểm soát rủi ro này: Content Filter (bộ lọc nội dung) và system instructions (hướng dẫn hệ thống).  Bài viết dưới đây là cách Google Cloud hướng dẫn cách sử dụng 2 công cụ trên để đảm bảo các tương tác luôn an toàn, nhất quán và đáng tin cậy. Hãy cùng Cloud Ace tìm hiểu nhé.

 

Content filters: Post-response defenses

Content Filter (Bộ lọc nội dung) giúp ngăn chặn nội dung độc hại bằng cách phân tích văn bản được tạo ra và chặn các phản hồi vi phạm tiêu chí nhất định. Chúng hoạt động độc lập với các mô hình Gemini và là một phần trong hệ thống bảo vệ nhiều lớp nhằm ngăn chặn các hành vi cố tình vượt qua cơ chế kiểm soát của mô hình. Các mô hình Gemini trên Vertex AI áp dụng hai loại bộ lọc sau:

  • 🔹 Bộ lọc an toàn mặc định: Tự động chặn các đầu ra chứa nội dung bị cấm, bao gồm tài liệu lạm dụng tình dục trẻ em (CSAM) và thông tin nhận dạng cá nhân (PII).
  • 🔹 Bộ lọc nội dung tùy chỉnh: Cho phép điều chỉnh ngưỡng chặn cho bốn loại nội dung gây hại (phát ngôn thù ghét, quấy rối, nội dung khiêu dâm và nội dung nguy hiểm) dựa trên điểm xác suất và mức độ nghiêm trọng. Các bộ lọc này mặc định bị tắt, nhưng bạn có thể bật và điều chỉnh theo nhu cầu. 

Lưu ý: Tương tự như các hệ thống tự động khác, các bộ lọc này đôi khi có thể tạo ra các kết quả sai lệch, vô tình gắn cờ những nội dung vô hại. Điều này có thể ảnh hưởng đến trải nghiệm người dùng, đặc biệt trong các tình huống hội thoại. Vì vậy, system instructions - hướng dẫn hệ thống (bên dưới) có thể giúp giảm bớt một số hạn chế này.

System instructions: Proactive model steering for custom safety

System Instruction (Hướng dẫn hệ thống) cung cấp chỉ dẫn trực tiếp cho mô hình về cách hoạt động và loại nội dung cần tạo. Bằng cách thiết lập hướng dẫn cụ thể, người dùng có thể chủ động ngăn mô hình tạo ra nội dung không mong muốn, đảm bảo phù hợp với nhu cầu doanh nghiệp. Người dùng có thể sử dụng hướng dẫn hệ thống để:

  • Xác định các nguyên tắc an toàn: như chủ đề bị cấm, nội dung nhạy cảm và ngôn ngữ từ chối trách nhiệm.
  • Thiết lập nguyên tắc an toàn thương hiệu, giúp mô hình tạo nội dung phù hợp với giọng điệu, giá trị và đối tượng mục tiêu của thương hiệu.

🔹 Lợi ích:

  • Tùy chỉnh chi tiết: xác định cụ thể các nội dung cần tránh thay vì bị giới hạn trong một số danh mục cố định.
  • Chỉ dẫn rõ ràng, có định hướng: Thay vì chỉ yêu cầu “tránh nội dung khỏa thân”, người dùng có thể định nghĩa cụ thể khái niệm này trong bối cảnh văn hóa của mình và quy định những ngoại lệ được chấp nhận.
  • Dễ dàng điều chỉnh theo nhu cầu: Nếu hướng dẫn “tránh nội dung nguy hiểm” khiến mô hình quá thận trọng hoặc hạn chế nhiều chủ đề hơn mong muốn, người dùng có thể điều chỉnh thành “không tạo nội dung bạo lực” hoặc “tránh thảo luận về việc sử dụng ma túy trái phép.”

🔹 Hạn chế:

  • Dễ bị khai thác: Có thể chịu ảnh hưởng từ các kỹ thuật tấn công phức tạp như zero-shot jailbreak.
  • Quá thận trọng với chủ đề nhạy cảm: Có thể khiến mô hình hạn chế nội dung quá mức, ngay cả khi không cần thiết.
  • Ảnh hưởng đến chất lượng đầu ra: Trong một số trường hợp, hướng dẫn quá phức tạp có thể làm giảm chất lượng nội dung tổng thể.

Vì vậy, doanh nghiệp nên kết hợp cả bộ lọc nội dung và hướng dẫn hệ thống để đạt hiệu quả bảo vệ tối ưu

Cloud Ace - Managed Service Partner của Google Cloud

  • Trụ sở: Tòa Nhà H3, Lầu 1, 384 Hoàng Diệu, Phường 6, Quận 4, TP. HCM.
  • Văn phòng đại diện: Tầng 2, 25t2 Hoàng Đạo Thúy, Phường Trung Hoà, Quận Cầu Giấy, Thành phố Hà Nội.
  • Email: sales.vn@cloud-ace.com
  • Hotline: 028 6686 3323
  • Website: https://cloud-ace.vn/

Tin tức liên quan

Shopping Basket
en_USEnglish