Asset 15

Cách Google Cloud Tối Ưu Khả Năng Veo 3.1

Asset 15

Công nghệ tạo video nhờ Generative AI mang lại tiềm năng to lớn trong việc hiện thực hóa các ý tưởng, nhưng thường thiếu khả năng kiểm soát về tính nhất quán của nhân vật, chất lượng cũng như sự mạch lạc trong câu chuyện. Veo 3.1 là mô hình video mới nhất của Google, cho phép người dùng kiểm soát sâu hơn các video được tạo ra. So với phiên bản Veo 3, Veo 3.1 cải thiện đáng kể khả năng bám sát câu lệnh và chất lượng âm thanh-hình ảnh khi xử lý video từ hình ảnh gốc. Dưới đây là cách Google Cloud tối ưu khả năng của Veo 3.1 Hãy cùng Cloud Ace tìm hiểu nhé.

Các Khả Năng Của Mô Hình Veo 3.1

Veo 3.1 tích hợp khả năng xử lý âm thanh vào các tính năng hiện hữu, hỗ trợ người dùng kiến tạo những phân cảnh hoàn hảo. Google Cloud chia các tính năng của Veo 3.1 thành 2 phần chính:

Các tính năng cốt lõi

  • Video chất lượng cao: tạo video có độ phân giải 720p hoặc 1080p.
  • Tỷ lệ khung hình: 16:9 hoặc 9:16.
  • Thời lượng clip: Tạo các clip có độ dài 4, 6 hoặc 8 giây linh hoạt.
  • Âm thanh và hội thoại phong phú: Veo 3.1 vượt trội trong việc tạo ra âm thanh chân thực và đồng bộ, từ các cuộc hội thoại nhiều người cho đến các hiệu ứng âm thanh được định thời gian chính xác, dựa trên chỉ dẫn từ câu prompt.
  • Khả năng thấu hiểu các phân cảnh phức tạp: Mô hình có sự am hiểu sâu sắc về cấu trúc tường thuật và phong cách điện ảnh, cho phép Veo 3.1 khắc họa tốt hơn các tương tác giữa nhân vật và theo dõi các gợi ý câu chuyện.

Các tính năng kiểm soát nâng cao

  • Cải thiện khả năng chuyển ảnh thành video: tạo chuyển động cho ảnh gốc nhanh hơn và cải thiện chất lượng âm thanh hình ảnh
  • Duy trì yếu tố nhất quán với các "ingredients to video": Cung cấp hình ảnh để tham chiếu về bối cảnh, nhân vật, vật thể hoặc phong cách để duy trì tính nhất quán qua nhiều phân cảnh. Tính năng này hiện đã bao gồm cả việc tạo âm thanh.
  • Chuyển cảnh mượt với "first and last frame": Tạo một đoạn chuyển cảnh video tự nhiên giữa hình ảnh bắt đầu và hình ảnh kết thúc được cung cấp, đi kèm âm thanh hoàn chỉnh.
  • Thêm/Xóa vật thể: Thêm hoặc xóa bỏ vật thể khỏi một video đã được tạo mà vẫn giữ nguyên bố cục ban đầu của phân cảnh.
  • Digital watermarking: Tất cả video được tạo ra đều được đánh dấu SynthID để xác định nội dung do AI tạo ra.

Công thức cho câu prompt hiệu quả

Một câu prompt có cấu trúc rõ ràng sẽ cho ra kết quả nhất quán và chất lượng cao. Dưới đây là công thức 5 thành phần để kiểm soát video được tạo ra một cách tốt nhất.

Công thức: [Cinematography] + [Subject] + [Action] + [Context] + [Style & Ambiance]

  • Cinematography - Kỹ thuật quay: Xác định cách quay phim và bố cục cảnh quay.

  • Subject - Chủ đề:c định nhân vật chính hoặc tiêu điểm của cảnh.

  • Action - Hành động: Mô tả việc chủ thể đang làm

  • Context - Bối cảnh: Mô tả chi tiết môi trường và các yếu-tố xung quanh.

  • Style & Ambiance - Phong cách & không gian: Xác định tổng quan về phong cách thẩm mỹ, tâm trạng và ánh sáng của toàn cảnh (ví dụ: tươi sáng, u tối, hoài cổ).

Ví dụ gợi ý: Medium shot, a tired corporate worker, rubbing his temples in exhaustion, in front of a bulky 1980s computer in a cluttered office late at night. The scene is lit by the harsh fluorescent overhead lights and the green glow of the monochrome monitor. Retro aesthetic, shot as if on 1980s color film, slightly grainy.

[Cảnh trung, một nhân viên văn phòng mệt mỏi, đang day thái dương vì kiệt sức, ngồi trước một chiếc máy tính cồng kềnh của thập niên 1980 trong một văn phòng bừa bộn vào đêm khuya. Cảnh được chiếu sáng bởi ánh đèn huỳnh quang gay gắt trên trần và ánh sáng xanh lục le lói từ màn hình đơn sắc. Phong cách hoài cổ (retro), quay như bằng phim màu thập niên 1980, hình ảnh hơi nhiễu hạt.]

Kỹ thuật prompt thiết yếu

Việc nắm vững những kỹ thuật cốt lõi này sẽ giúp người dùng kiểm soát chi tiết mọi khía cạnh trong quá trình tạo ra video của mình.

Ngôn ngữ của điện ảnh: Yếu tố [Cinematography] trong câu prompt là công cụ mạnh mẽ để truyền tải sắc thái và cảm xúc.

  • Chuyển động máy quay: Dolly shot, tracking shot, crane shot, aerial view, slow pan, POV shot.

Ví dụ về crane shot 

Prompt: Crane shot starting low on a lone hiker and ascending high above, revealing they are standing on the edge of a colossal, mist-filled canyon at sunrise, epic fantasy style, awe-inspiring, soft morning light.

[Crane shot bắt đầu từ góc thấp hướng vào một người đi bộ đường dài đơn độc và từ từ nâng lên cao, cho thấy họ đang đứng trên mép một hẻm núi khổng lồ, phủ đầy sương vào lúc bình minh, theo phong cách kỳ ảo sử thi, khung cảnh hùng vĩ choáng ngợp, ánh sáng ban mai dịu nhẹ.]

  • Bố cục khung hình: Wide shot (toàn cảnh), close-up (cận cảnh), extreme close-up (đặc tả), low angle (góc máy thấp), two-shot (cảnh hai người).

  • Ống kính và lấy nét: Shallow depth of field (độ sâu trường ảnh nông / xóa phông), wide-angle lens (ống kính góc rộng), soft focus (lấy nét mềm), macro lens (ống kính macro), deep focus (độ sâu trường ảnh sâu / mọi thứ đều rõ nét).

Nâng cao quy trình sáng tạo

Để tối ưu hóa khả năng kiểm soát và hiện thực hóa các ý tưởng phức tạp, người dùng có thể áp dụng quy trình làm việc đa bước bằng cách kết hợp các năng lực của Veo 3.1 và Gemini 2.5 Flash Image (Nano Banana)

Workflow: Tạo chuyển cảnh động với tính năng 'first and last frame': Kỹ thuật này cho phép tạo ra chuyển động hoặc biến đổi camera cụ thể được kiểm soát chính xác giữa 2 góc nhìn.

Bước 1: Tạo starting frame: Sử dụng Gemini 2.5 Flash Image để tạo cảnh quay đầu tiên. 

Câu prompt Gemini 2.5 Flash Image: “Medium shot of a female pop star singing passionately into a vintage microphone. She is on a dark stage, lit by a single, dramatic spotlight from the front. She has her eyes closed, capturing an emotional moment. Photorealistic, cinematic.”

[Cảnh trung, một nữ ngôi sao nhạc pop đang hát vào micro cổ điển trên sân khấu tối, được chiếu sáng bởi một luồng đèn sân khấu duy nhất. Cô nhắm mắt, thể hiện khoảnh khắc cảm xúc. Phong cách chân thực, điện ảnh.]

4_k5TSJwO.max-1400x1400

Bước 2: Tạo khung hình kết thúc: Tạo một hình ảnh thứ hai, mang tính bổ sung bằng Gemini 2.5 Flash Image, chẳng hạn như một góc nhìn (POV) khác.

Câu prompt cho Gemini 2.5 Flash Image: "POV shot from behind the singer on stage, looking out at a large, cheering crowd. The stage lights are bright, creating lens flare. You can see the back of the singer's head and shoulders in the foreground. The audience is a sea of lights and silhouettes. Energetic atmosphere"

[Góc nhìn cá nhân (POV) từ phía sau ca sĩ trên sân khấu, nhìn ra một đám đông lớn đang reo hò cổ vũ. Ánh đèn sân khấu rực rỡ, tạo ra hiệu ứng lóa ống kính. Có thể thấy phía sau đầu và vai của ca sĩ ở tiền cảnh. Khán giả là một biển ánh sáng và những bóng người. Không khí sôi động.]

5_hJExmgF.max-1100x1100

Bước 3: Tạo chuyển động với Veo Đưa cả hai hình ảnh vào Veo bằng tính năng First and Last Frame. Trong câu lệnh hãy mô tả hiệu ứng chuyển cảnh và âm thanh mong muốn.

Câu prompt cho Veo 3.1: "The camera performs a smooth 180-degree arc shot, starting with the front-facing view of the singer and circling around her to seamlessly end on the POV shot from behind her on stage. The singer sings “when you look me in the eyes, I can see a million stars."

[Máy quay thực hiện một cú máy vòng cung 180 độ mượt mà, bắt đầu từ góc nhìn chính diện ca sĩ và lướt vòng quanh cô ấy để kết thúc một cách liền mạch tại góc nhìn cá nhân (POV) từ phía sau trên sân khấu. Ca sĩ hát “when you look me in the eyes, I can see a million stars.]

Cloud Ace - Managed Service Partner của Google Cloud

  • Trụ sở: Tòa Nhà H3, Lầu 1, 384 Hoàng Diệu, Phường Khánh Hội, TP. HCM.
  • Văn phòng đại diện: Tầng 2, 25t2 Hoàng Đạo Thúy, Phường Yên Hòa, Thành phố Hà Nội.
  • Email: sales.vn@cloud-ace.com
  • Hotline: 028 6686 3323
  • Website: https://cloud-ace.vn/

Tin tức liên quan

Shopping Basket
en_USEnglish