Công nghệ tạo video nhờ Generative AI mang lại tiềm năng to lớn trong việc hiện thực hóa các ý tưởng, nhưng thường thiếu khả năng kiểm soát về tính nhất quán của nhân vật, chất lượng cũng như sự mạch lạc trong câu chuyện. Veo 3.1 là mô hình video mới nhất của Google, cho phép người dùng kiểm soát sâu hơn các video được tạo ra. So với phiên bản Veo 3, Veo 3.1 cải thiện đáng kể khả năng bám sát câu lệnh và chất lượng âm thanh-hình ảnh khi xử lý video từ hình ảnh gốc. Dưới đây là cách Google Cloud tối ưu khả năng của Veo 3.1 Hãy cùng Cloud Ace tìm hiểu nhé.
Veo 3.1 tích hợp khả năng xử lý âm thanh vào các tính năng hiện hữu, hỗ trợ người dùng kiến tạo những phân cảnh hoàn hảo. Google Cloud chia các tính năng của Veo 3.1 thành 2 phần chính:
Một câu prompt có cấu trúc rõ ràng sẽ cho ra kết quả nhất quán và chất lượng cao. Dưới đây là công thức 5 thành phần để kiểm soát video được tạo ra một cách tốt nhất.
Công thức: [Cinematography] + [Subject] + [Action] + [Context] + [Style & Ambiance]
Cinematography - Kỹ thuật quay: Xác định cách quay phim và bố cục cảnh quay.
Subject - Chủ đề: Xác định nhân vật chính hoặc tiêu điểm của cảnh.
Action - Hành động: Mô tả việc chủ thể đang làm
Context - Bối cảnh: Mô tả chi tiết môi trường và các yếu-tố xung quanh.
Style & Ambiance - Phong cách & không gian: Xác định tổng quan về phong cách thẩm mỹ, tâm trạng và ánh sáng của toàn cảnh (ví dụ: tươi sáng, u tối, hoài cổ).
Ví dụ gợi ý: Medium shot, a tired corporate worker, rubbing his temples in exhaustion, in front of a bulky 1980s computer in a cluttered office late at night. The scene is lit by the harsh fluorescent overhead lights and the green glow of the monochrome monitor. Retro aesthetic, shot as if on 1980s color film, slightly grainy.
[Cảnh trung, một nhân viên văn phòng mệt mỏi, đang day thái dương vì kiệt sức, ngồi trước một chiếc máy tính cồng kềnh của thập niên 1980 trong một văn phòng bừa bộn vào đêm khuya. Cảnh được chiếu sáng bởi ánh đèn huỳnh quang gay gắt trên trần và ánh sáng xanh lục le lói từ màn hình đơn sắc. Phong cách hoài cổ (retro), quay như bằng phim màu thập niên 1980, hình ảnh hơi nhiễu hạt.]
Việc nắm vững những kỹ thuật cốt lõi này sẽ giúp người dùng kiểm soát chi tiết mọi khía cạnh trong quá trình tạo ra video của mình.
Ngôn ngữ của điện ảnh: Yếu tố [Cinematography] trong câu prompt là công cụ mạnh mẽ để truyền tải sắc thái và cảm xúc.
Chuyển động máy quay: Dolly shot, tracking shot, crane shot, aerial view, slow pan, POV shot.
Ví dụ về crane shot
Prompt: Crane shot starting low on a lone hiker and ascending high above, revealing they are standing on the edge of a colossal, mist-filled canyon at sunrise, epic fantasy style, awe-inspiring, soft morning light.
[Crane shot bắt đầu từ góc thấp hướng vào một người đi bộ đường dài đơn độc và từ từ nâng lên cao, cho thấy họ đang đứng trên mép một hẻm núi khổng lồ, phủ đầy sương vào lúc bình minh, theo phong cách kỳ ảo sử thi, khung cảnh hùng vĩ choáng ngợp, ánh sáng ban mai dịu nhẹ.]
Bố cục khung hình: Wide shot (toàn cảnh), close-up (cận cảnh), extreme close-up (đặc tả), low angle (góc máy thấp), two-shot (cảnh hai người).
Shallow depth of field (độ sâu trường ảnh nông / xóa phông), wide-angle lens (ống kính góc rộng), soft focus (lấy nét mềm), macro lens (ống kính macro), deep focus (độ sâu trường ảnh sâu / mọi thứ đều rõ nét).Để tối ưu hóa khả năng kiểm soát và hiện thực hóa các ý tưởng phức tạp, người dùng có thể áp dụng quy trình làm việc đa bước bằng cách kết hợp các năng lực của Veo 3.1 và Gemini 2.5 Flash Image (Nano Banana)
Workflow: Tạo chuyển cảnh động với tính năng 'first and last frame': Kỹ thuật này cho phép tạo ra chuyển động hoặc biến đổi camera cụ thể được kiểm soát chính xác giữa 2 góc nhìn.
Bước 1: Tạo starting frame: Sử dụng Gemini 2.5 Flash Image để tạo cảnh quay đầu tiên.
Câu prompt Gemini 2.5 Flash Image: “Medium shot of a female pop star singing passionately into a vintage microphone. She is on a dark stage, lit by a single, dramatic spotlight from the front. She has her eyes closed, capturing an emotional moment. Photorealistic, cinematic.”
[Cảnh trung, một nữ ngôi sao nhạc pop đang hát vào micro cổ điển trên sân khấu tối, được chiếu sáng bởi một luồng đèn sân khấu duy nhất. Cô nhắm mắt, thể hiện khoảnh khắc cảm xúc. Phong cách chân thực, điện ảnh.]
Bước 2: Tạo khung hình kết thúc: Tạo một hình ảnh thứ hai, mang tính bổ sung bằng Gemini 2.5 Flash Image, chẳng hạn như một góc nhìn (POV) khác.
Câu prompt cho Gemini 2.5 Flash Image: "POV shot from behind the singer on stage, looking out at a large, cheering crowd. The stage lights are bright, creating lens flare. You can see the back of the singer's head and shoulders in the foreground. The audience is a sea of lights and silhouettes. Energetic atmosphere"
[Góc nhìn cá nhân (POV) từ phía sau ca sĩ trên sân khấu, nhìn ra một đám đông lớn đang reo hò cổ vũ. Ánh đèn sân khấu rực rỡ, tạo ra hiệu ứng lóa ống kính. Có thể thấy phía sau đầu và vai của ca sĩ ở tiền cảnh. Khán giả là một biển ánh sáng và những bóng người. Không khí sôi động.]
Bước 3: Tạo chuyển động với Veo Đưa cả hai hình ảnh vào Veo bằng tính năng First and Last Frame. Trong câu lệnh hãy mô tả hiệu ứng chuyển cảnh và âm thanh mong muốn.
Câu prompt cho Veo 3.1: "The camera performs a smooth 180-degree arc shot, starting with the front-facing view of the singer and circling around her to seamlessly end on the POV shot from behind her on stage. The singer sings “when you look me in the eyes, I can see a million stars."
[Máy quay thực hiện một cú máy vòng cung 180 độ mượt mà, bắt đầu từ góc nhìn chính diện ca sĩ và lướt vòng quanh cô ấy để kết thúc một cách liền mạch tại góc nhìn cá nhân (POV) từ phía sau trên sân khấu. Ca sĩ hát “when you look me in the eyes, I can see a million stars.]
Cloud Ace - Managed Service Partner của Google Cloud