撰文 莊彙翌

最耗時的不是拍攝,而是溝通!AI 如何破解影音製作的「對焦期」痛點?


「這是一個美好的年代,任何一個人,只要有想法,就能透過 AI 工具快速生成、縮短溝通及製作成本。」創造智能科技執行長林慧珍說,整體影音製作已可達到 98% 由 AI 完成。
傳統行銷影音作品,假設成品需要一個月才能完成前期腳本發想、分鏡設計、籌組團隊拍攝、剪輯、後製配音等流程,現在團隊只要 2~3 人,就能完成以往需要 10 人以上的專案;整體成本可節省一半以上。十月科技文創(OCT AI)執行長周佳佑表示,整體而言,AI 將工時縮短至 1/20。
快速生成「可視化提案」,降低與客戶溝通落差
周佳佑說,在傳統流程中,最耗時的往往不是拍攝本身,而是前面和內部成員或外部客戶的「對焦期」。
比如腳本提案、分鏡畫面、撰寫文案,都要依靠草圖和文字解釋。即使做出成品,也有可能因為彼此的想像不同全部重來,但 AI 能將草圖轉為可視化提案。
針對想法較模糊的客戶,可以用 ChatGPT 迅速生成 10~20 個不同的腳本,讓對方從中挑選,再用 Midjourney 等工具生成影像,快速製作分鏡圖,縮短彼此理解落差。如果是對內容、分鏡有一定要求的客戶,就可以讓 AI 照著分鏡圖,做出適合的場景、人物。這時,「廣告雛形已完成 7 成,剩下只需要微調細節。」
林慧珍指出,為確保影片節奏緊湊,他們習慣用 ChatGPT 將故事拆解為每 2~3 秒一個動作,並用 Runway、Luma 等工具生成影片,這些軟體的功能相近,差別在於介面不同;她建議,每個工具都試試看,挑出和自己想法最接近的使用。
由於目前生成技術難以處理長片段,可突破限制的工具,成本也相對高,不如化限制為優勢,以短片段堆疊出高品質效果;像是生成「狗狗吹頭髮」影片時,透過多隻狗狗切換場景與動作,會比單一角色更吸睛。
現在,影音團隊需要的,是下提示詞(prompt)的能力。周佳佑建議,如果自己下提示詞的能力還不夠仔細,或不確定怎麼寫,可請 ChatGPT 生成、提出修正建議,它可以補充更多細節,像是光影效果、情緒氛圍、鏡頭角度等。即使自己沒有影像方面的專業,也都能透過對話逐漸整理出完整的提示詞。
混合多個 AI 畫面,提升影像精緻度
有了腳本與分鏡後,就進到影像生成與後製階段。林慧珍和周佳佑不約而同提到,團隊在生成圖片、影片時,會同時運用不同工具,嘗試同一鏡頭的不同版本,再挑出最符合品牌調性的效果;也會將 2 個工具生成的畫面混合,提升細節精緻度。
不過,周佳佑指出,AI 對於人物、動作來說,還是存在一些限制。畫面只有一個人,動作通常很漂亮;可是如果想像英雄片那樣 10 個人、每個人動作不一樣,畫面、解析度就容易失真。因此他建議,只要告訴它是什麼狀況就好,比起逐一指定每個角色動作更自然。
在後製階段,AI 同樣能接手大部分工作。例如,可以利用 Whisper 進行語音轉文字,再搭配 SUNO、Udio 等工具,提供想要的風格或類型,自動生成音樂,也可以提供生成的影片或影像,讓 AI 自行分析畫面搭配樂器、製造適合的氛圍。
雖然 AI 製作影音,可以減少大部分工時,但還是免不了過去最花時間的溝通過程。周佳佑建議,在每個 AI 生成階段,比如角色、場景、分鏡、音樂,都要讓客戶判斷是否符合需求,「不要一次做決定。」