專題 - 灣區創新科技 - 浸大推兩AI生成影片模型分掌動作與角色降製片成本

美企OpenAI發布短片生成模型Sora後，隨即令科技及影視界驚艷。本地擁有電影學院的香港浸會大學，亦於香港國際影視展發布最新研究成果，重點介紹功能跟Sora類似的動作生成模型MotionGPT，以及虛擬化身模型BuVatar。領導研發的浸大計算機科學系助理教授陳杰提到，若把上述兩款模型結合使用，就像同時具備Sora及傳統動畫製作的優勢。

MotionGPT及BuVatar配搭使用

陳杰指出，傳統動畫電影兼顧每項細節，卻要動用大量動畫師；現時大熱的Sora模型，可根據指令生成連貫影片，惟較難精準編輯內容。至於MotionGPT及BuVatar，使用上可謂相輔相成。MotionGPT專注動作生成，BuVatar可用於創作虛擬角色。以前者驅動後者，或能為影視業及相關學系學生，提供一種低預算的製片解決方案。

採拉班舞譜助LLM理解

人類運動時姿勢極為複雜，陳杰表示，這正是MotionGPT採用「拉班舞譜」（Labanotation）這一動作統計方式的原因。「拉班舞譜」歷史悠久，當中涉及解剖學、數學及力學等多種科學理論知識，用符號精確記錄人體的運動姿態、空間關係、動作節奏，甚至所用力量。

陳杰續解釋，把動作編排成符號，相當於字典的一個個字詞，大型語言模型（LLM）可透過這本「字典」，理解用戶想生成的動作。此外，MotionGPT亦能分析用戶所提供的音樂，讓三維模型隨意發揮（Freestyle）一段風格相近的舞蹈。

至於BuVatar的亮點，在於透過自然語言及視覺引導（Visual Prompts），例如提供一張類似效果的相片。可為MotionGPT生成的粗糙模型，添上生動細緻的外觀。陳杰又說，傳統電腦圖學三維模型，採用光線追蹤方式，透過模擬光線在真實場景的折射、反射等生成模型，過程繁瑣且耗費大量算力資源。

頭髮衣物處理勝電腦繪圖

BuVatar基於擴散渲染引擎，不僅能根據用戶需求，穩定地生成高精度模型，其頭髮、衣物褶皺等處理能力，亦遠勝傳統電腦繪圖。談及兩款模型研發成本，陳杰透露人力資源佔比最多。一個模型大約要兩位博士學生，投入4年時間方能完成；團隊近期亦成立初創「影蹤藝術科技」，希望方案獲業界採用。

採訪、撰文：周泳彤

浸大推兩AI生成影片模型分掌動作與角色 降製片成本

浸大推兩AI生成影片模型
分掌動作與角色降製片成本