moneymonday
指數/外匯
明報APP

報章內容

Sora以文字生成荷李活級短片 靠OpenAI Transformer技術令畫面逼真 遠勝現有系統

【明報專訊】繼2022年底推出以語言為主的人工智能ChatGPT後,本月中OpenAI再推出Sora,為旗下由文字生成影片的系統,並發布多條由Sora閱讀文字後生成的短片,質素幾可與現時主流荷李活電影媲美,震驚不少業界。Sora技術特點是將圖像切塊,形成合理的序列,令人工智能(AI)生成的圖像變化更流暢。除了畫面精緻外,其中一個亮點是片長最多達一分鐘,勝過市面上其他系統。目前Sora仍有瑕疵,尚未完美製造玻璃破碎等畫面,但科網界憧憬Sora會繼續發展下去,技術遲早會出現大進步。

明報記者 鄭智文

綜合報道:《紐約時報》、《時代周刊》、投資界、towards data science、TechTalks

OpenAI在其網站介紹Sora的技術及成品,當中多條影片是由AI從文本變出影片,好比將小說即刻變成電影,目前影片最長一分鐘,為坊間最長,即使物件離開鏡頭,仍不走樣。目前外界相信Sora名稱是來自日語,意思為天空。

據OpenAI介紹,Sora能產生複雜畫面,有多個角色、特定動作,還有物件及背景的準確細節,Sora的模型不止能明白用戶的要求,還可理解相關事物在物理世界中如何存在。Sora創造的物件變化確實較過往AI影片流暢得多,如Sora有段影片是兩艘海盜船在咖啡杯內搖晃,咖啡晃動如海浪,船邊也泛起白沫,影像雖是幻想,但其物理大致符合現實。

生成影片有時仍有滑稽動作

當前的影片生成模型,主要用上擴散模型(diffusion model),雖然做到不錯的影片,但有時出現滑稽的動作,看起來不連貫,容易鬧成笑話。Sora參考了ChatGPT的轉換器(transformer)技術,結合擴散模型,形成嶄新的影片生成技術,令AI影片更準確。

ChatGPT訓練大型語言模型(LLM)時,轉換器將文字切件,形成標識(tokens),並附加了一些意義,如詞義、句中位置等,組成的句子便顯得較合理,不是胡亂拼湊。Sora採用相若的原理訓練模型,處理影片時將圖像切塊,形成斑塊(patches),好比一塊塊拼圖。由於每塊拼圖附加了時間、空間的意義,轉換器令一塊塊拼圖形成合理的序列,預測圖像變化時也更準確。經此訓練,Sora影像內的物件變化也就更流暢清晰、更符合物理了。

將圖像切塊 合理序列預測圖像變化更準確

AI專家Vincent Koc在數據科學資訊平台towards data science撰文解釋,傳統影片生成模型如Pika、RunwayML等,好比跟足食譜煮菜,食譜是演算法,菜式是影片,這批廚師可能擅於烤蛋糕(短片)或煮意粉(特定影片),期間用上特定食材(數據格式)及技巧(模型架構),「另一方面,Sora是新一派的廚師,明白味道的基礎。這位廚師不止遵照食譜,他們還發明新食譜。」不過,OpenAI承認,目前Sora生成的影片未算完美,可能有些圖像不合邏輯,如混淆左右等,也不擅長捕捉物件之間的互動,未能把握複雜場景的物理,例如一個人咬了一口餅乾,但餅乾上沒有咬痕。

科技網站TechTalks創辦人Ben Dickson認為,第一代ChatGPT是建立在GPT-3之上,加上用家回饋及較好的訓練數據來改良功能,事實證明當時模型有許多未開發的潛力,可經正確訓練來發揮,最終跳躍至GPT-4,相信Sora日後也有機會大進步。特斯拉(Tesla)行政總裁馬斯克也在有關Sora的帖文留言,透過AI升級的人類,未來數年將可創作出最好的作品。

OpenAI於本月15日公布Sora,市場憧憬其技術將取代現有的圖像工具,Adobe(美:ADBE)、Shutterstock(美:SSTK)翌日股價均挫逾8%,惟在OpenAI有股份的微軟(美:MSFT)亦跌約1%。

OpenAI日後會檢查文本 倘違規將拒絕

ChatGPT推出時,已令全球憂慮其安全風險,而OpenAI短期內亦不將Sora開放予公眾,只限少數學者及研究者使用,評估技術會否被誤用,並模擬有何潛在風險,例如製作不實消息等。日後OpenAI產品會檢查文本,若發現違反OpenAI的使用政策,如極端暴力、模仿明星、侵犯版權等,產品會拒絕文本。OpenAI補充,在生成的影片呈現予用戶前,會先檢視影片是否符合使用政策。

OpenAI表示,將與全球政界、教育界、藝術界溝通,了解對方憂慮,惟OpenAI強調,當前無法預計Sora的所有用法,相信從實用中可學習,成確保AI愈來愈安全的關鍵。

[企業地球村]