【明報專訊】在4月底的中關村論壇年會未來人工智能先鋒論壇上,清華大學聯合生數科技發表了中國首個文字生成影片的大模型Vidu。清華大學教授、生數科技首席科學家朱軍表示,Vidu和OpenAI的Sora相似,能夠根據用戶提供的文字描述,而一鍵生成,直接產生解像度達到1080p的高品質短片。
Vidu能夠模擬真實物理世界,具備多鏡頭生成、時空一致性高之外,還強調特別理解中國元素,例如能夠產生熊貓、龍等短片。不過,Vidu暫時只能產生16秒長的短片,與Sora的1分鐘相比,仍然有頗大差距。
朱軍表示,Vidu的突破,源自研發團隊在貝葉斯機器學習和多模態大模型的長期累積和多項原創性成果。研發團隊早在2022年9月提出其核心技術U-ViT架構,是全球首個將Diffusion和Transformer融合的架構。而在今年2月中OpenAI發表Sora之後,團隊基於對U-ViT架構的深入理解,以及長期積累的工程和數據經驗,再進一步突破關鍵技術,顯著提升Vidu產生影片的連貫性和動態性。
朱軍又稱,將這個國產影片大模型取名Vidu,是因為其發音和Video相似,也蘊含We do的寓意,未來希望與產業鏈上下游企業、研究機構加強合作,共同推動影片大模型進展。