Sora的最強(qiáng)競(jìng)爭(zhēng)對(duì)手,來(lái)自中國(guó)
今年2月發(fā)布的Sora,先是引得業(yè)界“哇聲一片”,馬斯克直接表態(tài)「人類愿賭服輸」;周鴻祎說(shuō)借助Sora人類實(shí)現(xiàn)AGI將縮減至一兩年。
大佬的彩虹屁不是白吹的。利用Diffusion+Transformer架構(gòu),Sora借助圖像處理、空間關(guān)系、物理規(guī)律、因果邏輯等規(guī)律與知識(shí),在十幾秒、幾十秒的視頻中完成對(duì)現(xiàn)實(shí)世界的解構(gòu)與再造。
但沒(méi)過(guò)多久人們就發(fā)現(xiàn),再多的“哇聲一片”也改變不了Sora算法閉源的事實(shí),意味著它無(wú)法復(fù)現(xiàn)。留給外界的是一道單選題:要么加入,要么自研。
1
變局
在Sora發(fā)布后兩個(gè)月,大洋彼岸突然有一家初創(chuàng)公司,與清華大學(xué)聯(lián)手,推出了一款號(hào)稱“繼Sora后首個(gè)完成突破的視頻大模型”——Vidu。
這是中國(guó)首個(gè)長(zhǎng)時(shí)長(zhǎng)、高一致性、高動(dòng)態(tài)性的視頻大模型。在官方介紹中,Vidu采用原創(chuàng)U-ViT架構(gòu),結(jié)合Difusion與Transformer技術(shù),能夠一鍵生成長(zhǎng)達(dá)16秒、1080P分辨率的高清視頻。
在對(duì)標(biāo)Sora的性能指標(biāo)里,Vidu也只有在時(shí)長(zhǎng)和圖/視頻生視頻上不敵。按照業(yè)內(nèi)的評(píng)價(jià),Vidu性能直接對(duì)標(biāo)國(guó)際頂尖水平,并在加速迭代提升中。
從Vidu放出的官方視頻來(lái)看,它幾乎展示了視頻大模型需具備的所有核心能力:多鏡頭生成、模擬真實(shí)世界、保持時(shí)空一致性、豐富的想象力,以及讓老外難以搞懂的中國(guó)元素。
作為“鏡頭語(yǔ)言”,多鏡頭生成是視頻大模型的一堂必修課,F(xiàn)有的AI生成視頻,大多都只包含了輕微幅度的推、拉、移等簡(jiǎn)單鏡頭,鏡頭語(yǔ)言單調(diào)而且也沒(méi)什么敘事感,這是硬傷。
究其原因,是因?yàn)楝F(xiàn)有視頻內(nèi)容沿用的技術(shù)路徑大多通過(guò)圖片的插幀和拼接而成,無(wú)法完成長(zhǎng)時(shí)序的連貫預(yù)測(cè)。
Vidu似乎沒(méi)有上述問(wèn)題,不僅能夠圍繞統(tǒng)一主體在一段畫面里實(shí)現(xiàn)遠(yuǎn)、中、近景、特寫等多樣化鏡頭切換,還能直接生成轉(zhuǎn)場(chǎng)、追焦、長(zhǎng)鏡頭等效果,包括能夠生成影視級(jí)的鏡頭畫面。
AI視頻生成的另一個(gè)難題是,較難突破畫面時(shí)空一致性與場(chǎng)景。什么是畫面時(shí)空一致性,翻譯過(guò)來(lái)就是在沒(méi)有任何轉(zhuǎn)場(chǎng)的情況下不能突變。一個(gè)典型的例子就是某些大模型的視頻中,一只貓走著走著就變成了6只腳。
Vidu在一定程度上也克服了這個(gè)問(wèn)題,起碼從它生成的一段“帶珍珠耳環(huán)的貓”的視頻中可以看到,隨著鏡頭的移動(dòng),作為畫面主體的貓?jiān)?D空間下能夠一直保持服飾、表情、模態(tài)的一致,視頻整體看上去非常的連貫、統(tǒng)一和流暢。
模擬真實(shí)物理世界運(yùn)動(dòng)同樣是視頻大模型的核心,Vidu在對(duì)外放出的展示視頻中,有一段明顯是瞄著Sora打:模擬“一輛老式SUV行駛在山坡上”,Vidu的表現(xiàn)堪稱完美,灰塵、光影、背景等細(xì)節(jié)與真實(shí)世界中人類的感知幾乎無(wú)差。
在對(duì)不存在的超現(xiàn)實(shí)主義畫面解構(gòu)上,Vidu也能做到“合理的奇幻”。例如,“帆船”、“海浪”能夠合理地出現(xiàn)在畫室里,而且海浪與帆船的整體交互背景非常恰當(dāng)自然。
當(dāng)然,作為本土團(tuán)隊(duì)開(kāi)發(fā)的視頻大模型,Vidu對(duì)中國(guó)元素的理解遠(yuǎn)超那些舶來(lái)品,比如熊貓、龍、宮殿場(chǎng)景等。
德邦證券在一份研報(bào)中給予了Vidu高度評(píng)價(jià):
雖然在視頻時(shí)長(zhǎng)、視頻效果、支持模態(tài)多樣性等方面相比Sora仍有提升空間,但是在以鏡頭語(yǔ)言為代表的動(dòng)態(tài)性,以及對(duì)物理世界規(guī)律的理解與模擬能力等方面已做到了Sora相近水平。
最后還不忘給Vidu貼上一個(gè)鯰魚(yú)標(biāo)簽,意思是它或?qū)⒓?lì)國(guó)產(chǎn)多模態(tài)大模型突破創(chuàng)新。那么問(wèn)題來(lái)了,憑什么是Vidu?
2
U-ViT架構(gòu)
Vidu背后的生數(shù)科技,并不是一家名不見(jiàn)經(jīng)傳的初創(chuàng)企業(yè)。
OpenAI曾披露過(guò)一份技術(shù)報(bào)告,顯示Sora的核心技術(shù)架構(gòu)源自一篇名為《Scalable Diffusion Models with Transformers》的論文,論文提出了一個(gè)將 Diffusion(擴(kuò)散模型)和 Transformer融合的架構(gòu)——DiT,也就是后面被Sora采用的那個(gè)。
而在DiT提出前兩個(gè)月,清華團(tuán)隊(duì)就提出了用Transformer替代基于CNN的U-Net的網(wǎng)絡(luò)架構(gòu)U-ViT,也就是Vidu采用的那個(gè)。甚至,據(jù)極客公園報(bào)道,因?yàn)閁-ViT更早發(fā)布,計(jì)算機(jī)視覺(jué)頂會(huì)CVPR 2023收錄了清華大學(xué)的U-ViT論文,卻以「缺乏創(chuàng)新」為由拒稿了Sora底層使用的DiT論文。
生數(shù)科技的核心團(tuán)隊(duì)就源于清華大學(xué)該論文團(tuán)隊(duì),CTO鮑凡正是該篇論文的一作。嚴(yán)格意義說(shuō),Vidu并不是“國(guó)產(chǎn)Sora”,而是一棵樹(shù)上的兩朵花。
之所Vidu能在兩個(gè)月內(nèi)快速突破16s流暢視頻生成,核心就在于團(tuán)隊(duì)對(duì)U-ViT架構(gòu)的深入理解以及長(zhǎng)期積累的工程與數(shù)據(jù)經(jīng)驗(yàn)。而且據(jù)透露,3月份內(nèi)部就實(shí)現(xiàn)了8秒的視頻生成,緊接著4月份就突破了16s生成。
簡(jiǎn)單來(lái)說(shuō),在架構(gòu)上U-ViT也是Diffusion和Transformer融合的架構(gòu),路徑以及部分結(jié)論都是相似的。
Vidu自研技術(shù)架構(gòu)U-ViT
U-ViT與DiT二者均提出了將Transformer與擴(kuò)散模型融合的思路,即以Transformer的網(wǎng)絡(luò)架構(gòu)替代基于CNN的U-Net架構(gòu),并且具體的實(shí)驗(yàn)路徑也是一致的。比如,二者采用了相同的patch embedding、patch size;二者得出了同樣的結(jié)論:patch size為2*2是最理想的。
不同于采用插幀等處理長(zhǎng)視頻的方法,U-ViT架構(gòu)在感官上注重“一鏡到底”,視頻質(zhì)量更為連貫與自然。從底層來(lái)看,這是一種“一步到位”的實(shí)現(xiàn)方法,基于單一模型完全端到端生成,不涉及中間的插幀和其他多步驟的處理,文本到視頻的轉(zhuǎn)換是直接且連續(xù)的。
有了理論支撐,就要考研團(tuán)隊(duì)的工程化能力了。所謂工程化,抽象點(diǎn)說(shuō)就是增強(qiáng)產(chǎn)品的架構(gòu)設(shè)計(jì),提升產(chǎn)品模塊的復(fù)用性和擴(kuò)展性。
2023年3月,基于U-ViT架構(gòu),生數(shù)科技團(tuán)隊(duì)開(kāi)源了全球首個(gè)基于U-ViT融合架構(gòu)的多模態(tài)擴(kuò)散模型UniDiffuser,率先完成了U-ViT架構(gòu)的大規(guī)?蓴U(kuò)展性驗(yàn)證,比同樣DiT架構(gòu)的Stable Diffusion 3領(lǐng)先了一年。
UniDiffuser是在大規(guī)模圖文數(shù)據(jù)集LAION-5B上訓(xùn)練出的近10億參數(shù)量模型,支持圖文模態(tài)間的任意生成和轉(zhuǎn)換,具有較強(qiáng)的擴(kuò)展性。簡(jiǎn)單來(lái)講,除了單向的文生圖,還能實(shí)現(xiàn)圖生文、圖文聯(lián)合生成、無(wú)條件圖文生成、圖文改寫等多種功能。
視頻本質(zhì)是圖片的集合,實(shí)現(xiàn)圖像在時(shí)間維度的擴(kuò)增,這使得圖文任務(wù)取得的成果往往可以在視頻領(lǐng)域復(fù)用。
例如,Sora采用了DALL?E 3的重標(biāo)注技術(shù),通過(guò)為視覺(jué)訓(xùn)練數(shù)據(jù)生成詳細(xì)的描述,使模型能夠更加準(zhǔn)確地遵循用戶的文本指令生成視頻。Vidu同樣復(fù)用了生數(shù)科技在圖文領(lǐng)域的眾多經(jīng)驗(yàn),靠的就是扎實(shí)的工程化能力。
根據(jù)甲子光年,生數(shù)科技團(tuán)隊(duì)通過(guò)視頻數(shù)據(jù)壓縮技術(shù)降低輸入數(shù)據(jù)的序列維度,同時(shí)采用自研的分布式訓(xùn)練框架,在保證計(jì)算精度的同時(shí),通信效率提升1倍,顯存開(kāi)銷降低80%,訓(xùn)練速度累計(jì)提升40倍。
目前,Vidu仍在加速迭代,未來(lái)將從圖任務(wù)的統(tǒng)一到融合視頻能力持續(xù)升級(jí),靈活的模型架構(gòu)也將能夠兼容更廣泛的多模態(tài)能力。
3
加速向應(yīng)用端延伸
以O(shè)pen AI與Google為代表的科技巨頭,正在海外掀起一場(chǎng)多模態(tài)“軍備競(jìng)賽”,而最大的目標(biāo)之一正是視頻領(lǐng)域的加速迭代。
先是OpenAI CEO年初密集“劇透”GPT-5,相比GPT-4實(shí)現(xiàn)全面升級(jí),其中將支持文本、圖像、代碼和視頻功能,或?qū)?shí)現(xiàn)真正的多模態(tài)。緊接著就是2月發(fā)布的Sora,能夠根據(jù)文本指令或靜態(tài)圖像生成1分鐘的視頻。
Google也不遑多讓,推出的原生多模態(tài)大模型Gemini可泛化并無(wú)縫地理解、操作和組合不同類別的信息。而2月推出的Gemini 1.5 Pro,則使用MoE架構(gòu)首破100萬(wàn)極限上下文紀(jì)錄,可單次處理包括1小時(shí)的視頻、11小時(shí)的音頻、超過(guò)3萬(wàn)行代碼或超過(guò)70萬(wàn)個(gè)單詞的代碼庫(kù)。
國(guó)內(nèi)也不甘人后,除生數(shù)科技發(fā)布Vidu外,潞晨科技對(duì)其開(kāi)源文生視頻模型Open-Sora 進(jìn)行了大更新,現(xiàn)在可生成16秒,分辨率720P的視頻。同時(shí)具備可以處理任何寬高比的文本到圖像、文本到視頻、圖像到視頻、視頻到視頻和無(wú)限長(zhǎng)視頻的多模態(tài)功能,性能加速向Sora靠齊。
而國(guó)內(nèi)外瘋狂押注的底層邏輯是,多模態(tài)提升了大模型的泛化能力,在多元信息環(huán)境下實(shí)現(xiàn)了“多專多能”。多模態(tài)尤其是視頻大模型的成熟成為奠定AIGC應(yīng)用普及的基礎(chǔ),在垂直領(lǐng)域具有廣闊的應(yīng)用場(chǎng)景和市場(chǎng)價(jià)值。
比如上個(gè)月Adobe就宣布,將Sora、Pika、Runway等集成在視頻剪輯軟件Premiere Pro中。在發(fā)布短片中,Premiere Pro展現(xiàn)出了在視頻中添加物體、消除物體以及生成視頻片段等能力。
通過(guò)AI驅(qū)動(dòng)的音頻功能已普遍可用,可使音頻的編輯更快、更輕松、更直觀。而AI驅(qū)動(dòng)的視頻功能,將是多模態(tài)大模型在AIGC應(yīng)用融合中的重要嘗試,更深層的意義是,它或?qū)⒋呱磥?lái)更多現(xiàn)象級(jí)應(yīng)用的開(kāi)發(fā)。
免責(zé)聲明:本文基于已公開(kāi)的資料信息或受訪人提供的信息撰寫,但解碼Decode及文章作者不保證該等信息資料的完整性、準(zhǔn)確性。在任何情況下,本文中的信息或所表述的意見(jiàn)均不構(gòu)成對(duì)任何人的投資建議。
原文標(biāo)題 : Sora的最強(qiáng)競(jìng)爭(zhēng)對(duì)手,來(lái)自中國(guó)
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-12.26立即報(bào)名>>> 【在線會(huì)議】村田用于AR/VR設(shè)計(jì)開(kāi)發(fā)解決方案
-
1月8日火熱報(bào)名中>> Allegro助力汽車電氣化和底盤解決方案優(yōu)化在線研討會(huì)
-
即日-1.14火熱報(bào)名中>> OFweek2025中國(guó)智造CIO在線峰會(huì)
-
即日-1.24立即參與>>> 【限時(shí)免費(fèi)】安森美:Treo 平臺(tái)帶來(lái)出色的精密模擬
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
-
精彩回顧立即查看>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專題
-
2
- 1 人形機(jī)器人核心零部件,誰(shuí)是盈利最強(qiáng)企業(yè)?
- 2 AI Agent現(xiàn)狀如何?聊聊近期國(guó)內(nèi)的智能體市場(chǎng)動(dòng)向
- 3 5nm重大突破,研祥智能助力半導(dǎo)體企業(yè)高效發(fā)展!
- 4 人形機(jī)器人引爆“PEEK材料”!概念股梳理(名單)
- 5 馬云沒(méi)回牌桌,但重注全壓在了
- 6 7 豆包AI登頂國(guó)內(nèi)第一!概念股梳理(名單)
- 8 押注AI王者歸來(lái),歌爾股份“智能體”在下一盤“大棋”
- 9 AI超級(jí)應(yīng)用什么時(shí)候才能出現(xiàn)?
- 10 英偉達(dá)迎來(lái)當(dāng)頭一棒
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容