踢開(kāi)AGI大門(mén)!Sora會(huì)讓世界成為“太虛幻境”嗎?
就在前幾天,OpenAI發(fā)布了文生視頻工具Sora,盡管這并非行業(yè)首創(chuàng),但作為AGI的“開(kāi)宗立派”者的旗艦產(chǎn)品,Sora依然震撼了科技產(chǎn)業(yè)。除了引爆科技圈熱議外,媒體、文娛等等相關(guān)產(chǎn)業(yè)均對(duì)Sora高度關(guān)注,更有消息稱(chēng)“開(kāi)工第一天,所有VC都在開(kāi)會(huì)討論Sora”。
Sora從技術(shù)上迎來(lái)了全面革新,比如說(shuō),它能實(shí)現(xiàn)長(zhǎng)達(dá)1分鐘的視頻內(nèi)容創(chuàng)作,也能根據(jù)需要制作長(zhǎng)鏡頭內(nèi)容,還能根據(jù)不同角色的情感給出不同的鏡頭語(yǔ)言。如果最終發(fā)布的產(chǎn)品的能力,真如視頻Demo這般強(qiáng)大,Sora將對(duì)流水線制作模式的影視團(tuán)隊(duì)帶來(lái)一些沖擊。
馬斯克也在個(gè)人社交平臺(tái)當(dāng)中銳評(píng)道:“gg humans(人類(lèi)愿賭服輸)”。
(圖源:X)
不過(guò),Sora仍在測(cè)試階段,距離其真正投入使用還有一段時(shí)間。鑒于AIGC行業(yè)存在“Demo過(guò)度”的情況(比如Google Gemini發(fā)布會(huì)的演示就被揭露造假了),因此Sora發(fā)布版到底表現(xiàn)如何還有待體驗(yàn)。至于Sora能否真正引發(fā)行業(yè)變革甚至像一些媒體危言聳聽(tīng)宣稱(chēng)的“顛覆世界,消滅XX”,其實(shí)也還是未知數(shù)。
史上最強(qiáng)AI視頻工具,到底有何突破?
Sora的最大突破在于能夠根據(jù)文本描述生成一段長(zhǎng)達(dá)60秒的視頻內(nèi)容,此前,世界記錄的保持者為Runway的Gen-2,最高能創(chuàng)作時(shí)長(zhǎng)為16秒的視頻。但Sora并不是一個(gè)純粹的視頻生成工具。
(圖源:Sora)
在OpenAI公開(kāi)的技術(shù)性報(bào)告中,Sora的真實(shí)身份被揭曉:底層是一個(gè)擴(kuò)散Transformer模型,相較于傳統(tǒng)的基于二維模型的文生視頻產(chǎn)品而言,Sora具有對(duì)現(xiàn)實(shí)世界物理規(guī)律的感知,對(duì)于如何生成一段「逼真」的視頻,有深刻的自主意識(shí)。
OpenAI在Sora的官方網(wǎng)站中放出了多條演示視頻,其中一段兩只海盜船在咖啡杯中翻涌的視頻,展現(xiàn)出Sora對(duì)液體的狀態(tài)、船只的物理形態(tài)、運(yùn)動(dòng)軌跡的判斷多維度的理解。
(圖源:Sora)
此外,Sora還能產(chǎn)生多個(gè)角色、特定類(lèi)型運(yùn)動(dòng)以及主體背景豐富細(xì)節(jié)等多種復(fù)雜場(chǎng)景的視頻,即便用戶沒(méi)有描述這些特定場(chǎng)景的細(xì)節(jié),Sora依然能夠理解并準(zhǔn)確生成。比如說(shuō),當(dāng)你需要一個(gè)描述為「晚宴」的視頻內(nèi)容時(shí),Sora并不會(huì)止步于饕客們將美食一掃而光的過(guò)程與結(jié)果,而是會(huì)將每一個(gè)動(dòng)作所留下來(lái)的痕跡得以保留:咬了一口的漢堡,就會(huì)有咬過(guò)的痕跡。
事實(shí)上,Sora的成功離不開(kāi)OpenAI公司前兩款產(chǎn)品的經(jīng)驗(yàn)積累,那就是2021年初、2022年末分別推出的圖像生成工具DALL.E與自然語(yǔ)言大模型工具ChatGPT,通過(guò)它們,Sora獲得了對(duì)文字描述的理解與圖像數(shù)據(jù)處理的能力。
(圖源:Sora)
更重要的是,OpenAI為Sora引入了視覺(jué)塊嵌入式代碼,即pathces,你也可以將其理解為L(zhǎng)LM里的tokens,這些pathces就像是一個(gè)又一個(gè)包含了時(shí)間、空間信息的積木塊,Sora能夠更快速地從中找到所需的素材,為創(chuàng)作者生成視頻。此外,這些pathces也能幫助Sora完成高速的自主學(xué)習(xí)。
Sora還能接受圖片和視頻輸入,生成新的創(chuàng)意視頻,又或是根據(jù)描述生成多達(dá)五個(gè)分鏡頭,包含人物表情特寫(xiě)、動(dòng)作特寫(xiě)、場(chǎng)景等。這只是目前為止我們能看到的Sora具備的能力,正如前面所提到,Sora是一個(gè)擴(kuò)散Transformer模型,其與生俱來(lái)的學(xué)習(xí)能力才是讓人敬畏的關(guān)鍵所在。
很可惜,現(xiàn)階段的Sora也存在一些問(wèn)題,例如空間、方位的細(xì)節(jié)。在官方演示視頻里,展示了反向跑步的運(yùn)動(dòng)者、憑空出現(xiàn)的狼崽以及從杯底流出果汁的水杯等。
(圖源:Sora)
(圖源:Sora)
盡管仍有美中不足的地方,但Sora絕對(duì)稱(chēng)得上是AI視頻的一大革命性突破——是真的革命性,而不是夸大其詞那種。
過(guò)于聰明的Sora,確實(shí)會(huì)讓人后背發(fā)涼?
在所有演示視頻中,最令人感到震撼的還是那段一對(duì)情侶漫步東京的短片。
(圖源:Sora)
Sora通過(guò)對(duì)現(xiàn)實(shí)空間的精確識(shí)別,創(chuàng)作出帶有動(dòng)態(tài)視角變化的視頻內(nèi)容,視頻中,人物、背景都在立體三維空間內(nèi)移動(dòng),就像真實(shí)的影片創(chuàng)作一樣。
作為一個(gè)文本視頻生成工具,Sora似乎有些過(guò)于「聰明」了,它的到來(lái),也不禁讓人對(duì)AI在未來(lái)的發(fā)展產(chǎn)生更多思考。
全球化人工智能企業(yè)APUS董事長(zhǎng)兼CEO李濤先生認(rèn)為,Sora的橫空出世,帶來(lái)了三個(gè)問(wèn)題:
1、打造無(wú)限逼近真實(shí)的場(chǎng)景。
正如我們前面提到,Sora擁有現(xiàn)實(shí)世界的「意識(shí)」,這意味著它構(gòu)建的內(nèi)容基本都會(huì)遵循真實(shí)存在的物理規(guī)律,而這種「虛擬」在未來(lái)只會(huì)更加「逼真」,這也讓我們不禁思考:在AI時(shí)代,我們應(yīng)該如何定義和理解真實(shí)與虛擬。
這讓雷科技想到了曹雪芹《紅樓夢(mèng)》第一回的這樣一段:
士隱接了看時(shí),原來(lái)是塊鮮明美玉,上面字跡分明,鐫著“通靈寶玉”四字,后面還有幾行小字。正欲細(xì)看時(shí),那僧便說(shuō)“已到幻境”,便強(qiáng)從手中奪了去,與道人竟過(guò)一大石牌坊,上書(shū)四個(gè)大字,乃是“太虛幻境”。兩邊又有一幅對(duì)聯(lián),道是:
假作真時(shí)真亦假,無(wú)為有處有還無(wú)。
Sora的出現(xiàn),讓真實(shí)世界與虛擬世界的邊界一下變得模糊,在如夢(mèng)如幻的“太虛幻境”,真假難辨,將給人類(lèi)帶來(lái)許多困惑。對(duì)此,人類(lèi)必須要想法來(lái)應(yīng)對(duì)。
2、學(xué)習(xí)能力高度類(lèi)人。
Sora與之前問(wèn)世的文本視頻生成工具不太一樣,它具備高度模擬能力與學(xué)習(xí)能力,而作為一個(gè)有自主學(xué)習(xí)能力的「模擬器」,參考ChatGPT從3.5到4.0的進(jìn)化速度,是否可以大膽預(yù)測(cè),Sora很快就會(huì)成為類(lèi)人的智能,不光學(xué)習(xí)速度快,反應(yīng)能力與反應(yīng)速度甚至可以超越人類(lèi)。
3、算力之上芯片落后。
每一個(gè)深度學(xué)習(xí)的人工智能模型,都離不開(kāi)背后強(qiáng)大算力的支持,Sora亦是如此。如今,中國(guó)人工智能所擁有的能力遠(yuǎn)遠(yuǎn)落后于此,算力的局限無(wú)疑是制約我國(guó)AI發(fā)展的重要因素之一。因此,加強(qiáng)芯片研發(fā)、提升算力水平,是我國(guó)人工智能發(fā)展的當(dāng)務(wù)之急。
Sora仍在測(cè)試階段,我們?nèi)杂袝r(shí)間在短期時(shí)間內(nèi)嘗試駕馭它、了解它,同時(shí)繼續(xù)在芯片端鞏固地位,為AI提供更強(qiáng)大的底層硬件支持。
AI時(shí)代落幕,Sora叩開(kāi)了AGI世界的大門(mén)
在Sora問(wèn)世之后,馬斯克急得像熱鍋上的螞蟻,只因Sora是當(dāng)下最接近AGI概念的產(chǎn)品,而AGI又是馬斯克心心念念的藍(lán)海市場(chǎng)。
AGI,即Artificial General Intelligence,又稱(chēng)人工通用智能,是指能夠完全模仿人類(lèi)情感、行為,實(shí)現(xiàn)自我學(xué)習(xí)、自我改進(jìn)、自我修正的智能計(jì)算機(jī)系統(tǒng)。盡管Sora當(dāng)前只展示了其在視頻,又或是內(nèi)容創(chuàng)作上的能力,但其對(duì)于真實(shí)世界的理解,已經(jīng)展現(xiàn)出強(qiáng)悍的實(shí)力。
(圖源:Sora)
為什么三六零周鴻祎說(shuō)Sora讓AGI時(shí)代到來(lái)的時(shí)間從十年縮短至一年?歸根結(jié)底就是對(duì)現(xiàn)實(shí)世界的理解能力。AGI最大的特點(diǎn)在于對(duì)真實(shí)世界的規(guī)則,尤其是物理狀態(tài)、自然規(guī)律、化學(xué)變化等等因素的反饋。Sora雖然只在內(nèi)容創(chuàng)作上帶來(lái)幫助,但誰(shuí)能確保經(jīng)過(guò)足夠的訓(xùn)練,OpenAI不會(huì)基于此推出真正意義上的AGI產(chǎn)品呢?
周鴻祎在見(jiàn)證Sora誕生后表示,Sora有別于其他文本視頻生成工具,它能理解坦克是有巨大沖擊力的,坦克能夠沖毀汽車(chē),而不會(huì)出現(xiàn)汽車(chē)撞毀坦克這樣的事情發(fā)生。同時(shí),他還認(rèn)為,Sora只是OpenAI小試牛刀的產(chǎn)品,真正的好戲還在后頭。
(圖源:微博)
這并非空穴來(lái)風(fēng),早在去年10月,路透社就曾報(bào)道OpenAI已經(jīng)參與投資至少三家半導(dǎo)體設(shè)計(jì)公司,其中Cerebras更是一家初創(chuàng)型企業(yè)。OpenAI CEO Altman曾公開(kāi)表示,其工作與產(chǎn)品仍需更多算力提供幫助,目前公司所使用的還遠(yuǎn)遠(yuǎn)不夠。除去已經(jīng)投入運(yùn)營(yíng)的DALL.E和ChatGPT,以及測(cè)試中的Sora,或許還有真正屬于AGI時(shí)代的產(chǎn)品蓄勢(shì)待發(fā)。
2016年,Google旗下的AlphaGo戰(zhàn)勝李世石讓深度學(xué)習(xí)被全世界關(guān)注,我們進(jìn)入了深度學(xué)習(xí)驅(qū)動(dòng)的AI時(shí)代,許多科技產(chǎn)品和傳統(tǒng)行業(yè)均被深度學(xué)習(xí)技術(shù)改變,這一階段也迎來(lái)了抖音、小紅書(shū)這樣的AI驅(qū)動(dòng)的世界級(jí)產(chǎn)品的崛起。
2023年兔年開(kāi)工,全世界沉浸在 ChatGPT 帶來(lái)的 AGI(通用型人工智能)的震撼之中,一年之后的今天,Sora再度震撼人類(lèi),且是更大的震撼,見(jiàn)過(guò)大世面的人類(lèi)就像原始人發(fā)現(xiàn)火種一般激動(dòng)不已。
毫無(wú)疑問(wèn),一個(gè)嶄新的AGI時(shí)代的序幕已經(jīng)緩緩拉開(kāi),一個(gè)新的智能時(shí)代已然到來(lái)。或許Sora不一定取代影像工作者,但Sora背后的AGI技術(shù),一定會(huì)重構(gòu)科技產(chǎn)業(yè)的秩序,催生抖音這樣的世界級(jí)產(chǎn)品,賦予人類(lèi)全新的工具和力量,這一切,都是如此振奮人心。
來(lái)源:雷科技
原文標(biāo)題 : 踢開(kāi)AGI大門(mén)!Sora會(huì)讓世界成為“太虛幻境”嗎?
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-12.26立即報(bào)名>>> 【在線會(huì)議】村田用于AR/VR設(shè)計(jì)開(kāi)發(fā)解決方案
-
1月8日火熱報(bào)名中>> Allegro助力汽車(chē)電氣化和底盤(pán)解決方案優(yōu)化在線研討會(huì)
-
即日-1.14火熱報(bào)名中>> OFweek2025中國(guó)智造CIO在線峰會(huì)
-
即日-1.24立即參與>>> 【限時(shí)免費(fèi)】安森美:Treo 平臺(tái)帶來(lái)出色的精密模擬
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
-
精彩回顧立即查看>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專(zhuān)題
- 1 人形機(jī)器人核心零部件,誰(shuí)是盈利最強(qiáng)企業(yè)?
- 2 AI Agent現(xiàn)狀如何?聊聊近期國(guó)內(nèi)的智能體市場(chǎng)動(dòng)向
- 3 5nm重大突破,研祥智能助力半導(dǎo)體企業(yè)高效發(fā)展!
- 4 人形機(jī)器人引爆“PEEK材料”!概念股梳理(名單)
- 5 馬云沒(méi)回牌桌,但重注全壓在了
- 6 蘋(píng)果或?qū)渴肿止?jié)騰訊大模型,我國(guó)大模型產(chǎn)業(yè)發(fā)展駛?cè)肟燔?chē)道
- 7 豆包AI登頂國(guó)內(nèi)第一!概念股梳理(名單)
- 8 押注AI王者歸來(lái),歌爾股份“智能體”在下一盤(pán)“大棋”
- 9 AI超級(jí)應(yīng)用什么時(shí)候才能出現(xiàn)?
- 10 英偉達(dá)迎來(lái)當(dāng)頭一棒
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷(xiāo)售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷(xiāo)售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專(zhuān)家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市