天堂www中文在线,日本人配种XXXX视频

OpenAI還有對(duì)手嗎？a16z干貨：2024年AI視頻產(chǎn)品何去何從

2024-02-20 09:06

引言

2024年的開年震撼同樣來自O(shè)penAI。節(jié)后還沒開工，Altman就帶著繼ChatGPT的第二個(gè)殺手級(jí)應(yīng)用Sora大殺四方。適道看完那條長(zhǎng)達(dá)60s的演示視頻后，腦中只有一句話：大家誰都別想玩了�？焖倩貧w理智，Sora統(tǒng)治之下，是否還有其他機(jī)會(huì)？我們從a16z發(fā)布的展望——“Why 2023 Was AI Video’s Breakout Year, and What to Expect in 2024”入手，盤一盤這條賽道留給其他玩家哪些空間。

01 用好巨頭“殲滅戰(zhàn)”窗口期

OpenAI推出Sora不讓人意外，讓人意外的是Sora之強(qiáng)大難以想象。

細(xì)數(shù)2023年AI視頻賽道，有兩條非常清晰的邏輯。

一是AI生成視頻發(fā)展之迅猛。2023年初還出現(xiàn)公開的文生視頻模型。僅僅12個(gè)月后，就有Runway、Pika、Genmo和Stable Video Diffusion等數(shù)十種視頻生成產(chǎn)品投入使用。

a16z認(rèn)為，如此巨大的進(jìn)展說明我們正處于大規(guī)模變革的起步階段——這與圖像生成技術(shù)的發(fā)展存在相似之處。文本—視頻模型正在不斷演化進(jìn)步，而圖像—視頻和視頻—視頻等分支也在蓬勃發(fā)展。

二是巨頭入場(chǎng)只是時(shí)間問題。2024年注定是多模態(tài)AI爆發(fā)之年。然而，細(xì)數(shù)2023年21個(gè)公開AI視頻模型，大多數(shù)來自初創(chuàng)公司。

表面上，Google、Meta等科技巨頭如湖水般平靜，但水面之下暗流涌動(dòng)。巨頭們沒有停止發(fā)表視頻生成的相關(guān)論文；同時(shí)，他們還在不聲明模型發(fā)布時(shí)間的前提下對(duì)外發(fā)布演示版本的視頻，比如OpenAI發(fā)布Sora。

明明演示作品已經(jīng)成熟，為何巨頭們不著急發(fā)布呢？a16z認(rèn)為，出于法律、安全以及版權(quán)等方面的考慮，巨頭很難將科研成果轉(zhuǎn)化成產(chǎn)品，因此需要推遲產(chǎn)品發(fā)布，這就讓新玩家獲得了先發(fā)優(yōu)勢(shì)。

適道認(rèn)為，最關(guān)鍵因素是“網(wǎng)絡(luò)效應(yīng)”并不重要——首發(fā)玩家不是贏家，技術(shù)領(lǐng)先才是贏家。有了能生成60s視頻的Sora，你還會(huì)執(zhí)著于生成4s視頻的Pika嗎？

但這不代表初創(chuàng)公司徹底沒戲。因?yàn)樵谠撘?guī)律下，巨頭們的動(dòng)作不會(huì)太快，初創(chuàng)公司需要抓住“窗口期”，盡量快速發(fā)布產(chǎn)品，圈一波新用戶，賺一波快錢，尤其是在國(guó)內(nèi)市場(chǎng)。

補(bǔ)充前阿里技術(shù)副總裁、目前正在從事AI架構(gòu)創(chuàng)業(yè)的賈揚(yáng)清的觀點(diǎn)：1.對(duì)標(biāo)OpenAI的公司有一波被其他大廠fomo收購(gòu)的機(jī)會(huì)。2. 從算法小廠的角度，要不就算法上媲美OpenAI，要不就垂直領(lǐng)域深耕應(yīng)用，要不就選擇開源。（創(chuàng)業(yè)邦）

02 “學(xué)霸”Sora強(qiáng)在哪里？

目前，絕大部分AI視頻產(chǎn)品還未解決核心難題：可控性、時(shí)間連貫性、時(shí)長(zhǎng)。

可控性：用文本“描述”控制畫面中人物的運(yùn)動(dòng)軌跡。

當(dāng)然，一些公司可以為用戶提供視頻生成前的可控性。例如，Runway的Motion Brush讓用戶高亮圖像的特定區(qū)域，并決定它們的動(dòng)作。

時(shí)間連貫性：人物、物體、背景在不同幀之間保持一致，不發(fā)生扭曲。

時(shí)長(zhǎng)：能夠制作超過幾秒的視頻？

視頻的時(shí)長(zhǎng)和時(shí)間連貫性息息相關(guān)。許多產(chǎn)品都限制視頻時(shí)長(zhǎng)，因?yàn)樵跁r(shí)長(zhǎng)超過幾秒后就無法保證任何形式的一致性。如果你看到一個(gè)較長(zhǎng)的視頻，很可能是由很多簡(jiǎn)短片段構(gòu)成，而且往往需要輸入幾十甚至上百條指令。

而Sora的強(qiáng)大在于突破了以上難題。

1、時(shí)間連貫性——前景人來人往，但主體始終保持一致

2、時(shí)長(zhǎng)——輕輕松松生成60s

3、可控性——畫家的手部動(dòng)作非常逼真

不僅如此，Sora還能更好地理解物理世界。養(yǎng)貓的人應(yīng)該明白這個(gè)視頻的含金量，居然模擬出了貓咪“踩奶”！

Sora能夠?qū)崿F(xiàn)如此突破，在于OpenAI走上了一條與眾不同的道路。

假設(shè)Sora是一個(gè)足不出戶的小朋友，他理解外部世界的方式是觀看五花八門的視頻和圖片。

但Sora小朋友只能看懂簡(jiǎn)單的信息，OpenAI就為其量身打造了一套啟蒙學(xué)習(xí)課程——通過“視頻壓縮網(wǎng)絡(luò)”技術(shù)，將所有“復(fù)雜”的視頻和圖片壓縮成一個(gè)更低維度的表示形式，轉(zhuǎn)換成Sora更容易理解的“兒童”格式。

舉個(gè)不那么恰當(dāng)?shù)睦印?ldquo;視頻壓縮網(wǎng)絡(luò)”技術(shù)就是將一部成人能看懂的電影內(nèi)核轉(zhuǎn)換為一集Sora更容易理解的“小豬佩奇”。

在理解“學(xué)習(xí)信息”階段，Sora進(jìn)一步將壓縮后的信息數(shù)據(jù)分解為一塊塊“小拼圖”——“時(shí)空補(bǔ)丁”（Spacetime Patches）。

一方面，這些“小拼圖”是視覺內(nèi)容的基本構(gòu)建塊，無論原始視頻風(fēng)格如何，Sora都可以將它們處理成一致的格式，就像每一張照片都能分解為包含獨(dú)特景觀、顏色和紋理的“小拼圖”；另一方面，因?yàn)檫@些“拼圖”足夠小，且包含時(shí)空信息，Sora能夠更細(xì)致地處理視頻的每一個(gè)小片段，并考慮和預(yù)測(cè)時(shí)空變化。

在生成“學(xué)習(xí)成果”階段，Sora要根據(jù)文本提示生成視頻內(nèi)容。這個(gè)過程依賴于Sora的大腦——擴(kuò)散變換器模型（Diffusion Transformer Model）。

通過預(yù)先訓(xùn)練好的轉(zhuǎn)換器（Transformer），Sora能夠識(shí)別每塊“小拼圖”的內(nèi)容，并根據(jù)文本提示快速找到自己學(xué)習(xí)過的“小拼圖”，把它們拼在一起，生成與文本匹配的視頻內(nèi)容。

通過擴(kuò)散模型（Diffusion Models），Sora可以消除不必要的“噪音”，將混亂的視頻信息變得逐步清晰。例如，涂鴉本上有很多無意義的線條，Sora通過文本指令，將這些無意義的線條優(yōu)化為一幅帶有明確主題的圖畫。

而此前的AI視頻模型大多是通過循環(huán)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)、自回歸Transformer和擴(kuò)散模型等技術(shù)對(duì)視頻數(shù)據(jù)建模。

結(jié)果就是“學(xué)霸”Sora明白了物理世界動(dòng)態(tài)變化的原理，實(shí)現(xiàn)一通百通。而其他選手在學(xué)習(xí)每一道題解法后，只會(huì)照葫蘆畫瓢，被“吊打”也是在情理之中。

03 未來AI視頻產(chǎn)品如何發(fā)展？

根據(jù)a16z的展望，AI視頻產(chǎn)品還存在一些待解決空間。

首先，高質(zhì)量訓(xùn)練數(shù)據(jù)從何而來？

和其他內(nèi)容模態(tài)相比，視頻模型的訓(xùn)練難度更大，主要是沒有那么多高質(zhì)量、標(biāo)簽化的訓(xùn)練數(shù)據(jù)。語言模型通常在公共數(shù)據(jù)集（如 Common Crawl）上進(jìn)行訓(xùn)練，而圖像模型則在標(biāo)簽化數(shù)據(jù)集（文本-圖像對(duì)）（如 LAION 和 ImageNet）上進(jìn)行訓(xùn)練。

視頻數(shù)據(jù)則較難獲得。雖然 YouTube 和 TikTok 等平臺(tái)不乏可公開觀看的視頻，但這些視頻都沒有標(biāo)簽，而且可能不夠多樣化（例如貓咪視頻和網(wǎng)紅道歉等內(nèi)容在數(shù)據(jù)集中比例可能過高）。

基于此，a16z認(rèn)為視頻數(shù)據(jù)的“圣杯”可能來自工作室或制作公司，它們擁有從多個(gè)角度拍攝的長(zhǎng)視頻，并附有腳本和說明。不過，他們是否愿意將這些數(shù)據(jù)授權(quán)用于訓(xùn)練，目前還不得而知。

適道認(rèn)為，除了科技巨頭，長(zhǎng)期來看，以國(guó)外Netflix、Disney；國(guó)內(nèi)“愛優(yōu)騰”為代表的行業(yè)大佬也不容忽視。這些公司積攢了數(shù)十億條會(huì)員評(píng)價(jià)，熟知觀眾的習(xí)慣和需求，擁有數(shù)據(jù)壁壘和應(yīng)用場(chǎng)景。去年1月，Netflix就發(fā)布了一支AI動(dòng)畫短片《犬與少年（Dog and Boy）》。其中動(dòng)畫場(chǎng)景的繪制工作由AI完成。對(duì)標(biāo)到國(guó)內(nèi)，AI視頻賽道大概率依然是互聯(lián)網(wǎng)大廠的天下。

其次，用例如何在平臺(tái)/模型間細(xì)分？

a16z認(rèn)為，一種模型不能“勝任”所有用例。例如，Midjourney、Ideogram和DALL-E都具有獨(dú)特的風(fēng)格，擅長(zhǎng)生成不同類型的圖像。預(yù)計(jì)視頻模型也會(huì)有類似的動(dòng)態(tài)變化。圍繞這些模式開發(fā)的產(chǎn)品可能會(huì)在工作流程方面進(jìn)一步分化，并服務(wù)于不同的終端市場(chǎng)。例如，動(dòng)畫人物頭像（HeyGen）、視覺特效（Wonder Dynamics）和視頻到視頻（ DomoAI）。

適道認(rèn)為，這些問題最終都會(huì)被Sora一舉解決。但對(duì)于國(guó)內(nèi)玩家而言，或許也是一個(gè)“中間商賺差價(jià)”的機(jī)會(huì)。

第三，誰將支配工作流程？

目前大多數(shù)產(chǎn)品只專注于一種類型的內(nèi)容，且功能有限。我們經(jīng)�？梢钥吹竭@樣的視頻：先由 Midjourney 做圖，再放進(jìn)Pika制作動(dòng)畫，接著在Topaz上放大。然后，創(chuàng)作者將視頻導(dǎo)入 Capcut 或 Kapwing 等編輯平臺(tái)，并添加配樂和畫外音（由Suno和ElevenLabs或其他產(chǎn)品生成）。

這個(gè)過程顯然不夠“智能”，對(duì)于用戶而言，非常希望出現(xiàn)“一鍵生成”式平臺(tái)。

據(jù)a16z展望，一些新興的生成產(chǎn)品將增加更多的工作流程功能，并擴(kuò)展到其他類型的內(nèi)容生成——可以通過訓(xùn)練自己的模型、利用開源模型或與其他廠商合作來實(shí)現(xiàn)。

其一，視頻生成平臺(tái)會(huì)開始添加一些功能。例如，Pika允許用戶在其網(wǎng)站上對(duì)視頻進(jìn)行放大處理。此外，目前Sora也可以創(chuàng)建完美循環(huán)視頻、動(dòng)畫靜態(tài)圖像、向前或向后擴(kuò)展視頻等等，具備了視頻編輯的能力。但編輯效果具體如何，我們還要等開放后的測(cè)試。

其二，AI原生編輯平臺(tái)已經(jīng)出現(xiàn)，能夠讓用戶 “插入”不同模型，并將這些內(nèi)容拼湊在一起。

可以預(yù)見的是，未來大批內(nèi)容制作者將同時(shí)采用AI和人工生成內(nèi)容。因此，能夠“絲滑”編輯這兩類內(nèi)容的產(chǎn)品將大受歡迎。這或許是玩家們的最新機(jī)會(huì)。

原文標(biāo)題 : OpenAI還有對(duì)手嗎？a16z干貨：2024年AI視頻產(chǎn)品何去何從