今年355萬(wàn)片等效H100,流向五大AI龍頭
本文由半導(dǎo)體產(chǎn)業(yè)縱橫(ID:ICVIEWS)編譯自lesswrong
2024年五大AI巨頭,擁有多少片英偉達(dá)GPU?
人工智能基礎(chǔ)設(shè)施的數(shù)據(jù)難以精確獲取。諸多報(bào)道中會(huì)出現(xiàn)諸如 “某公司本季度在基礎(chǔ)設(shè)施上花費(fèi)了 Xbn”“某公司購(gòu)買(mǎi)了 10 萬(wàn)臺(tái) H100” 或者 “擁有 10 萬(wàn)臺(tái) H100 集群” 這類(lèi)信息,但當(dāng)筆者試圖估算某家公司能夠使用的計(jì)算資源時(shí),卻無(wú)法找到統(tǒng)一的數(shù)據(jù)。
在此,筆者試圖從各類(lèi)來(lái)源搜集信息,來(lái)大致估算以下兩點(diǎn):其一,截至 2024 年,預(yù)計(jì)各方會(huì)擁有多少計(jì)算能力?其二,預(yù)計(jì) 2025 年會(huì)有哪些變化?之后,筆者將簡(jiǎn)要闡述這對(duì)主要前沿實(shí)驗(yàn)室的培訓(xùn)計(jì)算可用性的意義。在討論該問(wèn)題之前,筆者想先說(shuō)明幾點(diǎn)注意事項(xiàng)。
這些數(shù)字是筆者在有限時(shí)間內(nèi)依據(jù)公開(kāi)數(shù)據(jù)估算得出的,可能存在誤差,也可能遺漏了一些重要信息。
付費(fèi)供應(yīng)商很可能有更精準(zhǔn)的估算,他們能夠花費(fèi)更多時(shí)間去詳細(xì)分析諸如晶圓廠的數(shù)量、各晶圓廠的生產(chǎn)內(nèi)容、數(shù)據(jù)中心的位置、每個(gè)數(shù)據(jù)中心的芯片數(shù)量等諸多細(xì)節(jié),并得出精確得多的數(shù)字。若讀者需要非常精確的估算,筆者建議向幾家供應(yīng)商中的一家購(gòu)買(mǎi)相關(guān)數(shù)據(jù)。
英偉達(dá)芯片生產(chǎn)
首先要從最重要的數(shù)據(jù)中心 GPU 生產(chǎn)商 Nvidia 開(kāi)始。截至 11 月 21 日,在 Nvidia 公布 2025 年第三季度財(cái)報(bào)之后,預(yù)計(jì)Nvidia 該財(cái)年數(shù)據(jù)中心收入約為 1100 億美元。這比 2023 年的 420 億美元有所增長(zhǎng),預(yù)計(jì) 2025 年將達(dá)到 1730 億美元(基于 2026 財(cái)年 1770 億美元的估計(jì))。
數(shù)據(jù)中心的收入絕大部分來(lái)自芯片銷(xiāo)售。2025 年的芯片銷(xiāo)售額預(yù)計(jì)為 650-700 萬(wàn) GPU,幾乎全部是 Hopper 和 Blackwell 型號(hào)。根據(jù) CoWoS-S 和 CoWoS-L 制造工藝的預(yù)期比例以及 Blackwell 的預(yù)期量產(chǎn)速度,筆者估計(jì) Hopper 和 Blackwell 型號(hào)分別為 200 萬(wàn)和 500 萬(wàn)。
2024 年產(chǎn)量
有關(guān) 2024 年生產(chǎn)數(shù)字的資料來(lái)源很少,而且經(jīng)常相互矛盾,但 2024 年第四季度的 Hopper GPU 產(chǎn)量估計(jì)為 150 萬(wàn)個(gè)(盡管其中包括一些 H20 芯片,因此這只是一個(gè)上限),而且各季度的數(shù)據(jù)中心收入比率表明,產(chǎn)量上限為 500 萬(wàn)個(gè)(這將假定每個(gè) H100 同等產(chǎn)品的收入約為 2 萬(wàn)美元)。
這與今年早些時(shí)候估計(jì)的 150 萬(wàn)到 200 萬(wàn)臺(tái) H100 的產(chǎn)量相沖突--這種差異是否可以合理地歸因于 H100 與 H200、擴(kuò)容或其他因素尚不清楚,但由于這與他們的收入數(shù)字不一致,筆者選擇使用較高的數(shù)字。
此前的產(chǎn)量
為了評(píng)估目前以及未來(lái)誰(shuí)擁有最多的計(jì)算資源,2023年之前的數(shù)據(jù)對(duì)整體格局的影響有限。這主要是因?yàn)镚PU性能本身的提升,以及從英偉達(dá)的銷(xiāo)售數(shù)據(jù)來(lái)看,產(chǎn)量已經(jīng)實(shí)現(xiàn)了大幅增長(zhǎng)。根據(jù)估算,微軟和Meta在2023年各自獲得了約15萬(wàn)塊H100 GPU。結(jié)合英偉達(dá)的數(shù)據(jù)中心收入,2023年H100及同等級(jí)產(chǎn)品的總產(chǎn)量很可能在100萬(wàn)塊左右。
GPU/TPU 按組織計(jì)數(shù)
筆者試圖估算微軟、Meta、谷歌、亞馬遜和 XAI 到 2024 年底將獲得多少以 H100 當(dāng)量表示的芯片,以及 2025 年的相關(guān)數(shù)量。
許多消息源稱(chēng) “英偉達(dá) 46% 的收入來(lái)自 4 個(gè)客戶(hù)”,不過(guò)這可能存在誤導(dǎo)性。查閱英偉達(dá)的 10 - Q 和 10 - K 可以發(fā)現(xiàn),他們區(qū)分了直接客戶(hù)和間接客戶(hù),46% 這個(gè)數(shù)字指的是直接客戶(hù)。然而,直接客戶(hù)大多是中間商,比如 SMC、HPE 和戴爾,他們購(gòu)買(mǎi) GPU 并組裝服務(wù)器供間接客戶(hù)使用,這些間接客戶(hù)包括公共云提供商、消費(fèi)互聯(lián)網(wǎng)公司、企業(yè)、公共部門(mén)和初創(chuàng)公司,而筆者所關(guān)注的公司屬于 “間接客戶(hù)” 這一范疇。
關(guān)于間接客戶(hù)的信息披露相對(duì)寬松,可能也不太可靠。在 2024 財(cái)年(約 2023 年,文中所討論的情況),英偉達(dá)的年報(bào)披露,“一個(gè)主要通過(guò)系統(tǒng)集成商和分銷(xiāo)商購(gòu)買(mǎi)我們產(chǎn)品的間接客戶(hù)估計(jì)占總收入的約 19%”。按照規(guī)定,他們需要披露收入份額超過(guò) 10% 的客戶(hù)信息。所以,要么他們的第二個(gè)客戶(hù)最多只有第一個(gè)客戶(hù)規(guī)模的一半,要么存在測(cè)量誤差。這個(gè)最大的客戶(hù)可能是微軟,有零星信息披露稱(chēng),每季度有第二個(gè)客戶(hù)的數(shù)量曾短暫超過(guò) 10%,但這種情況不具有連貫性,而且不包括 2023 年全年或 2024 年前 3 個(gè)季度的情況。
估計(jì) 2024 年底 H100 等效芯片數(shù)量
微軟,Meta
筆者考慮到微軟身為最大的公有云之一,是 OpenAI 的主要計(jì)算提供商,自身沒(méi)有像谷歌、可能還有亞馬遜那樣大規(guī)模的定制芯片安裝基礎(chǔ),并且與英偉達(dá)似乎存在相對(duì)于同行的特殊關(guān)系(例如,他們顯然率先獲得了 Blackwell 芯片),所以推測(cè)這兩個(gè)最大的客戶(hù)極有可能都是微軟。英偉達(dá)在 2024 年的收入份額不像 2023 年那般精確,其在第二季度和第三季度提及 H1 收入的 13%,而第三季度僅 “超過(guò) 10%”,不過(guò) 13% 可作為一個(gè)合理的估計(jì),這表明微軟在英偉達(dá)銷(xiāo)售中的份額相較 2023 年有所降低。
另有一些對(duì)客戶(hù)規(guī)模的估計(jì),數(shù)據(jù)顯示,微軟占英偉達(dá)收入的 15%,其次是 Meta Platforms 占 13%,亞馬遜占 6%,谷歌占約 6%,但從消息來(lái)源難以確定這些數(shù)據(jù)對(duì)應(yīng)的年份。截至 2023 年底,有關(guān)這些云提供商擁有 H100 芯片數(shù)量的報(bào)告(Meta 和微軟為 15 萬(wàn)片,亞馬遜、谷歌和甲骨文各為 5 萬(wàn)片)與上文的數(shù)據(jù)更為契合。
這里有一個(gè)關(guān)鍵的數(shù)據(jù)點(diǎn),即 Meta 宣稱(chēng)到 2024 年底 Meta 將擁有 60 萬(wàn) H100 當(dāng)量的計(jì)算能力。據(jù)說(shuō)其中包含 35 萬(wàn) H100,其余大部分似乎將是 H200 和上個(gè)季度到貨的少量 Blackwell 芯片。
倘若我們將這 60 萬(wàn)視為準(zhǔn)確數(shù)據(jù),并依據(jù)收入數(shù)字的比例,便能更好地估算微軟的可用計(jì)算量比這高出 25% 至 50%,即 75 萬(wàn)至 90 萬(wàn) H100 等效值。
谷歌,亞馬遜
筆者注意到,亞馬遜和谷歌向來(lái)被視作在對(duì)英偉達(dá)收入的貢獻(xiàn)方面處于較為靠后的位置。不過(guò),二者的情況實(shí)則全然不同。
谷歌早已擁有大量自定義的 TPU,而這 TPU 正是其內(nèi)部工作負(fù)載所倚重的主要芯片。至于亞馬遜,其內(nèi)部 AI 工作負(fù)載看上去很可能要比谷歌小得多,并且亞馬遜所擁有的數(shù)量相當(dāng)?shù)挠ミ_(dá)芯片,主要是為了通過(guò)云平臺(tái)來(lái)滿(mǎn)足外部 GPU 的需求,其中最為顯著的當(dāng)屬來(lái)自 Anthropic 的需求。
下面先來(lái)看谷歌的情況。如前文所述,TPU 是其用于內(nèi)部工作負(fù)載的主要芯片。提供該領(lǐng)域數(shù)據(jù)的領(lǐng)先訂閱服務(wù) Semianalysis 在 2023 年底曾宣稱(chēng):“谷歌是唯一一家擁有強(qiáng)大內(nèi)部芯片的公司”,“谷歌具備近乎無(wú)與倫比的能力,能夠以低成本和高性能可靠地大規(guī)模部署 AI”,且稱(chēng)其為 “世界上計(jì)算資源最豐富的公司”。自這些說(shuō)法問(wèn)世以來(lái),谷歌在基礎(chǔ)設(shè)施方面的支出一直維持在較高水平。
筆者對(duì) TPU 和 GPU 的支出進(jìn)行了 2 比 1 的估計(jì)(此估計(jì)或許較為保守),即假設(shè)每一美元的 TPU 性能等同于微軟的 GPU 支出,由此得出的數(shù)據(jù)范圍是在 2024 年年底擁有 10 萬(wàn) - 150 萬(wàn) H100 當(dāng)量。
亞馬遜雖有自己的定制芯片 Trainium 和 Inferentia,但它們起步的時(shí)間相較于谷歌的 TPU 要晚得多,并且在這些芯片的發(fā)展進(jìn)程中似乎落后于前沿水平。亞馬遜甚至推出 1.1 億美元的免費(fèi)積分以吸引人們?cè)囉,這一舉措表明其芯片截至目前尚未呈現(xiàn)出良好的適應(yīng)性。半分析指出:“我們的數(shù)據(jù)顯示,Microsoft 和 Google 在 AI 基礎(chǔ)設(shè)施上的 2024 年支出計(jì)劃將使他們部署的計(jì)算量遠(yuǎn)超過(guò)亞馬遜”,并且 “此外,亞馬遜即將推出的內(nèi)部芯片 Athena 和 Trainium2 仍然顯著落后”。
然而,到 2024 年年中,情況或許已有所轉(zhuǎn)變。在 2024 年第三季度財(cái)報(bào)電話(huà)會(huì)議上,亞馬遜首席執(zhí)行官安迪?賈西談及 Trainium2 時(shí)表示 “我們察覺(jué)到人們對(duì)這些芯片抱有濃厚興趣,我們已多次與制造合作伙伴溝通,產(chǎn)量遠(yuǎn)超最初計(jì)劃”。但由于當(dāng)時(shí)他們 “在接下來(lái)的幾周內(nèi)才開(kāi)始增產(chǎn)”,所以在 2024 年其芯片似乎不太可能有大規(guī)模的供應(yīng)。
XAI
筆者在此要介紹的最后一位重要參與者便是 XAI。該機(jī)構(gòu)發(fā)展極為迅速,在相關(guān)領(lǐng)域坐擁一些規(guī)模最大的集群,且有著宏大的發(fā)展計(jì)劃。其在 2024 年底對(duì)外透露了一個(gè)正在運(yùn)行的、擁有 10 萬(wàn)臺(tái) H100 的集群,不過(guò)就目前來(lái)看,似乎在為該站點(diǎn)提供充足電力方面存在一定的問(wèn)題。
2025年Blackwell芯片預(yù)測(cè)
筆者注意到《2024 年人工智能狀態(tài)報(bào)告》對(duì)主要供應(yīng)商的 Blackwell 購(gòu)買(mǎi)量有所估計(jì),其提到 “大型云公司正在大量購(gòu)買(mǎi)這些 GB200 系統(tǒng):微軟在 70 萬(wàn) - 140 萬(wàn)之間,谷歌在 40 萬(wàn)以及 AWS 在 36 萬(wàn)之間。有傳言說(shuō) OpenAI 至少有 40 萬(wàn) GB200”。由于這些數(shù)字是芯片的總數(shù),所以存在重復(fù)計(jì)算 2024 年 Blackwell 購(gòu)買(mǎi)量的風(fēng)險(xiǎn),故而筆者打了 15% 的折扣。
若依據(jù)微軟的估計(jì),谷歌和 AWS 購(gòu)買(mǎi)英偉達(dá)的數(shù)量約為 100 萬(wàn)臺(tái),這與它們相對(duì)于微軟的典型比例相符。這也會(huì)使微軟占英偉達(dá)總收入的 12%,此情況與其在英偉達(dá)收入中的份額于 2024 年的小幅下降態(tài)勢(shì)相一致。
在這份報(bào)告里,Meta 未被給出任何估計(jì),但 Meta 預(yù)計(jì)明年人工智能相關(guān)基礎(chǔ)設(shè)施支出將 “顯著加速”,這意味著其在英偉達(dá)支出中的份額將維持在高位。筆者假定到 2025 年,Meta 的支出約為微軟的 80%。
對(duì)于 XAI 而言,其在這些芯片的相關(guān)內(nèi)容中未被提及,不過(guò)埃隆?馬斯克宣稱(chēng)他們將于 2025 年夏天擁有一個(gè) 30 萬(wàn)的 Blackwell 集群。考慮到馬斯克有時(shí)會(huì)有夸張言論的情況,XAI 似乎有可能在 2025 年底擁有 20 萬(wàn)至 40 萬(wàn)這樣的芯片。
一架 B200 的 H100 值多少呢?為衡量產(chǎn)能增長(zhǎng),這是一個(gè)關(guān)鍵問(wèn)題。訓(xùn)練和推理所引用的數(shù)字不同,就訓(xùn)練而言,當(dāng)前(2024 年 11 月)的最佳估計(jì)值是 2.2 倍。
對(duì)于谷歌,筆者假定英偉達(dá)芯片繼續(xù)占其總邊際計(jì)算的 1/3。對(duì)于亞馬遜,筆者假定為 75%。這些數(shù)字存在較大不確定性,估計(jì)數(shù)對(duì)其較為敏感。
值得留意的是,仍然有諸多 H100 和 GB200 未被記錄,且可能在其他地方有顯著聚集,尤其是在英偉達(dá) 10% 的報(bào)告門(mén)檻之下。像甲骨文等云服務(wù)提供商以及其他較小的云服務(wù)提供商可能持有。
芯片數(shù)量估計(jì)摘要
模型訓(xùn)練注意事項(xiàng)
筆者在此所提及的上述數(shù)字,乃是對(duì)可用計(jì)算總量的估計(jì)情況。不過(guò),想必許多人會(huì)更為關(guān)注用于訓(xùn)練最新前沿模型的那部分計(jì)算量。接下來(lái),筆者將著重圍繞 OpenAI、Google、Anthropic、Meta 以及 XAI 展開(kāi)介紹。但需說(shuō)明的是,這一切內(nèi)容都頗具推測(cè)性,畢竟這些公司要么是私營(yíng)性質(zhì),要么規(guī)模極為龐大,以至于無(wú)需對(duì)外披露這方面的成本明細(xì)。就拿谷歌來(lái)說(shuō),相關(guān)內(nèi)容僅僅只是其業(yè)務(wù)的一小部分罷了。
據(jù)預(yù)計(jì),OpenAI 在 2024 年的培訓(xùn)成本將會(huì)達(dá)到 30 億美元,其推理成本則為 40 億美元。依照一位消息人士的說(shuō)法,Anthropic“預(yù)計(jì)今年將會(huì)虧損約 20 億美元,營(yíng)收可達(dá)數(shù)億美元”。這也就意味著,Anthropic 的總計(jì)算成本要比 OpenAI 的 70 億美元多出 20 億美元。由于 Anthropic 的收入主要源自 API,且應(yīng)當(dāng)具備正的毛利率,所以其推理成本將會(huì)大幅降低,由此可推斷出,多出的 20 億美元中的大部分是用于訓(xùn)練的,大概為 15 億美元左右。即便與 OpenAI 相比,Anthropic 在培訓(xùn)成本方面存在兩個(gè)不利因素,但這似乎并未對(duì)其競(jìng)爭(zhēng)力造成妨礙。這種情況看起來(lái)確實(shí)很有可能,因?yàn)?Anthropic 的主要云提供商是 AWS,而我們已然了解到,AWS 所擁有的資源通常要比為 OpenAI 提供計(jì)算資源的微軟少。之前提到的《AI 狀態(tài)報(bào)告》中有傳言稱(chēng),微軟將會(huì)向 OpenAI 提供 40 萬(wàn)個(gè) GB 200 芯片,這一數(shù)量將會(huì)超過(guò) AWS 傳聞中的整個(gè) GB 200 容量,所以極有可能使得 OpenAI 的訓(xùn)練能力遠(yuǎn)遠(yuǎn)高于 Anthropic 的訓(xùn)練能力。
筆者發(fā)現(xiàn),谷歌的情況不太明晰。Gemini超 1.0 模型的訓(xùn)練計(jì)算量大約是 GPT - 4 的 2.5 倍,不過(guò)在其發(fā)布 9 個(gè)月后,相比最新的 Llama 模型僅多出 25%。正如我們所了解到的,谷歌或許比同行擁有更多的可用計(jì)算能力,然而,由于它既是一個(gè)主要的云提供商,又是一家大企業(yè),所以其自身的需求也更多。谷歌的計(jì)算能力要強(qiáng)于 Anthropic 或 OpenAI,甚至比 Meta 也要強(qiáng),要知道 Meta 也有大量獨(dú)立于前沿模型培訓(xùn)的內(nèi)部工作流程,比如社交媒體產(chǎn)品的推薦算法。Llama 3 在計(jì)算方面比 Gemini 要小,盡管它是在 Gemini 發(fā)布 8 個(gè)月后才推出的,這表明截至目前,Meta 分配給這些模型的資源相較于 OpenAI 或 Google 而言略少一些。
再看 XAI 方面,據(jù)稱(chēng)其使用了 2 萬(wàn)個(gè) H100 來(lái)訓(xùn)練Grok 2 型,并且預(yù)計(jì)Grok 3 型的訓(xùn)練將會(huì)使用多達(dá) 10 萬(wàn)個(gè) H100。鑒于 GPT - 4 據(jù)稱(chēng)是在 25000 個(gè)英偉達(dá) A100 GPU 上訓(xùn)練了 90 - 100 天,而 H100 的性能大約是 A100 的 2.25 倍,如此一來(lái),Grok 2 型的計(jì)算量將達(dá)到 GPT - 4 的兩倍,并且預(yù)計(jì)Grok 3 型的計(jì)算量還會(huì)再增加 5 倍,從而使其接近行業(yè)領(lǐng)先水平。
需要注意的是,XAI 并非所有的計(jì)算資源都來(lái)自于他們自己的芯片,據(jù)估計(jì),他們從甲骨文云租用了 16000 個(gè) H100。倘若 XAI 能夠像 OpenAI 或 Anthropic 那樣將其計(jì)算資源合理地部分用于培訓(xùn),筆者猜測(cè)它的培訓(xùn)規(guī);蛟S會(huì)與 Anthropic 類(lèi)似,略低于 OpenAI 和谷歌。
*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個(gè)人觀點(diǎn),我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認(rèn)同,如有異議,請(qǐng)聯(lián)系后臺(tái)。
原文標(biāo)題 : 今年355萬(wàn)片等效H100,流向五大AI龍頭
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-12.26立即報(bào)名>>> 【在線(xiàn)會(huì)議】村田用于AR/VR設(shè)計(jì)開(kāi)發(fā)解決方案
-
1月8日火熱報(bào)名中>> Allegro助力汽車(chē)電氣化和底盤(pán)解決方案優(yōu)化在線(xiàn)研討會(huì)
-
即日-1.14火熱報(bào)名中>> OFweek2025中國(guó)智造CIO在線(xiàn)峰會(huì)
-
即日-1.24立即參與>>> 【限時(shí)免費(fèi)】安森美:Treo 平臺(tái)帶來(lái)出色的精密模擬
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
-
精彩回顧立即查看>> 【線(xiàn)下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專(zhuān)題
- 1 人形機(jī)器人核心零部件,誰(shuí)是盈利最強(qiáng)企業(yè)?
- 2 AI Agent現(xiàn)狀如何?聊聊近期國(guó)內(nèi)的智能體市場(chǎng)動(dòng)向
- 3 5nm重大突破,研祥智能助力半導(dǎo)體企業(yè)高效發(fā)展!
- 4 人形機(jī)器人引爆“PEEK材料”!概念股梳理(名單)
- 5 馬云沒(méi)回牌桌,但重注全壓在了
- 6 蘋(píng)果或?qū)渴肿止?jié)騰訊大模型,我國(guó)大模型產(chǎn)業(yè)發(fā)展駛?cè)肟燔?chē)道
- 7 豆包AI登頂國(guó)內(nèi)第一!概念股梳理(名單)
- 8 押注AI王者歸來(lái),歌爾股份“智能體”在下一盤(pán)“大棋”
- 9 AI超級(jí)應(yīng)用什么時(shí)候才能出現(xiàn)?
- 10 英偉達(dá)迎來(lái)當(dāng)頭一棒
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷(xiāo)售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷(xiāo)售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專(zhuān)家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市