天堂√最新版在线资源,亚洲一级黄色毛直接观看,中文字幕一区二区三区永久

今年355萬(wàn)片等效H100，流向五大AI龍頭

2024-12-03 08:52

本文由半導(dǎo)體產(chǎn)業(yè)縱橫（ID：ICVIEWS）編譯自lesswrong

2024年五大AI巨頭，擁有多少片英偉達(dá)GPU？

人工智能基礎(chǔ)設(shè)施的數(shù)據(jù)難以精確獲取。諸多報(bào)道中會(huì)出現(xiàn)諸如 “某公司本季度在基礎(chǔ)設(shè)施上花費(fèi)了 Xbn”“某公司購(gòu)買(mǎi)了 10 萬(wàn)臺(tái) H100” 或者 “擁有 10 萬(wàn)臺(tái) H100 集群” 這類(lèi)信息，但當(dāng)筆者試圖估算某家公司能夠使用的計(jì)算資源時(shí)，卻無(wú)法找到統(tǒng)一的數(shù)據(jù)。

在此，筆者試圖從各類(lèi)來(lái)源搜集信息，來(lái)大致估算以下兩點(diǎn)：其一，截至 2024 年，預(yù)計(jì)各方會(huì)擁有多少計(jì)算能力？其二，預(yù)計(jì) 2025 年會(huì)有哪些變化？之后，筆者將簡(jiǎn)要闡述這對(duì)主要前沿實(shí)驗(yàn)室的培訓(xùn)計(jì)算可用性的意義。在討論該問(wèn)題之前，筆者想先說(shuō)明幾點(diǎn)注意事項(xiàng)。

這些數(shù)字是筆者在有限時(shí)間內(nèi)依據(jù)公開(kāi)數(shù)據(jù)估算得出的，可能存在誤差，也可能遺漏了一些重要信息。

付費(fèi)供應(yīng)商很可能有更精準(zhǔn)的估算，他們能夠花費(fèi)更多時(shí)間去詳細(xì)分析諸如晶圓廠的數(shù)量、各晶圓廠的生產(chǎn)內(nèi)容、數(shù)據(jù)中心的位置、每個(gè)數(shù)據(jù)中心的芯片數(shù)量等諸多細(xì)節(jié)，并得出精確得多的數(shù)字。若讀者需要非常精確的估算，筆者建議向幾家供應(yīng)商中的一家購(gòu)買(mǎi)相關(guān)數(shù)據(jù)。

英偉達(dá)芯片生產(chǎn)

首先要從最重要的數(shù)據(jù)中心 GPU 生產(chǎn)商 Nvidia 開(kāi)始。截至 11 月 21 日，在 Nvidia 公布 2025 年第三季度財(cái)報(bào)之后，預(yù)計(jì)Nvidia 該財(cái)年數(shù)據(jù)中心收入約為 1100 億美元。這比 2023 年的 420 億美元有所增長(zhǎng)，預(yù)計(jì) 2025 年將達(dá)到 1730 億美元（基于 2026 財(cái)年 1770 億美元的估計(jì)）。

數(shù)據(jù)中心的收入絕大部分來(lái)自芯片銷(xiāo)售。2025 年的芯片銷(xiāo)售額預(yù)計(jì)為 650-700 萬(wàn) GPU，幾乎全部是 Hopper 和 Blackwell 型號(hào)。根據(jù) CoWoS-S 和 CoWoS-L 制造工藝的預(yù)期比例以及 Blackwell 的預(yù)期量產(chǎn)速度，筆者估計(jì) Hopper 和 Blackwell 型號(hào)分別為 200 萬(wàn)和 500 萬(wàn)。

2024 年產(chǎn)量

有關(guān) 2024 年生產(chǎn)數(shù)字的資料來(lái)源很少，而且經(jīng)常相互矛盾，但 2024 年第四季度的 Hopper GPU 產(chǎn)量估計(jì)為 150 萬(wàn)個(gè)（盡管其中包括一些 H20 芯片，因此這只是一個(gè)上限），而且各季度的數(shù)據(jù)中心收入比率表明，產(chǎn)量上限為 500 萬(wàn)個(gè)（這將假定每個(gè) H100 同等產(chǎn)品的收入約為 2 萬(wàn)美元）。

這與今年早些時(shí)候估計(jì)的 150 萬(wàn)到 200 萬(wàn)臺(tái) H100 的產(chǎn)量相沖突--這種差異是否可以合理地歸因于 H100 與 H200、擴(kuò)容或其他因素尚不清楚，但由于這與他們的收入數(shù)字不一致，筆者選擇使用較高的數(shù)字。

此前的產(chǎn)量

為了評(píng)估目前以及未來(lái)誰(shuí)擁有最多的計(jì)算資源，2023年之前的數(shù)據(jù)對(duì)整體格局的影響有限。這主要是因?yàn)镚PU性能本身的提升，以及從英偉達(dá)的銷(xiāo)售數(shù)據(jù)來(lái)看，產(chǎn)量已經(jīng)實(shí)現(xiàn)了大幅增長(zhǎng)。根據(jù)估算，微軟和Meta在2023年各自獲得了約15萬(wàn)塊H100 GPU。結(jié)合英偉達(dá)的數(shù)據(jù)中心收入，2023年H100及同等級(jí)產(chǎn)品的總產(chǎn)量很可能在100萬(wàn)塊左右。

GPU/TPU 按組織計(jì)數(shù)

筆者試圖估算微軟、Meta、谷歌、亞馬遜和 XAI 到 2024 年底將獲得多少以 H100 當(dāng)量表示的芯片，以及 2025 年的相關(guān)數(shù)量。

許多消息源稱(chēng) “英偉達(dá) 46% 的收入來(lái)自 4 個(gè)客戶(hù)”，不過(guò)這可能存在誤導(dǎo)性。查閱英偉達(dá)的 10 - Q 和 10 - K 可以發(fā)現(xiàn)，他們區(qū)分了直接客戶(hù)和間接客戶(hù)，46% 這個(gè)數(shù)字指的是直接客戶(hù)。然而，直接客戶(hù)大多是中間商，比如 SMC、HPE 和戴爾，他們購(gòu)買(mǎi) GPU 并組裝服務(wù)器供間接客戶(hù)使用，這些間接客戶(hù)包括公共云提供商、消費(fèi)互聯(lián)網(wǎng)公司、企業(yè)、公共部門(mén)和初創(chuàng)公司，而筆者所關(guān)注的公司屬于 “間接客戶(hù)” 這一范疇。

關(guān)于間接客戶(hù)的信息披露相對(duì)寬松，可能也不太可靠。在 2024 財(cái)年（約 2023 年，文中所討論的情況），英偉達(dá)的年報(bào)披露，“一個(gè)主要通過(guò)系統(tǒng)集成商和分銷(xiāo)商購(gòu)買(mǎi)我們產(chǎn)品的間接客戶(hù)估計(jì)占總收入的約 19%”。按照規(guī)定，他們需要披露收入份額超過(guò) 10% 的客戶(hù)信息。所以，要么他們的第二個(gè)客戶(hù)最多只有第一個(gè)客戶(hù)規(guī)模的一半，要么存在測(cè)量誤差。這個(gè)最大的客戶(hù)可能是微軟，有零星信息披露稱(chēng)，每季度有第二個(gè)客戶(hù)的數(shù)量曾短暫超過(guò) 10%，但這種情況不具有連貫性，而且不包括 2023 年全年或 2024 年前 3 個(gè)季度的情況。

估計(jì) 2024 年底 H100 等效芯片數(shù)量

微軟，Meta

筆者考慮到微軟身為最大的公有云之一，是 OpenAI 的主要計(jì)算提供商，自身沒(méi)有像谷歌、可能還有亞馬遜那樣大規(guī)模的定制芯片安裝基礎(chǔ)，并且與英偉達(dá)似乎存在相對(duì)于同行的特殊關(guān)系（例如，他們顯然率先獲得了 Blackwell 芯片），所以推測(cè)這兩個(gè)最大的客戶(hù)極有可能都是微軟。英偉達(dá)在 2024 年的收入份額不像 2023 年那般精確，其在第二季度和第三季度提及 H1 收入的 13%，而第三季度僅 “超過(guò) 10%”，不過(guò) 13% 可作為一個(gè)合理的估計(jì)，這表明微軟在英偉達(dá)銷(xiāo)售中的份額相較 2023 年有所降低。

另有一些對(duì)客戶(hù)規(guī)模的估計(jì)，數(shù)據(jù)顯示，微軟占英偉達(dá)收入的 15%，其次是 Meta Platforms 占 13%，亞馬遜占 6%，谷歌占約 6%，但從消息來(lái)源難以確定這些數(shù)據(jù)對(duì)應(yīng)的年份。截至 2023 年底，有關(guān)這些云提供商擁有 H100 芯片數(shù)量的報(bào)告（Meta 和微軟為 15 萬(wàn)片，亞馬遜、谷歌和甲骨文各為 5 萬(wàn)片）與上文的數(shù)據(jù)更為契合。

這里有一個(gè)關(guān)鍵的數(shù)據(jù)點(diǎn)，即 Meta 宣稱(chēng)到 2024 年底 Meta 將擁有 60 萬(wàn) H100 當(dāng)量的計(jì)算能力。據(jù)說(shuō)其中包含 35 萬(wàn) H100，其余大部分似乎將是 H200 和上個(gè)季度到貨的少量 Blackwell 芯片。

倘若我們將這 60 萬(wàn)視為準(zhǔn)確數(shù)據(jù)，并依據(jù)收入數(shù)字的比例，便能更好地估算微軟的可用計(jì)算量比這高出 25% 至 50%，即 75 萬(wàn)至 90 萬(wàn) H100 等效值。

谷歌，亞馬遜

筆者注意到，亞馬遜和谷歌向來(lái)被視作在對(duì)英偉達(dá)收入的貢獻(xiàn)方面處于較為靠后的位置。不過(guò)，二者的情況實(shí)則全然不同。

谷歌早已擁有大量自定義的 TPU，而這 TPU 正是其內(nèi)部工作負(fù)載所倚重的主要芯片。至于亞馬遜，其內(nèi)部 AI 工作負(fù)載看上去很可能要比谷歌小得多，并且亞馬遜所擁有的數(shù)量相當(dāng)?shù)挠ミ_(dá)芯片，主要是為了通過(guò)云平臺(tái)來(lái)滿(mǎn)足外部 GPU 的需求，其中最為顯著的當(dāng)屬來(lái)自 Anthropic 的需求。

下面先來(lái)看谷歌的情況。如前文所述，TPU 是其用于內(nèi)部工作負(fù)載的主要芯片。提供該領(lǐng)域數(shù)據(jù)的領(lǐng)先訂閱服務(wù) Semianalysis 在 2023 年底曾宣稱(chēng)：“谷歌是唯一一家擁有強(qiáng)大內(nèi)部芯片的公司”，“谷歌具備近乎無(wú)與倫比的能力，能夠以低成本和高性能可靠地大規(guī)模部署 AI”，且稱(chēng)其為 “世界上計(jì)算資源最豐富的公司”。自這些說(shuō)法問(wèn)世以來(lái)，谷歌在基礎(chǔ)設(shè)施方面的支出一直維持在較高水平。

筆者對(duì) TPU 和 GPU 的支出進(jìn)行了 2 比 1 的估計(jì)（此估計(jì)或許較為保守），即假設(shè)每一美元的 TPU 性能等同于微軟的 GPU 支出，由此得出的數(shù)據(jù)范圍是在 2024 年年底擁有 10 萬(wàn) - 150 萬(wàn) H100 當(dāng)量。

亞馬遜雖有自己的定制芯片 Trainium 和 Inferentia，但它們起步的時(shí)間相較于谷歌的 TPU 要晚得多，并且在這些芯片的發(fā)展進(jìn)程中似乎落后于前沿水平。亞馬遜甚至推出 1.1 億美元的免費(fèi)積分以吸引人們?cè)囉�，這一舉措表明其芯片截至目前尚未呈現(xiàn)出良好的適應(yīng)性。半分析指出：“我們的數(shù)據(jù)顯示，Microsoft 和 Google 在 AI 基礎(chǔ)設(shè)施上的 2024 年支出計(jì)劃將使他們部署的計(jì)算量遠(yuǎn)超過(guò)亞馬遜”，并且 “此外，亞馬遜即將推出的內(nèi)部芯片 Athena 和 Trainium2 仍然顯著落后”。

然而，到 2024 年年中，情況或許已有所轉(zhuǎn)變。在 2024 年第三季度財(cái)報(bào)電話(huà)會(huì)議上，亞馬遜首席執(zhí)行官安迪?賈西談及 Trainium2 時(shí)表示 “我們察覺(jué)到人們對(duì)這些芯片抱有濃厚興趣，我們已多次與制造合作伙伴溝通，產(chǎn)量遠(yuǎn)超最初計(jì)劃”。但由于當(dāng)時(shí)他們 “在接下來(lái)的幾周內(nèi)才開(kāi)始增產(chǎn)”，所以在 2024 年其芯片似乎不太可能有大規(guī)模的供應(yīng)。

XAI

筆者在此要介紹的最后一位重要參與者便是 XAI。該機(jī)構(gòu)發(fā)展極為迅速，在相關(guān)領(lǐng)域坐擁一些規(guī)模最大的集群，且有著宏大的發(fā)展計(jì)劃。其在 2024 年底對(duì)外透露了一個(gè)正在運(yùn)行的、擁有 10 萬(wàn)臺(tái) H100 的集群，不過(guò)就目前來(lái)看，似乎在為該站點(diǎn)提供充足電力方面存在一定的問(wèn)題。

2025年Blackwell芯片預(yù)測(cè)

筆者注意到《2024 年人工智能狀態(tài)報(bào)告》對(duì)主要供應(yīng)商的 Blackwell 購(gòu)買(mǎi)量有所估計(jì)，其提到 “大型云公司正在大量購(gòu)買(mǎi)這些 GB200 系統(tǒng)：微軟在 70 萬(wàn) - 140 萬(wàn)之間，谷歌在 40 萬(wàn)以及 AWS 在 36 萬(wàn)之間。有傳言說(shuō) OpenAI 至少有 40 萬(wàn) GB200”。由于這些數(shù)字是芯片的總數(shù)，所以存在重復(fù)計(jì)算 2024 年 Blackwell 購(gòu)買(mǎi)量的風(fēng)險(xiǎn)，故而筆者打了 15% 的折扣。

若依據(jù)微軟的估計(jì)，谷歌和 AWS 購(gòu)買(mǎi)英偉達(dá)的數(shù)量約為 100 萬(wàn)臺(tái)，這與它們相對(duì)于微軟的典型比例相符。這也會(huì)使微軟占英偉達(dá)總收入的 12%，此情況與其在英偉達(dá)收入中的份額于 2024 年的小幅下降態(tài)勢(shì)相一致。

在這份報(bào)告里，Meta 未被給出任何估計(jì)，但 Meta 預(yù)計(jì)明年人工智能相關(guān)基礎(chǔ)設(shè)施支出將 “顯著加速”，這意味著其在英偉達(dá)支出中的份額將維持在高位。筆者假定到 2025 年，Meta 的支出約為微軟的 80%。

對(duì)于 XAI 而言，其在這些芯片的相關(guān)內(nèi)容中未被提及，不過(guò)埃隆?馬斯克宣稱(chēng)他們將于 2025 年夏天擁有一個(gè) 30 萬(wàn)的 Blackwell 集群。考慮到馬斯克有時(shí)會(huì)有夸張言論的情況，XAI 似乎有可能在 2025 年底擁有 20 萬(wàn)至 40 萬(wàn)這樣的芯片。

一架 B200 的 H100 值多少呢？為衡量產(chǎn)能增長(zhǎng)，這是一個(gè)關(guān)鍵問(wèn)題。訓(xùn)練和推理所引用的數(shù)字不同，就訓(xùn)練而言，當(dāng)前（2024 年 11 月）的最佳估計(jì)值是 2.2 倍。

對(duì)于谷歌，筆者假定英偉達(dá)芯片繼續(xù)占其總邊際計(jì)算的 1/3。對(duì)于亞馬遜，筆者假定為 75%。這些數(shù)字存在較大不確定性，估計(jì)數(shù)對(duì)其較為敏感。

值得留意的是，仍然有諸多 H100 和 GB200 未被記錄，且可能在其他地方有顯著聚集，尤其是在英偉達(dá) 10% 的報(bào)告門(mén)檻之下。像甲骨文等云服務(wù)提供商以及其他較小的云服務(wù)提供商可能持有。

芯片數(shù)量估計(jì)摘要

模型訓(xùn)練注意事項(xiàng)

筆者在此所提及的上述數(shù)字，乃是對(duì)可用計(jì)算總量的估計(jì)情況。不過(guò)，想必許多人會(huì)更為關(guān)注用于訓(xùn)練最新前沿模型的那部分計(jì)算量。接下來(lái)，筆者將著重圍繞 OpenAI、Google、Anthropic、Meta 以及 XAI 展開(kāi)介紹。但需說(shuō)明的是，這一切內(nèi)容都頗具推測(cè)性，畢竟這些公司要么是私營(yíng)性質(zhì)，要么規(guī)模極為龐大，以至于無(wú)需對(duì)外披露這方面的成本明細(xì)。就拿谷歌來(lái)說(shuō)，相關(guān)內(nèi)容僅僅只是其業(yè)務(wù)的一小部分罷了。

據(jù)預(yù)計(jì)，OpenAI 在 2024 年的培訓(xùn)成本將會(huì)達(dá)到 30 億美元，其推理成本則為 40 億美元。依照一位消息人士的說(shuō)法，Anthropic“預(yù)計(jì)今年將會(huì)虧損約 20 億美元，營(yíng)收可達(dá)數(shù)億美元”。這也就意味著，Anthropic 的總計(jì)算成本要比 OpenAI 的 70 億美元多出 20 億美元。由于 Anthropic 的收入主要源自 API，且應(yīng)當(dāng)具備正的毛利率，所以其推理成本將會(huì)大幅降低，由此可推斷出，多出的 20 億美元中的大部分是用于訓(xùn)練的，大概為 15 億美元左右。即便與 OpenAI 相比，Anthropic 在培訓(xùn)成本方面存在兩個(gè)不利因素，但這似乎并未對(duì)其競(jìng)爭(zhēng)力造成妨礙。這種情況看起來(lái)確實(shí)很有可能，因?yàn)?Anthropic 的主要云提供商是 AWS，而我們已然了解到，AWS 所擁有的資源通常要比為 OpenAI 提供計(jì)算資源的微軟少。之前提到的《AI 狀態(tài)報(bào)告》中有傳言稱(chēng)，微軟將會(huì)向 OpenAI 提供 40 萬(wàn)個(gè) GB 200 芯片，這一數(shù)量將會(huì)超過(guò) AWS 傳聞中的整個(gè) GB 200 容量，所以極有可能使得 OpenAI 的訓(xùn)練能力遠(yuǎn)遠(yuǎn)高于 Anthropic 的訓(xùn)練能力。

筆者發(fā)現(xiàn)，谷歌的情況不太明晰。Gemini超 1.0 模型的訓(xùn)練計(jì)算量大約是 GPT - 4 的 2.5 倍，不過(guò)在其發(fā)布 9 個(gè)月后，相比最新的 Llama 模型僅多出 25%。正如我們所了解到的，谷歌或許比同行擁有更多的可用計(jì)算能力，然而，由于它既是一個(gè)主要的云提供商，又是一家大企業(yè)，所以其自身的需求也更多。谷歌的計(jì)算能力要強(qiáng)于 Anthropic 或 OpenAI，甚至比 Meta 也要強(qiáng)，要知道 Meta 也有大量獨(dú)立于前沿模型培訓(xùn)的內(nèi)部工作流程，比如社交媒體產(chǎn)品的推薦算法。Llama 3 在計(jì)算方面比 Gemini 要小，盡管它是在 Gemini 發(fā)布 8 個(gè)月后才推出的，這表明截至目前，Meta 分配給這些模型的資源相較于 OpenAI 或 Google 而言略少一些。

再看 XAI 方面，據(jù)稱(chēng)其使用了 2 萬(wàn)個(gè) H100 來(lái)訓(xùn)練Grok 2 型，并且預(yù)計(jì)Grok 3 型的訓(xùn)練將會(huì)使用多達(dá) 10 萬(wàn)個(gè) H100。鑒于 GPT - 4 據(jù)稱(chēng)是在 25000 個(gè)英偉達(dá) A100 GPU 上訓(xùn)練了 90 - 100 天，而 H100 的性能大約是 A100 的 2.25 倍，如此一來(lái)，Grok 2 型的計(jì)算量將達(dá)到 GPT - 4 的兩倍，并且預(yù)計(jì)Grok 3 型的計(jì)算量還會(huì)再增加 5 倍，從而使其接近行業(yè)領(lǐng)先水平。

需要注意的是，XAI 并非所有的計(jì)算資源都來(lái)自于他們自己的芯片，據(jù)估計(jì)，他們從甲骨文云租用了 16000 個(gè) H100。倘若 XAI 能夠像 OpenAI 或 Anthropic 那樣將其計(jì)算資源合理地部分用于培訓(xùn)，筆者猜測(cè)它的培訓(xùn)規(guī)�；蛟S會(huì)與 Anthropic 類(lèi)似，略低于 OpenAI 和谷歌。

*聲明：本文系原作者創(chuàng)作。文章內(nèi)容系其個(gè)人觀點(diǎn)，我方轉(zhuǎn)載僅為分享與討論，不代表我方贊成或認(rèn)同，如有異議，請(qǐng)聯(lián)系后臺(tái)。

原文標(biāo)題 : 今年355萬(wàn)片等效H100，流向五大AI龍頭