訂閱
糾錯(cuò)
加入自媒體

TOP500超算榜出爐:El Capitan以1.742 EFlop/s居榜首

本文由半導(dǎo)體產(chǎn)業(yè)縱橫(ID:ICVIEWS)編譯自nextplatform

“El Capitan”超級(jí)計(jì)算機(jī)開創(chuàng)了融合 CPU-GPU 計(jì)算的先河。

從勞倫斯利弗莫爾的專家處所知,從許多指標(biāo)來看,El Capitan 可以與超大規(guī)模企業(yè)和云構(gòu)建者為 AI 訓(xùn)練運(yùn)行而啟動(dòng)的大型機(jī)器相媲美。El Capitan 是一臺(tái)專門為運(yùn)行有史以來最復(fù)雜、最密集的模擬和建模工作負(fù)載而定制的機(jī)器,它恰好在 GenAI 革命的核心——新型大型語言模型方面表現(xiàn)相當(dāng)出色。

而且得益于 Cray 設(shè)計(jì)的“Rosetta” Slingshot 11 互連和惠普企業(yè)銷售的 EX 系列系統(tǒng)的核心組件,El Capitan 已經(jīng)采用了 HPC 增強(qiáng)型可擴(kuò)展以太網(wǎng),這與超級(jí)以太網(wǎng)聯(lián)盟 (Ultra Ethernet Consortium) 試圖推進(jìn)的技術(shù)路線類似,因?yàn)槌笠?guī)模企業(yè)和云構(gòu)建者厭倦了為他們的 AI 集群支付 InfiniBand 網(wǎng)絡(luò)的高昂費(fèi)用。

勞倫斯利弗莫爾將獲得一臺(tái)極其強(qiáng)大的 HPC/AI 超級(jí)計(jì)算機(jī),而其價(jià)格比如今的超大規(guī)模計(jì)算公司、云構(gòu)建商和大型 AI 初創(chuàng)公司支付的價(jià)格要低得多。很難準(zhǔn)確地說出兩者之間的差異,但筆者初步粗略計(jì)算得出,El Capitan 每單位 FP16 性能的成本是 Microsoft Azure、Meta Platforms、xAI 和其他公司正在構(gòu)建的大型“Hopper”H100 集群的一半。

國家安全至關(guān)重要,而某些技術(shù)突破和創(chuàng)新有著積極意義。以 El Capitan 為例,突破系統(tǒng)設(shè)計(jì)的架構(gòu)極限意義非凡。同時(shí),要有勇于在設(shè)計(jì)混合 CPU - GPU 計(jì)算引擎方面展現(xiàn)自身能力的決心,而且將超快的 HBM 內(nèi)存接入到這些融合設(shè)備之間的共享內(nèi)存空間,這一系列舉措都能帶來好處。最后,El Capitan 和超大規(guī)模企業(yè)、云構(gòu)建者以及 AI 初創(chuàng)公司正在打造的強(qiáng)大機(jī)器之間存在著巨大的差異。

2019 年 8 月,惠普 (Hewlett Packard Enterprise) 獲得了價(jià)值數(shù)百萬美元的 El Capitan 合同,當(dāng)時(shí)用戶只知道這臺(tái)機(jī)器將使用 Slingshot 互連,成本約為 5 億美元,并提供至少 1.5 百億億次浮點(diǎn)運(yùn)算的持續(xù)性能。就在幾個(gè)月前,HPE 表示將以 13 億美元收購 Cray。

無論如何,彼時(shí)El Capitan 的持續(xù)性能預(yù)計(jì)至少為 IBM 為實(shí)驗(yàn)室構(gòu)建的 “Sierra” 混合 CPU - GPU 系統(tǒng)的 10 倍,功率范圍達(dá) 30 兆瓦。2020 年 3 月,勞倫斯利弗莫爾宣稱其正與 AMD 合作開發(fā) El Capitan 的計(jì)算引擎,并進(jìn)一步指出,該系統(tǒng)的峰值理論 FP64 性能將超 2 百億億次浮點(diǎn)運(yùn)算(實(shí)際系統(tǒng)能夠以 64 位分辨率進(jìn)行計(jì)算),功耗約為 40 兆瓦,成本不超過 6 億美元。

El Capitan 混合 CPU - GPU 系統(tǒng)已在勞倫斯利弗莫爾完成安裝且近乎滿負(fù)荷運(yùn)行,人們公認(rèn)這是世界上針對(duì)傳統(tǒng)模擬和建模工作負(fù)載性能最優(yōu)的系統(tǒng),這其中包括中國 “天河三號(hào)”(2.05 百億億次浮點(diǎn)運(yùn)算)和 “海洋之光”(1.5 百億億次浮點(diǎn)運(yùn)算)超級(jí)計(jì)算機(jī)的峰值性能。

2022 年 6 月,勞倫斯利弗莫爾和 AMD 宣布將采用融合的 CPU - GPU 設(shè)備(AMD 數(shù)十年來一直將其稱為加速處理單元或 APU)作為 El Capitan 系統(tǒng)的主要計(jì)算引擎。自那時(shí)起,眾人皆在猜測(cè) “Antares” Instinct MI300A 設(shè)備的時(shí)鐘速度、設(shè)備中 GPU 計(jì)算單元的數(shù)量以及其運(yùn)行時(shí)鐘速度。事實(shí)證明,筆者認(rèn)為 MI300A 的時(shí)鐘速度會(huì)更高,因此只需較少的時(shí)鐘周期即可達(dá)到相應(yīng)性能。勞倫斯利弗莫爾所獲得的機(jī)器性能比預(yù)期更優(yōu),因此其性價(jià)比甚至超出了預(yù)期水平。

勞倫斯利弗莫爾國家實(shí)驗(yàn)室利弗莫爾計(jì)算部門首席技術(shù)官 Bronis de Supinski透露,El Capitan 系統(tǒng)中總計(jì)有 87 個(gè)計(jì)算機(jī)架,另有數(shù)十個(gè)額外機(jī)架用于容納其 “Rabbit” NVM - Express 快速存儲(chǔ)陣列。

El Capitan 在液冷 Cray EX 機(jī)架中總共擁有 11,136 個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)配備四個(gè) MI300A 計(jì)算引擎,整個(gè)系統(tǒng)共有 44,544 個(gè)設(shè)備。每個(gè)設(shè)備都有 128GB 的 HBM3 主內(nèi)存,由 CPU 和 GPU 芯片共享,運(yùn)行頻率為 5.2GHz,能夠?yàn)?CPU 和 GPU 芯片提供總計(jì) 5.3TB / 秒的總帶寬。

根據(jù) 11 月份 Top500 排行榜的數(shù)據(jù),MI300A CPU 芯片組的運(yùn)行頻率為 1.8 GHz,而 AMD 規(guī)格表顯示 GPU 芯片組的峰值運(yùn)行頻率為 2.1 GHz。該芯片組包含三個(gè) “Genoa” X86 計(jì)算復(fù)合體,每個(gè)復(fù)合體具備八個(gè)核心,總計(jì) 24 個(gè)核心,系采用臺(tái)積電的 5 納米工藝蝕刻而成。MI300A 設(shè)備上的六個(gè) Antares GPU 芯片組擁有 228 個(gè) GPU 計(jì)算單元,總共包含 912 個(gè)矩陣核心和 14,592 個(gè)流處理器。在矢量單元方面,MI300A 的峰值 FP64 性能為 61.3 萬億次浮點(diǎn)運(yùn)算,在矩陣單元上,其 FP64 性能為矢量單元的兩倍,即 122.6 萬億次浮點(diǎn)運(yùn)算。

每個(gè) El Capitan 節(jié)點(diǎn)的峰值 FP64 性能可達(dá) 250.8 teraflops,當(dāng)將所有節(jié)點(diǎn)連接在一起時(shí),F(xiàn)P64 總性能可達(dá) 2,792.9 petaflops,前端配備 5.475 PB 的 HBM3 內(nèi)存。在 CPU 和 GPU 計(jì)算芯片下方設(shè)有四個(gè) I/O 芯片,用于將這些元件整合并連接至 HBM3 內(nèi)存,這些芯片是采用臺(tái)積電的 6 納米工藝蝕刻而成。

值得注意的是,MI300A 封裝上仍有六個(gè)計(jì)算芯片(在 AMD 術(shù)語中為 XCD),其與六個(gè) GPU 芯片完美匹配。橡樹嶺的 “Frontier” 超級(jí)計(jì)算機(jī)定制的 “Trento” CPU XCD(單個(gè)芯片中每個(gè)節(jié)點(diǎn)八個(gè))與四個(gè)獨(dú)立的雙芯片 “Aldebaran” MI250X GPU 的比例亦為一比一。這種一比一的封裝形式在多代 Cray 超級(jí)計(jì)算機(jī)的 CPU 和加速器之間一直得以延續(xù),這或許并非偶然。從某種意義上講,MI300A 是一個(gè)六路 X86 CPU 服務(wù)器,與六路 GPU 系統(tǒng)板交叉耦合。

以下是一個(gè)匯總表,展示了 El Capitan 系統(tǒng)及其位于勞倫斯利弗莫爾的 El Capitan 區(qū)塊的 “Toulumne” 和 “rzAdams” 芯片以及位于桑迪亞國家實(shí)驗(yàn)室的 “El Dorado” 系統(tǒng)的相關(guān)參數(shù):

圖片

El Capitan 服務(wù)器節(jié)點(diǎn)的示意圖如下:

圖片

如您所見,存在四個(gè) Infinity Fabric x16 端口,其總帶寬達(dá) 128 GB / 秒,以內(nèi)存一致性方式將四個(gè) MI300A 設(shè)備相互連接。

此外,還有四個(gè)端口,這些端口可配置為 PCI - Express 5.0 x16 插槽或 Infinity Fabric x16 插槽,在此情形下,它們被設(shè)置為前者,以便插入 Slingshot 11 網(wǎng)絡(luò)接口卡,這些接口卡實(shí)際上通過 Slingshot 11 架構(gòu)將整個(gè)系統(tǒng)中的 APU 相互連接。

最后,關(guān)于 El Capitan 系統(tǒng)有一個(gè)饒有趣味的觀點(diǎn),從技術(shù)層面而言,該系統(tǒng)用于運(yùn)行對(duì)超級(jí)計(jì)算機(jī)進(jìn)行排名的高性能 Linpack 基準(zhǔn)測(cè)試的那部分機(jī)器,其性能可達(dá) 2,746.38 千萬億次浮點(diǎn)運(yùn)算。(若物理機(jī)器上總計(jì)有 44,544 個(gè) APU,此部分機(jī)器激活了 43,808 個(gè) APU,占機(jī)器容量的 98.3%。)額定性能末尾的 46 千萬億次浮點(diǎn)運(yùn)算(性能的第三和第四位有效數(shù)字)比 2024 年 11 月 Top500 榜單上除 34 臺(tái)機(jī)器之外的所有機(jī)器都要大。當(dāng)提及 “2.7 百億億次浮點(diǎn)運(yùn)算” 時(shí)所舍棄的那些四舍五入數(shù)字,其規(guī)模幾乎與巴塞羅那超級(jí)計(jì)算中心的 “MareNostrum 5” 超級(jí)計(jì)算機(jī)相當(dāng)。

若勞倫斯利弗莫爾讓 HPL 在系統(tǒng)中的所有 APU 上運(yùn)行,El Capitan 的性能將再提升 1.65%,并且我們認(rèn)為,計(jì)算、內(nèi)存和互連相互作用的改進(jìn)可使其性能再提高約 5%。倘若勞倫斯利弗莫爾能夠?qū)④浖途W(wǎng)絡(luò)調(diào)優(yōu)性能提高 7.5%,那么該機(jī)器的峰值 HPL 容量將突破 3 百億億次浮點(diǎn)運(yùn)算,我們期望實(shí)驗(yàn)室能夠達(dá)成這一目標(biāo),畢竟這極具意義。這將是五年前項(xiàng)目啟動(dòng)時(shí) El Capitan 最初預(yù)期性能的兩倍 —— 且是按時(shí)按預(yù)算推進(jìn)的。

*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個(gè)人觀點(diǎn),我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認(rèn)同,如有異議,請(qǐng)聯(lián)系后臺(tái)。

       原文標(biāo)題 : TOP500超算榜出爐:El Capitan以1.742 EFlop/s居榜首

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)