欧美人妻少妇精品久久黑人 ,亚洲国产AV无码精品无广告,18禁黄污吃奶免费看网站

TOP500超算榜出爐：El Capitan以1.742 EFlop/s居榜首

2024-11-19 16:37

本文由半導(dǎo)體產(chǎn)業(yè)縱橫（ID：ICVIEWS）編譯自nextplatform

“El Capitan”超級(jí)計(jì)算機(jī)開創(chuàng)了融合 CPU-GPU 計(jì)算的先河。

從勞倫斯利弗莫爾的專家處所知，從許多指標(biāo)來看，El Capitan 可以與超大規(guī)模企業(yè)和云構(gòu)建者為 AI 訓(xùn)練運(yùn)行而啟動(dòng)的大型機(jī)器相媲美。El Capitan 是一臺(tái)專門為運(yùn)行有史以來最復(fù)雜、最密集的模擬和建模工作負(fù)載而定制的機(jī)器，它恰好在 GenAI 革命的核心——新型大型語言模型方面表現(xiàn)相當(dāng)出色。

而且得益于 Cray 設(shè)計(jì)的“Rosetta” Slingshot 11 互連和惠普企業(yè)銷售的 EX 系列系統(tǒng)的核心組件，El Capitan 已經(jīng)采用了 HPC 增強(qiáng)型可擴(kuò)展以太網(wǎng)，這與超級(jí)以太網(wǎng)聯(lián)盟 (Ultra Ethernet Consortium) 試圖推進(jìn)的技術(shù)路線類似，因?yàn)槌笠?guī)模企業(yè)和云構(gòu)建者厭倦了為他們的 AI 集群支付 InfiniBand 網(wǎng)絡(luò)的高昂費(fèi)用。

勞倫斯利弗莫爾將獲得一臺(tái)極其強(qiáng)大的 HPC/AI 超級(jí)計(jì)算機(jī)，而其價(jià)格比如今的超大規(guī)模計(jì)算公司、云構(gòu)建商和大型 AI 初創(chuàng)公司支付的價(jià)格要低得多。很難準(zhǔn)確地說出兩者之間的差異，但筆者初步粗略計(jì)算得出，El Capitan 每單位 FP16 性能的成本是 Microsoft Azure、Meta Platforms、xAI 和其他公司正在構(gòu)建的大型“Hopper”H100 集群的一半。

國家安全至關(guān)重要，而某些技術(shù)突破和創(chuàng)新有著積極意義。以 El Capitan 為例，突破系統(tǒng)設(shè)計(jì)的架構(gòu)極限意義非凡。同時(shí)，要有勇于在設(shè)計(jì)混合 CPU - GPU 計(jì)算引擎方面展現(xiàn)自身能力的決心，而且將超快的 HBM 內(nèi)存接入到這些融合設(shè)備之間的共享內(nèi)存空間，這一系列舉措都能帶來好處。最后，El Capitan 和超大規(guī)模企業(yè)、云構(gòu)建者以及 AI 初創(chuàng)公司正在打造的強(qiáng)大機(jī)器之間存在著巨大的差異。

2019 年 8 月，惠普 (Hewlett Packard Enterprise) 獲得了價(jià)值數(shù)百萬美元的 El Capitan 合同，當(dāng)時(shí)用戶只知道這臺(tái)機(jī)器將使用 Slingshot 互連，成本約為 5 億美元，并提供至少 1.5 百億億次浮點(diǎn)運(yùn)算的持續(xù)性能。就在幾個(gè)月前，HPE 表示將以 13 億美元收購 Cray。

無論如何，彼時(shí)El Capitan 的持續(xù)性能預(yù)計(jì)至少為 IBM 為實(shí)驗(yàn)室構(gòu)建的 “Sierra” 混合 CPU - GPU 系統(tǒng)的 10 倍，功率范圍達(dá) 30 兆瓦。2020 年 3 月，勞倫斯利弗莫爾宣稱其正與 AMD 合作開發(fā) El Capitan 的計(jì)算引擎，并進(jìn)一步指出，該系統(tǒng)的峰值理論 FP64 性能將超 2 百億億次浮點(diǎn)運(yùn)算（實(shí)際系統(tǒng)能夠以 64 位分辨率進(jìn)行計(jì)算），功耗約為 40 兆瓦，成本不超過 6 億美元。

El Capitan 混合 CPU - GPU 系統(tǒng)已在勞倫斯利弗莫爾完成安裝且近乎滿負(fù)荷運(yùn)行，人們公認(rèn)這是世界上針對(duì)傳統(tǒng)模擬和建模工作負(fù)載性能最優(yōu)的系統(tǒng)，這其中包括中國 “天河三號(hào)”（2.05 百億億次浮點(diǎn)運(yùn)算）和 “海洋之光”（1.5 百億億次浮點(diǎn)運(yùn)算）超級(jí)計(jì)算機(jī)的峰值性能。

2022 年 6 月，勞倫斯利弗莫爾和 AMD 宣布將采用融合的 CPU - GPU 設(shè)備（AMD 數(shù)十年來一直將其稱為加速處理單元或 APU）作為 El Capitan 系統(tǒng)的主要計(jì)算引擎。自那時(shí)起，眾人皆在猜測(cè) “Antares” Instinct MI300A 設(shè)備的時(shí)鐘速度、設(shè)備中 GPU 計(jì)算單元的數(shù)量以及其運(yùn)行時(shí)鐘速度。事實(shí)證明，筆者認(rèn)為 MI300A 的時(shí)鐘速度會(huì)更高，因此只需較少的時(shí)鐘周期即可達(dá)到相應(yīng)性能。勞倫斯利弗莫爾所獲得的機(jī)器性能比預(yù)期更優(yōu)，因此其性價(jià)比甚至超出了預(yù)期水平。

勞倫斯利弗莫爾國家實(shí)驗(yàn)室利弗莫爾計(jì)算部門首席技術(shù)官 Bronis de Supinski透露，El Capitan 系統(tǒng)中總計(jì)有 87 個(gè)計(jì)算機(jī)架，另有數(shù)十個(gè)額外機(jī)架用于容納其 “Rabbit” NVM - Express 快速存儲(chǔ)陣列。

El Capitan 在液冷 Cray EX 機(jī)架中總共擁有 11,136 個(gè)節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)配備四個(gè) MI300A 計(jì)算引擎，整個(gè)系統(tǒng)共有 44,544 個(gè)設(shè)備。每個(gè)設(shè)備都有 128GB 的 HBM3 主內(nèi)存，由 CPU 和 GPU 芯片共享，運(yùn)行頻率為 5.2GHz，能夠?yàn)?CPU 和 GPU 芯片提供總計(jì) 5.3TB / 秒的總帶寬。

根據(jù) 11 月份 Top500 排行榜的數(shù)據(jù)，MI300A CPU 芯片組的運(yùn)行頻率為 1.8 GHz，而 AMD 規(guī)格表顯示 GPU 芯片組的峰值運(yùn)行頻率為 2.1 GHz。該芯片組包含三個(gè) “Genoa” X86 計(jì)算復(fù)合體，每個(gè)復(fù)合體具備八個(gè)核心，總計(jì) 24 個(gè)核心，系采用臺(tái)積電的 5 納米工藝蝕刻而成。MI300A 設(shè)備上的六個(gè) Antares GPU 芯片組擁有 228 個(gè) GPU 計(jì)算單元，總共包含 912 個(gè)矩陣核心和 14,592 個(gè)流處理器。在矢量單元方面，MI300A 的峰值 FP64 性能為 61.3 萬億次浮點(diǎn)運(yùn)算，在矩陣單元上，其 FP64 性能為矢量單元的兩倍，即 122.6 萬億次浮點(diǎn)運(yùn)算。

每個(gè) El Capitan 節(jié)點(diǎn)的峰值 FP64 性能可達(dá) 250.8 teraflops，當(dāng)將所有節(jié)點(diǎn)連接在一起時(shí)，F(xiàn)P64 總性能可達(dá) 2,792.9 petaflops，前端配備 5.475 PB 的 HBM3 內(nèi)存。在 CPU 和 GPU 計(jì)算芯片下方設(shè)有四個(gè) I/O 芯片，用于將這些元件整合并連接至 HBM3 內(nèi)存，這些芯片是采用臺(tái)積電的 6 納米工藝蝕刻而成。

值得注意的是，MI300A 封裝上仍有六個(gè)計(jì)算芯片（在 AMD 術(shù)語中為 XCD），其與六個(gè) GPU 芯片完美匹配。橡樹嶺的 “Frontier” 超級(jí)計(jì)算機(jī)定制的 “Trento” CPU XCD（單個(gè)芯片中每個(gè)節(jié)點(diǎn)八個(gè)）與四個(gè)獨(dú)立的雙芯片 “Aldebaran” MI250X GPU 的比例亦為一比一。這種一比一的封裝形式在多代 Cray 超級(jí)計(jì)算機(jī)的 CPU 和加速器之間一直得以延續(xù)，這或許并非偶然。從某種意義上講，MI300A 是一個(gè)六路 X86 CPU 服務(wù)器，與六路 GPU 系統(tǒng)板交叉耦合。

以下是一個(gè)匯總表，展示了 El Capitan 系統(tǒng)及其位于勞倫斯利弗莫爾的 El Capitan 區(qū)塊的 “Toulumne” 和 “rzAdams” 芯片以及位于桑迪亞國家實(shí)驗(yàn)室的 “El Dorado” 系統(tǒng)的相關(guān)參數(shù)：

El Capitan 服務(wù)器節(jié)點(diǎn)的示意圖如下：

如您所見，存在四個(gè) Infinity Fabric x16 端口，其總帶寬達(dá) 128 GB / 秒，以內(nèi)存一致性方式將四個(gè) MI300A 設(shè)備相互連接。

此外，還有四個(gè)端口，這些端口可配置為 PCI - Express 5.0 x16 插槽或 Infinity Fabric x16 插槽，在此情形下，它們被設(shè)置為前者，以便插入 Slingshot 11 網(wǎng)絡(luò)接口卡，這些接口卡實(shí)際上通過 Slingshot 11 架構(gòu)將整個(gè)系統(tǒng)中的 APU 相互連接。

最后，關(guān)于 El Capitan 系統(tǒng)有一個(gè)饒有趣味的觀點(diǎn)，從技術(shù)層面而言，該系統(tǒng)用于運(yùn)行對(duì)超級(jí)計(jì)算機(jī)進(jìn)行排名的高性能 Linpack 基準(zhǔn)測(cè)試的那部分機(jī)器，其性能可達(dá) 2,746.38 千萬億次浮點(diǎn)運(yùn)算。（若物理機(jī)器上總計(jì)有 44,544 個(gè) APU，此部分機(jī)器激活了 43,808 個(gè) APU，占機(jī)器容量的 98.3%。）額定性能末尾的 46 千萬億次浮點(diǎn)運(yùn)算（性能的第三和第四位有效數(shù)字）比 2024 年 11 月 Top500 榜單上除 34 臺(tái)機(jī)器之外的所有機(jī)器都要大。當(dāng)提及 “2.7 百億億次浮點(diǎn)運(yùn)算” 時(shí)所舍棄的那些四舍五入數(shù)字，其規(guī)模幾乎與巴塞羅那超級(jí)計(jì)算中心的 “MareNostrum 5” 超級(jí)計(jì)算機(jī)相當(dāng)。

若勞倫斯利弗莫爾讓 HPL 在系統(tǒng)中的所有 APU 上運(yùn)行，El Capitan 的性能將再提升 1.65%，并且我們認(rèn)為，計(jì)算、內(nèi)存和互連相互作用的改進(jìn)可使其性能再提高約 5%。倘若勞倫斯利弗莫爾能夠?qū)④浖途W(wǎng)絡(luò)調(diào)優(yōu)性能提高 7.5%，那么該機(jī)器的峰值 HPL 容量將突破 3 百億億次浮點(diǎn)運(yùn)算，我們期望實(shí)驗(yàn)室能夠達(dá)成這一目標(biāo)，畢竟這極具意義。這將是五年前項(xiàng)目啟動(dòng)時(shí) El Capitan 最初預(yù)期性能的兩倍 —— 且是按時(shí)按預(yù)算推進(jìn)的。

*聲明：本文系原作者創(chuàng)作。文章內(nèi)容系其個(gè)人觀點(diǎn)，我方轉(zhuǎn)載僅為分享與討論，不代表我方贊成或認(rèn)同，如有異議，請(qǐng)聯(lián)系后臺(tái)。

原文標(biāo)題 : TOP500超算榜出爐：El Capitan以1.742 EFlop/s居榜首