亚洲中文字幕23区,中日AV乱码一区二区三区乱码

英偉達(dá)黃仁勛重磅演講：機(jī)器人時代已經(jīng)到來

2024-06-04 09:50

出品｜商業(yè)秀

6月2日，英偉達(dá)聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁勛在Computex 2024（2024臺北國際電腦展）上發(fā)表主題演講，分享了人工智能時代如何助推全球新產(chǎn)業(yè)革命。主要涉及以下幾個關(guān)鍵議題：1）我們共同的工作正在取得哪些進(jìn)展，以及這些進(jìn)展的意義何在？2）生成式人工智能到底是什么？它將如何影響我們的行業(yè)，乃至每一個行業(yè)？3）一個關(guān)于我們?nèi)绾吻斑M(jìn)的藍(lán)圖，我們將如何抓住這個令人難以置信的機(jī)遇？

-Business Show-1新的計算時代正在開始

但在開始深入討論之前，我想先強(qiáng)調(diào)一點(diǎn)：英偉達(dá)位于計算機(jī)圖形學(xué)、模擬和人工智能的交匯點(diǎn)上，這構(gòu)成了我們公司的靈魂。今天，我將向大家展示的所有內(nèi)容，都是基于模擬的。這些不僅僅是視覺效果，它們背后是數(shù)學(xué)、科學(xué)和計算機(jī)科學(xué)的精髓，以及令人嘆為觀止的計算機(jī)架構(gòu)。沒有任何動畫是預(yù)先制作的，一切都是我們自家團(tuán)隊的杰作。這就是英偉達(dá)的領(lǐng)會，我們將其全部融入了我們引以為傲的Omniverse虛擬世界中。

現(xiàn)在，請欣賞視頻！全球數(shù)據(jù)中心的電力消耗正在急劇上升，同時計算成本也在不斷攀升。我們正面臨著計算膨脹的嚴(yán)峻挑戰(zhàn)，這種情況顯然無法長期維持。數(shù)據(jù)將繼續(xù)以指數(shù)級增長，而CPU的性能擴(kuò)展卻難以像以往那樣快速。然而，有一種更為高效的方法正在浮現(xiàn)。近二十年來，我們一直致力于加速計算的研究。CUDA技術(shù)增強(qiáng)了CPU的功能，將那些特殊處理器能更高效完成的任務(wù)卸載并加速。事實上，由于CPU性能擴(kuò)展的放緩甚至停滯，加速計算的優(yōu)勢愈發(fā)顯著。

我預(yù)測，每個處理密集型的應(yīng)用都將實現(xiàn)加速，且不久的將來，每個數(shù)據(jù)中心都將實現(xiàn)全面加速�，F(xiàn)在，選擇加速計算是明智之舉，這已成為行業(yè)共識。想象一下，一個應(yīng)用程序需要100個時間單位來完成。無論是100秒還是100小時，我們往往無法承受運(yùn)行數(shù)天甚至數(shù)月的人工智能應(yīng)用。在這100個時間單位中，有1個時間單位涉及需要順序執(zhí)行的代碼，此時單線程CPU的重要性不言而喻。操作系統(tǒng)的控制邏輯是不可或缺的，必須嚴(yán)格按照指令序列執(zhí)行。然而，還有許多算法，如計算機(jī)圖形學(xué)、圖像處理、物理模擬、組合優(yōu)化、圖處理和數(shù)據(jù)庫處理，特別是深度學(xué)習(xí)中廣泛使用的線性代數(shù)，它們非常適合通過并行處理進(jìn)行加速。

為了實現(xiàn)這一目標(biāo)，我們發(fā)明了一種創(chuàng)新架構(gòu)，將GPU與CPU*結(jié)合。專用的處理器能夠?qū)⒃竞臅r的任務(wù)加速至令人難以置信的速度。由于這兩個處理器能并行工作，它們各自獨(dú)立且自主運(yùn)行。這意味著，原本需要100個時間單位才能完成的任務(wù)，現(xiàn)在可能僅需1個時間單位即可完成。盡管這種加速效果聽起來令人難以置信，但今天，我將通過一系列實例來驗證這一說法。這種性能提升所帶來的好處是驚人的，加速100倍，而功率僅增加約3倍，成本僅上升約50%。我們在PC行業(yè)早已實踐了這種策略。在PC上添加一個價值500美元的GeForce GPU，就能使其性能大幅提升，同時整體價值也增加至1000美元。

在數(shù)據(jù)中心，我們也采用了同樣的方法。一個價值十億美元的數(shù)據(jù)中心，在添加了價值5億美元的GPU后，瞬間轉(zhuǎn)變?yōu)橐粋€強(qiáng)大的人工智能工廠。今天，這種變革正在全球范圍內(nèi)發(fā)生。節(jié)省的成本同樣令人震驚。每投入1美元，你就能獲得高達(dá)60倍的性能提升。加速100倍，而功率僅增加3倍，成本僅上升1.5倍。節(jié)省的費(fèi)用是實實在在的！顯然，許多公司在云端處理數(shù)據(jù)上花費(fèi)了數(shù)億美元。當(dāng)數(shù)據(jù)得到加速處理時，節(jié)省數(shù)億美元就變得合情合理。

為什么會這樣呢？原因很簡單，我們在通用計算方面經(jīng)歷了長時間的效率瓶頸�，F(xiàn)在，我們終于認(rèn)識到了這一點(diǎn)，并決定加速。通過采用專用處理器，我們可以重新獲得大量之前被忽視的性能提升，從而節(jié)省大量金錢和能源。這就是為什么我說，你購買得越多，節(jié)省得也越多�，F(xiàn)在，我已經(jīng)向你們展示了這些數(shù)字。雖然它們并非精確到小數(shù)點(diǎn)后幾位，但這準(zhǔn)確地反映了事實。這可以稱之為“CEO數(shù)學(xué)”。CEO數(shù)學(xué)雖不追求*的精確，但其背后的邏輯是正確的——你購買的加速計算能力越多，節(jié)省的成本也就越多。

-Business Show-2350個函式庫幫助開拓新市場

加速計算帶來的結(jié)果確實非凡，但其實現(xiàn)過程并不容易。為什么它能節(jié)省這么多錢，但人們卻沒有更早地采用這種技術(shù)呢？原因就在于它的實施難度太大。沒有現(xiàn)成的軟件可以簡單地通過加速編譯器運(yùn)行，然后應(yīng)用程序就能瞬間提速100倍。這既不符合邏輯也不現(xiàn)實。如果這么容易，那么CPU廠商早就這樣做了。事實上，要實現(xiàn)加速，軟件必須進(jìn)行全面重寫。這是整個過程中*挑戰(zhàn)性的部分。軟件需要被重新設(shè)計、重新編碼，以便將原本在CPU上運(yùn)行的算法轉(zhuǎn)化為可以在加速器上并行運(yùn)行的格式。

這項計算機(jī)科學(xué)研究雖然困難，但我們在過去的20年里已經(jīng)取得了顯著的進(jìn)展。例如，我們推出了廣受歡迎的cuDNN深度學(xué)習(xí)庫，它專門處理神經(jīng)網(wǎng)絡(luò)加速。我們還為人工智能物理模擬提供了一個庫，適用于流體動力學(xué)等需要遵守物理定律的應(yīng)用。另外，我們還有一個名為Aerial的新庫，它利用CUDA加速5G無線電技術(shù)，使我們能夠像軟件定義互聯(lián)網(wǎng)網(wǎng)絡(luò)一樣，用軟件定義和加速電信網(wǎng)絡(luò)。這些加速能力不僅提升了性能，還幫助我們將整個電信行業(yè)轉(zhuǎn)化為一種與云計算類似的計算平臺。

此外，Coolitho計算光刻平臺也是一個很好的例子，它極大地提升了芯片制造過程中計算最密集的部分——掩模制作的效率。臺積電等公司已經(jīng)開始使用Coolitho進(jìn)行生產(chǎn)，不僅顯著節(jié)省了能源，而且大幅降低了成本。他們的目標(biāo)是通過加速技術(shù)棧，為算法的更進(jìn)一步發(fā)展和制造更深更窄的晶體管所需的龐大計算能力做好準(zhǔn)備。Pair of Bricks是我們引以為傲的基因測序庫，它擁有世界*的基因測序吞吐量。而Co OPT則是一個令人矚目的組合優(yōu)化庫，能夠解決路線規(guī)劃、優(yōu)化行程、旅行社問題等復(fù)雜難題。人們普遍認(rèn)為，這些問題需要量子計算機(jī)才能解決，但我們卻通過加速計算技術(shù)，創(chuàng)造了一個運(yùn)行極快的算法，成功打破了23項世界紀(jì)錄，至今我們?nèi)员３种恳粋€主要的世界紀(jì)錄。Coup Quantum是我們開發(fā)的量子計算機(jī)仿真系統(tǒng)。

對于想要設(shè)計量子計算機(jī)或量子算法的研究人員來說，一個可靠的模擬器是必不可少的。在沒有實際量子計算機(jī)的情況下，英偉達(dá)CUDA——我們稱之為世界上最快的計算機(jī)——成為了他們的*工具。我們提供了一個模擬器，能夠模擬量子計算機(jī)的運(yùn)行，幫助研究人員在量子計算領(lǐng)域取得突破。這個模擬器已經(jīng)被全球數(shù)十萬研究人員廣泛使用，并被集成到所有*的量子計算框架中，為世界各地的科學(xué)超級計算機(jī)中心提供了強(qiáng)大的支持。此外，我們還推出了數(shù)據(jù)處理庫Kudieff，專門用于加速數(shù)據(jù)處理過程。數(shù)據(jù)處理占據(jù)了當(dāng)今云支出的絕大部分，因此加速數(shù)據(jù)處理對于節(jié)省成本至關(guān)重要。

QDF是我們開發(fā)的加速工具，能夠顯著提升世界上主要數(shù)據(jù)處理庫的性能，如Spark、Pandas、Polar以及NetworkX等圖處理數(shù)據(jù)庫。這些庫是生態(tài)系統(tǒng)中的關(guān)鍵組成部分，它們使得加速計算得以廣泛應(yīng)用。如果沒有我們精心打造的如cuDNN這樣的特定領(lǐng)域庫，僅憑CUDA，全球深度學(xué)習(xí)科學(xué)家可能無法充分利用其潛力，因為CUDA與TensorFlow、PyTorch等深度學(xué)習(xí)框架中使用的算法之間存在顯著差異。這就像在沒有OpenGL的情況下進(jìn)行計算機(jī)圖形學(xué)設(shè)計，或是在沒有SQL的情況下進(jìn)行數(shù)據(jù)處理一樣不切實際。這些特定領(lǐng)域的庫是我們公司的寶藏，我們目前擁有超過350個這樣的庫。

正是這些庫讓我們在市場中保持開放和*。今天，我將向你們展示更多令人振奮的例子。就在上周，谷歌宣布他們已經(jīng)在云端部署了QDF，并成功加速了Pandas。Pandas是世界上*的數(shù)據(jù)科學(xué)庫，被全球1000萬數(shù)據(jù)科學(xué)家所使用，每月下載量高達(dá)1.7億次。它就像是數(shù)據(jù)科學(xué)家的Excel，是他們處理數(shù)據(jù)的得力助手�，F(xiàn)在，只需在谷歌的云端數(shù)據(jù)中心平臺Colab上點(diǎn)擊一下，你就可以體驗到由QDF加速的Pandas帶來的強(qiáng)大性能。這種加速效果確實令人驚嘆，就像你們剛剛看到的演示一樣，它幾乎瞬間就完成了數(shù)據(jù)處理任務(wù)。

-Business Show-3CUDA實現(xiàn)良性循環(huán)

CUDA已經(jīng)達(dá)到了一個人們所稱的臨界點(diǎn)，但現(xiàn)實情況比這要好。CUDA已經(jīng)實現(xiàn)一個良性的發(fā)展循環(huán)�；仡櫄v史和各種計算架構(gòu)、平臺的發(fā)展，我們可以發(fā)現(xiàn)這樣的循環(huán)并不常見。以微處理器CPU為例，它已經(jīng)存在了60年，但其加速計算的方式在這漫長的歲月里并未發(fā)生根本性改變。要創(chuàng)建一個新的計算平臺往往面臨著“先有雞還是先有蛋”的困境。沒有開發(fā)者的支持，平臺很難吸引用戶；而沒有用戶的廣泛采用，又難以形成龐大的安裝基礎(chǔ)來吸引開發(fā)者。這個困境在過去20年中一直困擾著多個計算平臺的發(fā)展。然而，通過持續(xù)不斷地推出特定領(lǐng)域的庫和加速庫，我們成功打破了這一困境。

如今，我們已在全球擁有500萬開發(fā)者，他們利用CUDA技術(shù)服務(wù)于從醫(yī)療保健、金融服務(wù)到計算機(jī)行業(yè)、汽車行業(yè)等幾乎每一個主要行業(yè)和科學(xué)領(lǐng)域。隨著客戶群的不斷擴(kuò)大，OEM和云服務(wù)提供商也開始對我們的系統(tǒng)產(chǎn)生興趣，這進(jìn)一步推動了更多系統(tǒng)進(jìn)入市場。這種良性循環(huán)為我們創(chuàng)造了巨大的機(jī)遇，使我們能夠擴(kuò)大規(guī)模，增加研發(fā)投入，從而推動更多應(yīng)用的加速發(fā)展。每一次應(yīng)用的加速都意味著計算成本的顯著降低。正如我之前展示的，100倍的加速可以帶來高達(dá)97.96%，即接近98%的成本節(jié)省。隨著我們將計算加速從100倍提升至200倍，再飛躍至1000倍，計算的邊際成本持續(xù)下降，展現(xiàn)出了令人矚目的經(jīng)濟(jì)效益。當(dāng)然，我們相信，通過顯著降低計算成本，市場、開發(fā)者、科學(xué)家和發(fā)明家將不斷發(fā)掘出消耗更多計算資源的新算法。

直至某個時刻，一種深刻的變革將悄然發(fā)生。當(dāng)計算的邊際成本變得如此低廉時，全新的計算機(jī)使用方式將應(yīng)運(yùn)而生。事實上，這種變革正在我們眼前上演。過去十年間，我們利用特定算法將計算的邊際成本降低了驚人的100萬倍。如今，利用互聯(lián)網(wǎng)上的所有數(shù)據(jù)來訓(xùn)練大語言模型已成為一種合乎邏輯且理所當(dāng)然的選擇，不再受到任何質(zhì)疑。這個想法——打造一臺能夠處理海量數(shù)據(jù)以自我編程的計算機(jī)——正是人工智能崛起的基石。人工智能的崛起之所以成為可能，完全是因為我們堅信，如果我們讓計算變得越來越便宜，總會有人找到巨大的用途。如今，CUDA的成功已經(jīng)證明了這一良性循環(huán)的可行性。

隨著安裝基礎(chǔ)的持續(xù)擴(kuò)大和計算成本的持續(xù)降低，越來越多的開發(fā)者得以發(fā)揮他們的創(chuàng)新潛能，提出更多的想法和解決方案。這種創(chuàng)新力推動了市場需求的激增。現(xiàn)在我們正站在一個重大轉(zhuǎn)折點(diǎn)上。然而，在我進(jìn)一步展示之前，我想強(qiáng)調(diào)的是，如果不是CUDA和現(xiàn)代人工智能技術(shù)——尤其是生成式人工智能的突破，以下我所要展示的內(nèi)容將無法實現(xiàn)。這就是“地球2號”項目——一個雄心勃勃的設(shè)想，旨在創(chuàng)建地球的數(shù)字孿生體。

我們將模擬整個地球的運(yùn)行，以預(yù)測其未來變化。通過這樣的模擬，我們可以更好地預(yù)防災(zāi)難，更深入地理解氣候變化的影響，從而讓我們能夠更好地適應(yīng)這些變化，甚至現(xiàn)在就開始改變我們的行為和習(xí)慣。“地球2號”項目可能是世界上*挑戰(zhàn)性、最雄心勃勃的項目之一。我們每年都在這個領(lǐng)域取得顯著的進(jìn)步，而今年的成果尤為突出�，F(xiàn)在，請允許我為大家展示這些令人振奮的進(jìn)展。在不遠(yuǎn)的將來，我們將擁有持續(xù)的天氣預(yù)報能力，覆蓋地球上的每一平方公里。你將始終了解氣候?qū)⑷绾巫兓�，這種預(yù)測將不斷運(yùn)行，因為我們訓(xùn)練了人工智能，而人工智能所需的能量又極為有限。

這將是一個令人難以置信的成就。我希望你們會喜歡它，而更加重要的是，這一預(yù)測實際上是由Jensen AI做出的，而非我本人。我設(shè)計了它，但最終的預(yù)測由Jensen AI來呈現(xiàn)。由于我們致力于不斷提高性能并降低成本，研究人員在2012年發(fā)現(xiàn)了CUDA，那是英偉達(dá)與人工智能的首次接觸。那一天對我們而言至關(guān)重要，因為我們做出了明智的選擇，與科學(xué)家們緊密合作，使深度學(xué)習(xí)成為可能。AlexNet的出現(xiàn)實現(xiàn)了計算機(jī)視覺的巨大突破。

-Business Show-4AI超算的崛起起初并不被認(rèn)同

但更為重要的智慧在于我們退后一步，深入理解了深度學(xué)習(xí)的本質(zhì)。它的基礎(chǔ)是什么？它的長期影響是什么？它的潛力是什么？我們意識到，這項技術(shù)擁有巨大的潛力，能夠繼續(xù)擴(kuò)展幾十年前發(fā)明和發(fā)現(xiàn)的算法，結(jié)合更多的數(shù)據(jù)、更大的網(wǎng)絡(luò)和至關(guān)重要的計算資源，深度學(xué)習(xí)突然間能夠?qū)崿F(xiàn)人類算法無法企及的任務(wù)�，F(xiàn)在，想象一下，如果我們進(jìn)一步擴(kuò)大架構(gòu)，擁有更大的網(wǎng)絡(luò)、更多的數(shù)據(jù)和計算資源，將會發(fā)生什么？因此，我們致力于重新發(fā)明一切。

自2012年以來，我們改變了GPU的架構(gòu)，增加了張量核心，發(fā)明了NV-Link，推出了cuDNN、TensorRT、Nickel，還收購了Mellanox，推出了Triton推理服務(wù)器。這些技術(shù)集成在一臺全新的計算機(jī)上，它超越了當(dāng)時所有人的想象。沒有人預(yù)料到，沒有人提出這樣的需求，甚至沒有人理解它的全部潛力。事實上，我自己也不確定是否會有人會想買它。但在GTC大會上，我們正式發(fā)布了這項技術(shù)。舊金山一家名叫OpenAI的初創(chuàng)公司迅速注意到了我們的成果，并請求我們提供一臺設(shè)備。我親自為OpenAI送去了世界上首臺人工智能超級計算機(jī)DGX。2016年，我們持續(xù)擴(kuò)大研發(fā)規(guī)模。

從單一的人工智能超級計算機(jī)，單一的人工智能應(yīng)用，擴(kuò)大到在2017年推出了更為龐大且強(qiáng)大的超級計算機(jī)。隨著技術(shù)的不斷進(jìn)步，世界見證了Transformer的崛起。這一模型的出現(xiàn)，使我們能夠處理海量的數(shù)據(jù)，并識別和學(xué)習(xí)在長時間跨度內(nèi)連續(xù)的模式。如今，我們有能力訓(xùn)練這些大語言模型，以實現(xiàn)自然語言理解方面的重大突破。但我們并未止步于此，我們繼續(xù)前行，構(gòu)建了更大的模型。到了2022年11月，在極為強(qiáng)大的人工智能超級計算機(jī)上，我們使用數(shù)萬顆英偉達(dá)GPU進(jìn)行訓(xùn)練。僅僅5天后，OpenAI宣布ChatGPT已擁有100萬用戶。這一驚人的增長速度，在短短兩個月內(nèi)攀升至1億用戶，創(chuàng)造了應(yīng)用歷史上最快的增長記錄。其原因十分簡單——ChatGPT的使用體驗便捷而神奇。用戶能夠與計算機(jī)進(jìn)行自然、流暢的互動，仿佛與真人交流一般。

無需繁瑣的指令或明確的描述，ChatGPT便能理解用戶的意圖和需求。ChatGPT的出現(xiàn)標(biāo)志著一個劃時代的變革，這張幻燈片恰恰捕捉到了這一關(guān)鍵轉(zhuǎn)折。請允許我為大家展示下。直至ChatGPT的問世，它才真正向世界揭示了生成式人工智能的無限潛能。長久以來，人工智能的焦點(diǎn)主要集中在感知領(lǐng)域，如自然語言理解、計算機(jī)視覺和語音識別，這些技術(shù)致力于模擬人類的感知能力。但ChatGPT帶來了質(zhì)的飛躍，它不僅僅局限于感知，而是首次展現(xiàn)了生成式人工智能的力量。它會逐個生成Token，這些Token可以是單詞、圖像、圖表、表格，甚至是歌曲、文字、語音和視頻。

Token可以代表任何具有明確意義的事物，無論是化學(xué)物質(zhì)、蛋白質(zhì)、基因，還是之前我們提到的天氣模式。這種生成式人工智能的崛起意味著，我們可以學(xué)習(xí)并模擬物理現(xiàn)象，讓人工智能模型理解并生成物理世界的各種現(xiàn)象。我們不再局限于縮小范圍進(jìn)行過濾，而是通過生成的方式探索無限可能。如今，我們幾乎可以為任何有價值的事物生成Token，無論是汽車的轉(zhuǎn)向盤控制、機(jī)械臂的關(guān)節(jié)運(yùn)動，還是我們目前能夠?qū)W習(xí)的任何知識。因此，我們所處的已不僅僅是一個人工智能時代，而是一個生成式人工智能引領(lǐng)的新紀(jì)元。更重要的是，這臺最初作為超級計算機(jī)出現(xiàn)的設(shè)備，如今已經(jīng)演化為一個高效運(yùn)轉(zhuǎn)的人工智能數(shù)據(jù)中心。

它不斷地產(chǎn)出，不僅生成Token，更是一個創(chuàng)造價值的人工智能工廠。這個人工智能工廠正在生成、創(chuàng)造和生產(chǎn)具有巨大市場潛力的新商品。正如19世紀(jì)末尼古拉·特斯拉（Nikola Tesla）發(fā)明了交流發(fā)電機(jī)，為我們帶來了源源不斷的電子，英偉達(dá)的人工智能生成器也正在源源不斷地產(chǎn)生具有無限可能性的Token。這兩者都有巨大的市場機(jī)會，有望在每個行業(yè)掀起變革。這確實是一場新的工業(yè)革命！我們現(xiàn)在迎來了一個全新的工廠，能夠為各行各業(yè)生產(chǎn)出前所未有的、*價值的新商品。

這一方法不僅*可擴(kuò)展性，而且完全可重復(fù)。請注意，目前，每天都在不斷涌現(xiàn)出各種各樣的人工智能模型，尤其是生成式人工智能模型。如今，每個行業(yè)都競相參與其中，這是前所未有的盛況。價值3萬億美元的IT行業(yè)，即將催生出能夠直接服務(wù)于100萬億美元產(chǎn)業(yè)的創(chuàng)新成果。它不再僅僅是信息存儲或數(shù)據(jù)處理的工具，而是每個行業(yè)生成智能的引擎。這將成為一種新型的制造業(yè)，但它并非傳統(tǒng)的計算機(jī)制造業(yè)，而是利用計算機(jī)進(jìn)行制造的全新模式。這樣的變革以前從未發(fā)生過，這確實是一件令人矚目的非凡之事。

-Business Show-5

生成式AI推動軟件全棧重塑

展示NIM云原生微服務(wù)

這開啟了計算加速的新時代，推動了人工智能的迅猛發(fā)展，進(jìn)而催生了生成式人工智能的興起。而如今，我們正在經(jīng)歷一場工業(yè)革命。關(guān)于其影響，讓我們深入探討一下。對于我們所在的行業(yè)而言，這場變革的影響同樣深遠(yuǎn)。正如我之前所言，這是過去六十年來的首次，計算的每一層都正在發(fā)生變革。

從CPU的通用計算到GPU的加速計算，每一次變革都標(biāo)志著技術(shù)的飛躍。過去，計算機(jī)需要遵循指令執(zhí)行操作，而現(xiàn)在，它們更多地是處理LLM（大語言模型）和人工智能模型。過去的計算模型主要基于檢索，幾乎每次你使用手機(jī)時，它都會為你檢索預(yù)先存儲的文本、圖像或視頻，并根據(jù)推薦系統(tǒng)重新組合這些內(nèi)容呈現(xiàn)給你。但在未來，你的計算機(jī)會盡可能多地生成內(nèi)容，只檢索必要的信息，因為生成數(shù)據(jù)在獲取信息時消耗的能量更少。而且，生成的數(shù)據(jù)具有更高的上下文相關(guān)性，能更準(zhǔn)確地反映你的需求。當(dāng)你需要答案時，不再需要明確指示計算機(jī)“給我獲取那個信息”或“給我那個文件”，只需簡單地說：“給我一個答案。”此外，計算機(jī)不再僅僅是我們使用的工具，它開始生成技能。它執(zhí)行任務(wù)，而不再是一個生產(chǎn)軟件的行業(yè)，這在90年代初是一個顛覆性的觀念。

記得嗎？微軟提出的軟件打包理念徹底改變了PC行業(yè)。沒有打包軟件，我們的PC將失去大部分功能。這一創(chuàng)新推動了整個行業(yè)的發(fā)展�，F(xiàn)在我們有了新工廠、新計算機(jī)，而在這個基礎(chǔ)上運(yùn)行的是一種新型軟件——我們稱之為Nim（NVIDIA Inference Microservices）。在這個新工廠中運(yùn)行的Nim是一個預(yù)訓(xùn)練模型，它是一個人工智能。這個人工智能本身相當(dāng)復(fù)雜，但運(yùn)行人工智能的計算堆棧更是復(fù)雜得令人難以置信。當(dāng)你使用ChatGPT這樣的模型時，其背后是龐大的軟件堆棧。這個堆棧復(fù)雜而龐大，因為模型擁有數(shù)十億到數(shù)萬億個參數(shù)，且不僅在一臺計算機(jī)上運(yùn)行，而是在多臺計算機(jī)上協(xié)同工作。

為了*化效率，系統(tǒng)需要將工作負(fù)載分配給多個GPU，進(jìn)行各種并行處理，如張量并行、管道并行、數(shù)據(jù)并行和專家并行。這樣的分配是為了確保工作能盡快完成，因為在一個工廠中，吞吐量直接關(guān)系到收入、服務(wù)質(zhì)量和可服務(wù)的客戶數(shù)量。如今，我們身處一個數(shù)據(jù)中心吞吐量利用率至關(guān)重要的時代。過去，雖然吞吐量被認(rèn)為重要，但并非決定性的因素。然而，現(xiàn)在，從啟動時間、運(yùn)行時間、利用率、吞吐量到空閑時間等每一個參數(shù)都被精確測量，因為數(shù)據(jù)中心已成為真正的“工廠”。在這個工廠中，運(yùn)作效率直接關(guān)聯(lián)到公司的財務(wù)表現(xiàn)。鑒于這種復(fù)雜性，我們深知大多數(shù)公司在部署人工智能時面臨的挑戰(zhàn)。

因此，我們開發(fā)了一個集成化的人工智能容器解決方案，將人工智能封裝在易于部署和管理的盒子中。這個盒子包含了龐大的軟件集合，如CUDA、CUDACNN和TensorRT，以及Triton推理服務(wù)。它支持云原生環(huán)境，允許在Kubernetes（基于容器技術(shù)的分布式架構(gòu)解決方案）環(huán)境中自動擴(kuò)展，并提供管理服務(wù)，方便用戶監(jiān)控人工智能服務(wù)的運(yùn)行狀態(tài)。更令人振奮的是，這個人工智能容器提供通用的、標(biāo)準(zhǔn)的API接口，使得用戶可以直接與“盒子”進(jìn)行交互。用戶只需下載Nim，并在支持CUDA的計算機(jī)上運(yùn)行，即可輕松部署和管理人工智能服務(wù)。如今，CUDA已無處不在，它支持各大云服務(wù)提供商，幾乎所有計算機(jī)制造商都提供CUDA支持，甚至在數(shù)億臺PC中也能找到它的身影。當(dāng)你下載Nim時，即刻擁有一個人工智能助手，它能如與ChatGPT對話般流暢交流�，F(xiàn)在，所有的軟件都已精簡并整合在一個容器中，原先繁瑣的400個依賴項全部集中優(yōu)化。

我們對Nim進(jìn)行了嚴(yán)格的測試，每個預(yù)訓(xùn)練模型都在我們的云端基礎(chǔ)設(shè)施上得到了全面測試，包括Pascal、Ampere乃至最新的Hopper等不同版本的GPU。這些版本種類繁多，幾乎覆蓋了所有需求。Nim的發(fā)明無疑是一項壯舉，它是我最引以為傲的成就之一。如今，我們有能力構(gòu)建大語言模型和各種預(yù)訓(xùn)練模型，這些模型涵蓋了語言、視覺、圖像等多個領(lǐng)域，還有針對特定行業(yè)如醫(yī)療保健和數(shù)字生物學(xué)的定制版本。想要了解更多或試用這些版本，只需訪問ai.nvidia.com。今天，我們在Hugging Face上發(fā)布了完全優(yōu)化的Llama 3 Nim，你可以立即體驗，甚至免費(fèi)帶走它。

無論你選擇哪個云平臺，都能輕松運(yùn)行它。當(dāng)然，你也可以將這個容器下載到你的數(shù)據(jù)中心，自行托管，并為你的客戶提供服務(wù)。我前面提到，我們擁有覆蓋不同領(lǐng)域的Nim版本，包括物理學(xué)、語義檢索、視覺語言等，支持多種語言。這些微服務(wù)可以輕松集成到大型應(yīng)用中，其中*潛力的應(yīng)用之一是客戶服務(wù)代理。它幾乎是每個行業(yè)的標(biāo)配，代表了價值數(shù)萬億美元的全球客戶服務(wù)市場。值得一提的是，護(hù)士們作為客戶服務(wù)的核心，在零售、快餐、金融服務(wù)、保險等行業(yè)中發(fā)揮著重要作用。如今，借助語言模型和人工智能技術(shù)，數(shù)千萬的客戶服務(wù)人員得到了顯著的增強(qiáng)。

這些增強(qiáng)工具的核心，正是你所看到的Nim。有些被稱為推理智能體（Reasoning Agents），它們被賦予任務(wù)后，能夠明確目標(biāo)并制定計劃。有的擅長檢索信息，有的精于搜索，還有的可能會使用如Coop這樣的工具，或者需要學(xué)習(xí)在SAP上運(yùn)行的特定語言如ABAP，甚至執(zhí)行SQL查詢。這些所謂的專家現(xiàn)在被組成一個高效協(xié)作的團(tuán)隊。應(yīng)用層也因此發(fā)生了變革：過去，應(yīng)用程序是由指令編寫的，而現(xiàn)在，它們則是通過組裝人工智能團(tuán)隊來構(gòu)建。

雖然編寫程序需要專業(yè)技能，但幾乎每個人都知道如何分解問題并組建團(tuán)隊。因此，我堅信，未來的每家公司都會擁有一個龐大的Nim集合。你可以根據(jù)需要選擇專家，將它們連接成一個團(tuán)隊。更神奇的是，你甚至不需要弄清楚如何去連接它們。只需給代理分配一個任務(wù)，Nim會智能地決定如何分解任務(wù)并分配給最適合的專家。它們就像應(yīng)用程序或團(tuán)隊的中央*，能夠協(xié)調(diào)團(tuán)隊成員的工作，最終將結(jié)果呈現(xiàn)給你。整個過程就像人類團(tuán)隊協(xié)作一樣高效、靈活。這不僅僅是未來的趨勢，而是即將在我們身邊成為現(xiàn)實。這就是未來應(yīng)用程序?qū)⒁尸F(xiàn)的全新面貌。

-Business Show-6

PC將成為數(shù)字人主要載體

當(dāng)我們談?wù)撆c大型人工智能服務(wù)的交互時，目前我們已經(jīng)可以通過文本和語音提示來實現(xiàn)。但展望未來，我們更希望以更人性化的方式——即數(shù)字人，來進(jìn)行互動。英偉達(dá)在數(shù)字人技術(shù)領(lǐng)域已經(jīng)取得了顯著的進(jìn)展。數(shù)字人不僅具有成為出色交互式代理的潛力，它們還更加吸引人，并可能展現(xiàn)出更高的同理心。然而，要跨越這個令人難以置信的鴻溝，使數(shù)字人看起來和感覺更加自然，我們?nèi)孕韪冻鼍薮蟮呐�。這不僅是我們的愿景，更是我們不懈追求的目標(biāo)。

在我向大家展示我們目前的成果之前，請允許我表達(dá)對中國臺灣的熱情問候。在深入探索夜市的魅力之前，讓我們先一同領(lǐng)略數(shù)字人技術(shù)的前沿動態(tài)。這確實令人覺得不可思議。ACE（Avatar Cloud Engine，英偉達(dá)數(shù)字人技術(shù)）不僅能在云端高效運(yùn)行，同時也兼容PC環(huán)境。我們前瞻性地將Tensor Core GPU集成到所有RTX系列中，這標(biāo)志著人工智能GPU的時代已經(jīng)到來，我們?yōu)榇俗龊昧顺浞譁?zhǔn)備。背后的邏輯十分清晰：要構(gòu)建一個新的計算平臺，必須先奠定堅實的基礎(chǔ)。有了堅實的基礎(chǔ)，應(yīng)用程序自然會隨之涌現(xiàn)。如果缺乏這樣的基礎(chǔ)，那么應(yīng)用程序便無從談起。

所以，只有當(dāng)我們構(gòu)建了它，應(yīng)用程序的繁榮才有可能實現(xiàn)。因此，我們在每一款RTX GPU中都集成了Tensor Core處理單元，目前全球已有1億臺GeForce RTX AI PC投入使用，而且這個數(shù)字還在不斷增長，預(yù)計將達(dá)到2億臺。在最近的Computex展會上，我們更是推出了四款全新的人工智能筆記本電腦。這些設(shè)備都具備運(yùn)行人工智能的能力。未來的筆記本電腦和PC將成為人工智能的載體，它們將在后臺默默地為你提供幫助和支持。同時，這些PC還將運(yùn)行由人工智能增強(qiáng)的應(yīng)用程序，無論你是進(jìn)行照片編輯、寫作還是使用其他工具，都將享受到人工智能帶來的便利和增強(qiáng)效果。

此外，你的PC還將能夠托管帶有人工智能的數(shù)字人類應(yīng)用程序，讓人工智能以更多樣化的方式呈現(xiàn)并在PC上得到應(yīng)用。顯然，PC將成為至關(guān)重要的人工智能平臺。那么，接下來我們將如何發(fā)展呢？之前我談到了我們數(shù)據(jù)中心的擴(kuò)展，每次擴(kuò)展都伴隨著新的變革。當(dāng)我們從DGX擴(kuò)展到大型人工智能超級計算機(jī)時，我們實現(xiàn)了Transformer在巨大數(shù)據(jù)集上的高效訓(xùn)練。這標(biāo)志著一個重大的轉(zhuǎn)變：一開始，數(shù)據(jù)需要人類的監(jiān)督，通過人類標(biāo)記來訓(xùn)練人工智能。

然而，人類能夠標(biāo)記的數(shù)據(jù)量是有限的�，F(xiàn)在，隨著Transformer的發(fā)展，無監(jiān)督學(xué)習(xí)成為可能。如今，Transformer能夠自行探索海量的數(shù)據(jù)、視頻和圖像，從中學(xué)習(xí)并發(fā)現(xiàn)隱藏的模式和關(guān)系。為了推動人工智能向更高層次發(fā)展，下一代人工智能需要根植于物理定律的理解，但大多數(shù)人工智能系統(tǒng)缺乏對物理世界的深刻認(rèn)識。為了生成逼真的圖像、視頻、3D圖形，以及模擬復(fù)雜的物理現(xiàn)象，我們急需開發(fā)基于物理的人工智能，這要求它能夠理解并應(yīng)用物理定律。在實現(xiàn)這一目標(biāo)的過程中，有兩個主要方法。首先，通過從視頻中學(xué)習(xí)，人工智能可以逐步積累對物理世界的認(rèn)知。

其次，利用合成數(shù)據(jù)，我們可以為人工智能系統(tǒng)提供豐富且可控的學(xué)習(xí)環(huán)境。此外，模擬數(shù)據(jù)和計算機(jī)之間的互相學(xué)習(xí)也是一種有效的策略。這種方法類似于AlphaGo的自我對弈模式，讓兩個相同能力的實體長時間相互學(xué)習(xí)，從而不斷提升智能水平。因此，我們可以預(yù)見，這種類型的人工智能將在未來逐漸嶄露頭角。

-Business Show-7

Blackwell全面投產(chǎn)

八年間算力增長1000倍

當(dāng)人工智能數(shù)據(jù)通過合成方式生成，并結(jié)合強(qiáng)化學(xué)習(xí)技術(shù)時，數(shù)據(jù)生成的速率將得到顯著提升。隨著數(shù)據(jù)生成的增長，對計算能力的需求也將相應(yīng)增加。我們即將邁入一個新時代，在這個時代中，人工智能將能夠?qū)W習(xí)物理定律，理解并基于物理世界的數(shù)據(jù)進(jìn)行決策和行動。因此，我們預(yù)計人工智能模型將繼續(xù)擴(kuò)大，對GPU性能的要求也將越來越高。為滿足這一需求，Blackwell應(yīng)運(yùn)而生。這款GPU專為支持新一代人工智能設(shè)計，擁有幾項關(guān)鍵技術(shù)。

這種芯片尺寸之大在業(yè)界首屈一指。我們采用了兩片盡可能大的芯片，通過每秒10太字節(jié)的高速鏈接，結(jié)合世界上*進(jìn)的SerDes（高性能接口或連接技術(shù)）將它們緊密連接在一起。進(jìn)一步地，我們將兩片這樣的芯片放置在一個計算機(jī)節(jié)點(diǎn)上，并通過Grace CPU進(jìn)行高效協(xié)調(diào)。Grace CPU的用途廣泛，不僅適用于訓(xùn)練場景，還在推理和生成過程中發(fā)揮關(guān)鍵作用，如快速檢查點(diǎn)和重啟。此外，它還能存儲上下文，讓人工智能系統(tǒng)擁有記憶，并能理解用戶對話的上下文，這對于增強(qiáng)交互的連續(xù)性和流暢性至關(guān)重要。我們推出的第二代Transformer引擎進(jìn)一步提升了人工智能的計算效率。

這款引擎能夠根據(jù)計算層的精度和范圍需求，動態(tài)調(diào)整至較低的精度，從而在保持性能的同時降低能耗。同時，Blackwell GPU還具備安全人工智能功能，確保用戶能夠要求服務(wù)提供商保護(hù)其免受盜竊或篡改。在GPU的互聯(lián)方面，我們采用了第五代NV Link技術(shù)，它允許我們輕松連接多個GPU。此外，Blackwell GPU還配備了*代可靠性和可用性引擎（Ras系統(tǒng)），這一創(chuàng)新技術(shù)能夠測試芯片上的每一個晶體管、觸發(fā)器、內(nèi)存以及片外內(nèi)存，確保我們在現(xiàn)場就能準(zhǔn)確判斷特定芯片是否達(dá)到了平均故障間隔時間（MTBF）的標(biāo)準(zhǔn)。對于大型超級計算機(jī)來說，可靠性尤為關(guān)鍵。擁有10,000個GPU的超級計算機(jī)的平均故障間隔時間可能以小時為單位，但當(dāng)GPU數(shù)量增加至100,000個時，平均故障間隔時間將縮短至以分鐘為單位。

因此，為了確保超級計算機(jī)能夠長時間穩(wěn)定運(yùn)行，以訓(xùn)練那些可能需要數(shù)個月時間的復(fù)雜模型，我們必須通過技術(shù)創(chuàng)新來提高可靠性。而可靠性的提升不僅能夠增加系統(tǒng)的正常運(yùn)行時間，還能有效降低成本。最后，我們還在Blackwell GPU中集成了先進(jìn)的解壓縮引擎。在數(shù)據(jù)處理方面，解壓縮速度至關(guān)重要。通過集成這一引擎，我們可以從存儲中拉取數(shù)據(jù)的速度比現(xiàn)有技術(shù)快20倍，從而極大地提升了數(shù)據(jù)處理效率。Blackwell GPU的上述功能特性使其成為一款令人矚目的產(chǎn)品。在之前的GTC大會上，我曾向大家展示了處于原型狀態(tài)的Blackwell。而現(xiàn)在，我們很高興地宣布，這款產(chǎn)品已經(jīng)投入生產(chǎn)。各位，這就是Blackwell，使用了令人難以置信的技術(shù)。這是我們的杰作，是當(dāng)今世界上最復(fù)雜、性能最高的計算機(jī)。

其中，我們特別要提到的是Grace CPU，它承載了巨大的計算能力。請看，這兩個Blackwell芯片，它們緊密相連。你注意到了嗎？這就是世界上*的芯片，而我們使用每秒高達(dá)A10TB的鏈接將兩片這樣的芯片融為一體。那么，Blackwell究竟是什么呢？它的性能之強(qiáng)大，簡直令人難以置信。請仔細(xì)觀察這些數(shù)據(jù)。在短短八年內(nèi)，我們的計算能力、浮點(diǎn)運(yùn)算以及人工智能浮點(diǎn)運(yùn)算能力增長了1000倍。這速度，幾乎超越了摩爾定律在*時期的增長。Blackwell計算能力的增長簡直驚人。而更值得一提的是，每當(dāng)我們的計算能力提高時，成本卻在不斷下降。讓我給你們展示一下。我們通過提升計算能力，用于訓(xùn)練GPT-4模型（2萬億參數(shù)和8萬億Token）的能量下降了350倍。想象一下，如果使用Pascal進(jìn)行同樣的訓(xùn)練，它將消耗高達(dá)1000吉瓦時的能量。

這意味著需要一個吉瓦數(shù)據(jù)中心來支持，但世界上并不存在這樣的數(shù)據(jù)中心。即便存在，它也需要連續(xù)運(yùn)行一個月的時間。而如果是一個100兆瓦的數(shù)據(jù)中心，那么訓(xùn)練時間將長達(dá)一年。顯然，沒有人愿意或能夠創(chuàng)造這樣的數(shù)據(jù)中心。這就是為什么八年前，像ChatGPT這樣的大語言模型對我們來說還是遙不可及的夢想。但如今，我們通過提升性能并降低能耗實現(xiàn)了這一目標(biāo)。我們利用Blackwell將原本需要高達(dá)1000吉瓦時的能量降低到僅需3吉瓦時，這一成就無疑是令人震驚的突破。想象一下，使用1000個GPU，它們所消耗的能量竟然只相當(dāng)于一杯咖啡的熱量。而10,000個GPU，更是只需短短10天左右的時間就能完成同等任務(wù)。八年間取得的這些進(jìn)步，簡直令人難以置信。Blackwell不僅適用于推理，其在Token生成性能上的提升更是令人矚目。

在Pascal時代，每個Token消耗的能量高達(dá)17,000焦耳，這大約相當(dāng)于兩個燈泡運(yùn)行兩天的能量。而生成一個GPT-4的Token，幾乎需要兩個200瓦特的燈泡持續(xù)運(yùn)行兩天。考慮到生成一個單詞大約需要3個Token，這確實是一個巨大的能量消耗。然而，現(xiàn)在的情況已經(jīng)截然不同。Blackwell使得生成每個Token只需消耗0.4焦耳的能量，以驚人的速度和極低的能耗進(jìn)行Token生成。這無疑是一個巨大的飛躍。但即使如此，我們?nèi)圆粷M足。為了更大的突破，我們必須建造更強(qiáng)大的機(jī)器。這就是我們的DGX系統(tǒng)，Blackwell芯片將被嵌入其中。這款系統(tǒng)采用空氣冷卻技術(shù)，內(nèi)部配備了8個這樣的GPU。看看這些GPU上的散熱片，它們的尺寸之大令人驚嘆。整個系統(tǒng)功耗約為15千瓦，完全通過空氣冷卻實現(xiàn)。這個版本兼容X86，并已應(yīng)用于我們已發(fā)貨的服務(wù)器中。然而，如果你更傾向于液體冷卻技術(shù)，我們還有一個全新的系統(tǒng)——MGX。它基于這款主板設(shè)計，我們稱之為“模塊化”系統(tǒng)。

MGX系統(tǒng)的核心在于兩塊Blackwell芯片，每個節(jié)點(diǎn)都集成了四個Blackwell芯片。它采用了液體冷卻技術(shù)，確保了高效穩(wěn)定的運(yùn)行。整個系統(tǒng)中，這樣的節(jié)點(diǎn)共有九個，共計72個GPU，構(gòu)成了一個龐大的計算集群。這些GPU通過全新的NV鏈接技術(shù)緊密相連，形成了一個無縫的計算網(wǎng)絡(luò)。NV鏈接交換機(jī)堪稱技術(shù)奇跡。它是目前世界上*進(jìn)的交換機(jī)，數(shù)據(jù)傳輸速率令人咋舌。這些交換機(jī)使得每個Blackwell芯片高效連接，形成了一個巨大的72 GPU集群。這一集群的優(yōu)勢何在？首先，在GPU域中，它現(xiàn)在表現(xiàn)得就像一個單一的、超大規(guī)模的GPU。這個“超級GPU”擁有72個GPU的核心能力，相較于上一代的8個GPU，性能提升了9倍。同時，帶寬增加了18倍，AI FLOPS（每秒浮點(diǎn)運(yùn)算次數(shù)）更是提升了45倍，而功率僅增加了10倍。

也就是說，一個這樣的系統(tǒng)能提供100千瓦的強(qiáng)勁動力，而上一代僅為10千瓦。當(dāng)然，你還可以將更多的這些系統(tǒng)連接在一起，形成更龐大的計算網(wǎng)絡(luò)。但真正的奇跡在于這個NV鏈接芯片，隨著大語言模型的日益龐大，其重要性也日益凸顯。因為這些大語言模型已經(jīng)不適合單獨(dú)放在一個GPU或節(jié)點(diǎn)上運(yùn)行，它們需要整個GPU機(jī)架的協(xié)同工作。就像我剛才提到的那個新DGX系統(tǒng)，它能夠容納參數(shù)達(dá)到數(shù)十萬億的大語言模型。NV鏈接交換機(jī)本身就是一個技術(shù)奇跡，擁有500億個晶體管，74個端口，每個端口的數(shù)據(jù)速率高達(dá)400 GB。

但更重要的是，交換機(jī)內(nèi)部還集成了數(shù)學(xué)運(yùn)算功能，可以直接進(jìn)行歸約操作，這在深度學(xué)習(xí)中具有極其重要的意義。這就是現(xiàn)在的DGX系統(tǒng)的全新面貌。許多人對我們表示好奇。他們提出疑問，對英偉達(dá)的業(yè)務(wù)范疇存在誤解。人們疑惑，英偉達(dá)怎么可能僅憑制造GPU就變得如此龐大。因此，很多人形成了這樣一種印象：GPU就應(yīng)該是某種特定的樣子。

然而，現(xiàn)在我要展示給你們的是，這確實是一個GPU，但它并非你們想象中的那種。這是世界上*進(jìn)的GPU之一，但它主要用于游戲領(lǐng)域。但我們都清楚，GPU的真正力量遠(yuǎn)不止于此。各位，請看這個，這才是GPU的真正形態(tài)。這是DGX GPU，專為深度學(xué)習(xí)而設(shè)計。這個GPU的背面連接著NV鏈接主干，這個主干由5000條線組成，長達(dá)3公里。這些線，就是NV鏈接主干，它們連接了70個GPU，形成一個強(qiáng)大的計算網(wǎng)絡(luò)。這是一個電子機(jī)械奇跡，其中的收發(fā)器讓我們能夠在銅線上驅(qū)動信號貫穿整個長度。因此，這個NV鏈接交換機(jī)通過NV鏈接主干在銅線上傳輸數(shù)據(jù)，使我們能夠在單個機(jī)架中節(jié)省20千瓦的電力，而這20千瓦現(xiàn)在可以完全用于數(shù)據(jù)處理，這的確是一項令人難以置信的成就。這就是NV鏈接主干的力量。

-Business Show-8

為生成式AI推以太網(wǎng)

但這還不足以滿足需求，特別是對于大型人工智能工廠來說更是如此，那么我們還有另一種解決方案。我們必須使用高速網(wǎng)絡(luò)將這些人工智能工廠連接起來。我們有兩種網(wǎng)絡(luò)選擇：InfiniBand和以太網(wǎng)。其中，InfiniBand已經(jīng)在全球各地的超級計算和人工智能工廠中廣泛使用，并且增長迅速。然而，并非每個數(shù)據(jù)中心都能直接使用InfiniBand，因為他們在以太網(wǎng)生態(tài)系統(tǒng)上進(jìn)行了大量投資，而且管理InfiniBand交換機(jī)和網(wǎng)絡(luò)確實需要一定的專業(yè)知識和技術(shù)。

因此，我們的解決方案是將InfiniBand的性能帶到以太網(wǎng)架構(gòu)中，這并非易事。原因在于，每個節(jié)點(diǎn)、每臺計算機(jī)通常與互聯(lián)網(wǎng)上的不同用戶相連，但大多數(shù)通信實際上發(fā)生在數(shù)據(jù)中心內(nèi)部，即數(shù)據(jù)中心與互聯(lián)網(wǎng)另一端用戶之間的數(shù)據(jù)傳輸。然而，在人工智能工廠的深度學(xué)習(xí)場景下，GPU并不是與互聯(lián)網(wǎng)上的用戶進(jìn)行通信，而是彼此之間進(jìn)行頻繁的、密集的數(shù)據(jù)交換。它們相互通信是因為它們都在收集部分結(jié)果。然后它們必須將這些部分結(jié)果進(jìn)行規(guī)約（reduce）并重新分配（redistribute）。這種通信模式的特點(diǎn)是高度突發(fā)性的流量。重要的不是平均吞吐量，而是最后一個到達(dá)的數(shù)據(jù)，因為如果你正在從所有人那里收集部分結(jié)果，并且我試圖接收你所有的部分結(jié)果，如果最后一個數(shù)據(jù)包晚到了，那么整個操作就會延遲。

對于人工智能工廠而言，延遲是一個至關(guān)重要的問題。所以，我們關(guān)注的焦點(diǎn)并非平均吞吐量，而是確保最后一個數(shù)據(jù)包能夠準(zhǔn)時、無誤地抵達(dá)。然而，傳統(tǒng)的以太網(wǎng)并未針對這種高度同步化、低延遲的需求進(jìn)行優(yōu)化。為了滿足這一需求，我們創(chuàng)造性地設(shè)計了一個端到端的架構(gòu)，使NIC（網(wǎng)絡(luò)接口卡）和交換機(jī)能夠通信。為了實現(xiàn)這一目標(biāo)，我們采用了四種關(guān)鍵技術(shù)：*，英偉達(dá)擁有業(yè)界*的RDMA（遠(yuǎn)程直接內(nèi)存訪問）技術(shù)�，F(xiàn)在，我們有了以太網(wǎng)網(wǎng)絡(luò)級別的RDMA，它的表現(xiàn)非常出色。第二，我們引入了擁塞控制機(jī)制。交換機(jī)具備實時遙測功能，能夠迅速識別并響應(yīng)網(wǎng)絡(luò)中的擁塞情況。

當(dāng)GPU或NIC發(fā)送的數(shù)據(jù)量過大時，交換機(jī)會立即發(fā)出信號，告知它們減緩發(fā)送速率，從而有效避免網(wǎng)絡(luò)熱點(diǎn)的產(chǎn)生。第三，我們采用了自適應(yīng)路由技術(shù)。傳統(tǒng)以太網(wǎng)按固定順序傳輸數(shù)據(jù)，但在我們的架構(gòu)中，我們能夠根據(jù)實時網(wǎng)絡(luò)狀況進(jìn)行靈活調(diào)整。當(dāng)發(fā)現(xiàn)擁塞或某些端口空閑時，我們可以將數(shù)據(jù)包發(fā)送到這些空閑端口，再由另一端的Bluefield設(shè)備重新排序，確保數(shù)據(jù)按正確順序返回。這種自適應(yīng)路由技術(shù)極大地提高了網(wǎng)絡(luò)的靈活性和效率。

第四，我們實施了噪聲隔離技術(shù)。在數(shù)據(jù)中心中，多個模型同時訓(xùn)練產(chǎn)生的噪聲和流量可能會相互干擾，并導(dǎo)致抖動。我們的噪聲隔離技術(shù)能夠有效地隔離這些噪聲，確保關(guān)鍵數(shù)據(jù)包的傳輸不受影響。通過采用這些技術(shù)，我們成功地為人工智能工廠提供了高性能、低延遲的網(wǎng)絡(luò)解決方案。在價值高達(dá)數(shù)十億美元的數(shù)據(jù)中心中，如果網(wǎng)絡(luò)利用率提升40%而訓(xùn)練時間縮短20%，這實際上意味著價值50億美元的數(shù)據(jù)中心在性能上等同于一個60億美元的數(shù)據(jù)中心，揭示了網(wǎng)絡(luò)性能對整體成本效益的顯著影響。幸運(yùn)的是，帶有Spectrum X的以太網(wǎng)技術(shù)正是我們實現(xiàn)這一目標(biāo)的關(guān)鍵，它大大提高了網(wǎng)絡(luò)性能，使得網(wǎng)絡(luò)成本相對于整個數(shù)據(jù)中心而言幾乎可以忽略不計。

這無疑是我們在網(wǎng)絡(luò)技術(shù)領(lǐng)域取得的一大成就。我們擁有一系列強(qiáng)大的以太網(wǎng)產(chǎn)品線，其中最引人注目的是Spectrum X800。這款設(shè)備以每秒51.2 TB的速度和256路徑（radix）的支持能力，為成千上萬的GPU提供了高效的網(wǎng)絡(luò)連接。接下來，我們計劃一年后推出X800 Ultra，它將支持高達(dá)512路徑的512 radix，進(jìn)一步提升了網(wǎng)絡(luò)容量和性能。而X 1600則是為更大規(guī)模的數(shù)據(jù)中心設(shè)計的，能夠滿足數(shù)百萬個GPU的通信需求。隨著技術(shù)的不斷進(jìn)步，數(shù)百萬個GPU的數(shù)據(jù)中心時代已經(jīng)指日可待。這一趨勢的背后有著深刻的原因。一方面，我們渴望訓(xùn)練更大、更復(fù)雜的模型；但更重要的是，未來的互聯(lián)網(wǎng)和計算機(jī)交互將越來越多地依賴于云端的生成式人工智能。這些人工智能將與我們一起工作、互動，生成視頻、圖像、文本甚至數(shù)字人。

因此，我們與計算機(jī)的每一次交互幾乎都離不開生成式人工智能的參與。并且總是有一個生成式人工智能與之相連，其中一些在本地運(yùn)行，一些在你的設(shè)備上運(yùn)行，很多可能在云端運(yùn)行。這些生成式人工智能不僅具備強(qiáng)大的推理能力，還能對答案進(jìn)行迭代優(yōu)化，以提高答案的質(zhì)量。這意味著我們未來將產(chǎn)生海量的數(shù)據(jù)生成需求。今晚，我們共同見證了這一技術(shù)革新的力量。Blackwell，作為NVIDIA平臺的*代產(chǎn)品，自推出以來便備受矚目。如今，全球范圍內(nèi)都迎來了生成式人工智能的時代，這是一個全新的工業(yè)革命的開端，每個角落都在意識到人工智能工廠的重要性。我們深感榮幸，獲得了來自各行各業(yè)的廣泛支持，包括每一家OEM（原始設(shè)備制造商）、電腦制造商、CSP（云服務(wù)提供商）、GPU云、主權(quán)云以及電信公司等。

Blackwell的成功、廣泛的采用以及行業(yè)對其的熱情都達(dá)到了前所未有的高度，這讓我們深感欣慰，并在此向大家表示衷心的感謝。然而，我們的腳步不會因此而停歇。在這個飛速發(fā)展的時代，我們將繼續(xù)努力提升產(chǎn)品性能，降低培訓(xùn)和推理的成本，同時不斷擴(kuò)展人工智能的能力，使每一家企業(yè)都能從中受益。我們堅信，隨著性能的提升，成本將進(jìn)一步降低。而Hopper平臺，無疑可能是歷史上最成功的數(shù)據(jù)中心處理器。

-Business Show-9Blackwell Ultra將于明年發(fā)布下一代平臺名為Rubin

這確實是一個震撼人心的成功故事。Blackwell平臺的誕生，正如大家所見，并非單一組件的堆砌，而是一個綜合了CPU、GPU、NVLink、NICK（特定技術(shù)組件）以及NVLink交換機(jī)等多個元素的完整系統(tǒng)。我們致力于通過每代產(chǎn)品使用大型、超高速的交換機(jī)將所有GPU緊密連接，形成一個龐大且高效的計算域。我們將整個平臺集成到人工智能工廠中，但更為關(guān)鍵的是，我們將這一平臺以模塊化的形式提供給全球客戶。這樣做的初衷在于，我們期望每一位合作伙伴都能根據(jù)自身的需求，創(chuàng)造出獨(dú)特且富有創(chuàng)新性的配置，以適應(yīng)不同風(fēng)格的數(shù)據(jù)中心、不同的客戶群體和多樣化的應(yīng)用場景。

從邊緣計算到電信領(lǐng)域，只要系統(tǒng)保持開放，各種創(chuàng)新都將成為可能。為了讓你們能夠自由創(chuàng)新，我們設(shè)計了一個一體化的平臺，但同時又以分解的形式提供給你們，使你們能夠輕松構(gòu)建模塊化系統(tǒng)�，F(xiàn)在，Blackwell平臺已經(jīng)全面登場。英偉達(dá)始終堅持每年一次的更新節(jié)奏。我們的核心理念非常明確：1）構(gòu)建覆蓋整個數(shù)據(jù)中心規(guī)模的解決方案；2）將這些解決方案分解為各個部件，以每年一次的頻率向全球客戶推出；3）我們不遺余力地將所有技術(shù)推向極限，無論是臺積電的工藝技術(shù)、封裝技術(shù)、內(nèi)存技術(shù)，還是光學(xué)技術(shù)等，我們都追求*的性能表現(xiàn)。在完成硬件的極限挑戰(zhàn)后，我們將全力以赴確保所有軟件都能在這個完整的平臺上順暢運(yùn)行。在計算機(jī)技術(shù)中，軟件慣性至關(guān)重要。當(dāng)我們的計算機(jī)平臺能夠向后兼容，且架構(gòu)上與已有軟件*契合時，產(chǎn)品的上市速度將顯著提升。

因此，當(dāng)Blackwell平臺問世時，我們能夠充分利用已構(gòu)建的軟件生態(tài)基礎(chǔ)，實現(xiàn)驚人的市場響應(yīng)速度。明年，我們將迎來Blackwell Ultra。正如我們曾推出的H100和H200系列一樣，Blackwell Ultra也將引領(lǐng)新一代產(chǎn)品的熱潮，帶來前所未有的創(chuàng)新體驗。同時，我們將繼續(xù)挑戰(zhàn)技術(shù)的極限，推出下一代頻譜交換機(jī)，這是行業(yè)內(nèi)的首次嘗試。這一重大突破已經(jīng)成功實現(xiàn)，盡管我現(xiàn)在對于公開這個決定還心存些許猶豫。在英偉達(dá)內(nèi)部，我們習(xí)慣于使用代碼名并保持一定的保密性。很多時候，連公司內(nèi)部的大多數(shù)員工都不甚了解這些秘密。然而，我們的下一代平臺已被命名為Rubin。關(guān)于Rubin，我不會在此過多贅述。

我深知大家的好奇心，但請允許我保持一些神秘感。你們或許已經(jīng)迫不及待想要拍照留念，或是仔細(xì)研究那些小字部分，那就請隨意吧。我們不僅有Rubin平臺，一年后還將推出Rubin Ultra平臺。在此展示的所有芯片都處于全面開發(fā)階段，確保每一個細(xì)節(jié)都經(jīng)過精心打磨。我們的更新節(jié)奏依然是一年一次，始終追求技術(shù)的*，同時確保所有產(chǎn)品都保持100%的架構(gòu)兼容性。回顧過去的12年，從Imagenet誕生的那一刻起，我們就預(yù)見到計算領(lǐng)域的未來將會發(fā)生翻天覆地的變化。如今，這一切都成為了現(xiàn)實，與我們當(dāng)初的設(shè)想不謀而合。從2012年之前的GeForce到如今的英偉達(dá)，公司經(jīng)歷了巨大的轉(zhuǎn)變。在此，我要衷心感謝所有合作伙伴的一路支持與陪伴。

-Business Show-10

機(jī)器人時代已經(jīng)到來

這就是英偉達(dá)的Blackwell平臺，接下來，讓我們談?wù)勅斯ぶ悄芘c機(jī)器人相結(jié)合的未來。

物理人工智能正引領(lǐng)人工智能領(lǐng)域的新浪潮，它們深諳物理定律，并能自如地融入我們的日常生活。為此，物理人工智能不僅需要構(gòu)建一個精準(zhǔn)的世界模型，以理解如何解讀和感知周圍世界，更需具備*的認(rèn)知能力，以深刻理解我們的需求并高效執(zhí)行任務(wù)。展望未來，機(jī)器人技術(shù)將不再是一個遙不可及的概念，而是日益融入我們的日常生活。當(dāng)提及機(jī)器人技術(shù)時，人們往往會聯(lián)想到人形機(jī)器人，但實際上，它的應(yīng)用遠(yuǎn)不止于此。機(jī)械化將成為常態(tài)，工廠將全面實現(xiàn)自動化，機(jī)器人將協(xié)同工作，制造出一系列機(jī)械化產(chǎn)品。它們之間的互動將更加密切，共同創(chuàng)造出一個高度自動化的生產(chǎn)環(huán)境。

為了實現(xiàn)這一目標(biāo)，我們需要克服一系列技術(shù)挑戰(zhàn)。接下來，我將通過視頻展示這些前沿技術(shù)。這不僅僅是對未來的展望，它正逐步成為現(xiàn)實。我們將通過多種方式服務(wù)市場。首先，我們致力于為不同類型的機(jī)器人系統(tǒng)打造平臺：機(jī)器人工廠與倉庫專用平臺、物體操縱機(jī)器人平臺、移動機(jī)器人平臺，以及人形機(jī)器人平臺。這些機(jī)器人平臺與我們其他眾多業(yè)務(wù)一樣，依托于計算機(jī)加速庫和預(yù)訓(xùn)練模型。我們運(yùn)用計算機(jī)加速庫、預(yù)訓(xùn)練模型，并在Omniverse中進(jìn)行全方位的測試、訓(xùn)練和集成。正如視頻所示，Omniverse是機(jī)器人學(xué)習(xí)如何更好地適應(yīng)現(xiàn)實世界的地方。當(dāng)然，機(jī)器人倉庫的生態(tài)系統(tǒng)極為復(fù)雜，需要眾多公司、工具和技術(shù)來共同構(gòu)建現(xiàn)代化的倉庫。如今，倉庫正逐步邁向全面機(jī)械化，終有一天將實現(xiàn)完全自動化。

在這樣一個生態(tài)系統(tǒng)中，我們?yōu)檐浖袠I(yè)、邊緣人工智能行業(yè)和公司提供了SDK和API接口，同時也為PLC和機(jī)器人系統(tǒng)設(shè)計了專用系統(tǒng)，以滿足國防部等特定領(lǐng)域的需求。這些系統(tǒng)通過集成商整合，最終為客戶打造高效、智能的倉庫。舉個例子，Ken Mac正在為Giant Giant集團(tuán)構(gòu)建一座機(jī)器人倉庫。接下來，讓我們聚焦工廠領(lǐng)域。工廠的生態(tài)系統(tǒng)截然不同。以富士康為例，他們正在建設(shè)世界上一些*進(jìn)的工廠。這些工廠的生態(tài)系統(tǒng)同樣涵蓋了邊緣計算機(jī)、機(jī)器人軟件，用于設(shè)計工廠布局、優(yōu)化工作流程、編程機(jī)器人，以及用于協(xié)調(diào)數(shù)字工廠和人工智能工廠的PLC計算機(jī)。我們同樣為這些生態(tài)系統(tǒng)中的每一個環(huán)節(jié)提供了SDK接口。這樣的變革正在全球范圍內(nèi)上演。富士康和Delta正為其工廠構(gòu)建數(shù)字孿生設(shè)施，實現(xiàn)現(xiàn)實與數(shù)字的*融合，而Omniverse在其中扮演了至關(guān)重要的角色。同樣值得一提的是，和碩與Wistron也在緊隨潮流，為各自的機(jī)器人工廠建立數(shù)字孿生設(shè)施。

這確實令人興奮。接下來，請欣賞一段富士康新工廠的精彩視頻。機(jī)器人工廠由三個主要計算機(jī)系統(tǒng)組成，在NVIDIA AI平臺上訓(xùn)練人工智能模型，我們確保機(jī)器人在本地系統(tǒng)上高效運(yùn)行以編排工廠流程。同時，我們利用Omniverse這一模擬協(xié)作平臺，對包括機(jī)械臂和AMR（自主移動機(jī)器人）在內(nèi)的所有工廠元素進(jìn)行模擬。值得一提的是，這些模擬系統(tǒng)均共享同一個虛擬空間，實現(xiàn)無縫的交互與協(xié)作。當(dāng)機(jī)械臂和AMR進(jìn)入這個共享的虛擬空間時，它們能夠在Omniverse中模擬出真實的工廠環(huán)境，確保在實際部署前進(jìn)行充分的驗證和優(yōu)化。為了進(jìn)一步提升解決方案的集成度和應(yīng)用范圍，我們提供了三款高性能計算機(jī)，并配備了加速層和預(yù)訓(xùn)練人工智能模型。此外，我們已成功將NVIDIA Manipulator和Omniverse與西門子的工業(yè)自動化軟件和系統(tǒng)相結(jié)合。這種合作使得西門子在全球各地的工廠中都能夠?qū)崿F(xiàn)更高效的機(jī)器人操作和自動化。除了西門子，我們還與多家知名企業(yè)建立了合作關(guān)系。

例如，Symantec Pick AI已經(jīng)集成了NVIDIA Isaac Manipulator，而Somatic Pick AI則成功運(yùn)行并操作了ABB、KUKA、Yaskawa Motoman等知名品牌的機(jī)器人。機(jī)器人技術(shù)和物理人工智能的時代已經(jīng)到來，它們正在各地被廣泛應(yīng)用，這并非科幻，而是現(xiàn)實，令人倍感振奮。展望未來，工廠內(nèi)的機(jī)器人將成為主流，它們將制造所有的產(chǎn)品，其中兩個高產(chǎn)量機(jī)器人產(chǎn)品尤為引人注目。首先是自動駕駛汽車或具備高度自主能力的汽車，英偉達(dá)再次憑借其全面的技術(shù)堆棧在這一領(lǐng)域發(fā)揮了核心作用。明年，我們計劃與梅賽德斯-奔馳車隊攜手，隨后在2026年與捷豹路虎（JLR）車隊合作。我們提供完整的解決方案堆棧，但客戶可根據(jù)需求選擇其中的任何部分或?qū)蛹�，因為整個驅(qū)動堆棧都是開放和靈活的。接下來，另一個可能由機(jī)器人工廠高產(chǎn)量制造的產(chǎn)品是人形機(jī)器人。近年來，在認(rèn)知能力和世界理解能力方面取得了巨大突破，這一領(lǐng)域的發(fā)展前景令人期待。

我對人形機(jī)器人特別興奮，因為它們最有可能適應(yīng)我們?yōu)槿祟愃鶚?gòu)建的世界。與其他類型的機(jī)器人相比，訓(xùn)練人形機(jī)器人需要大量的數(shù)據(jù)。由于我們擁有相似的體型，通過演示和視頻能力提供的大量訓(xùn)練數(shù)據(jù)將*價值。因此，我們預(yù)計這一領(lǐng)域?qū)⑷〉蔑@著的進(jìn)步�，F(xiàn)在，讓我們歡迎一些特別的機(jī)器人朋友。機(jī)器人時代已經(jīng)來臨，這是人工智能的下一波浪潮。中國臺灣制造的計算機(jī)種類繁多，既有配備鍵盤的傳統(tǒng)機(jī)型，也有小巧輕便、便于攜帶的移動設(shè)備，以及為云端數(shù)據(jù)中心提供強(qiáng)大算力的專業(yè)設(shè)備。但展望未來，我們將見證一個更為激動人心的時刻——制造會走路、四處滾動的計算機(jī)，即智能機(jī)器人。這些智能機(jī)器人與我們所熟知的計算機(jī)在技術(shù)上有著驚人的相似性，它們都是基于先進(jìn)的硬件和軟件技術(shù)構(gòu)建的。因此，我們有理由相信，這將是一段真正非凡的旅程！綜合參考來源：騰訊科技等

原文標(biāo)題 : 英偉達(dá)黃仁勛重磅演講：機(jī)器人時代已經(jīng)到來