看GTC大會NVIDIA給我們帶來什么：GPU、芯片互聯(lián)、400G互聯(lián)、以太網(wǎng)和AI平臺

光纖在線編輯部 2022-03-23 21:22:38 文章來源：本站消息版權(quán)所有,未經(jīng)許可嚴(yán)禁轉(zhuǎn)載.

瀏覽量：

導(dǎo)讀：全球AI領(lǐng)域盛會，英偉達(dá)GTC（GPU技術(shù)大會）大會，上，這家全球最值錢的半導(dǎo)體公司創(chuàng)始人兼CEO黃仁勛為全球科技界帶來一系列激動(dòng)人心的AI新產(chǎn)品

3/23/2022，光纖在線訊， 3月22日，美國加利福尼亞州圣克拉拉市，全球AI領(lǐng)域盛會，英偉達(dá)GTC（GPU技術(shù)大會）大會，上，這家全球最值錢的半導(dǎo)體公司創(chuàng)始人兼CEO黃仁勛為全球科技界帶來一系列激動(dòng)人心的AI新產(chǎn)品，包括：

1、H100 GPU

NVIDIA Hopper™ 以美國計(jì)算機(jī)領(lǐng)域的先驅(qū)科學(xué)家 Grace Hopper 的名字命名，將取代兩年前推出的 NVIDIA Ampere 架構(gòu)。與上一代產(chǎn)品相比，該平臺實(shí)現(xiàn)了數(shù)量級的性能飛躍。H100 GPU 集成了 800 億個(gè)晶體管，擁有革命性的 Transformer 引擎和高度可擴(kuò)展的 NVIDIA NVLink® 互連技術(shù)等突破性功能，可推動(dòng)龐大的 AI 語言模型、深度推薦系統(tǒng)、基因組學(xué)和復(fù)雜數(shù)字孿生的發(fā)展。

黃仁勛表示：“數(shù)據(jù)中心正在轉(zhuǎn)變成‘AI 工廠’。它們處理大量數(shù)據(jù)，以實(shí)現(xiàn)智能。NVIDIA H100 是全球 AI 基礎(chǔ)設(shè)施的引擎，讓企業(yè)能夠利用其實(shí)現(xiàn)自身 AI 業(yè)務(wù)的加速�！�

H100 技術(shù)突破
H100 NVIDIA GPU 為加速大規(guī)模 AI 和 HPC 設(shè)定了新的標(biāo)準(zhǔn)，帶來了六項(xiàng)突破性創(chuàng)新：

●       世界最先進(jìn)的芯片 —— H100 由 800 億個(gè)晶體管構(gòu)建而成，這些晶體管采用了專為 NVIDIA 加速計(jì)算需求設(shè)計(jì)的尖端的 TSMC 4N 工藝，因而能夠顯著提升 AI、HPC、顯存帶寬、互連和通信的速度，并能夠?qū)崿F(xiàn)近 5TB/s 的外部互聯(lián)帶寬。H100 是首款支持 PCIe 5.0 的 GPU，也是首款采用 HBM3 的 GPU，可實(shí)現(xiàn) 3TB/s 的顯存帶寬。20個(gè) H100 GPU 便可承托相當(dāng)于全球互聯(lián)網(wǎng)的流量，使其能夠幫助客戶推出先進(jìn)的推薦系統(tǒng)以及實(shí)時(shí)運(yùn)行數(shù)據(jù)推理的大型語言模型。

●        新的 Transformer 引擎 —— Transformer 現(xiàn)在已成為自然語言處理的標(biāo)準(zhǔn)模型方案，也是深度學(xué)習(xí)模型領(lǐng)域最重要的模型之一。H100 加速器的 Transformer 引擎旨在不影響精度的情況下，將這些網(wǎng)絡(luò)的速度提升至上一代的六倍。

●       第二代安全多實(shí)例 GPU —— MIG 技術(shù)支持將單個(gè) GPU 分為七個(gè)更小且完全獨(dú)立的實(shí)例，以處理不同類型的作業(yè)。與上一代產(chǎn)品相比，在云環(huán)境中 Hopper 架構(gòu)通過為每個(gè) GPU 實(shí)例提供安全的多租戶配置，將 MIG 的部分能力擴(kuò)展了 7 倍。

●       機(jī)密計(jì)算 —— H100 是全球首款具有機(jī)密計(jì)算功能的加速器，可保護(hù) AI 模型和正在處理的客戶數(shù)據(jù)�？蛻暨€可以將機(jī)密計(jì)算應(yīng)用于醫(yī)療健康和金融服務(wù)等隱私敏感型行業(yè)的聯(lián)邦學(xué)習(xí)，也可以應(yīng)用于共享云基礎(chǔ)設(shè)施。

●       第 4 代 NVIDIA NVLink —— 為加速大型 AI 模型，NVLink 結(jié)合全新的外接 NVLink Switch，可將 NVLink 擴(kuò)展為服務(wù)器間的互聯(lián)網(wǎng)絡(luò)，最多可以連接多達(dá) 256 個(gè) H100 GPU，相較于上一代采用 NVIDIA HDR Quantum InfiniBand網(wǎng)絡(luò)，帶寬高出9倍。

●       DPX 指令 —— 新的 DPX 指令可加速動(dòng)態(tài)規(guī)劃，適用于包括路徑優(yōu)化和基因組學(xué)在內(nèi)的一系列算法，與 CPU 和上一代 GPU 相比，其速度提升分別可達(dá) 40 倍和 7 倍。Floyd-Warshall 算法與 Smith-Waterman 算法也在其加速之列，前者可以在動(dòng)態(tài)倉庫環(huán)境中為自主機(jī)器人車隊(duì)尋找最優(yōu)線路，而后者可用于 DNA 和蛋白質(zhì)分類與折疊的序列比對。

H100 的多項(xiàng)技術(shù)創(chuàng)新相結(jié)合，進(jìn)一步擴(kuò)大了 NVIDIA在 AI 推理和訓(xùn)練的領(lǐng)導(dǎo)地位，利用大規(guī)模 AI 模型實(shí)現(xiàn)了實(shí)時(shí)沉浸式應(yīng)用。H100 將支持聊天機(jī)器人使用功能超強(qiáng)大的monolithic Transformer 語言模型 Megatron 530B，吞吐量比上一代產(chǎn)品高出 30 倍，同時(shí)滿足實(shí)時(shí)對話式 AI 所需的次秒級延遲。利用 H100，研究人員和開發(fā)者能夠訓(xùn)練龐大的模型，如包含 3950 億個(gè)參數(shù)的混合專家模型，訓(xùn)練速度加速高達(dá)9倍，將訓(xùn)練時(shí)間從幾周縮短到幾天。

2、DGX H100 AI 平臺
NVIDIA 的第四代 DGX™ 系統(tǒng) DGX H100 配備 8 塊 H100 GPU，以全新的 FP8 精度提供 32 Petaflop 的 AI 性能，并支持?jǐn)U展，能夠滿足大型語言模型、推薦系統(tǒng)、醫(yī)療健康研究和氣候科學(xué)的海量計(jì)算需求，比上一代系統(tǒng)性能高 6 倍。

DGX H100 系統(tǒng)中的每塊 GPU 都通過第四代 NVLink 連接，可提供 900GB/s 的帶寬，與上一代相比，速度提升了 1.5 倍。NVSwitch™ 支持所有八塊 H100 GPU 通過 NVLink 全互聯(lián)。新一代 NVIDIA DGX SuperPOD™ 超級計(jì)算機(jī)可通過外部 NVLink Switch 互聯(lián)，最多可連接 32 個(gè) DGX H100 節(jié)點(diǎn)。

DGX H100 系統(tǒng)是新一代 NVIDIA DGX POD™ 和 NVIDIA DGX SuperPOD™ AI 基礎(chǔ)設(shè)施平臺的構(gòu)建模塊。新的 DGX SuperPOD 架構(gòu)采用了一個(gè)全新的 NVIDIA NVLink Switch 系統(tǒng)，通過這一系統(tǒng)最多可連接 32 個(gè)節(jié)點(diǎn)，總計(jì) 256 塊 H100 GPU。

3、Eos超級計(jì)算機(jī)：全球運(yùn)行速度最快的AI超級計(jì)算機(jī)

NVIDIA Eos 預(yù)計(jì)將提供 18.4 Exaflops 的 AI 計(jì)算性能，比日本的 Fugaku 超級計(jì)算機(jī)快 4 倍，后者是目前運(yùn)行速度最快的系統(tǒng)。在傳統(tǒng)的科學(xué)計(jì)算方面，Eos 預(yù)計(jì)將提供 275 Petaflop 的性能。

NVIDIA 今日宣布推出首款面向 AI 基礎(chǔ)設(shè)施和高性能計(jì)算的基于 Arm® Neoverse™ 的數(shù)據(jù)中心專屬 CPU，其可提供最高的性能，是當(dāng)今領(lǐng)先服務(wù)器芯片內(nèi)存帶寬和能效的兩倍。

4、Grace CPU超級芯片
NVIDIA Grace™ CPU 超級芯片由兩個(gè) CPU 芯片組成，它們之間通過NVLink®-C2C互連在一起。NVLink®-C2C 是一種新型的高速、低延遲、芯片到芯片的互連技術(shù)。

Grace CPU 超級芯片是去年NVIDIA發(fā)布的首款由 CPU-GPU 集成的“Grace Hopper 超級芯片”的模塊，它將與基于 NVIDIA Hopper™ 架構(gòu)的 GPU一同應(yīng)用于大型 HPC 和AI 應(yīng)用。這兩款超級芯片采用相同的底層 CPU 架構(gòu)及 NVLink-C2C 互連。

NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示： “一種新型的數(shù)據(jù)中心已經(jīng)出現(xiàn)，它就是能對海量數(shù)據(jù)進(jìn)行處理和提煉以實(shí)現(xiàn)智能的 AI 工廠。Grace CPU 超級芯片能夠在一個(gè)芯片中提供最高的性能、內(nèi)存帶寬以及 NVIDIA 軟件平臺，將作為‘全球 AI 基礎(chǔ)設(shè)施的 CPU’ 大放異彩�！�

5、NVLink 芯片級互聯(lián)系統(tǒng)：

NVIDIA® NVLink®-C2C，這是一種超快速的芯片到芯片、裸片到裸片的互連技術(shù)，將支持定制裸片與NVIDIA GPU、CPU、DPU、NIC 和 SOC 之間實(shí)現(xiàn)一致的互連，助力數(shù)據(jù)中心打造新一代的系統(tǒng)級集成。采用先進(jìn)封裝技術(shù)，與英偉達(dá)芯片上的PCIe Gen 5相比，能源效率高25倍，面積效率高90倍。英偉達(dá)還將支持通用小芯片互連傳輸通道UCIe標(biāo)準(zhǔn)。

借助先進(jìn)的封裝技術(shù)，NVIDIA NVLink-C2C 互連鏈路的能效最多可比 NVIDIA 芯片上的 PCIe Gen 5 高出 25 倍，面積效率高出 90 倍，可實(shí)現(xiàn)每秒 900 GB 乃至更高的一致互聯(lián)帶寬。

NVIDIA 超大規(guī)模計(jì)算副總裁 Ian Buck 表示：“為應(yīng)對摩爾定律發(fā)展趨緩的局面，必須開發(fā)小芯片和異構(gòu)計(jì)算。我們利用 NVIDIA 在高速互連方面世界一流的專業(yè)知識，開發(fā)出統(tǒng)一、開放的技術(shù)，這將有助于我們的 GPU、DPU、NIC、CPU 和 SoC 通過小芯片構(gòu)建出新型的集成產(chǎn)品�！�

今日發(fā)布的 NVIDIA  Grace™  超級芯片系列以及去年發(fā)布的 Grace Hopper 超級芯片均采用了NVIDIA NVLink-C2C 技術(shù)來連接處理器芯片。NVLink-C2C 現(xiàn)已為半定制芯片開放，支持其與 NVIDIA 技術(shù)的集成。

NVIDIA NVLink-C2C 依托于 NVIDIA 世界一流的 SERDES 和 LINK 設(shè)計(jì)技術(shù)，可從 PCB 級集成和多芯片模組擴(kuò)展到硅插入器和晶圓級連接。這可提供極高的帶寬，同時(shí)優(yōu)化能效和裸片面積效率。

除 NVLink-C2C 之外，NVIDIA 還將支持本月早些時(shí)候發(fā)布的 UCIe（Universal Chiplet Interconnect Express，通用小芯片互連傳輸通道）標(biāo)準(zhǔn)。與 NVIDIA 芯片的定制芯片集成既可以使用 UCIe 標(biāo)準(zhǔn)，也可以使用 NVLink-C2C，后者經(jīng)過優(yōu)化，延遲更低、帶寬更高、能效更高。

NVLink-C2C 的一些關(guān)鍵特性包括：

●       高帶寬 —— 支持處理器和加速器之間的高帶寬一致性數(shù)據(jù)傳輸

●       低延遲 —— 支持處理器和加速器之間的原子操作，對共享數(shù)據(jù)進(jìn)行快速同步和高頻率更新

●       低功耗和高密度 —— 采用先進(jìn)的封裝，與 NVIDIA 芯片上的 PCIe Gen 5 相比，能源效率提高 25 倍，面積效率提高 90 倍

●       工業(yè)標(biāo)準(zhǔn)支持 —— 支持 Arm AMBA CHI 或 CXL 工業(yè)標(biāo)準(zhǔn)協(xié)議，實(shí)現(xiàn)設(shè)備間的互操作性

6、Spectrum-4：全球首個(gè)400Gbps端到端網(wǎng)絡(luò)平臺

NVIDIA 于今日發(fā)布NVIDIA Spectrum™-4。它是新一代的以太網(wǎng)平臺，將為大規(guī)模數(shù)據(jù)中心基礎(chǔ)設(shè)施提供所需的超高網(wǎng)絡(luò)性能和強(qiáng)大安全性。

作為全球首個(gè) 400Gbps 端到端網(wǎng)絡(luò)平臺，NVIDIA Spectrum-4 的交換吞吐量比前幾代產(chǎn)品高出 4 倍，達(dá)到 51.2 Tbps。該平臺由 NVIDIA Spectrum-4 交換機(jī)系列、ConnectX®-7 智能網(wǎng)卡、NVIDIA BlueField® -3 DPU 和 DOCA™ 數(shù)據(jù)中心基礎(chǔ)設(shè)施軟件組成，能夠大幅加速大規(guī)模云原生應(yīng)用。

Spectrum-4 交換機(jī)實(shí)現(xiàn)了納秒級計(jì)時(shí)精度，相比普通毫秒級數(shù)據(jù)中心提升了五到六個(gè)數(shù)量級。這款交換機(jī)還能加速、簡化和保護(hù)網(wǎng)絡(luò)架構(gòu)。與上一代產(chǎn)品相比，其每個(gè)端口的帶寬提高了 2 倍，交換機(jī)數(shù)量減少到 1/4 ，功耗降低了 40%。

Spectrum 平臺賦能了 NVIDIA Omniverse™ 平臺，實(shí)現(xiàn)用于 3D 設(shè)計(jì)協(xié)作和模擬的精確空間和時(shí)間模擬。Spectrum-3 交換機(jī)的網(wǎng)絡(luò)架構(gòu)能夠連接 32 臺 OVX 服務(wù)器，形成 OVX 超級集群。

NVIDIA Spectrum-4 ASIC 和 SN5000 交換機(jī)系列基于4N工藝，包含 1000 多億個(gè)晶體管以及經(jīng)過簡化的收發(fā)器設(shè)計(jì)，具有領(lǐng)先的能效和總擁有成本。憑借支持 128 個(gè) 400GbE 端口的 51.2Tbps 聚合 ASIC 帶寬，以及自適應(yīng)路由選擇和增強(qiáng)擁塞控制機(jī)制，Spectrum-4 優(yōu)化了基于融合以太網(wǎng)的RDMA（RDMA over Converged Ethernet）網(wǎng)絡(luò)架構(gòu)，并顯著提升了數(shù)據(jù)中心的應(yīng)用速度。

7、Clara Holoscan MGX：可供醫(yī)療設(shè)備行業(yè)在邊緣開發(fā)和部署實(shí)時(shí)AI應(yīng)用的計(jì)算平臺

NVIDIA 今日發(fā)布 Clara Holoscan MGX™，這是一個(gè)可供醫(yī)療設(shè)備行業(yè)在邊緣開發(fā)和部署實(shí)時(shí) AI 應(yīng)用的平臺，專為滿足必要的監(jiān)管標(biāo)準(zhǔn)而設(shè)計(jì)。

Clara Holoscan MGX 能夠擴(kuò)展 Clara Holoscan 平臺，提供一體化的醫(yī)療級參考架構(gòu)以及長期軟件支持，以加速醫(yī)療設(shè)備行業(yè)的創(chuàng)新。它通過處理高吞吐量數(shù)據(jù)流來提供實(shí)時(shí)洞見，將最新的傳感器創(chuàng)新帶到了邊緣計(jì)算。從機(jī)器人手術(shù)到研究生物學(xué)的新方法，外科醫(yī)生和科學(xué)家需要醫(yī)療設(shè)備逐步發(fā)展成為持續(xù)傳感系統(tǒng)，進(jìn)而更好地推動(dòng)疾病的研究和治療。

作為 Clara Holoscan MGX 的一部分，NVIDIA 提供基于長使用壽命 NVIDIA 組件的硬件參考設(shè)計(jì)，以及 10 年的長期軟件支持，包括針對軟件的 IEC62304 文檔，以及來自嵌入式計(jì)算合作伙伴的 IEC60601 認(rèn)證報(bào)告。

多家嵌入式計(jì)算制造商，包括 ADLINK、Advantech、Dedicated Computing、Kontron、Leadtek, MBX Systems、Onyx Healthcare、Portwell, Prodrive Technologies、RYOYO Electro 和 Yuan High-Tech將率先基于 Clara Holoscan MGX 參考設(shè)計(jì)開發(fā)產(chǎn)品，以滿足全球醫(yī)療設(shè)備行業(yè)的需求。

關(guān)鍵字： NVIDA 英偉達(dá) 人工智能

編輯：