3/23/2022,光纖在線訊, 3月22日,美國加利福尼亞州圣克拉拉市,全球AI領(lǐng)域盛會,英偉達(dá)GTC(GPU技術(shù)大會)大會,上,這家全球最值錢的半導(dǎo)體公司創(chuàng)始人兼CEO黃仁勛為全球科技界帶來一系列激動(dòng)人心的AI新產(chǎn)品,包括:
1、H100 GPU
NVIDIA Hopper™ 以美國計(jì)算機(jī)領(lǐng)域的先驅(qū)科學(xué)家 Grace Hopper 的名字命名,將取代兩年前推出的 NVIDIA Ampere 架構(gòu)。與上一代產(chǎn)品相比,該平臺實(shí)現(xiàn)了數(shù)量級的性能飛躍。H100 GPU 集成了 800 億個(gè)晶體管,擁有革命性的 Transformer 引擎和高度可擴(kuò)展的 NVIDIA NVLink® 互連技術(shù)等突破性功能,可推動(dòng)龐大的 AI 語言模型、深度推薦系統(tǒng)、基因組學(xué)和復(fù)雜數(shù)字孿生的發(fā)展。
黃仁勛表示:“數(shù)據(jù)中心正在轉(zhuǎn)變成‘AI 工廠’。它們處理大量數(shù)據(jù),以實(shí)現(xiàn)智能。NVIDIA H100 是全球 AI 基礎(chǔ)設(shè)施的引擎,讓企業(yè)能夠利用其實(shí)現(xiàn)自身 AI 業(yè)務(wù)的加速!
H100 技術(shù)突破
H100 NVIDIA GPU 為加速大規(guī)模 AI 和 HPC 設(shè)定了新的標(biāo)準(zhǔn),帶來了六項(xiàng)突破性創(chuàng)新:
● 世界最先進(jìn)的芯片 —— H100 由 800 億個(gè)晶體管構(gòu)建而成,這些晶體管采用了專為 NVIDIA 加速計(jì)算需求設(shè)計(jì)的尖端的 TSMC 4N 工藝,因而能夠顯著提升 AI、HPC、顯存帶寬、互連和通信的速度,并能夠?qū)崿F(xiàn)近 5TB/s 的外部互聯(lián)帶寬。H100 是首款支持 PCIe 5.0 的 GPU,也是首款采用 HBM3 的 GPU,可實(shí)現(xiàn) 3TB/s 的顯存帶寬。20個(gè) H100 GPU 便可承托相當(dāng)于全球互聯(lián)網(wǎng)的流量,使其能夠幫助客戶推出先進(jìn)的推薦系統(tǒng)以及實(shí)時(shí)運(yùn)行數(shù)據(jù)推理的大型語言模型。
● 新的 Transformer 引擎 —— Transformer 現(xiàn)在已成為自然語言處理的標(biāo)準(zhǔn)模型方案,也是深度學(xué)習(xí)模型領(lǐng)域最重要的模型之一。H100 加速器的 Transformer 引擎旨在不影響精度的情況下,將這些網(wǎng)絡(luò)的速度提升至上一代的六倍。
● 第二代安全多實(shí)例 GPU —— MIG 技術(shù)支持將單個(gè) GPU 分為七個(gè)更小且完全獨(dú)立的實(shí)例,以處理不同類型的作業(yè)。與上一代產(chǎn)品相比,在云環(huán)境中 Hopper 架構(gòu)通過為每個(gè) GPU 實(shí)例提供安全的多租戶配置,將 MIG 的部分能力擴(kuò)展了 7 倍。
● 機(jī)密計(jì)算 —— H100 是全球首款具有機(jī)密計(jì)算功能的加速器,可保護(hù) AI 模型和正在處理的客戶數(shù)據(jù)?蛻暨可以將機(jī)密計(jì)算應(yīng)用于醫(yī)療健康和金融服務(wù)等隱私敏感型行業(yè)的聯(lián)邦學(xué)習(xí),也可以應(yīng)用于共享云基礎(chǔ)設(shè)施。
● 第 4 代 NVIDIA NVLink —— 為加速大型 AI 模型,NVLink 結(jié)合全新的外接 NVLink Switch,可將 NVLink 擴(kuò)展為服務(wù)器間的互聯(lián)網(wǎng)絡(luò),最多可以連接多達(dá) 256 個(gè) H100 GPU,相較于上一代采用 NVIDIA HDR Quantum InfiniBand網(wǎng)絡(luò),帶寬高出9倍。
● DPX 指令 —— 新的 DPX 指令可加速動(dòng)態(tài)規(guī)劃,適用于包括路徑優(yōu)化和基因組學(xué)在內(nèi)的一系列算法,與 CPU 和上一代 GPU 相比,其速度提升分別可達(dá) 40 倍和 7 倍。Floyd-Warshall 算法與 Smith-Waterman 算法也在其加速之列,前者可以在動(dòng)態(tài)倉庫環(huán)境中為自主機(jī)器人車隊(duì)尋找最優(yōu)線路,而后者可用于 DNA 和蛋白質(zhì)分類與折疊的序列比對。
H100 的多項(xiàng)技術(shù)創(chuàng)新相結(jié)合,進(jìn)一步擴(kuò)大了 NVIDIA在 AI 推理和訓(xùn)練的領(lǐng)導(dǎo)地位,利用大規(guī)模 AI 模型實(shí)現(xiàn)了實(shí)時(shí)沉浸式應(yīng)用。H100 將支持聊天機(jī)器人使用功能超強(qiáng)大的monolithic Transformer 語言模型 Megatron 530B,吞吐量比上一代產(chǎn)品高出 30 倍,同時(shí)滿足實(shí)時(shí)對話式 AI 所需的次秒級延遲。利用 H100,研究人員和開發(fā)者能夠訓(xùn)練龐大的模型,如包含 3950 億個(gè)參數(shù)的混合專家模型,訓(xùn)練速度加速高達(dá)9倍,將訓(xùn)練時(shí)間從幾周縮短到幾天。
2、DGX H100 AI 平臺
NVIDIA 的第四代 DGX™ 系統(tǒng) DGX H100 配備 8 塊 H100 GPU,以全新的 FP8 精度提供 32 Petaflop 的 AI 性能,并支持?jǐn)U展,能夠滿足大型語言模型、推薦系統(tǒng)、醫(yī)療健康研究和氣候科學(xué)的海量計(jì)算需求,比上一代系統(tǒng)性能高 6 倍。
DGX H100 系統(tǒng)中的每塊 GPU 都通過第四代 NVLink 連接,可提供 900GB/s 的帶寬,與上一代相比,速度提升了 1.5 倍。NVSwitch™ 支持所有八塊 H100 GPU 通過 NVLink 全互聯(lián)。新一代 NVIDIA DGX SuperPOD™ 超級計(jì)算機(jī)可通過外部 NVLink Switch 互聯(lián),最多可連接 32 個(gè) DGX H100 節(jié)點(diǎn)。
DGX H100 系統(tǒng)是新一代 NVIDIA DGX POD™ 和 NVIDIA DGX SuperPOD™ AI 基礎(chǔ)設(shè)施平臺的構(gòu)建模塊。新的 DGX SuperPOD 架構(gòu)采用了一個(gè)全新的 NVIDIA NVLink Switch 系統(tǒng),通過這一系統(tǒng)最多可連接 32 個(gè)節(jié)點(diǎn),總計(jì) 256 塊 H100 GPU。
3、Eos超級計(jì)算機(jī):全球運(yùn)行速度最快的AI超級計(jì)算機(jī)
NVIDIA Eos 預(yù)計(jì)將提供 18.4 Exaflops 的 AI 計(jì)算性能,比日本的 Fugaku 超級計(jì)算機(jī)快 4 倍,后者是目前運(yùn)行速度最快的系統(tǒng)。在傳統(tǒng)的科學(xué)計(jì)算方面,Eos 預(yù)計(jì)將提供 275 Petaflop 的性能。
NVIDIA 今日宣布推出首款面向 AI 基礎(chǔ)設(shè)施和高性能計(jì)算的基于 Arm® Neoverse™ 的數(shù)據(jù)中心專屬 CPU,其可提供最高的性能,是當(dāng)今領(lǐng)先服務(wù)器芯片內(nèi)存帶寬和能效的兩倍。
4、Grace CPU超級芯片
NVIDIA Grace™ CPU 超級芯片由兩個(gè) CPU 芯片組成,它們之間通過NVLink®-C2C互連在一起。NVLink®-C2C 是一種新型的高速、低延遲、芯片到芯片的互連技術(shù)。
Grace CPU 超級芯片是去年NVIDIA發(fā)布的首款由 CPU-GPU 集成的“Grace Hopper 超級芯片”的模塊,它將與基于 NVIDIA Hopper™ 架構(gòu)的 GPU一同應(yīng)用于大型 HPC 和AI 應(yīng)用。這兩款超級芯片采用相同的底層 CPU 架構(gòu)及 NVLink-C2C 互連。
NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示: “一種新型的數(shù)據(jù)中心已經(jīng)出現(xiàn),它就是能對海量數(shù)據(jù)進(jìn)行處理和提煉以實(shí)現(xiàn)智能的 AI 工廠。Grace CPU 超級芯片能夠在一個(gè)芯片中提供最高的性能、內(nèi)存帶寬以及 NVIDIA 軟件平臺,將作為‘全球 AI 基礎(chǔ)設(shè)施的 CPU’ 大放異彩!
5、NVLink 芯片級互聯(lián)系統(tǒng):
NVIDIA® NVLink®-C2C,這是一種超快速的芯片到芯片、裸片到裸片的互連技術(shù),將支持定制裸片與NVIDIA GPU、CPU、DPU、NIC 和 SOC 之間實(shí)現(xiàn)一致的互連,助力數(shù)據(jù)中心打造新一代的系統(tǒng)級集成。采用先進(jìn)封裝技術(shù),與英偉達(dá)芯片上的PCIe Gen 5相比,能源效率高25倍,面積效率高90倍。英偉達(dá)還將支持通用小芯片互連傳輸通道UCIe標(biāo)準(zhǔn)。
借助先進(jìn)的封裝技術(shù),NVIDIA NVLink-C2C 互連鏈路的能效最多可比 NVIDIA 芯片上的 PCIe Gen 5 高出 25 倍,面積效率高出 90 倍,可實(shí)現(xiàn)每秒 900 GB 乃至更高的一致互聯(lián)帶寬。
NVIDIA 超大規(guī)模計(jì)算副總裁 Ian Buck 表示:“為應(yīng)對摩爾定律發(fā)展趨緩的局面,必須開發(fā)小芯片和異構(gòu)計(jì)算。我們利用 NVIDIA 在高速互連方面世界一流的專業(yè)知識,開發(fā)出統(tǒng)一、開放的技術(shù),這將有助于我們的 GPU、DPU、NIC、CPU 和 SoC 通過小芯片構(gòu)建出新型的集成產(chǎn)品!
今日發(fā)布的 NVIDIA Grace™ 超級芯片系列以及去年發(fā)布的 Grace Hopper 超級芯片均采用了NVIDIA NVLink-C2C 技術(shù)來連接處理器芯片。NVLink-C2C 現(xiàn)已為半定制芯片開放,支持其與 NVIDIA 技術(shù)的集成。
NVIDIA NVLink-C2C 依托于 NVIDIA 世界一流的 SERDES 和 LINK 設(shè)計(jì)技術(shù),可從 PCB 級集成和多芯片模組擴(kuò)展到硅插入器和晶圓級連接。這可提供極高的帶寬,同時(shí)優(yōu)化能效和裸片面積效率。
除 NVLink-C2C 之外,NVIDIA 還將支持本月早些時(shí)候發(fā)布的 UCIe(Universal Chiplet Interconnect Express,通用小芯片互連傳輸通道)標(biāo)準(zhǔn)。與 NVIDIA 芯片的定制芯片集成既可以使用 UCIe 標(biāo)準(zhǔn),也可以使用 NVLink-C2C,后者經(jīng)過優(yōu)化,延遲更低、帶寬更高、能效更高。
NVLink-C2C 的一些關(guān)鍵特性包括:
● 高帶寬 —— 支持處理器和加速器之間的高帶寬一致性數(shù)據(jù)傳輸
● 低延遲 —— 支持處理器和加速器之間的原子操作,對共享數(shù)據(jù)進(jìn)行快速同步和高頻率更新
● 低功耗和高密度 —— 采用先進(jìn)的封裝,與 NVIDIA 芯片上的 PCIe Gen 5 相比,能源效率提高 25 倍,面積效率提高 90 倍
● 工業(yè)標(biāo)準(zhǔn)支持 —— 支持 Arm AMBA CHI 或 CXL 工業(yè)標(biāo)準(zhǔn)協(xié)議,實(shí)現(xiàn)設(shè)備間的互操作性
6、Spectrum-4:全球首個(gè)400Gbps端到端網(wǎng)絡(luò)平臺
NVIDIA 于今日發(fā)布NVIDIA Spectrum™-4。它是新一代的以太網(wǎng)平臺,將為大規(guī)模數(shù)據(jù)中心基礎(chǔ)設(shè)施提供所需的超高網(wǎng)絡(luò)性能和強(qiáng)大安全性。
作為全球首個(gè) 400Gbps 端到端網(wǎng)絡(luò)平臺,NVIDIA Spectrum-4 的交換吞吐量比前幾代產(chǎn)品高出 4 倍,達(dá)到 51.2 Tbps。該平臺由 NVIDIA Spectrum-4 交換機(jī)系列、ConnectX®-7 智能網(wǎng)卡、NVIDIA BlueField® -3 DPU 和 DOCA™ 數(shù)據(jù)中心基礎(chǔ)設(shè)施軟件組成,能夠大幅加速大規(guī)模云原生應(yīng)用。
Spectrum-4 交換機(jī)實(shí)現(xiàn)了納秒級計(jì)時(shí)精度,相比普通毫秒級數(shù)據(jù)中心提升了五到六個(gè)數(shù)量級。這款交換機(jī)還能加速、簡化和保護(hù)網(wǎng)絡(luò)架構(gòu)。與上一代產(chǎn)品相比,其每個(gè)端口的帶寬提高了 2 倍,交換機(jī)數(shù)量減少到 1/4 ,功耗降低了 40%。
Spectrum 平臺賦能了 NVIDIA Omniverse™ 平臺,實(shí)現(xiàn)用于 3D 設(shè)計(jì)協(xié)作和模擬的精確空間和時(shí)間模擬。Spectrum-3 交換機(jī)的網(wǎng)絡(luò)架構(gòu)能夠連接 32 臺 OVX 服務(wù)器,形成 OVX 超級集群。
NVIDIA Spectrum-4 ASIC 和 SN5000 交換機(jī)系列基于4N工藝,包含 1000 多億個(gè)晶體管以及經(jīng)過簡化的收發(fā)器設(shè)計(jì),具有領(lǐng)先的能效和總擁有成本。憑借支持 128 個(gè) 400GbE 端口的 51.2Tbps 聚合 ASIC 帶寬,以及自適應(yīng)路由選擇和增強(qiáng)擁塞控制機(jī)制,Spectrum-4 優(yōu)化了基于融合以太網(wǎng)的RDMA(RDMA over Converged Ethernet)網(wǎng)絡(luò)架構(gòu),并顯著提升了數(shù)據(jù)中心的應(yīng)用速度。
7、Clara Holoscan MGX:可供醫(yī)療設(shè)備行業(yè)在邊緣開發(fā)和部署實(shí)時(shí)AI應(yīng)用的計(jì)算平臺
NVIDIA 今日發(fā)布 Clara Holoscan MGX™,這是一個(gè)可供醫(yī)療設(shè)備行業(yè)在邊緣開發(fā)和部署實(shí)時(shí) AI 應(yīng)用的平臺,專為滿足必要的監(jiān)管標(biāo)準(zhǔn)而設(shè)計(jì)。
Clara Holoscan MGX 能夠擴(kuò)展 Clara Holoscan 平臺,提供一體化的醫(yī)療級參考架構(gòu)以及長期軟件支持,以加速醫(yī)療設(shè)備行業(yè)的創(chuàng)新。它通過處理高吞吐量數(shù)據(jù)流來提供實(shí)時(shí)洞見,將最新的傳感器創(chuàng)新帶到了邊緣計(jì)算。從機(jī)器人手術(shù)到研究生物學(xué)的新方法,外科醫(yī)生和科學(xué)家需要醫(yī)療設(shè)備逐步發(fā)展成為持續(xù)傳感系統(tǒng),進(jìn)而更好地推動(dòng)疾病的研究和治療。
作為 Clara Holoscan MGX 的一部分,NVIDIA 提供基于長使用壽命 NVIDIA 組件的硬件參考設(shè)計(jì),以及 10 年的長期軟件支持,包括針對軟件的 IEC62304 文檔,以及來自嵌入式計(jì)算合作伙伴的 IEC60601 認(rèn)證報(bào)告。
多家嵌入式計(jì)算制造商,包括 ADLINK、Advantech、Dedicated Computing、Kontron、Leadtek, MBX Systems、Onyx Healthcare、Portwell, Prodrive Technologies、RYOYO Electro 和 Yuan High-Tech將率先基于 Clara Holoscan MGX 參考設(shè)計(jì)開發(fā)產(chǎn)品,以滿足全球醫(yī)療設(shè)備行業(yè)的需求。