10/16/2024,光纖在線訊,據(jù)DriveNets昨日官網(wǎng)消息,創(chuàng)新網(wǎng)絡(luò)解決方案的領(lǐng)導(dǎo)者 DriveNets 和超大規(guī)模數(shù)據(jù)中心、人工智能和邊緣計(jì)算先進(jìn)技術(shù)的領(lǐng)導(dǎo)者 Accton Technology 今天宣布成功測(cè)試并推出兩款基于 Broadcom 的 Jericho-3-AI 和 Ramon-3 ASIC 的新型白盒。DriveNets 和 Accton 是首批將帶有新 Broadcom ASIC 的白盒用于商業(yè) AI 網(wǎng)絡(luò)的公司。
該解決方案結(jié)合了 DriveNets 久經(jīng)考驗(yàn)的大規(guī)模軟件和 Accton 的白盒,并支持具有多達(dá) 32K GPU 的 AI 和 ML 集群,這些 GPU 與 800Gbps 接口相連。白盒基于 OCP DDC(分布式分解機(jī)箱)計(jì)劃交換矩陣架構(gòu),提供可擴(kuò)展的解決方案,該解決方案易于部署,并且可以隨著公司的需求而增長(zhǎng)。此架構(gòu)成功通過了第 1 層 AI 客戶的 POC。該解決方案滿足了構(gòu)建大型 GPU 集群的超大規(guī)模企業(yè)以及構(gòu)建具有數(shù)千個(gè) GPU 的大型 AI 集群的企業(yè)日益增長(zhǎng)的需求。
DriveNets 首席運(yùn)營(yíng)官 (COO) Ryan Donnelly 表示:“構(gòu)建大規(guī)模 AI 集群的公司對(duì)新型 Broadcom ASIC 的需求很高,這些集群希望在不影響性能的情況下實(shí)現(xiàn)硬件多樣性!拔覀兊能浖С中碌 Accton 白盒,并為我們的客戶提供基于開放以太網(wǎng)的 AI 網(wǎng)絡(luò)替代方案,以替代 InfiniBand,而不會(huì)影響性能!
“Accton 帶來了多年的工程和設(shè)計(jì)專業(yè)知識(shí),迄今為止已交付數(shù)百萬臺(tái)設(shè)備。我們最新的符合 OCP 標(biāo)準(zhǔn)的開放網(wǎng)絡(luò)白盒交換機(jī)將在 2024 年 OCP 峰會(huì)上展出,展示了當(dāng)今 AI 后端所需的性能和可靠性,“智邦產(chǎn)品管理主管 Mike Wong 說!癉riveNets 的操作系統(tǒng)解決方案允許使用分布式分解機(jī)箱 (DDC) 拓?fù)鋵?shí)現(xiàn)該網(wǎng)絡(luò)的彈性增長(zhǎng),該拓?fù)渑c舊的專有 InfiniBand 解決方案的性能相匹配。我們共同為超大規(guī)模企業(yè)、企業(yè)和所有 AI 構(gòu)建者提供傳統(tǒng)封閉硬件的高性能、開放標(biāo)準(zhǔn)替代方案。
經(jīng)過驗(yàn)證的解決方案
新的 Accton 白盒包括:
· NCP-5 (Accton ASA926-18XKE),基于 Broadcom 的 Jericho-3-AI ASIC,支持 18 個(gè) 800Gbps 網(wǎng)絡(luò)端口和 20 個(gè) 800Gbps 結(jié)構(gòu)端口
· NCF-2 (Accton AS9936-128D),基于 Broadcom 的 Ramon-3 ASIC,支持 128 個(gè) 800Gbps 的交換矩陣端口
在發(fā)布之前,白盒在智邦位于臺(tái)灣的實(shí)驗(yàn)室中經(jīng)過了嚴(yán)格的測(cè)試,使用了NCP-5s、NCF-2s、思博倫AI工作負(fù)載仿真解決方案和Intel Gaudi服務(wù)器,這些服務(wù)器在一個(gè)集群中運(yùn)行BERT和ResNet模型,配備了32個(gè)GPU。測(cè)試結(jié)果顯示,與以太網(wǎng) Clos 架構(gòu)相比,作業(yè)完成時(shí)間 (JCT) 性能提高了 30% 以上。此測(cè)試突出了 DDC 計(jì)劃結(jié)構(gòu)的架構(gòu)優(yōu)于其他以太網(wǎng)解決方案,與 InfiniBand 相當(dāng)。
思博倫提供的
業(yè)界首個(gè)AI工作負(fù)載仿真解決方案,利用RoCEv2傳輸和集成的集體通信庫(kù)(CCL)支持,大規(guī)模生成真實(shí)的AI流量模式,以識(shí)別可能導(dǎo)致網(wǎng)絡(luò)擁塞、更高延遲和更低吞吐量的問題。該解決方案通過提供可重復(fù)的測(cè)試和可操作指標(biāo)(如作業(yè)完成時(shí)間 (JCT)、尾部延遲、算法和總線帶寬)來降低驗(yàn)證 AI 基礎(chǔ)設(shè)施的復(fù)雜性和工作量,從而直觀地診斷性能和效率問題,與構(gòu)建真正的 xPU 系統(tǒng)相比,成本只是其中的一小部分。
DriveNets 和 Accton 將于 10 月 15 日至 17 日在加利福尼亞州圣何塞舉行的
2024 年 OCP 全球峰會(huì)上展示測(cè)試及其結(jié)果。
參考鏈接:
drivenets.com