欧美亚洲美日更新在线_国产av无码图_91精品无码中文字幕在线_久久人妻中文字幕乱码_亚洲无码视频一二三区在线

百度萬昳:從DCN到HPN 光互聯(lián)的演進(jìn)與革新

光纖在線編輯部  2024-07-10 12:25:48  文章來源:本站消息  版權(quán)所有,未經(jīng)許可嚴(yán)禁轉(zhuǎn)載.

導(dǎo)讀:百度網(wǎng)絡(luò)系統(tǒng)部的光網(wǎng)絡(luò)架構(gòu)師萬昳解析AI時代下新型智算集群網(wǎng)絡(luò)架構(gòu)與傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)(DCN)之間的差異與光互聯(lián)的機遇。

7/10/2024,光纖在線訊,隨著大模型等AI人工智能技術(shù)的進(jìn)一步廣泛應(yīng)用,正推通光通信產(chǎn)業(yè)從通用計算全面邁向智算時代,而這一背景下的光互聯(lián)正發(fā)生著巨大的變化。

在最近舉行的CFCF2024光連接大會上,百度網(wǎng)絡(luò)系統(tǒng)部的光網(wǎng)絡(luò)架構(gòu)師萬昳強調(diào)了AI時代下新型智算集群網(wǎng)絡(luò)架構(gòu)與傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)(DCN)之間的顯著差異。這些差異不僅為光通信行業(yè)帶來了一系列新的挑戰(zhàn),同時也帶來了前所未有的機遇。具體來說,包括光互聯(lián)方案的多樣化發(fā)展、硅光技術(shù)的廣闊應(yīng)用前景,以及低功耗光模塊技術(shù)TRO和LPO的新機遇。


百度網(wǎng)絡(luò)系統(tǒng)部光網(wǎng)絡(luò)架構(gòu)師,萬昳


隨著人工智能技術(shù)的飛速發(fā)展,特別為AI設(shè)計的高性能智算網(wǎng)絡(luò)集群(HPN)在網(wǎng)絡(luò)架構(gòu)和光互聯(lián)需求上與傳統(tǒng)的數(shù)據(jù)中心網(wǎng)絡(luò)(DCN)呈現(xiàn)出根本性的差異。這種差異化需求正推動著光互聯(lián)解決方案的創(chuàng)新與進(jìn)步。

AI技術(shù)對網(wǎng)絡(luò)架構(gòu)提出了更高的要求,包括但不限于以下幾點:
1. 強擴展性:AI網(wǎng)絡(luò)架構(gòu)需要具備強大的擴展能力,采用二層或三層網(wǎng)絡(luò)結(jié)構(gòu),以支持AI集群的靈活擴展。
2. 大規(guī)模分布式計算:面對千億甚至萬億參數(shù)的AI模型,需要多機多卡的分布式計算能力,以支持大規(guī)模算力集群。
3. 超高帶寬需求:隨著數(shù)據(jù)傳輸需求的增加,當(dāng)前網(wǎng)絡(luò)到服務(wù)器的連接已經(jīng)越來越多地采用400G速率,而未來,無論是頂端的TOR(Top of Rack)到服務(wù)器連接,還是數(shù)據(jù)中心內(nèi)部的連接,都將邁向800G速率。
4. 多導(dǎo)軌設(shè)計:通過采用多導(dǎo)軌設(shè)計,可以減少GPU之間的互訪路徑跳數(shù),降低擁塞和冗余,從而提高GPU的利用率。
5. 穩(wěn)定性:AI訓(xùn)練往往涉及大規(guī)模的任務(wù)啟動,對網(wǎng)絡(luò)穩(wěn)定性的要求極高,以避免因網(wǎng)絡(luò)問題導(dǎo)致訓(xùn)練回退,造成不必要的延時。
6. 可運維性:與對時效性和檢測性有一定容忍度的傳統(tǒng)數(shù)據(jù)中心不同,AI訓(xùn)練中心期望能夠快速進(jìn)行異常檢測和處理,以保證訓(xùn)練過程的連續(xù)性和效率。
    這些需求的提出,不僅為光通信行業(yè)帶來了挑戰(zhàn),也為技術(shù)創(chuàng)新和解決方案的優(yōu)化提供了廣闊的空間。

傳統(tǒng)數(shù)據(jù)中心是以服務(wù)器為中心作機房物理排布,但AI數(shù)據(jù)中心會以網(wǎng)絡(luò)為中心,在每一層級互聯(lián)之間距離達(dá)到等長,避免最小的時延和距離,所以在工程布程都發(fā)生了改變。數(shù)據(jù)中心也發(fā)生了變化,Copper最大的特點是成本低,在傳統(tǒng)數(shù)據(jù)中心TOR-Server通常采用Copper的比例很高,包括10G/ 25G /100G/ 200G性能都不錯。但在AI數(shù)據(jù)中心,電力不夠,服務(wù)器、網(wǎng)絡(luò)設(shè)備要做一定的拉遠(yuǎn),銅線的性能不夠,光互聯(lián)會更多,但仍然在努力在穩(wěn)定性和距離上進(jìn)行優(yōu)化。但在面向未來高密度的需求,柜內(nèi)的芯片互聯(lián),也將會考慮采用Copper進(jìn)入互聯(lián)。

對于硅光技術(shù)的引入,萬昳認(rèn)為:全球范圍內(nèi)AI建設(shè),光模塊的海量需求,而當(dāng)下多模方案面臨光芯片供應(yīng)問題,給硅光技術(shù)帶來機會;面向長距離EML方案的供應(yīng)、功耗、成本也均面臨著挑戰(zhàn),硅光技術(shù)依然具備一定的機會;而在面向各種光模塊的技術(shù)平臺持續(xù)發(fā)展的方案中,硅光技術(shù)也可支持DSP、LPO,TRO,CPO等,以及走向Optical IO芯片互聯(lián)。具體的節(jié)點上,用于400G及800G應(yīng)用的 112G Serdes 硅光技術(shù)將會成為重點方案。

針對LRO/TRO的方案,可能為HPN的重要方案,具體的技術(shù)引入,業(yè)界正基于400G 開始進(jìn)行LPO/TRO光模塊技術(shù)評估,根據(jù)評估數(shù)據(jù)及性能表現(xiàn)預(yù)計將在800G/1.6T時代展開更多的應(yīng)用?傮w來看,無論哪種方案,隨著Serdes速率提升,高速信號完整性受到挑戰(zhàn);系統(tǒng)功耗不斷增加,進(jìn)而面臨散熱的瓶頸。但在長期演進(jìn)路線來看,技術(shù)條件可滿足的情況下,可插拔依然是綜合更優(yōu)選的方案。
關(guān)鍵字: 百度 AI 數(shù)據(jù)中心
光纖在線

光纖在線公眾號

更多猛料!歡迎掃描左方二維碼關(guān)注光纖在線官方微信

熱門搜索

熱門新聞

最新簡歷

  • 孫** 深圳 研發(fā)/開發(fā)工程師技術(shù)/工藝設(shè)計工程師品質(zhì)/測試工程師
  • 田** 陽江 副總經(jīng)理/副總裁品保經(jīng)理/主管營運經(jīng)理/主管
  • 劉** 衡陽 總工程師/副總工程師技術(shù)/工藝設(shè)計經(jīng)理/主管光學(xué)工程師
  • 劉** 衡陽 總工程師/副總工程師研發(fā)部經(jīng)理光學(xué)工程師
  • 石** 杭州 光學(xué)工程師研發(fā)/開發(fā)工程師售前/售后技術(shù)服務(wù)經(jīng)理

展會速遞

微信掃描二維碼
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。