百度萬昳：從DCN到HPN 光互聯(lián)的演進(jìn)與革新

光纖在線編輯部 2024-07-10 12:25:48 文章來源：本站消息版權(quán)所有,未經(jīng)許可嚴(yán)禁轉(zhuǎn)載.

瀏覽量：

導(dǎo)讀：百度網(wǎng)絡(luò)系統(tǒng)部的光網(wǎng)絡(luò)架構(gòu)師萬昳解析AI時代下新型智算集群網(wǎng)絡(luò)架構(gòu)與傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)（DCN）之間的差異與光互聯(lián)的機遇。

7/10/2024，光纖在線訊，隨著大模型等AI人工智能技術(shù)的進(jìn)一步廣泛應(yīng)用，正推通光通信產(chǎn)業(yè)從通用計算全面邁向智算時代，而這一背景下的光互聯(lián)正發(fā)生著巨大的變化。

在最近舉行的CFCF2024光連接大會上，百度網(wǎng)絡(luò)系統(tǒng)部的光網(wǎng)絡(luò)架構(gòu)師萬昳強調(diào)了AI時代下新型智算集群網(wǎng)絡(luò)架構(gòu)與傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)（DCN）之間的顯著差異。這些差異不僅為光通信行業(yè)帶來了一系列新的挑戰(zhàn)，同時也帶來了前所未有的機遇。具體來說，包括光互聯(lián)方案的多樣化發(fā)展、硅光技術(shù)的廣闊應(yīng)用前景，以及低功耗光模塊技術(shù)TRO和LPO的新機遇。

百度網(wǎng)絡(luò)系統(tǒng)部光網(wǎng)絡(luò)架構(gòu)師，萬昳

隨著人工智能技術(shù)的飛速發(fā)展，特別為AI設(shè)計的高性能智算網(wǎng)絡(luò)集群（HPN）在網(wǎng)絡(luò)架構(gòu)和光互聯(lián)需求上與傳統(tǒng)的數(shù)據(jù)中心網(wǎng)絡(luò)（DCN）呈現(xiàn)出根本性的差異。這種差異化需求正推動著光互聯(lián)解決方案的創(chuàng)新與進(jìn)步。

AI技術(shù)對網(wǎng)絡(luò)架構(gòu)提出了更高的要求，包括但不限于以下幾點：
1. 強擴展性：AI網(wǎng)絡(luò)架構(gòu)需要具備強大的擴展能力，采用二層或三層網(wǎng)絡(luò)結(jié)構(gòu)，以支持AI集群的靈活擴展。
2. 大規(guī)模分布式計算：面對千億甚至萬億參數(shù)的AI模型，需要多機多卡的分布式計算能力，以支持大規(guī)模算力集群。
3. 超高帶寬需求：隨著數(shù)據(jù)傳輸需求的增加，當(dāng)前網(wǎng)絡(luò)到服務(wù)器的連接已經(jīng)越來越多地采用400G速率，而未來，無論是頂端的TOR（Top of Rack）到服務(wù)器連接，還是數(shù)據(jù)中心內(nèi)部的連接，都將邁向800G速率。
4. 多導(dǎo)軌設(shè)計：通過采用多導(dǎo)軌設(shè)計，可以減少GPU之間的互訪路徑跳數(shù)，降低擁塞和冗余，從而提高GPU的利用率。
5. 穩(wěn)定性：AI訓(xùn)練往往涉及大規(guī)模的任務(wù)啟動，對網(wǎng)絡(luò)穩(wěn)定性的要求極高，以避免因網(wǎng)絡(luò)問題導(dǎo)致訓(xùn)練回退，造成不必要的延時。
6. 可運維性：與對時效性和檢測性有一定容忍度的傳統(tǒng)數(shù)據(jù)中心不同，AI訓(xùn)練中心期望能夠快速進(jìn)行異常檢測和處理，以保證訓(xùn)練過程的連續(xù)性和效率。
這些需求的提出，不僅為光通信行業(yè)帶來了挑戰(zhàn)，也為技術(shù)創(chuàng)新和解決方案的優(yōu)化提供了廣闊的空間。

傳統(tǒng)數(shù)據(jù)中心是以服務(wù)器為中心作機房物理排布，但AI數(shù)據(jù)中心會以網(wǎng)絡(luò)為中心，在每一層級互聯(lián)之間距離達(dá)到等長，避免最小的時延和距離，所以在工程布程都發(fā)生了改變。數(shù)據(jù)中心也發(fā)生了變化，Copper最大的特點是成本低，在傳統(tǒng)數(shù)據(jù)中心TOR-Server通常采用Copper的比例很高，包括10G/ 25G /100G/ 200G性能都不錯。但在AI數(shù)據(jù)中心，電力不夠，服務(wù)器、網(wǎng)絡(luò)設(shè)備要做一定的拉遠(yuǎn)，銅線的性能不夠，光互聯(lián)會更多，但仍然在努力在穩(wěn)定性和距離上進(jìn)行優(yōu)化。但在面向未來高密度的需求，柜內(nèi)的芯片互聯(lián)，也將會考慮采用Copper進(jìn)入互聯(lián)。

對于硅光技術(shù)的引入，萬昳認(rèn)為：全球范圍內(nèi)AI建設(shè)，光模塊的海量需求，而當(dāng)下多模方案面臨光芯片供應(yīng)問題，給硅光技術(shù)帶來機會；面向長距離EML方案的供應(yīng)、功耗、成本也均面臨著挑戰(zhàn)，硅光技術(shù)依然具備一定的機會；而在面向各種光模塊的技術(shù)平臺持續(xù)發(fā)展的方案中，硅光技術(shù)也可支持DSP、LPO，TRO，CPO等，以及走向Optical IO芯片互聯(lián)。具體的節(jié)點上，用于400G及800G應(yīng)用的 112G Serdes 硅光技術(shù)將會成為重點方案。

針對LRO/TRO的方案，可能為HPN的重要方案，具體的技術(shù)引入，業(yè)界正基于400G 開始進(jìn)行LPO/TRO光模塊技術(shù)評估，根據(jù)評估數(shù)據(jù)及性能表現(xiàn)預(yù)計將在800G/1.6T時代展開更多的應(yīng)用�？傮w來看，無論哪種方案，隨著Serdes速率提升，高速信號完整性受到挑戰(zhàn)；系統(tǒng)功耗不斷增加，進(jìn)而面臨散熱的瓶頸。但在長期演進(jìn)路線來看，技術(shù)條件可滿足的情況下，可插拔依然是綜合更優(yōu)選的方案。

關(guān)鍵字：百度 AI 數(shù)據(jù)中心

編輯：Ria