欧美亚洲美日更新在线_国产av无码图_91精品无码中文字幕在线_久久人妻中文字幕乱码_亚洲无码视频一二三区在线

用普通光模塊實現(xiàn)光突發(fā)交換scale-up網絡擴容

光纖在線編輯部  2025-02-10 12:36:17  文章來源:本站消息  版權所有,未經許可嚴禁轉載.

導讀:為了滿足AI集群高帶寬域超節(jié)點的大節(jié)點數(shù)、高帶寬、低延遲、低成本的要求,默升科技的黃水清發(fā)布了《用普通光模塊實現(xiàn)光突發(fā)交換scale-up網絡擴容》的文章,本文提出了利用普通連續(xù)模式光模塊配合光突發(fā)交換構建超大規(guī)模scale-up超節(jié)點網絡,該網絡從GPU角度看來是光/電分組交換(OPS/EPS)網絡,可實現(xiàn)更大的交換容量和較低的延遲及可控的成本。

2/10/2025,光纖在線訊,為了滿足AI集群高帶寬域超節(jié)點的大節(jié)點數(shù)、高帶寬、低延遲、低成本的要求,默升科技的黃水清發(fā)布了《用普通光模塊實現(xiàn)光突發(fā)交換scale-up網絡擴容》的文章,本文提出了利用普通連續(xù)模式光模塊配合光突發(fā)交換構建超大規(guī)模scale-up超節(jié)點網絡,該網絡從GPU角度看來是光/電分組交換(OPS/EPS)網絡,可實現(xiàn)更大的交換容量和較低的延遲及可控的成本。

        近來隨著AI網絡的發(fā)展,越來越大的大模型參數(shù)量要求規(guī)模越來越大的超節(jié)點網絡,即算力芯片之間無收斂全帶寬互聯(lián)的高帶寬域。除了節(jié)點數(shù)量大、節(jié)點帶寬高這兩個挑戰(zhàn)外,還要求低延遲、低成本。傳統(tǒng)多層交換網絡將導致成本和延遲急劇增加,顯然不符合需求,所以單層和兩層交換scale-up網絡成為超節(jié)點考慮的重點。

1、單層交換網絡的容量分析
2、兩層交換網絡的容量分析
3、各種超節(jié)點技術方案的嘗試
4、光突發(fā)交換OBS的嘗試

        光突發(fā)交換OBS技術早在十年前就已經被廣泛研究[5],其特點是控制面和數(shù)據面分離,不需要從數(shù)據包中提取包頭信號解析目標地址,而是另辟控制面網絡,提前控制高速光開關矩陣中相應的路徑完成納秒級的高速切換,與其同步的數(shù)據面信號同時從自發(fā)自收的空閑狀態(tài)完成與目標地址自發(fā)自收的空閑狀態(tài)的光模塊之間的收發(fā)切換,這兩只光模塊完成信號交換之后,控制面再給出恢復信號,使這兩只光模塊都各自恢復到自發(fā)自收的空閑狀態(tài),等待下一次和其他光模塊組成鏈路交換,這樣可以保持所有鏈路(包括有信號的和空閑的)連續(xù)不斷鏈,避免了物理層的突發(fā)模式和高速建鏈的困難。

        OBS避免了OPS對全光存儲和全光邏輯器件的需求,供應鏈相對成熟。但是當年光突發(fā)交換OBS主要是針對長途電信網絡展開了研究,上千公里的傳輸使控制面與數(shù)據面的同步極為困難,各種軟件補償方法嘗試之后并沒有商用普及。近年來AI集群的發(fā)展給這種“失敗的技術”帶來了新生,因為AI集群所有設備都在同一個房間(Warehouse Scale),有報道超過50m的scale-up網絡將必然影響GPU的吞吐效率,無論銅纜還是光纖,無論采用什么網絡技術方案,所以超節(jié)點scale-up網絡為了低延遲的要求,距離一般小于30m范圍,這樣控制面和數(shù)據面信號同步很容易。而且高速硅基MZI光開關矩陣、SOA、高速高鏈路預算ER光模塊、突發(fā)交換ASIC等相關部件的供應鏈也逐漸成熟 。傳統(tǒng)上人們擔心成熟的MZI調制器和光開關體積過大,其實在OBS系統(tǒng)中這個問題根本不存在。因為全光交換網絡沒有光-電-光的轉換過程,不存在高速信號的傳輸距離對損耗的影響,也就是說所有光交換和傳輸器件/設備放在數(shù)米距離范圍內的任何地方,互聯(lián)光纖所產生的損耗、延遲和成本都可以忽略,所以沒有必要如CPO/OIO那樣必須猬集在很小的空間,各種體積較大的優(yōu)秀技術首先被一票否決,甚至盲目追求更高的帶寬密度,連標準光傳輸模塊都被嫌棄體積太大?,F(xiàn)在為了給液冷系統(tǒng)留空間,AI服務器機柜高度從原來不足7英尺增加到17英尺,根本不用擔心沒有足夠的物理空間部署各種大體積的光交換設備。

用光交換矩陣替代Spine電交換機理論上的好處是極為明顯的:

1)光交換本身沒有數(shù)據面拆包封包的過程,所以理論上延遲為零;
2)利用成熟的硅光MZI工藝生產的高速光開關芯片成本較低,最多可以把相比Leaf層的Spine層交換機成本從1/2到數(shù)量級地降低,光模塊數(shù)量也減少一半,如表1,從根本上解決了網絡成本占比高的難題。即使考慮到高速硅光開關波長窗口窄,不用波分復用,全部單一波長,成本也很低。
3)光交換矩陣及其控制面的功耗可以忽略。
4)還可以達到更大的交換網絡規(guī)模(下面將詳細討論)。
5)擁有光交換共同的優(yōu)點,協(xié)議透明,升級友好。可池化算力和存儲資源,可在光域開辟冗余路由提升網絡可生存性和無故障工作時間。


表1、 OBS替代Spine電交換機的成本比較

        但是這樣的方案還存在很多技術難題:首先是高速光開關陣列難以做到很寬的工作波長窗口、偏振不敏感、低插損和低串擾;高鏈路預算的800G ER8光模塊可能存在復雜的四波混頻干擾現(xiàn)象難以消除。所以采用單一波長的光模塊如800G OSFP 8ER可以大幅度降低包括光開關矩陣芯片在內的光器件的實現(xiàn)難度。至于高速光開關的偏振敏感問題,可以將全部光纖換成保偏PMF解決(除了光模塊接收的一段可以用SMF),反正scale-up網絡的物理距離只有數(shù)十米,成本增加不明顯,長距離造成的傳輸延遲首先是GPU無法容忍的。

        當然這樣做也是有代價的,光突發(fā)交換顆粒從800G降低到100G,就需要8倍數(shù)量的光開關矩陣!好在硅基高速光開關芯片的成本已經足夠低,這樣的變化對系統(tǒng)總成本影響甚微。所以如表1所示,相比傳統(tǒng)兩層電交換網絡減少1/3的交換機和一半的光模塊,增加了Spine層光交換矩陣,這部分的成本與Leaf層(電)交換機的成本之比最終約為1/7,未來隨著硅光開關批量的增大,半導體工藝的特點也保證其成本還會繼續(xù)降低。

        與純電交換網絡引入MPS技術的目的類似,為了進一步擴大兩層交換網絡的規(guī)模,降低光交換矩陣的技術難度,我們在引入OBS的基礎上進一步引入MPS技術構建8192以太網超節(jié)點,如圖5,將原來800G的交換顆粒分散到多條單波長100G路徑,不需要波分復用,不需要波長交換,這更符合硅光技術的特點。多路徑網絡必須解決的問題是:每一個數(shù)據包無誤碼地按照理想的順序傳輸是很困難的,經過不同的實時光/電交換多路徑,最后到達同一個目標地址,封裝成一個大數(shù)據包,還要有足夠低的丟包率。

        每個GPU的I/O總帶寬是400GB,其中100GB=800Gbpcs通過NIC連接scale-out網絡,用于scale-up網絡互聯(lián)的帶寬是300GB=2400Gbps,分別包噴灑到24個彼此獨立的數(shù)據平面(Plane),每一個數(shù)據包都是100G的交換顆粒。假設GPU(1,4)和GPU(32,256)需要建立一個100G的鏈路,通過AEC分別傳輸?shù)浇粨Q機(1,24)和(32,24),這兩個交換機之間通過256張(Page)彼此獨立的光交換矩陣互聯(lián)。因為這兩個交換機都只有32個上行端口,8*32=256個獨立鏈路;每個節(jié)點只有256個GPU,每個GPU只有一個100G鏈路通過該數(shù)據平面,所以至少存在一張(Page)空閑鏈路,假如交換機(1,24)光纖(1,24,256)光交換芯片(256,24)光纖(32,24,256)交換機(32,24)是空閑鏈路(如圖中紅色所示),所謂空閑鏈路就是說光模塊自己的發(fā)端最后輸入到自己的收端。所謂光突發(fā)交換就是這兩對收發(fā)光信號在光交換矩陣的納秒級切換時間內完成路由互換,因為兩個光模塊的這兩條通道速率嚴格一致;光發(fā)射功率和接收靈敏度也都差不多,現(xiàn)在光交換矩陣都是路徑無關的,理論上光路切換時插損不變,所以輸入到光模塊的光信號在切換前后的幅度也基本一致,僅僅納秒級的切換時間并不會造成Serdes的斷鏈和重新建鏈,及其導致的一系列問題。當這包信號完成傳輸之后,控制面再送出控制信號將這兩對光模塊的光路切換回來,各自恢復到自發(fā)自收的空閑狀態(tài),等待下一次和另外光模塊之間的突發(fā)交換。所以光模塊可以用普通的連續(xù)模式高鏈路預算800G OSFP 8ER光模塊。

        另外一點值得注意的是:從光和光器件的傳輸側角度來看,Spine層交換沒有光-電-光的轉換過程、控制面和數(shù)據面分離、沒有引入不成熟的純光SRAM和純光邏輯器件在光域解析包地址,系典型的光突發(fā)交換OBS;但是從電和GPU的應用側角度來看,圖5和圖3沒有本質的區(qū)別,電的包交換和光的包交換都是逐包的分組交換(OPS/EPS),該做的兩層胖樹網絡的交換工作一樣不少,差別是原本由Spine層電交換機做的phy以上層工作因為光交換矩陣做不了,只好逐包分散到相關的Leaf層交換機,讓Leaf層交換機工作量翻倍,僅此而已。這有效避免了光線路交換OCS做GPU互聯(lián)時難以克服的多播、突發(fā)延遲大,軟件通用性受限等一系列問題。


圖5、 引入32x32 OBS的8192超節(jié)點scale-up網絡

        對每一個32x32光交換矩陣來說,每一個包信號送達的目的地地址(也就是包地址)是5位二進制,25=32,24個獨立數(shù)據平面(Plane),32*8=256張(Page)光交換矩陣,總共需要24*32*8*32*5路互相獨立的控制面信號,由24*32片帶OBS控制輸出的電交換ASIC芯片提供,所以每片ASIC輸出256*5=1280路彼此獨立的包地址,系統(tǒng)側的FPGA將這些包地址傳給每一片相關的32*32光交換矩陣,共24*8*32=6144片;光交換矩陣里面器件側的FPGA又將給它的32*5路互相獨立的包地址譯碼成光交換矩陣基本單元的路地址,去控制每一個2x2光開關(或1x2、2x1)基本單元,切換其Cross/Bar的狀態(tài)。


表2、 光開關矩陣的成本和光插損比較

        其實N*N大規(guī)模光開關矩陣的插損直接與其串聯(lián)的單元級數(shù),也就是N的對數(shù)呈線性關系(2log2N-1),而其基本單元數(shù)量與N呈平方關系(5/4N2-2N)[10],所以從理論上看光插損就不是限制光突發(fā)交換規(guī)模擴大的最大瓶頸,成本才是。而且我們可以將64x64光交換矩陣的最后三級2x1 MZI光開關換成InP 三級Y形耦合器(實際上是81光合波器)加SOA,增益15dB的有源光芯片(不含片內和端面的損耗),成本180$/pcs(綠色部分的光芯片成本可能略有低估)。如表2,至少中等規(guī)模的64x64矩陣成本增加可控,對光模塊的鏈路預算要求大幅度降低甚至到0dB左右。因為最后三級相關的八個輸入端口總共只有一個輸出,有且只有一個輸入是有光的,其他都是無光的,SOA難以克服的串擾問題將不存在;它也肯定是連續(xù)模式的;所有狀態(tài)的插損都是路徑無關的,也就沒有輸入光功率大幅度的變化對SOA工作狀態(tài)的影響。這樣甚至可以用供應鏈最成熟的800G DR8模塊替代目前相對少見的800G 8ER模塊。

5、同為以太phy的scale-up和scale-out可以兩網合一

        隨著大模型的進一步發(fā)展,加上各種技術和非技術因素的影響,對網絡硬件的要求也不僅限于scaling law的暴力美學,例如DeepSeek在高帶寬域的scale-up網絡規(guī)模和帶寬受限的現(xiàn)實條件下,通過更大的AI集群也就是更多的GPU或存儲節(jié)點組成scale-out網絡,節(jié)點之間通過胖樹網絡任意互聯(lián),以實現(xiàn)更高的性價比、可靠性、通用性和兼容性。當前各種超節(jié)點技術如NVLink、UALink、和各種以太超節(jié)點大多采用以太phy,因為scale-out網絡采用以太網協(xié)議已是首選,所以采用以太phy超節(jié)點技術除了前面提到的優(yōu)勢外,還有一大優(yōu)勢是更容易將同為以太phy的scale-up和scale-out兩網合一,更靈活地共享GPU的全部I/O帶寬資源,可以動態(tài)實時大幅度地調節(jié)超節(jié)點內每一個GPU的scale-out/scale-up收斂比。特別是scale-up網絡引入OBS之后,高帶寬域的交換網絡能夠全帶寬覆蓋的節(jié)點數(shù)大幅度增加,延遲和成本可控,很大程度上滿足了原本必須采用高收斂比的scale-out網絡才能達成的東西向網絡規(guī)模擴張的目的。超節(jié)點的規(guī)模變得越來越大,在GPU總數(shù)一定的前提下,較大的超節(jié)點其數(shù)量就會比較少,原本scale-out網絡需要的大規(guī)模OCS也就會變成中小規(guī)模,更加容易實現(xiàn)。


圖6、 scale-up/scale-out兩網合一超大GPU集群

        如圖6,這個26萬卡GPU集群可以統(tǒng)一采用51.2T電交換機和800G光模塊,就是說除了帶OBS控制輸出的交換ASIC(scale-out部分可以關閉Spine層OBS控制輸出等功能,僅保留Leaf層電交換的基本功能,由軟件和OCS 控制器直接控制所有光開關基本單元完成scale-out網絡的光調度),其他部件全部是成熟的供應鏈。即使這個特殊的交換ASIC也僅僅是把芯片內部控制電CrossBar的控制面信號引出到芯片外部,同時控制光CrossBar;同時還協(xié)助Spine層光交換部分工作而已,并沒有什么高艱深工藝技術的挑戰(zhàn)。32個8192以太phy超節(jié)點組成的兩網合一26萬卡GPU集群,每個超節(jié)點內部的8192卡GPU(M*P/2=32*512/2=8192)之間全帶寬400GB互聯(lián)(圖3和圖5只有300GB),更充分地利用了GPU的I/O帶寬資源做超節(jié)點內的全帶寬任意節(jié)點互聯(lián),任意GPU到超節(jié)點內的其他GPU都只有兩跳,scale-out部分平均按照1:8帶寬收斂(這個收斂比還可以實時動態(tài)大幅度地調節(jié))。雖然從網絡角度看這個scale-out網絡是三層網絡,但是中間層(不是scale-up的Spine層)是OCS光交換(32*32)矩陣,光交換的天然優(yōu)勢使整個網絡的成本、延遲和功耗都接近兩層電交換網絡,而且電協(xié)議透明,升級友好;自帶故障躲避路徑倒換能力,提升網絡可靠性;全可插拔光器件降低工藝和使用維護的難度和成本等一系列好處。

        值得注意的是,貼近GPU的全帶寬互聯(lián)scale-up網絡無帶寬收斂,要求適應突發(fā)流量,大帶寬,低延遲,必須采用納秒級開關速度的電調OBS光開關,而且$/G成本敏感,可靠性要求高,應對高速光開關光插損大的問題最優(yōu)解應該是采用高鏈路預算的800G 8ER光模塊。有帶寬收斂的scale-out網絡部分則不同,對延遲和成本沒有scale-up網絡那么敏感,各種低插損的微秒甚至毫秒級較慢開關速度的中小規(guī)模OCS光開關都可以引入,為了使用方便,最普通的800G DR8光模塊可能是首選,這樣就要求光開關矩陣總的光插損足夠小,甚至引入成本較高的SOA徹底抵消前面各級光開關的總插損。

        隨著更大通道數(shù)的光交換矩陣和電交換芯片的采用,還可能進一步實現(xiàn)更大的超節(jié)點和集群規(guī)模,并不會造成延遲和成本的飆升。換句話說,目前大模型迫切需求的千卡萬卡超節(jié)點網絡并不需要太大的光交換矩陣,中小規(guī)模(32x32左右)即可。這為大規(guī)模AI集群網絡的實現(xiàn)引入了新的維度,顯示出了很好的技術可行性、經濟性和最佳切入點,同時供應鏈生態(tài)和未來升級友好,上限很高,甚至可能通過兩層光電交換網絡高達512x512的光交換矩陣和電交換芯片實現(xiàn)512*512/2=131072,超十萬卡的GPU超節(jié)點,全帶寬互聯(lián),延遲和成本可控。這種小芯片大網絡方案可能避免目前在單柜內聚集更多更大的GPU/交換芯片的單一技術路徑,避免挑戰(zhàn)CMOS制程、供電、散熱等工業(yè)極限,各種低pJ/bit(或$/G)的成熟技術也不會僅僅因為體積大而被一票否決。

光纖在線

光纖在線公眾號

更多猛料!歡迎掃描左方二維碼關注光纖在線官方微信

相關產品

微信掃描二維碼
使用“掃一掃”即可將網頁分享至朋友圈。