用普通光模塊實現(xiàn)光突發(fā)交換scale-up網絡擴容

瀏覽量：

導讀：為了滿足AI集群高帶寬域超節(jié)點的大節(jié)點數(shù)、高帶寬、低延遲、低成本的要求，默升科技的黃水清發(fā)布了《用普通光模塊實現(xiàn)光突發(fā)交換scale-up網絡擴容》的文章，本文提出了利用普通連續(xù)模式光模塊配合光突發(fā)交換構建超大規(guī)模scale-up超節(jié)點網絡，該網絡從GPU角度看來是光/電分組交換(OPS/EPS)網絡，可實現(xiàn)更大的交換容量和較低的延遲及可控的成本。

2/10/2025，光纖在線訊，為了滿足AI集群高帶寬域超節(jié)點的大節(jié)點數(shù)、高帶寬、低延遲、低成本的要求，默升科技的黃水清發(fā)布了《用普通光模塊實現(xiàn)光突發(fā)交換scale-up網絡擴容》的文章，本文提出了利用普通連續(xù)模式光模塊配合光突發(fā)交換構建超大規(guī)模scale-up超節(jié)點網絡，該網絡從GPU角度看來是光/電分組交換(OPS/EPS)網絡，可實現(xiàn)更大的交換容量和較低的延遲及可控的成本。

        近來隨著AI網絡的發(fā)展，越來越大的大模型參數(shù)量要求規(guī)模越來越大的超節(jié)點網絡，即算力芯片之間無收斂全帶寬互聯(lián)的高帶寬域。除了節(jié)點數(shù)量大、節(jié)點帶寬高這兩個挑戰(zhàn)外，還要求低延遲、低成本。傳統(tǒng)多層交換網絡將導致成本和延遲急劇增加，顯然不符合需求，所以單層和兩層交換scale-up網絡成為超節(jié)點考慮的重點。

1、單層交換網絡的容量分析
2、兩層交換網絡的容量分析
3、各種超節(jié)點技術方案的嘗試
4、光突發(fā)交換OBS的嘗試

        光突發(fā)交換OBS技術早在十年前就已經被廣泛研究[5]，其特點是控制面和數(shù)據面分離，不需要從數(shù)據包中提取包頭信號解析目標地址，而是另辟控制面網絡，提前控制高速光開關矩陣中相應的路徑完成納秒級的高速切換，與其同步的數(shù)據面信號同時從自發(fā)自收的空閑狀態(tài)完成與目標地址自發(fā)自收的空閑狀態(tài)的光模塊之間的收發(fā)切換，這兩只光模塊完成信號交換之后，控制面再給出恢復信號，使這兩只光模塊都各自恢復到自發(fā)自收的空閑狀態(tài)，等待下一次和其他光模塊組成鏈路交換，這樣可以保持所有鏈路（包括有信號的和空閑的）連續(xù)不斷鏈，避免了物理層的突發(fā)模式和高速建鏈的困難。

        OBS避免了OPS對全光存儲和全光邏輯器件的需求，供應鏈相對成熟。但是當年光突發(fā)交換OBS主要是針對長途電信網絡展開了研究，上千公里的傳輸使控制面與數(shù)據面的同步極為困難，各種軟件補償方法嘗試之后并沒有商用普及。近年來AI集群的發(fā)展給這種“失敗的技術”帶來了新生，因為AI集群所有設備都在同一個房間（Warehouse Scale），有報道超過50m的scale-up網絡將必然影響GPU的吞吐效率，無論銅纜還是光纖，無論采用什么網絡技術方案，所以超節(jié)點scale-up網絡為了低延遲的要求，距離一般小于30m范圍，這樣控制面和數(shù)據面信號同步很容易。而且高速硅基MZI光開關矩陣、SOA、高速高鏈路預算ER光模塊、突發(fā)交換ASIC等相關部件的供應鏈也逐漸成熟。傳統(tǒng)上人們擔心成熟的MZI調制器和光開關體積過大，其實在OBS系統(tǒng)中這個問題根本不存在。因為全光交換網絡沒有光-電-光的轉換過程，不存在高速信號的傳輸距離對損耗的影響，也就是說所有光交換和傳輸器件/設備放在數(shù)米距離范圍內的任何地方，互聯(lián)光纖所產生的損耗、延遲和成本都可以忽略，所以沒有必要如CPO/OIO那樣必須猬集在很小的空間，各種體積較大的優(yōu)秀技術首先被一票否決，甚至盲目追求更高的帶寬密度，連標準光傳輸模塊都被嫌棄體積太大?，F(xiàn)在為了給液冷系統(tǒng)留空間，AI服務器機柜高度從原來不足7英尺增加到17英尺，根本不用擔心沒有足夠的物理空間部署各種大體積的光交換設備。

用光交換矩陣替代Spine電交換機理論上的好處是極為明顯的：

1）光交換本身沒有數(shù)據面拆包封包的過程，所以理論上延遲為零；
2）利用成熟的硅光MZI工藝生產的高速光開關芯片成本較低，最多可以把相比Leaf層的Spine層交換機成本從1/2到數(shù)量級地降低，光模塊數(shù)量也減少一半，如表1，從根本上解決了網絡成本占比高的難題。即使考慮到高速硅光開關波長窗口窄，不用波分復用，全部單一波長，成本也很低。
3）光交換矩陣及其控制面的功耗可以忽略。
4）還可以達到更大的交換網絡規(guī)模（下面將詳細討論）。
5）擁有光交換共同的優(yōu)點，協(xié)議透明，升級友好。可池化算力和存儲資源，可在光域開辟冗余路由提升網絡可生存性和無故障工作時間。

表1、 OBS替代Spine電交換機的成本比較

        但是這樣的方案還存在很多技術難題：首先是高速光開關陣列難以做到很寬的工作波長窗口、偏振不敏感、低插損和低串擾；高鏈路預算的800G ER8光模塊可能存在復雜的四波混頻干擾現(xiàn)象難以消除。所以采用單一波長的光模塊如800G OSFP 8ER可以大幅度降低包括光開關矩陣芯片在內的光器件的實現(xiàn)難度。至于高速光開關的偏振敏感問題，可以將全部光纖換成保偏PMF解決（除了光模塊接收的一段可以用SMF），反正scale-up網絡的物理距離只有數(shù)十米，成本增加不明顯，長距離造成的傳輸延遲首先是GPU無法容忍的。

        當然這樣做也是有代價的，光突發(fā)交換顆粒從800G降低到100G，就需要8倍數(shù)量的光開關矩陣！好在硅基高速光開關芯片的成本已經足夠低，這樣的變化對系統(tǒng)總成本影響甚微。所以如表1所示，相比傳統(tǒng)兩層電交換網絡減少1/3的交換機和一半的光模塊，增加了Spine層光交換矩陣，這部分的成本與Leaf層（電）交換機的成本之比最終約為1/7，未來隨著硅光開關批量的增大，半導體工藝的特點也保證其成本還會繼續(xù)降低。

        與純電交換網絡引入MPS技術的目的類似，為了進一步擴大兩層交換網絡的規(guī)模，降低光交換矩陣的技術難度，我們在引入OBS的基礎上進一步引入MPS技術構建8192以太網超節(jié)點，如圖5，將原來800G的交換顆粒分散到多條單波長100G路徑，不需要波分復用，不需要波長交換，這更符合硅光技術的特點。多路徑網絡必須解決的問題是：每一個數(shù)據包無誤碼地按照理想的順序傳輸是很困難的，經過不同的實時光/電交換多路徑，最后到達同一個目標地址，封裝成一個大數(shù)據包，還要有足夠低的丟包率。

        每個GPU的I/O總帶寬是400GB，其中100GB=800Gbpcs通過NIC連接scale-out網絡，用于scale-up網絡互聯(lián)的帶寬是300GB=2400Gbps，分別包噴灑到24個彼此獨立的數(shù)據平面（Plane），每一個數(shù)據包都是100G的交換顆粒。假設GPU（1,4）和GPU（32,256）需要建立一個100G的鏈路，通過AEC分別傳輸?shù)浇粨Q機（1,24）和（32,24），這兩個交換機之間通過256張（Page）彼此獨立的光交換矩陣互聯(lián)。因為這兩個交換機都只有32個上行端口，8*32=256個獨立鏈路；每個節(jié)點只有256個GPU，每個GPU只有一個100G鏈路通過該數(shù)據平面，所以至少存在一張（Page）空閑鏈路，假如交換機（1,24）光纖（1,24,256）光交換芯片（256,24）光纖（32,24,256）交換機（32,24）是空閑鏈路（如圖中紅色所示），所謂空閑鏈路就是說光模塊自己的發(fā)端最后輸入到自己的收端。所謂光突發(fā)交換就是這兩對收發(fā)光信號在光交換矩陣的納秒級切換時間內完成路由互換，因為兩個光模塊的這兩條通道速率嚴格一致；光發(fā)射功率和接收靈敏度也都差不多，現(xiàn)在光交換矩陣都是路徑無關的，理論上光路切換時插損不變，所以輸入到光模塊的光信號在切換前后的幅度也基本一致，僅僅納秒級的切換時間并不會造成Serdes的斷鏈和重新建鏈，及其導致的一系列問題。當這包信號完成傳輸之后，控制面再送出控制信號將這兩對光模塊的光路切換回來，各自恢復到自發(fā)自收的空閑狀態(tài)，等待下一次和另外光模塊之間的突發(fā)交換。所以光模塊可以用普通的連續(xù)模式高鏈路預算800G OSFP 8ER光模塊。

        另外一點值得注意的是：從光和光器件的傳輸側角度來看，Spine層交換沒有光-電-光的轉換過程、控制面和數(shù)據面分離、沒有引入不成熟的純光SRAM和純光邏輯器件在光域解析包地址，系典型的光突發(fā)交換OBS；但是從電和GPU的應用側角度來看，圖5和圖3沒有本質的區(qū)別，電的包交換和光的包交換都是逐包的分組交換（OPS/EPS），該做的兩層胖樹網絡的交換工作一樣不少，差別是原本由Spine層電交換機做的phy以上層工作因為光交換矩陣做不了，只好逐包分散到相關的Leaf層交換機，讓Leaf層交換機工作量翻倍，僅此而已。這有效避免了光線路交換OCS做GPU互聯(lián)時難以克服的多播、突發(fā)延遲大，軟件通用性受限等一系列問題。

圖5、引入32x32 OBS的8192超節(jié)點scale-up網絡

對每一個32x32光交換矩陣來說，每一個包信號送達的目的地地址（也就是包地址）是5位二進制，25=32，24個獨立數(shù)據平面（Plane），32*8=256張（Page）光交換矩陣，總共需要24*32*8*32*5路互相獨立的控制面信號，由24*32片帶OBS控制輸出的電交換ASIC芯片提供，所以每片ASIC輸出256*5=1280路彼此獨立的包地址，系統(tǒng)側的FPGA將這些包地址傳給每一片相關的32*32光交換矩陣，共24*8*32=6144片；光交換矩陣里面器件側的FPGA又將給它的32*5路互相獨立的包地址譯碼成光交換矩陣基本單元的路地址，去控制每一個2x2光開關（或1x2、2x1）基本單元，切換其Cross/Bar的狀態(tài)。

表2、光開關矩陣的成本和光插損比較

其實N*N大規(guī)模光開關矩陣的插損直接與其串聯(lián)的單元級數(shù)，也就是N的對數(shù)呈線性關系（2log2N-1），而其基本單元數(shù)量與N呈平方關系（5/4N2-2N）[10]，所以從理論上看光插損就不是限制光突發(fā)交換規(guī)模擴大的最大瓶頸，成本才是。而且我們可以將64x64光交換矩陣的最后三級2x1 MZI光開關換成InP 三級Y形耦合器（實際上是81光合波器）加SOA，增益15dB的有源光芯片（不含片內和端面的損耗），成本180$/pcs（綠色部分的光芯片成本可能略有低估）。如表2，至少中等規(guī)模的64x64矩陣成本增加可控，對光模塊的鏈路預算要求大幅度降低甚至到0dB左右。因為最后三級相關的八個輸入端口總共只有一個輸出，有且只有一個輸入是有光的，其他都是無光的，SOA難以克服的串擾問題將不存在；它也肯定是連續(xù)模式的；所有狀態(tài)的插損都是路徑無關的，也就沒有輸入光功率大幅度的變化對SOA工作狀態(tài)的影響。這樣甚至可以用供應鏈最成熟的800G DR8模塊替代目前相對少見的800G 8ER模塊。

5、同為以太phy的scale-up和scale-out可以兩網合一

隨著大模型的進一步發(fā)展，加上各種技術和非技術因素的影響，對網絡硬件的要求也不僅限于scaling law的暴力美學，例如DeepSeek在高帶寬域的scale-up網絡規(guī)模和帶寬受限的現(xiàn)實條件下，通過更大的AI集群也就是更多的GPU或存儲節(jié)點組成scale-out網絡，節(jié)點之間通過胖樹網絡任意互聯(lián)，以實現(xiàn)更高的性價比、可靠性、通用性和兼容性。當前各種超節(jié)點技術如NVLink、UALink、和各種以太超節(jié)點大多采用以太phy，因為scale-out網絡采用以太網協(xié)議已是首選，所以采用以太phy超節(jié)點技術除了前面提到的優(yōu)勢外，還有一大優(yōu)勢是更容易將同為以太phy的scale-up和scale-out兩網合一，更靈活地共享GPU的全部I/O帶寬資源，可以動態(tài)實時大幅度地調節(jié)超節(jié)點內每一個GPU的scale-out/scale-up收斂比。特別是scale-up網絡引入OBS之后，高帶寬域的交換網絡能夠全帶寬覆蓋的節(jié)點數(shù)大幅度增加，延遲和成本可控，很大程度上滿足了原本必須采用高收斂比的scale-out網絡才能達成的東西向網絡規(guī)模擴張的目的。超節(jié)點的規(guī)模變得越來越大，在GPU總數(shù)一定的前提下，較大的超節(jié)點其數(shù)量就會比較少，原本scale-out網絡需要的大規(guī)模OCS也就會變成中小規(guī)模，更加容易實現(xiàn)。

圖6、 scale-up/scale-out兩網合一超大GPU集群

        如圖6，這個26萬卡GPU集群可以統(tǒng)一采用51.2T電交換機和800G光模塊，就是說除了帶OBS控制輸出的交換ASIC(scale-out部分可以關閉Spine層OBS控制輸出等功能，僅保留Leaf層電交換的基本功能，由軟件和OCS 控制器直接控制所有光開關基本單元完成scale-out網絡的光調度)，其他部件全部是成熟的供應鏈。即使這個特殊的交換ASIC也僅僅是把芯片內部控制電CrossBar的控制面信號引出到芯片外部，同時控制光CrossBar；同時還協(xié)助Spine層光交換部分工作而已，并沒有什么高艱深工藝技術的挑戰(zhàn)。32個8192以太phy超節(jié)點組成的兩網合一26萬卡GPU集群，每個超節(jié)點內部的8192卡GPU（M*P/2=32*512/2=8192）之間全帶寬400GB互聯(lián)（圖3和圖5只有300GB），更充分地利用了GPU的I/O帶寬資源做超節(jié)點內的全帶寬任意節(jié)點互聯(lián)，任意GPU到超節(jié)點內的其他GPU都只有兩跳，scale-out部分平均按照1:8帶寬收斂（這個收斂比還可以實時動態(tài)大幅度地調節(jié)）。雖然從網絡角度看這個scale-out網絡是三層網絡，但是中間層（不是scale-up的Spine層）是OCS光交換（32*32）矩陣，光交換的天然優(yōu)勢使整個網絡的成本、延遲和功耗都接近兩層電交換網絡，而且電協(xié)議透明，升級友好；自帶故障躲避路徑倒換能力，提升網絡可靠性；全可插拔光器件降低工藝和使用維護的難度和成本等一系列好處。

        值得注意的是，貼近GPU的全帶寬互聯(lián)scale-up網絡無帶寬收斂，要求適應突發(fā)流量，大帶寬，低延遲，必須采用納秒級開關速度的電調OBS光開關，而且$/G成本敏感，可靠性要求高，應對高速光開關光插損大的問題最優(yōu)解應該是采用高鏈路預算的800G 8ER光模塊。有帶寬收斂的scale-out網絡部分則不同，對延遲和成本沒有scale-up網絡那么敏感，各種低插損的微秒甚至毫秒級較慢開關速度的中小規(guī)模OCS光開關都可以引入，為了使用方便，最普通的800G DR8光模塊可能是首選，這樣就要求光開關矩陣總的光插損足夠小，甚至引入成本較高的SOA徹底抵消前面各級光開關的總插損。

        隨著更大通道數(shù)的光交換矩陣和電交換芯片的采用，還可能進一步實現(xiàn)更大的超節(jié)點和集群規(guī)模，并不會造成延遲和成本的飆升。換句話說，目前大模型迫切需求的千卡萬卡超節(jié)點網絡并不需要太大的光交換矩陣，中小規(guī)模（32x32左右）即可。這為大規(guī)模AI集群網絡的實現(xiàn)引入了新的維度，顯示出了很好的技術可行性、經濟性和最佳切入點，同時供應鏈生態(tài)和未來升級友好，上限很高，甚至可能通過兩層光電交換網絡高達512x512的光交換矩陣和電交換芯片實現(xiàn)512*512/2=131072，超十萬卡的GPU超節(jié)點，全帶寬互聯(lián)，延遲和成本可控。這種小芯片大網絡方案可能避免目前在單柜內聚集更多更大的GPU/交換芯片的單一技術路徑，避免挑戰(zhàn)CMOS制程、供電、散熱等工業(yè)極限，各種低pJ/bit（或$/G）的成熟技術也不會僅僅因為體積大而被一票否決。

關鍵字： AI網絡大模型默升科技

編輯：Smile