7/09/2021,光纖在線訊,6月23~25日,在CFCF2021光連接大會上,京東云高級架構師陳琤發(fā)表《數據通信光互聯(lián)運維實踐與展望》的主題報告,分享了數據中心光互聯(lián)光模塊使用過程中的問題以及解決方案,以及京東云如何看待未來光互聯(lián)的發(fā)展。
陳琤表示:數據中心光互聯(lián)在25G/100G大規(guī)模部署中遇到的問題,為下一代數據中心光互聯(lián)的規(guī)劃部署提供了豐富的經驗。同時表示數據中心發(fā)展的方向一在于高吞吐量,二要求架構靈活,易擴展;三則是整個網絡設備、系統(tǒng)開放化,即:硬件解耦,并進一步開放控制軟件與硬件的解耦。這就要求光模塊面向高速率、低功耗、高密度、低成本以及標準化。
現網環(huán)境中的光互聯(lián)故障與運維
從數據中心現網光鏈路的故障及運維經驗來看,部署數據中心光互聯(lián)的主要問題歸結為四類:
1、兼容適配。
主要是分為兩類,一類是光模塊與設備兼容性的問題,另外是光模塊之間的互聯(lián)互通問題。由于網絡協(xié)議過于寬泛,不同廠家角色不同,模塊廠家跟設備廠家對同樣協(xié)議的理解也會產生一些偏差,而這些偏差到互聯(lián)網手里組合到一塊用之后就會出現一些兼容性的問題。
2、 FEC信號糾錯
從25G、100G的網絡架構里面引入了25G NRZ的調制,在短波包括兩公里以內的CWDM的模塊上面都需要在電學上面用FEC補償光學上面造成信號的惡化。利用誤碼儀將信號提前FEC糾錯。 首先就是我們提高對模塊pre-FEC的要求,更重點的一點需要光器件與光模塊供應商共同探討解決。
3、硬件失效
在部署初期,通常會遇到較多的MA失效情況,特別是400G和200G模塊,由于PAM4調制對端面的污損或者是反射更敏感,會導致MPI急劇的惡化,這個對真正的部署中造成的影響比較多。另一個是光模塊中的激光器引起的失效,第三是環(huán)境氣體的腐蝕引起的失效。
4.IIC總線故障/數值診斷故障
比較典型的案例就是IIC訪問集中出現在初始化階段,模塊有初始化時間,如果對IIC做一些非常規(guī)的操作,有可能會導致模塊訪問的問題,處理不好會對模塊造成錯誤的觸發(fā)。隨著400G模塊進入大量部署的階段,要求光模塊廠商做到固件在線升級。
京東云認為未來的400G部署過程中的成本、運維風險值得探索
2015年,京東云主要采用10G 服務器,Server-TOR更多使用10G AOC,2017年轉為25G AOC,并在2021年引入25G DAC與AOC并存。而在當前京東云依然以25G服務器存續(xù)量較大的情況下。首先將考慮Fabric層和spine層采用PAM4技術的400G光互聯(lián),然后在接入層會保持之前的NRZ的使用。到了下一步服務器帶寬進一步提升的時候,會考慮400G在上面匯聚層我們會用100G的點對點的互聯(lián)。
然而,新的光互聯(lián)技術帶來新的挑戰(zhàn),京東云認為400G 光互聯(lián)部署尤其是PAM4技術面臨著三大問題:第一,DSP作為信號處理將帶來功耗及成本的挑戰(zhàn),采用PAM4信號處理,DSP還是CDR的解決方案?二是,Fan-out方案下的部署和運維風險;三是監(jiān)控及運維下沉到光鏈路。
總結來說,光互連帶寬的主要驅動力是服務器接入帶寬以及數據中心網絡規(guī)模的發(fā)展。200G/400G的大規(guī)模部署取決于網絡規(guī)模以及綜合成本,新的網絡架構的落地還需要更多探索。