光纖在線特邀編輯:肖明
1/21/2019,最近和幾個業(yè)內朋友聊天時,發(fā)現(xiàn)很多人對于數(shù)據中心使用什么底層網絡架構,如何演進,會需要什么類型的光電接口,什么數(shù)量級,怎么計算需求等等問題存在很多疑惑。心血來潮想結合過往的經驗,寫點東西,權當拋磚引玉,僅供大家參考和討論,個中偏頗之處還請大家指正。
首先要提到的是摩爾定律(Moore’s law),其在數(shù)據中心的演進中表現(xiàn)的非常明顯。幾乎每2年數(shù)據中心的交換帶寬在價格不變的情況下翻倍,從而滿足快速增長的超級應用對于帶寬的需求,尤其是視頻類的應用。比如字節(jié)跳動(今日頭條的母公司)旗下在北美的小視頻App,Tik Tok,流量指數(shù)級暴漲讓其數(shù)據中心服務商阿里云在北美不斷忙于升級,當然也是“痛并快樂著”。
這里以谷歌的數(shù)據中心拓撲架構為例,(以后有機會再一起探討Facebook,Microsoft等的數(shù)據中心架構)。谷歌數(shù)據中心在過去十來年已經演進了好幾代,主要是基于Clos網絡拓撲架構,從一開始的Firehose,逐漸演化到Watchtower,Saturn,到近些年不少場合被提到的Jupiter。交換設備接口速率也從1GbE演進到了40GbE/100GbE,400GbE也正在小量應用中。圖1給出了谷歌數(shù)據中心拓撲架構的演變示意,表1則給出了每個世代的架構參數(shù)。更具體的內容可以參考知乎上的文章【1】。
圖1:谷歌數(shù)據中心拓撲架構的演變示意
表1:谷歌數(shù)據中心每個世代的架構參數(shù)
Clos網絡架構最早是由Charles Clos于1952年設計出的,用多級的小型交換機陣列構建一個“無阻塞”的網絡,有這么幾個特點:
主要為三級交換架構
每一級的每個單元都與下一級的設備互聯(lián)
支持遞歸,帶寬可無限擴展,對任意一臺服務器,能使用網卡的最高帶寬與數(shù)據中心任意一臺服務器通信
向后兼容,兼容現(xiàn)有的以太網及應用
到指定的目的地,路由選擇在第一級是可以有多個路徑,但后續(xù)交換單元之間只存在唯一一條路由
Clos網絡架構比較簡單,不少白盒機廠商用Broadcom的交換芯片就可以生產出性能不錯的高端交換機,F(xiàn)在越來越多的數(shù)據中心在使用Clos網絡拓撲架構。
傳統(tǒng)數(shù)據中心中南北向(關于網絡中南北東西的解釋可以參考【2】)的流量較大,但隨著分布式計算需求的興起,東西向的流量快速加大,一方面分布式計算導致服務器之間的訪問需求大幅增加;另一方面,應用也變得越來越復雜,比如物聯(lián)網中的某個用戶發(fā)起請求,中心服務器可能需要從眾多邊緣數(shù)據中心或者服務器抽取一些數(shù)據,處理后再返回到用戶,如此東西向的流量就變得越來越大,甚至大過南北向流量。這也就是為什么最近幾年數(shù)據中心之間的互聯(lián)需求增長幅度要快于數(shù)據中心內部互聯(lián),見表2,Cisco global cloud index 2016-2021,
表2:Cisco global cloud index 2016-2021
Jupiter是基于一個40Gbps的數(shù)據中心網絡,其架構有這個幾個特點:
1. Centauri TOR(Top of Rack)交換機每一個基礎單元是一個4U的機箱,每一個含有640G(16x40G)的交換芯片,共計4x16x40G的交換容量。如果按3:1南北向分配,則可以配置為48x40G容量南向到服務器,16x40G北向到fabric network,或者以10Gbps為基礎速率,192x10G南向和64x10G北向。當然,也可以做1:1分配,南北向各32x40G,如圖2。
圖2:Centauri TOR(Top of Rack)交換機配置
2. 中間區(qū)塊(Middle Blocks)由4個Centauri交換機組成,其交換容量為4x4x(16x40G),但每個中間區(qū)塊都由2級(two-stage)Clos交換機組成,每一級可以配置為64x40G北向到Spine交換機,64x40G或者256x10G南向連接32個TOR交換機。
3. 每個匯聚區(qū)塊(Aggregation Blocks)由8個中間區(qū)塊構成,其交換容量為8x(64x40G)即512x40G北向到Spine交換機,南向8x(256x10G)即2048x10G到TOR交換機。
4. Spine交換機由2-stage Clos交換機組成,即2x(64x40G)與匯聚區(qū)塊互聯(lián)。
這樣對于一個Jupiter數(shù)據中心,其架構為256個Spine交換機,南向與64個匯聚區(qū)塊互聯(lián),每個匯聚區(qū)塊南向與32個TOR交換機互聯(lián),也就意味著總共需要2048(=64x32)個TOR機柜;每臺機柜可以有最多48臺服務器,滿配也就是說98304臺服務器;每臺服務器可配置2個高速網卡,即一個Jupiter數(shù)據中心會需要196,608個10G高速網卡。
圖3 Jupiter數(shù)據中心架構
從以上的架構來看,想必大家已經可以自己算出來光電接口的數(shù)量了。這是以最大基礎速率40Gbps的Google Jupiter數(shù)據中心舉的例子,當然如果最大基礎速率是100Gbps或者400Gbps,同時服務器網卡最小速率為25Gbps或者50Gbps,大家可以依此方式做相應的推演。
當然,數(shù)據中心未來的演進還是有不少挑戰(zhàn)的。比如電交換的速率逐漸會遇到瓶頸,以Broadcom的Switching ASIC為例,從早先2011年發(fā)布的640G交換容量的Trident,到2014年發(fā)布的1.2T Trident 2,2015年發(fā)布的3.2T Tomahawk,到2017年末發(fā)布2018年3季度量產的基于16nm CMOS工藝的12.8T Tomahawk 3,技術路線圖發(fā)展還是很快的,但后面的25.6T及以上交換芯片的推出時間存在很多不確定性,主要是因為芯片的BGA封裝PIN腳密度,IO數(shù)量快速提升難度很大。
圖4:引入硅光技術的刀片服務器
如上圖4,因為硅光技術的引入,一臺刀片服務器的尺寸可以大幅削減60%以上,同時,速率大幅提升以及功耗的大幅下降是顯然易見的好處。這也就直接驅動主流的芯片公司甚至具體設備商們,最近幾年大量投入在硅光技術(Silicon Photonics,SiP),以及2.5D/3D的芯片封裝技術等。關于硅光技術,以后再找機會做專題討論。
圖5:硅光內部
另外,也有幾個問題會限制數(shù)據中心的發(fā)展速度,比如IEEE在PCIe總線接口標準的演進太慢,目前主流仍然是PCIe 3.0,每個lane的速率僅為8Gbps,不少業(yè)內專家也在呼吁直接跳過PCIe 4.0去發(fā)布PICe 5.0,每個Lane的速率達到32Gbps,這樣光電速率可以匹配。其它問題,比如SERDES演進(25G-50G),數(shù)據中心制冷(傳統(tǒng)風冷到液冷),Serverless等等,也都是不小的話題。
總的來說,未來的數(shù)據中心架構是朝著“模塊化、扁平化、易擴展”這幾個方向在發(fā)展,超大型云服務商們也越來越重視數(shù)據中心網絡架構的演進和優(yōu)化,物聯(lián)網,5G一定會催生出超級應用,從而推進數(shù)據中心的快速發(fā)展。希望有機會與業(yè)內人士多多探討這方面的話題。下篇將更多探討光電互聯(lián)接口在數(shù)據中心的應用。
參考文章:
1 Google過去十年發(fā)展數(shù)據中心網絡的經驗 陳宇飛 https://zhuanlan.zhihu.com/p/29945202
2 網絡的東西南北:拋棄SDN,迎接網絡虛擬化? https://www.csdn.net/article/2014-01-23/2818233-SDN-Network-Virtualization
3 “Jupiter Raising: A Decade of Clos Topologies and Centralized Control in Google’s Datacenter Network”
4 “Cisco global cloud index 2016-2021 white paper”
5 “Facebook’s Data center Network Architecture”
6 肖明,2016年,“Future Data Center and High Speed Optics Interconnection”