清華大學(xué)交叉信息學(xué)院徐葳老師及其團(tuán)隊(duì)和美國(guó)新澤西的初創(chuàng)公司Torray還有普林斯頓大學(xué)計(jì)算機(jī)系合作在今年OFC上的Post Deadline階段發(fā)表了一篇題為“12機(jī)架,180服務(wù)器數(shù)據(jù)中心網(wǎng)絡(luò)利用多波長(zhǎng)光交換和全堆棧優(yōu)化”的學(xué)術(shù)文章(TH5B.6)。從清華大學(xué)徐葳老師個(gè)人網(wǎng)頁(yè)可以看到,徐博士2010年從加州大學(xué)伯克利分校獲得博士學(xué)位,隨后加入谷歌公司工作。2013年回國(guó)獲選國(guó)家青年千人計(jì)劃,目前是清華大學(xué)交叉信息學(xué)院助理教授。他還是Facebook的OCP項(xiàng)目中國(guó)認(rèn)證實(shí)驗(yàn)室負(fù)責(zé)人。
眾所周知,每年OFC的Post Deadline階段都是學(xué)者們趨之若鶩希望有文章中選的地方。徐葳老師團(tuán)隊(duì)能有文章中選,首先證明了他們的學(xué)術(shù)成就。對(duì)于他們的這篇文章,編輯的興趣還在于他們?cè)跀?shù)據(jù)中心中引入了光交換。而這正是這兩年來(lái)編輯一直感興趣的話題。就這篇文章編輯向徐葳老師提出若干問(wèn)題,得到了他的及時(shí)回應(yīng)。
CFOL:能介紹一下你們文中提到的Sodero公司嗎?
徐:Sodero交換機(jī)是我們和徐磊的公司共同開(kāi)發(fā)的,目前還不是正式的產(chǎn)品,手工做了12臺(tái)我們自己在這個(gè)平臺(tái)上用。
CFOL:在數(shù)據(jù)中心中引入光交換最大的好處是什么?現(xiàn)在的問(wèn)題主要在哪里?
徐:目前數(shù)據(jù)中心網(wǎng)絡(luò)的最大問(wèn)題是,做系統(tǒng)的人什么負(fù)載都想往上邊扔(所謂超融合就是指的這個(gè))。一般人覺(jué)得10G,40G,100G的網(wǎng)絡(luò)還不夠么,當(dāng)然什么都可以扔上去。但是這里的問(wèn)題是匯聚層和核心層怎么做,F(xiàn)在的DCN的over-subscription太高,到了匯聚層之上還是很難避免擁塞。擁塞的主要問(wèn)題倒不是帶寬低了,關(guān)鍵是丟包之后延遲就沒(méi)法保證了,這個(gè)在數(shù)據(jù)中心應(yīng)用里邊是致命的。當(dāng)然也有人接成fat tree之類的可以有很多很多路徑的方案,但是那些方案怎么把流分配均勻了是個(gè)問(wèn)題。用光網(wǎng)絡(luò)的話,可以臨時(shí)把容量調(diào)度到最擁擠的鏈路上去,可以去掉匯聚層和核心層的交換機(jī)(一般都是比較貴的)。這些都是優(yōu)勢(shì)。
CFOL: 相比此前我們看到的在數(shù)據(jù)中心中引入MEMS光交換,基于WSS的有什么好處?
徐:MEMS的方案過(guò)去做得比較多,算法也比較簡(jiǎn)單。但是根據(jù)我的理解,MEMS器件對(duì)于震動(dòng)太敏感,在數(shù)據(jù)中心里邊用可靠性不高。而且MEMS是個(gè)很多口很貴的設(shè)備,用的話就得一次直接上個(gè)好大的,不能做到逐步擴(kuò)展。我們是完全基于ToR上的WSS,是可以逐步擴(kuò)展的。當(dāng)然這個(gè)算法就復(fù)雜一些。
CFOL:你們的算法主要解決了什么問(wèn)題?什么是full stack 優(yōu)化?
徐:我們的算法是比基于MEMS的要復(fù)雜,因?yàn)樯婕皫讓拥恼{(diào)度:包括波長(zhǎng)的分配,光網(wǎng)絡(luò)層的帶寬以及流的調(diào)度。傳統(tǒng)方案是一層一層單獨(dú)做的,這個(gè)效果不夠好。主要表現(xiàn)為幾個(gè)方面,一是算出來(lái)的方案可能需要調(diào)整很大才能實(shí)現(xiàn),調(diào)整過(guò)程很漫長(zhǎng),且調(diào)整過(guò)程中容易丟包;二是如果先定下來(lái)光路,也許有些更適合的流的分配就沒(méi)法做了(相當(dāng)于回到了固定光路的算法)。但是如果這幾層結(jié)合起來(lái)考慮可變的東西有太多,這個(gè)優(yōu)化問(wèn)題是個(gè)整數(shù)規(guī)劃的問(wèn)題,是NP的。所以我們?cè)O(shè)計(jì)了這個(gè)高效的隨機(jī)算法來(lái)求出一個(gè)可用的近似解。在求解過(guò)程中,我們充分考慮了不同波長(zhǎng)分配下可行的流的分配,以及考慮了改變網(wǎng)絡(luò)拓?fù)渌枰拇鷥r(jià),并且在真正調(diào)整的過(guò)程中,會(huì)自動(dòng)計(jì)算出一個(gè)合理的策略,讓網(wǎng)絡(luò)在調(diào)整的過(guò)程中不丟包不擁塞。因此我們叫做full stack 的優(yōu)化算法。
CFOL:能再解釋一下文章中提到的tail latency的意思嗎?
徐:tail latency指的是99百分位的延遲。延遲這種東西,一般數(shù)據(jù)中心里的平均延遲都很低,但是對(duì)于應(yīng)用服務(wù)質(zhì)量(SLA)最關(guān)鍵的是那些最爛情況下的延遲,這種延遲就叫做長(zhǎng)尾的延遲。因?yàn)檫@些延遲雖然少,但是某個(gè)用戶如果趕上了,他的體驗(yàn)就很差。數(shù)據(jù)中心網(wǎng)絡(luò)中很多工作都致力于避免這種延遲。我們通過(guò)優(yōu)化不同鏈路的使用率,減少了因?yàn)槟硞(gè)鏈路上擁塞而導(dǎo)致延遲的可能性。
CFOL:將光層和網(wǎng)絡(luò)層結(jié)合起來(lái),難點(diǎn)在哪里?SDN在這里扮演了什么樣的角色?
徐:結(jié)合光和SDN的難點(diǎn)在與這個(gè)跨層的算法的復(fù)雜度,我們是用上述的隨機(jī)算法解決的。SDN可以讓我們方便的在流的粒度上進(jìn)行調(diào)度。如果不用SDN的話直接改變了物理層的光路,我們需要等一段時(shí)間才能讓上層再次穩(wěn)定,這個(gè)過(guò)程中會(huì)丟包。所以我們現(xiàn)在是用SDN的。我們正在考慮不基于SDN的解決方案。
CFOL:你們認(rèn)為本文最大的意義在哪里?
徐:本文最大的意義主要有三個(gè):1)我們展示了一個(gè)基于WSS的解決方案,說(shuō)明了我們可以找到一個(gè)近似算法來(lái)求解跨光網(wǎng)絡(luò)和流的聯(lián)合優(yōu)化問(wèn)題;2)我們提出了適合數(shù)據(jù)中心的優(yōu)化,即優(yōu)化網(wǎng)絡(luò)延遲而不是總體帶寬。并且設(shè)計(jì)了一個(gè)新的優(yōu)化目標(biāo)來(lái)實(shí)現(xiàn)這個(gè)優(yōu)化,就是最小化最忙鏈路上的流量。通過(guò)最小化這個(gè)值,我們可以減少擁塞的可能性。3)我們?cè)谝粋(gè)具有一定規(guī)模的原型系統(tǒng)上驗(yàn)證了整個(gè)方案的可行性,證明了這個(gè)方案比之MEMS的方案在成本和實(shí)現(xiàn)難度上的優(yōu)勢(shì)。
CFOL:在你們看來(lái),數(shù)據(jù)中心引入光交換的前提是什么?
徐:數(shù)據(jù)中心如果要引入光交換,首先要有足夠大的數(shù)據(jù)中心,而且大家開(kāi)始試圖優(yōu)化應(yīng)用的性能。例如google這樣的公司不斷追求產(chǎn)品的質(zhì)量和用戶體驗(yàn),他們就會(huì)去優(yōu)化數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu),特別是延遲這些指標(biāo)。目前國(guó)內(nèi)大部分互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)中心還是處于粗放型管理的階段,還沒(méi)有去關(guān)心SLA這些細(xì)節(jié)指標(biāo)。因此這個(gè)技術(shù)真的走入國(guó)內(nèi)市場(chǎng)還需要一些時(shí)間。
光網(wǎng)絡(luò)在國(guó)內(nèi)還有另一個(gè)可能的推動(dòng)力是去cisco之類的意愿。目前ToR誰(shuí)都會(huì)做,但是真正好的匯聚和核心交換機(jī)還是需要一些大廠。我們一方面能趕上這些大廠的水平,一方面也許有人會(huì)考慮另外一條路,即用光網(wǎng)絡(luò)來(lái)替代這些匯聚和核心交換機(jī)。走像本文所述這樣的技術(shù)路線。
CFOL:問(wèn)一個(gè)題外話,OCP在中國(guó)參加的企業(yè)多嗎?你怎么看它和百度等類似的計(jì)劃的關(guān)系?
徐:中國(guó)參加OCP的企業(yè)不少,都是各種ODM廠商,都試圖向國(guó)外市場(chǎng)發(fā)展。目前最積極的內(nèi)地企業(yè)要算浪潮。OCP目前在國(guó)內(nèi)還沒(méi)有市場(chǎng),ODCC天蝎其實(shí)也沒(méi)有。OCP和ODCC目前正在洽談合作。
編者按:編輯就MEMS交換機(jī)的問(wèn)題專門致信Calient CTO袁博士。他表示MEMS光交換通過(guò)隔離振動(dòng),完全可以做到適合DC應(yīng)用。此外,MEMS的成本低,他們的MEMS光交換已經(jīng)得到數(shù)據(jù)中心客戶的部署。他同時(shí)認(rèn)為相比WSS,還是MEMS更適合在DC應(yīng)用。
光纖在線公眾號(hào)
更多猛料!歡迎掃描左方二維碼關(guān)注光纖在線官方微信