人工智能計(jì)算領(lǐng)域服務(wù)商NVIDIA公司,在OFC 2023會(huì)議上發(fā)表的“Software-defined, programmable L1 dataplane: demonstration of fabric hardware resilience using optical switches”論文中,介紹了其最新的工作成果,提出了一種用于數(shù)據(jù)中心網(wǎng)絡(luò)的可編程光纖結(jié)構(gòu)設(shè)計(jì),利用HUBER+SUHNER Polatis矩陣光開關(guān)將SDN擴(kuò)展到L1。并在其HPC/ML測(cè)試臺(tái)上進(jìn)行了實(shí)驗(yàn),利用可編程網(wǎng)絡(luò)自動(dòng)從硬件或軟件故障中進(jìn)行故障切換。
文章概述
軟件定義的控制平面徹底改變了網(wǎng)絡(luò)。應(yīng)用程序可以按需求配置網(wǎng)絡(luò),即使需要與其他負(fù)載共享網(wǎng)絡(luò)資源。如今,網(wǎng)絡(luò)基礎(chǔ)設(shè)施的深度編程可深入到第2層(L2),例如InfiniBand(IB)子網(wǎng)管理器(SM)是軟件定義控制器的最低級(jí)別。這意味著網(wǎng)絡(luò)的可編程性無(wú)法作用于物理基礎(chǔ)設(shè)施布線,通常來(lái)講物理基礎(chǔ)設(shè)施在部署后是固定的。我們通過(guò)引入一種工作流程,即將軟件定義的控制能力擴(kuò)展到L1,來(lái)消除這一限制。軟件定義的物理層將網(wǎng)絡(luò)布線從剛性基礎(chǔ)設(shè)施轉(zhuǎn)換為可編程資源,允許在網(wǎng)絡(luò)運(yùn)行時(shí)進(jìn)行物理拓?fù)涓?。這為各種過(guò)去不可行的、新的網(wǎng)絡(luò)操作奠定了基礎(chǔ),但同時(shí)帶來(lái)了新的影響:需要在網(wǎng)絡(luò)堆棧的更高級(jí)別處理。
基于光開關(guān)的實(shí)現(xiàn)的在網(wǎng)絡(luò)運(yùn)行時(shí)的L1可編程性使得幾個(gè)新應(yīng)用得以實(shí)現(xiàn)。第一個(gè)也是我們當(dāng)前評(píng)估的重點(diǎn),是針對(duì)網(wǎng)絡(luò)結(jié)構(gòu)(交換機(jī)、收發(fā)器和/或服務(wù)器)中的硬件故障和軟件故障提供彈性。失效對(duì)計(jì)算集群的利用率和效率的影響在整個(gè)行業(yè)都很明顯,這使創(chuàng)建彈性網(wǎng)絡(luò)變得非常重要。業(yè)務(wù)關(guān)鍵型應(yīng)用程序需要保證持續(xù)可用性:停機(jī)意味著收入損失、客戶流失以及公司聲譽(yù)受損。L1可編程性的另一個(gè)潛在應(yīng)用是根據(jù)應(yīng)用程序需求修改網(wǎng)絡(luò)的物理拓?fù)?,例如在胖樹的葉交換機(jī)之間創(chuàng)建環(huán)面/網(wǎng)格,以減少對(duì)延遲敏感的應(yīng)用程序的通信時(shí)間?;蛟诔~訂閱的網(wǎng)絡(luò)中,根據(jù)需要將帶寬分配給網(wǎng)絡(luò)的各個(gè)部分,以根據(jù)物理拓?fù)涮峁┎煌腝oS。L1可編程性還可以在物理層中應(yīng)用隔離,斷開多個(gè)租戶之間的網(wǎng)元,或隔離已被識(shí)別為潛在威脅的主機(jī)。我們的PoC基于IB架構(gòu),但同樣適用于NVLINK和以太網(wǎng)。
由于無(wú)法更改物理連接,當(dāng)前的故障恢復(fù)解決方案?jìng)?cè)重于通過(guò)調(diào)整轉(zhuǎn)發(fā)配置來(lái)盡可能排除故障路徑。例如在IB網(wǎng)絡(luò)中的軟件特性有SHIELD和利用替代路徑的自適應(yīng)路由。這些協(xié)議有兩個(gè)顯著的局限性。首先,它們只能在存在替代路徑的情況下使用;葉交換機(jī)上的故障(將斷開服務(wù)器與網(wǎng)絡(luò)的連接)或服務(wù)器上的故障無(wú)法通過(guò)這種方式緩解。其次,他們無(wú)法恢復(fù)集群的全部性能。另一種增強(qiáng)彈性的方法是添加冗余硬件來(lái)備份整個(gè)或部分網(wǎng)絡(luò)(例如,Dual ToR)。這種方法的缺點(diǎn)是需要更多的硬件,資源未得到充分利用。
彈性系統(tǒng)的可重構(gòu)結(jié)構(gòu)
我們利用光開關(guān)來(lái)實(shí)現(xiàn)L1可編程數(shù)據(jù)平面。光開關(guān)可對(duì)光路進(jìn)行重定位,光路的I/O排列由電接口定義控制。如圖1a所示,通過(guò)在給定網(wǎng)絡(luò)拓?fù)涞慕粨Q層之間引入光開關(guān),實(shí)現(xiàn)了點(diǎn)對(duì)點(diǎn)光纖連接排列的可編程更改。圖1a顯示了針對(duì)小規(guī)模二級(jí)(葉脊架構(gòu))胖樹中的彈性應(yīng)用的網(wǎng)絡(luò)架構(gòu)。在網(wǎng)絡(luò)中增加了冗余交換機(jī)(RS–冗余脊交換機(jī)和RL–冗余葉交換機(jī))和冗余服務(wù)器。冗余設(shè)備與主網(wǎng)絡(luò)元件一并連接到光開關(guān)的可用端口。當(dāng)檢測(cè)到設(shè)備故障時(shí),對(duì)應(yīng)的光開關(guān)會(huì)執(zhí)行修正配置:斷開故障設(shè)備與網(wǎng)絡(luò)的連接,用冗余設(shè)備替換。該設(shè)計(jì)允許可編程的彈性程度(主設(shè)備和冗余設(shè)備的比率)根據(jù)系統(tǒng)要求而變化。此外,該體系結(jié)構(gòu)可以隔離安全威脅,最大限度地減少維護(hù)期間的停機(jī)時(shí)間,同時(shí)作為通用的可編程數(shù)據(jù)平面。
我們?cè)O(shè)計(jì)并實(shí)現(xiàn)了相應(yīng)的控制平面軟件,可以看作L1數(shù)據(jù)平面控制的SDN堆棧擴(kuò)展。設(shè)計(jì)了圖形化后端來(lái)反映物理網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)(包括光交換部件),為控制器邏輯提供所需的系統(tǒng)建模支持。隨后,引入了一組概念和算法,允許SDN L1控制器識(shí)別給定部署的不同拓?fù)淇赡苄裕瑘?zhí)行物理拓?fù)渥兓?,并向L2層控制器發(fā)出信號(hào)以適應(yīng)物理網(wǎng)絡(luò)的變化。圖1(b和c)顯示了系統(tǒng)控制回路,紫色的SDN L1(光纖結(jié)構(gòu)管理器-OFM)是執(zhí)行物理更改并向L2(在IB的情況下是子網(wǎng)管理器)發(fā)送通知的軟件。同樣地,可以擴(kuò)展L2來(lái)請(qǐng)求物理拓?fù)涓摹9收蠙z測(cè)機(jī)制(超出當(dāng)前工作范圍)通知OFM需要更換設(shè)備。OFM計(jì)算并強(qiáng)制執(zhí)行相應(yīng)的光學(xué)連接,例如,在Leaf交換機(jī)故障的情況下,圖1a中的RL1將其替換。隨后,網(wǎng)絡(luò)控制器將RL1囊括在網(wǎng)絡(luò)中。該工作流程能夠在幾秒鐘內(nèi)將網(wǎng)絡(luò)容量恢復(fù)到100%。此外,如本文下幾節(jié)所討論,我們正在進(jìn)行防止設(shè)備故障導(dǎo)致的應(yīng)用程序崩潰的工作。
圖1: a)彈性體系結(jié)構(gòu)概述 b)控制回路流程圖和 c)軟件概述
試驗(yàn)臺(tái)說(shuō)明
為了驗(yàn)證網(wǎng)絡(luò)彈性,所有小規(guī)模POD連接中都配置了一個(gè)光開關(guān),并在葉層和脊層各添加了一個(gè)冗余的IB交換機(jī),以替換失效的葉交換機(jī)或脊交換機(jī)。測(cè)試臺(tái)由4臺(tái)DGX服務(wù)器和14臺(tái)IB交換機(jī)組成:其中8臺(tái)作為葉交換機(jī),4臺(tái)作為脊交換機(jī)。兩個(gè)額外的IB交換機(jī)作為冗余設(shè)備:一個(gè)冗余葉交換機(jī)(RL,如圖1a所示)和一個(gè)冗余脊交換機(jī)(RS)。我們使用現(xiàn)成的L1光開關(guān)【POLATIS】。光鏈路則選擇了200 Gb/s CWDM可插拔光模塊,其顯著減少了所需的光開關(guān)端口,且有足夠的鏈路預(yù)算來(lái)支持光開關(guān)的損耗。DGX具有8個(gè)IB接口(8個(gè)通道),每個(gè)通道連接到不同的Leaf交換機(jī)。葉交換機(jī)與脊交換機(jī)完全連接,即沒(méi)有超額負(fù)載。所有連接都接入光開關(guān),以進(jìn)行各種實(shí)驗(yàn);當(dāng)前評(píng)估重點(diǎn)關(guān)注IB交換機(jī)的更換。
實(shí)驗(yàn)程序和結(jié)果
我們進(jìn)行了交換機(jī)失效模擬,觸發(fā)SDN L1控制器搜索物理拓?fù)湟詼p輕故障。冗余交換機(jī)接管了物理拓?fù)渲泄收辖粨Q機(jī)的角色,IB子網(wǎng)管理器接收到拓?fù)涓耐ㄖ?,該通知指示其修?fù)L2網(wǎng)絡(luò)配置。通過(guò)適當(dāng)?shù)靥幚鞩B傳輸超時(shí),運(yùn)行中的應(yīng)用程序可以在網(wǎng)絡(luò)更改后恢復(fù)運(yùn)行。
圖2顯示了我們對(duì)UCX和NCCL集體通信庫(kù)的測(cè)試結(jié)果。在該測(cè)試場(chǎng)景中,進(jìn)行了IB交換機(jī)故障模擬。圖表顯示了實(shí)驗(yàn)中涉及的一個(gè)DGX的IB界面上的帶寬(y軸)隨時(shí)間(x軸)的變化,對(duì)于all-to-all和all-reduce的微基準(zhǔn)測(cè)試?;鶞?zhǔn)測(cè)試在4個(gè)DGX之間和接口之間產(chǎn)生相同的流量。我們運(yùn)行微基準(zhǔn)測(cè)試,模擬故障,并監(jiān)控隨著時(shí)間的推移應(yīng)用程序的性能和狀態(tài)。在Spine故障期間,由于活動(dòng)鏈路的減少,系統(tǒng)的容量會(huì)降低,但應(yīng)用程序有可替代路徑可用,不會(huì)崩潰。啟用彈性方案后,可以在幾秒鐘內(nèi)恢復(fù)群集的全部性能(Spine故障切換)。在Leaf層發(fā)生故障(Leaf failover)的情況下,應(yīng)用程序崩潰,受影響的IB接口將保持離線狀態(tài),直到問(wèn)題解決。啟用彈性方案后,應(yīng)用程序在中斷幾秒鐘(目前約為7秒,但有待優(yōu)化)仍能繼續(xù)運(yùn)行,系統(tǒng)的全部容量也能夠恢復(fù)。
圖2:在啟用彈性解決方案的情況下,演示微基準(zhǔn)的BW恢復(fù):a)在左側(cè)OSU上,全部到全部,b)在右側(cè)NCCL上,全部減少。顯示所有鏈路隨時(shí)間變化的帶寬:黃色部分顯示Tx帶寬,而紫色部分顯示Rx帶寬。一個(gè)DGX的所有鏈路的圖都重疊。
?結(jié)論
我們提出了一個(gè)系統(tǒng)設(shè)計(jì)和工作流程,結(jié)合起來(lái)實(shí)現(xiàn)了L1的可編程性。構(gòu)建了一個(gè)HPC/ML測(cè)試臺(tái),并通過(guò)模擬交換機(jī)故障場(chǎng)景來(lái)評(píng)估彈性應(yīng)用。通過(guò)添加光交換網(wǎng)絡(luò)和冗余設(shè)備,可在幾秒鐘內(nèi)自動(dòng)恢復(fù)全部容量;此外,可以避免在葉級(jí)故障期間發(fā)生的應(yīng)用程序崩潰。在未來(lái)的工作中,我們計(jì)劃提供成本分析和其他實(shí)驗(yàn)的詳細(xì)結(jié)果,包括其他應(yīng)用。
凌云光自2001年起即關(guān)注光交換技術(shù)、產(chǎn)品與應(yīng)用的推廣,2015年正式與全球光交換廠家HUBER+SUHNER Polatis公司建立戰(zhàn)略合作伙伴關(guān)系,共同開創(chuàng)光交換應(yīng)用的新時(shí)代。
HUBER+SUHNER Polatis 提供低損耗的全光交換解決方案,用于遠(yuǎn)程光纖層配置、保護(hù)、監(jiān)控、重新配置和測(cè)試。基于可靠的、經(jīng)過(guò)現(xiàn)場(chǎng)驗(yàn)證的 DirectLight™ 光學(xué)矩陣開關(guān)技術(shù),Polatis 動(dòng)態(tài)光纖交叉連接可從8x8擴(kuò)展到 576x576端口,并實(shí)現(xiàn)完全透明的連接,具有低損耗和無(wú)背反射,完全獨(dú)立于波長(zhǎng)、功率或數(shù)據(jù)速率。動(dòng)態(tài)光交叉連接是實(shí)現(xiàn)軟件定義的光網(wǎng)絡(luò)基礎(chǔ)設(shè)施自動(dòng)化和虛擬化的關(guān)鍵要素。Polatis 支持RESTCONF和NETCONF,可輕松與 OpenDaylight 等流行的 SDN 控制器集成,還與前沿的傳輸 SDN 供應(yīng)商合作,以支持新興標(biāo)準(zhǔn)并確保我們的客戶受益于可靠的 SDN 解決方案。