北京2022年4月26日 /美通社/ -- 人工智能正持續(xù)為產(chǎn)業(yè)賦能,推動智慧農(nóng)業(yè)、智能制造、智慧交通、智慧零售等行業(yè)發(fā)展,而算網(wǎng)融合也將成為實(shí)現(xiàn)產(chǎn)業(yè)智能服務(wù)的基礎(chǔ)底座。近日,浪潮網(wǎng)絡(luò)發(fā)布基于RoCE的無損以太網(wǎng)解決方案,該方案以浪潮高性能數(shù)據(jù)中心交換機(jī)組為核心,滿足在AI集群、分布式存儲、HPC集群、數(shù)據(jù)中心的網(wǎng)絡(luò)要求,助力實(shí)現(xiàn)算力的無縫協(xié)同,釋放數(shù)據(jù)潛能,為產(chǎn)業(yè)發(fā)展注入創(chuàng)新動能。
隨著智算中心的發(fā)展演進(jìn),數(shù)據(jù)量呈指數(shù)級增長,數(shù)據(jù)流量對于算力和網(wǎng)絡(luò)提出了更高要求。傳統(tǒng)的數(shù)據(jù)中心服務(wù)以事件為基礎(chǔ),計(jì)算結(jié)果通常是確定的,單個(gè)事件和相應(yīng)的網(wǎng)絡(luò)通信之間幾乎沒有相關(guān)性或依賴性。而智算是迭代收斂優(yōu)化的過程,數(shù)據(jù)集和算法之間存在高度的空間相關(guān)性,通信流之間具有強(qiáng)時(shí)間相關(guān)性,因此需要具備快速、高效和無損的數(shù)據(jù)中心網(wǎng)絡(luò)來承載發(fā)展需求。
以往以HPC(高性能計(jì)算)為代表的場景應(yīng)用多采用Infiniband技術(shù)組建高帶寬、低延遲的網(wǎng)絡(luò)。但是隨著RoCE技術(shù)的應(yīng)用發(fā)展,使以太網(wǎng)在帶寬、延遲方面的表現(xiàn)日益趨同,在性價(jià)比和發(fā)展前景上也更具優(yōu)勢。浪潮網(wǎng)絡(luò)緊跟市場發(fā)展需求,以支持RoCE技術(shù)的數(shù)據(jù)中心以太網(wǎng)交換機(jī)為核心,推出了典型的無損以太網(wǎng)解決方案,其具備如下優(yōu)勢:
通過提供統(tǒng)一品牌的計(jì)算、存儲、網(wǎng)絡(luò)和人工智能開發(fā)平臺整體解決方案,浪潮網(wǎng)絡(luò)可以支持PFC、ECN等網(wǎng)絡(luò)流控技術(shù),以構(gòu)建端到端、無損、低延時(shí)的RDMA(遠(yuǎn)程直接內(nèi)存訪問)承載網(wǎng)絡(luò)。而交換機(jī)完美的緩存優(yōu)勢,可平滑吸收突發(fā)流量,有效應(yīng)對TCP incast。
此外,方案具備智能緩存管理技術(shù)(近似公平丟棄、動態(tài)報(bào)文優(yōu)先級),可保護(hù)短報(bào)文的作業(yè)管理流量,確保AI集群的運(yùn)行效率。并支持Telemetry技術(shù),可以提供實(shí)時(shí)網(wǎng)絡(luò)數(shù)據(jù)和設(shè)備狀態(tài)的可視化管理。同時(shí)支持RoCE-SAN業(yè)務(wù)域,RoCE網(wǎng)絡(luò)靈活接入,AI集群主機(jī)與交換機(jī)可以同時(shí)實(shí)現(xiàn)單歸、雙歸連接。浪潮AIStation可以提供統(tǒng)一的主流深度學(xué)習(xí)框架(Tensorflow、Pytorch、Caffe、Mxnet、PaddlePaddle),開發(fā)訓(xùn)練平臺以及計(jì)算資源(CPU、GPU、內(nèi)存、存儲)管理平臺。
RoCE-SAN網(wǎng)絡(luò)與存儲業(yè)務(wù)協(xié)同、故障快速感知,交換機(jī)快速檢測到故障狀態(tài),并通知給相關(guān)業(yè)務(wù)域內(nèi)訂閱通知消息的服務(wù)器,以便業(yè)務(wù)快速切換到冗余路徑,降低對業(yè)務(wù)的影響。針對大型無損以太網(wǎng)環(huán)境下PFC死鎖的問題,可以提供芯片級防PFC死鎖機(jī)制,實(shí)現(xiàn)自動檢測PFC死鎖及恢復(fù)。
RoCE-SAN網(wǎng)絡(luò)能夠自動發(fā)現(xiàn)設(shè)備服務(wù)器與存儲設(shè)備的接入,并通知服務(wù)器自動建立與存儲設(shè)備的連接關(guān)系。
目前,浪潮網(wǎng)絡(luò)基于RoCE的無損以太網(wǎng)解決方案已在南京智能計(jì)算中心等項(xiàng)目中得以應(yīng)用,無損以太網(wǎng)解決方案可充分發(fā)揮浪潮整體解決方案能力的優(yōu)勢,滿足通用計(jì)算集群、GPU加速集群、異構(gòu)計(jì)算集群、分布式存儲集群、全閃存存儲集群等場景網(wǎng)絡(luò)的高速、低延遲連接需求。未來,浪潮網(wǎng)絡(luò)將繼續(xù)秉承以客戶為中心的發(fā)展理念,攜手合作伙伴打造更多結(jié)合行業(yè)場景的網(wǎng)絡(luò)優(yōu)秀實(shí)踐,為加速企業(yè)數(shù)字化轉(zhuǎn)型做出貢獻(xiàn)。