KubeCon熱點(diǎn)報(bào)告：AIStation調(diào)度平臺(tái)實(shí)現(xiàn)RoCE網(wǎng)絡(luò)下大模型的高效穩(wěn)定訓(xùn)練

浪潮信息

2023-10-16 15:31 3889

北京2023年10月16日 /美通社/ -- 近日，在KubeCon + CloudNativeCon + Open Source Summit China 2023大會(huì)（簡(jiǎn)稱"開源技術(shù)峰會(huì)"）上，浪潮信息分享了"基于Kubernetes+RoCEv2構(gòu)建大規(guī)模AI基礎(chǔ)設(shè)施與大模型訓(xùn)練實(shí)踐"主題報(bào)告，介紹了浪潮信息在大模型開發(fā)過(guò)程中，尤其在大規(guī)模RoCE網(wǎng)絡(luò)的使用場(chǎng)景，如何通過(guò)AIStation人工智能算力調(diào)度平臺(tái)滿足大模型訓(xùn)練的穩(wěn)定性和效率要求，實(shí)現(xiàn)高效長(zhǎng)時(shí)間持續(xù)訓(xùn)練。

KubeCon + CloudNativeCon + Open Source Summit是Linux基金會(huì)、云原生計(jì)算基金會(huì)（CNCF）主辦的開源和云原生領(lǐng)域的旗艦盛會(huì)，在業(yè)界享有極高的聲譽(yù)，來(lái)自谷歌、亞馬遜、英特爾、Hugging Face等知名企業(yè)的近百位全球技術(shù)專家及行業(yè)領(lǐng)袖齊聚本屆大會(huì)，帶來(lái)最前沿的云原生相關(guān)技術(shù)成果和技術(shù)洞察。

大模型訓(xùn)練遇RoCE網(wǎng)絡(luò)性能低、斷點(diǎn)難題

大模型是當(dāng)前通用人工智能產(chǎn)業(yè)發(fā)展創(chuàng)新的核心技術(shù)。但大模型訓(xùn)練過(guò)程非常復(fù)雜，面臨諸多挑戰(zhàn)。

一方面，大模型訓(xùn)練對(duì)通信的要求非常高。為了獲得最優(yōu)的訓(xùn)練效果，單臺(tái)GPU服務(wù)器會(huì)搭載多張InfiniBand、ROCE等高性能網(wǎng)卡，為節(jié)點(diǎn)間通信提供高吞吐、低時(shí)延的服務(wù)。但不同的網(wǎng)絡(luò)方案各有優(yōu)劣，InfiniBand因性能優(yōu)異已被公認(rèn)為大模型訓(xùn)練的首選，但其成本較高；RoCE雖然成本較低，但在大規(guī)模的網(wǎng)絡(luò)環(huán)境下，其性能和穩(wěn)定性不如InfiniBand方案。因此要想滿足大模型訓(xùn)練對(duì)通信的要求，就要對(duì)集群網(wǎng)絡(luò)中的通信設(shè)備適配使用和網(wǎng)絡(luò)情況進(jìn)行探索和設(shè)計(jì)。

另一方面，大模型訓(xùn)練周期通常長(zhǎng)達(dá)數(shù)月，集群計(jì)算效力低、故障頻發(fā)且處理復(fù)雜，會(huì)導(dǎo)致訓(xùn)練中斷后不能及時(shí)恢復(fù)，從而降低大模型訓(xùn)練的成功率，也會(huì)使得訓(xùn)練成本居高不下。Meta在訓(xùn)練Open Pre-trained Transformer (OPT)-175B大模型時(shí)，遇到的一大工程問(wèn)題就是訓(xùn)練不穩(wěn)定，Meta訓(xùn)練日志顯示兩個(gè)星期內(nèi)因硬件、基礎(chǔ)設(shè)施或?qū)嶒?yàn)穩(wěn)定性問(wèn)題重新啟動(dòng)了40多次。

AIStation實(shí)現(xiàn)RoCE網(wǎng)絡(luò)下大模型高效穩(wěn)定訓(xùn)練

針對(duì)大模型研發(fā)和應(yīng)用各環(huán)節(jié)的諸多挑戰(zhàn)，浪潮信息發(fā)布了大模型智算軟件棧OGAI（Open GenAI Infra）——"元腦生智"，為大模型業(yè)務(wù)提供了全棧全流程的智算軟件棧。OGAI軟件棧由5層架構(gòu)組成，其中L2層AIStation針對(duì)大模型訓(xùn)練中常見(jiàn)的"RoCE網(wǎng)絡(luò)性能和穩(wěn)定性低"、"訓(xùn)練中斷"難題，提供了性能和兼容性俱佳的網(wǎng)絡(luò)方案和斷點(diǎn)續(xù)訓(xùn)能力，為大模型訓(xùn)練保駕護(hù)航。

1. 優(yōu)化RoCE網(wǎng)絡(luò)下的大模型訓(xùn)練，提升網(wǎng)絡(luò)性能和穩(wěn)定性

AIStation能夠制定合理的作業(yè)執(zhí)行計(jì)劃，以最大限度地利用資源，滿足訓(xùn)練任務(wù)的時(shí)延和吞吐需求。AIStation優(yōu)化調(diào)度系統(tǒng)性能，實(shí)現(xiàn)了上千POD極速啟動(dòng)和環(huán)境就緒。尤其AIStation對(duì)大規(guī)模RoCE無(wú)損網(wǎng)絡(luò)下的大模型訓(xùn)練也做了相應(yīng)優(yōu)化，實(shí)測(cè)網(wǎng)絡(luò)性能穩(wěn)定性達(dá)到了業(yè)界較高水平。

AIStation通過(guò)PFC+ECN構(gòu)建無(wú)損以太網(wǎng)絡(luò)，在交換機(jī)側(cè)控制方面，PFC在數(shù)據(jù)鏈路層基于報(bào)文-隊(duì)列優(yōu)先級(jí)，在交換機(jī)入口側(cè)進(jìn)行擁塞控制，ECN在網(wǎng)絡(luò)層基于數(shù)據(jù)包頭中的標(biāo)識(shí)位，在交換機(jī)出口側(cè)進(jìn)行擁塞控制。主機(jī)容器側(cè)控制則為Kubernetes的Pod，基于Linux、OFED驅(qū)動(dòng)進(jìn)行擁塞控制。該方案資源使用靈活，且經(jīng)過(guò)多輪次的GPU分配與回收，解決了GPU分布的碎片化問(wèn)題。

基于PFC+ECN構(gòu)建無(wú)損以太網(wǎng)絡(luò)

在大模型訓(xùn)練場(chǎng)景，AIStation通過(guò)Calico構(gòu)建元數(shù)據(jù)交換網(wǎng)絡(luò)，基于物理RoCE網(wǎng)卡構(gòu)建RDMA通訊網(wǎng)絡(luò)，并通過(guò)CNI和虛擬化插件實(shí)現(xiàn)IP分配，使POD內(nèi)大模型訓(xùn)練任務(wù)能夠充分利用NCCL的PXN等通信優(yōu)化特性，實(shí)現(xiàn)網(wǎng)絡(luò)的高效使用。

借助AIStation平臺(tái)，某大型商業(yè)銀行完成了主流大模型訓(xùn)練框架，如DeepSpeed、Megatron-LM和大語(yǔ)言模型在RoCE網(wǎng)絡(luò)環(huán)境下的訓(xùn)練，快速實(shí)現(xiàn)大模型的落地實(shí)踐。

2. 內(nèi)置監(jiān)控系統(tǒng)和智能運(yùn)維模塊，保障大模型穩(wěn)定訓(xùn)練

健壯性與穩(wěn)定性是高效完成大模型訓(xùn)練的必要條件。利用AIStation內(nèi)置的監(jiān)控全面的監(jiān)控系統(tǒng)和智能運(yùn)維模塊，可以快速定位芯片、網(wǎng)卡、通訊設(shè)備異?；蚬收稀Ｍ瑫r(shí)對(duì)訓(xùn)練任務(wù)進(jìn)行暫停保持，再?gòu)臒醾渌懔χ羞M(jìn)行自動(dòng)彈性替換異常節(jié)點(diǎn)，最后利用健康節(jié)點(diǎn)進(jìn)行快速checkpoint讀取，實(shí)現(xiàn)大模型斷點(diǎn)自動(dòng)續(xù)訓(xùn)。

大規(guī)模預(yù)訓(xùn)練任務(wù)的異常處理和斷點(diǎn)續(xù)訓(xùn)流程

3. 自動(dòng)配置環(huán)境，快速構(gòu)建大模型訓(xùn)練任務(wù)

AIStation實(shí)現(xiàn)了計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等訓(xùn)練環(huán)境的自動(dòng)化配置，同時(shí)允許用戶自定義基本的超參數(shù)，只需簡(jiǎn)單幾步，就能啟動(dòng)大模型分布式訓(xùn)練。并且，AIStation還集成了主流的大模型訓(xùn)練框架，包括Megatron-LM、DeepSpeed、HunggingFace上的諸多開源解決方案，實(shí)現(xiàn)了秒級(jí)構(gòu)建運(yùn)行環(huán)境。能夠幫助開發(fā)者在大規(guī)模集群環(huán)境下便捷地提交分布式任務(wù)。調(diào)度系統(tǒng)根據(jù)分布式任務(wù)對(duì)GPU算力的需求，通過(guò)多種親和性調(diào)度策略，大大降低構(gòu)建分布式訓(xùn)練任務(wù)的技術(shù)門檻。

AIStation平臺(tái)在AI開發(fā)、應(yīng)用部署和大模型工程實(shí)踐上積累了寶貴的經(jīng)驗(yàn)和技術(shù)，幫助諸多行業(yè)客戶在資源、開發(fā)、部署層面實(shí)現(xiàn)降本增效。在垂直行業(yè)領(lǐng)域，AIStation平臺(tái)幫助頭部金融客戶、生物制藥服務(wù)公司快速利用密集數(shù)據(jù)訓(xùn)練、驗(yàn)證大模型，大大降低大模型業(yè)務(wù)成本。某大型商業(yè)銀行基于AIStation打造的并行運(yùn)算集群，憑借領(lǐng)先的大規(guī)模分布式訓(xùn)練支撐能力，榮獲2022 IDC"未來(lái)數(shù)字基礎(chǔ)架構(gòu)領(lǐng)軍者"獎(jiǎng)項(xiàng)。

浪潮信息AIStation在大模型方面已經(jīng)取得了諸多業(yè)界領(lǐng)先的經(jīng)驗(yàn)和積累，實(shí)現(xiàn)了端到端的優(yōu)化，是更適合大模型時(shí)代的AI算力調(diào)度平臺(tái)。未來(lái)AIStation進(jìn)一步通過(guò)低代碼、標(biāo)準(zhǔn)化的大模型開發(fā)流程，以及低成本和高效的推理服務(wù)部署，幫助客戶快速實(shí)現(xiàn)大模型開發(fā)和落地，加速生成式AI發(fā)展。

消息來(lái)源：浪潮信息