為大模型專門優(yōu)化浪潮信息發(fā)布分布式全閃存儲(chǔ)AS13000G7-N系列

浪潮信息

2024-05-10 15:21 4023

北京2024年5月10日 /美通社/ -- 近日，浪潮信息發(fā)布為大模型專門優(yōu)化的分布式全閃存儲(chǔ)AS13000G7-N系列。該系列依托浪潮信息自研分布式文件系統(tǒng)，搭載新一代數(shù)據(jù)加速引擎DataTurbo，通過盤控協(xié)同、GPU直訪存儲(chǔ)、全局一致性緩存等技術(shù)為AI大模型數(shù)據(jù)歸集、訓(xùn)練、數(shù)據(jù)歸檔與管理等階段提供強(qiáng)大存儲(chǔ)支撐能力，助力用戶加速大模型系統(tǒng)的創(chuàng)新及應(yīng)用落地。

化解大模型時(shí)代的存儲(chǔ)挑戰(zhàn) 構(gòu)建堅(jiān)實(shí)的數(shù)據(jù)存儲(chǔ)底座

大模型已經(jīng)成為驅(qū)動(dòng)數(shù)字經(jīng)濟(jì)深度創(chuàng)新、引領(lǐng)企業(yè)業(yè)務(wù)變革、加速形成新質(zhì)生產(chǎn)力的重要?jiǎng)幽?，隨著大模型參數(shù)量和數(shù)據(jù)量的極速膨脹，多源異構(gòu)數(shù)據(jù)的傳、用、管、存，正在成為制約生成式AI落地的瓶頸之一，用戶亟需構(gòu)建更加高效的存儲(chǔ)底座。在數(shù)據(jù)準(zhǔn)備階段，在規(guī)模大、來源廣泛、格式多樣的原始數(shù)據(jù)中，篩選和清洗出利用于訓(xùn)練的高質(zhì)量數(shù)據(jù)常會(huì)耗費(fèi)大量時(shí)間；在模型訓(xùn)練階段，海量小文件數(shù)據(jù)加載、Checkpoint數(shù)據(jù)調(diào)用對(duì)IO處理效率提出嚴(yán)苛要求；模型訓(xùn)練之后，多個(gè)數(shù)據(jù)資源池?zé)o法互通、海量冷數(shù)據(jù)歸檔帶來較高的數(shù)據(jù)管理復(fù)雜度。

作為率先在業(yè)界提出分布式融合存儲(chǔ)的廠商，浪潮信息聚焦行業(yè)客戶的大模型落地需求與核心痛點(diǎn)，基于NVMe SSD研發(fā)出高效適配和優(yōu)化的分布式全閃存儲(chǔ)AS13000G7-N系列。硬件方面，AS13000G7-N是一款2U24盤位的全閃存儲(chǔ)機(jī)型，搭載英特爾^®至強(qiáng)^®第四、第五代可擴(kuò)展處理器，支持400 Gb 網(wǎng)卡，同時(shí)每盤位可配置15.36TB 大容量NVMe SSD。軟件方面，通過集群控制服務(wù)將N個(gè)節(jié)點(diǎn)聯(lián)成一套具有高擴(kuò)展性的文件系統(tǒng)；通過分布式元數(shù)據(jù)服務(wù)提升海量小文件讀寫性能；通過數(shù)控分離架構(gòu)，實(shí)現(xiàn)東西向網(wǎng)絡(luò)優(yōu)化，降低IO訪問時(shí)延，提升單節(jié)點(diǎn)帶寬。在軟硬件協(xié)同創(chuàng)新下，AS13000G7-N充分滿足大模型應(yīng)用在存儲(chǔ)性能和存儲(chǔ)容量方面的嚴(yán)苛需求。

具體來說，在數(shù)據(jù)準(zhǔn)備階段，通過多協(xié)議融合互通技術(shù)，面對(duì)多份、多種協(xié)議的數(shù)據(jù)，存儲(chǔ)底層僅保留一份數(shù)據(jù)，實(shí)現(xiàn)數(shù)據(jù)共享免搬遷；在模型訓(xùn)練階段，通過大小IO智能識(shí)別和緩存預(yù)讀技術(shù)快速保存和恢復(fù)checkpoint（檢查點(diǎn)）文件，實(shí)現(xiàn)TB級(jí)訓(xùn)練數(shù)據(jù)Checkpoint讀取耗時(shí)從10分鐘縮短至10秒內(nèi)，大幅提升訓(xùn)練過程中數(shù)據(jù)加載速度；RDMA/RoCE網(wǎng)絡(luò)連接技術(shù)和數(shù)控分離架構(gòu)的設(shè)計(jì)，實(shí)現(xiàn)東西向數(shù)據(jù)免轉(zhuǎn)發(fā)，極限發(fā)揮大模型訓(xùn)練中硬件網(wǎng)絡(luò)帶寬性能；基于盤控協(xié)同架構(gòu)，網(wǎng)絡(luò)數(shù)據(jù)直通NVMe SSD，進(jìn)一步提升單盤帶寬；在數(shù)據(jù)歸檔與管理階段，AS13000G7-N提供了多元異構(gòu)存儲(chǔ)的統(tǒng)一納管能力，保障數(shù)據(jù)資產(chǎn)高效存儲(chǔ)與管理，大幅提升存儲(chǔ)資源的利用率且最大化數(shù)據(jù)基礎(chǔ)設(shè)施投資回報(bào)比。

DataTurbo數(shù)據(jù)加速引擎，全力保障大模型高效訓(xùn)練

在大模型的數(shù)據(jù)應(yīng)用全流程中，要想使訓(xùn)練效率達(dá)到極致，減少不必要的資源浪費(fèi)，訓(xùn)練階段的數(shù)據(jù)讀寫性能成為重中之重。而想要提升算力利用率、降低模型訓(xùn)練成本，必須要在數(shù)據(jù)存儲(chǔ)性能上進(jìn)行創(chuàng)新。

AS13000G7-N系列具備強(qiáng)大的端到端性能優(yōu)化能力，這也是模型訓(xùn)練階段最為核心的考量因素。浪潮信息基于計(jì)算和存儲(chǔ)協(xié)同的理念，依托自研分布式文件系統(tǒng)構(gòu)建了新一代數(shù)據(jù)加速引擎DataTurbo，在緩存優(yōu)化、空間均衡、縮短GPU與存儲(chǔ)讀取路徑等方面進(jìn)行了全面升級(jí)。"

智能緩存優(yōu)化，保障大模型訓(xùn)練速度與質(zhì)量

AS13000G7-N能夠通過對(duì)大小IO的智能識(shí)別，進(jìn)行分類治理，小文件采取聚合的操作，大文件采取切片的操作，所有數(shù)據(jù)以大小均衡的模式保存到全局緩存中，實(shí)現(xiàn)小文件性能提升5倍，大文件性能提升10倍。在模型訓(xùn)練中斷后，從Checkpoint恢復(fù)數(shù)據(jù)過程中，AS13000G7-N通過緩存預(yù)讀技術(shù)，提前識(shí)別數(shù)據(jù)的冷熱程度，加速了重復(fù)樣本數(shù)據(jù)的讀取，訓(xùn)練加載速度提升10倍。無論是讀操作還是寫操作，AS13000G7-N采取了字節(jié)級(jí)（Byte）分布式鎖機(jī)制，粒度是主流并行文件系統(tǒng)鎖機(jī)制粒度的幾十分之一，確保多個(gè)節(jié)點(diǎn)訪問共享資源時(shí)能夠安全、有序地進(jìn)行操作，從而保持訓(xùn)練數(shù)據(jù)的強(qiáng)一致性和訓(xùn)練質(zhì)量。

智能空間均衡，高水位下性能無衰減

AS13000G7-N搭載了浪潮信息自主研發(fā)的分布式并行客戶端技術(shù)，相比通用私有客戶端，卸載了獨(dú)立的元數(shù)據(jù)，實(shí)現(xiàn)了元數(shù)據(jù)和數(shù)據(jù)節(jié)點(diǎn)的高效統(tǒng)一部署，有效提升存儲(chǔ)的并發(fā)能力，充分利用訓(xùn)練節(jié)點(diǎn)網(wǎng)卡的帶寬，讓GPU算力得到完全釋放。同時(shí)在存儲(chǔ)端，相較于業(yè)界主流的文件系統(tǒng)需要在磁盤之上構(gòu)筑一層文件協(xié)議，AS13000G7-N能夠直接對(duì)裸盤的空間進(jìn)行均衡排布，并在管理層面設(shè)計(jì)了智能空間預(yù)分技術(shù)，能夠結(jié)合用戶前端算力節(jié)點(diǎn)數(shù)量、訓(xùn)練模型的數(shù)量，對(duì)存儲(chǔ)空間分配進(jìn)一步進(jìn)行智能策略預(yù)埋。這套組合拳能夠使AS13000G7-N在空間利用率達(dá)到95%高水位時(shí)，依然可以平穩(wěn)輸出強(qiáng)大的性能。在模型訓(xùn)練的空間損耗上，AS13000G7-N相較傳統(tǒng)方案，將損耗率降低了85%左右，充分保護(hù)了客戶在大模型存儲(chǔ)上的投資。

GPU直通存儲(chǔ)，服務(wù)萬億參數(shù)大模型

當(dāng)大模型參數(shù)在百億級(jí)別，GPU對(duì)存儲(chǔ)資源的調(diào)用效率往往差別不大。但隨著大模型從單模態(tài)走向多模態(tài)，數(shù)據(jù)量指數(shù)型增長，訓(xùn)練效率隨之要求更高。從數(shù)據(jù)層面來看，AS13000G7-N具備和GPU直通的能力，數(shù)據(jù)流不經(jīng)過客戶端緩存，直接到達(dá)存儲(chǔ)底層文件系統(tǒng)，縮短GPU與存儲(chǔ)的讀取路徑，這項(xiàng)技術(shù)能夠使存儲(chǔ)讀寫帶寬翻倍，大模型訓(xùn)練加載時(shí)間縮短50%。隨著萬卡萬億參數(shù)模型時(shí)代的到來，GPU直通存儲(chǔ)高效提升數(shù)據(jù)讀寫訪問的能力將是大模型訓(xùn)練的標(biāo)配。

通過上述技術(shù)創(chuàng)新，分布式全閃存儲(chǔ)AS13000G7-N憑借領(lǐng)先的性能和管理優(yōu)勢(shì)，能夠幫助用戶加速大模型的數(shù)據(jù)歸集、提升模型訓(xùn)練效率、簡化海量異構(gòu)數(shù)據(jù)的管理，從而推動(dòng)業(yè)務(wù)智能化變革。浪潮信息將借助AS13000G7-N等存儲(chǔ)產(chǎn)品，與合作伙伴加快在場景化方案定制、市場拓展等方面的創(chuàng)新，助力用戶構(gòu)筑人工智能時(shí)代最佳數(shù)據(jù)存儲(chǔ)底座。

消息來源：浪潮信息