給力！南開(kāi)團(tuán)隊(duì)刷新圖像生成模型質(zhì)量和速度！浪潮信息AIStation支撐

浪潮信息

2024-09-24 15:33 1933

北京2024年9月24日 /美通社/ -- 只要輸入提示文字，大模型就能給我們高度擬真、準(zhǔn)確的圖像，相信很多人已經(jīng)體驗(yàn)到這種前沿且酷炫的圖像創(chuàng)作方式，這背后其實(shí)是能力強(qiáng)大的圖像生成模型做支撐。

目前諸如Sora等前沿圖像生成模型，基于的主體架構(gòu)都是Diffusion Transformer（DiT）。DiT可以將生成模型擴(kuò)展到更大的模型規(guī)模，從而實(shí)現(xiàn)高質(zhì)量的圖像生成。然而更大的模型規(guī)模導(dǎo)致訓(xùn)練成本飆升，為此，南開(kāi)大學(xué)計(jì)算機(jī)學(xué)院研發(fā)了Masked Diffusion Transformer（MDT）圖像生成模型，相比DiT訓(xùn)練速度提升10倍以上，實(shí)現(xiàn)了ImageNet Benchmark上1.58的FID score，再次刷新SOTA圖像生成質(zhì)量和學(xué)習(xí)速度。相關(guān)論文已在計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議ICCV 2023（計(jì)算機(jī)視覺(jué)國(guó)際大會(huì)）發(fā)表。

MDT開(kāi)發(fā)和訓(xùn)練的背后需要強(qiáng)大的AI算力資源支持，為了建設(shè)滿足MDT開(kāi)發(fā)和訓(xùn)練需求的AI算力平臺(tái)，南開(kāi)大學(xué)與浪潮信息合作，借助浪潮信息AI服務(wù)器構(gòu)建強(qiáng)大算力資源池，利用AIStation智能業(yè)務(wù)生產(chǎn)創(chuàng)新平臺(tái)實(shí)現(xiàn)算力高效分發(fā)，提高計(jì)算資源利用率，加速M(fèi)DT圖像生成模型訓(xùn)練。

大模型創(chuàng)新面臨海量算力資源挑戰(zhàn)

DiT雖然在圖像生成領(lǐng)域取得了顯著的成功，但是DiT往往難以高效地學(xué)習(xí)圖像中物體各部分之間的語(yǔ)義關(guān)系，這一局限性導(dǎo)致了訓(xùn)練過(guò)程的低收斂效率，經(jīng)常需要數(shù)十萬(wàn)次地迭代訓(xùn)練才能生成高質(zhì)量的圖像。為了降低訓(xùn)練成本，提升訓(xùn)練效率，南開(kāi)大學(xué)計(jì)算機(jī)學(xué)院程明明教授團(tuán)隊(duì)開(kāi)展了大模型領(lǐng)域的深度研究，MDT就是重要科研成果之一。MDT利用mask modeling表征學(xué)習(xí)策略，增強(qiáng)DiT對(duì)上下文語(yǔ)義信息的學(xué)習(xí)能力，進(jìn)而提升圖像生成的質(zhì)量和學(xué)習(xí)速度。

大模型技術(shù)進(jìn)步的背后離不開(kāi)強(qiáng)大算力的支持，為了進(jìn)一步提升MDT的開(kāi)發(fā)和訓(xùn)練效率，同時(shí)實(shí)現(xiàn)算力成本效益的最大化，南開(kāi)大學(xué)對(duì)算力基礎(chǔ)設(shè)施的建設(shè)提出了如下訴求：

需要強(qiáng)大的AI算力資源支持。以程明明教授團(tuán)隊(duì)為例，研發(fā)高峰期甚至需要付費(fèi)租用更昂貴的云算力資源，特別是按照新引進(jìn)的團(tuán)隊(duì)規(guī)模，現(xiàn)有設(shè)備的峰值算力已經(jīng)無(wú)法滿足科研需求，亟需構(gòu)建高質(zhì)量的算力資源池；

快速構(gòu)建大模型開(kāi)發(fā)環(huán)境，提高模型訓(xùn)練效率。大模型訓(xùn)練環(huán)境配置、框架匹配與參數(shù)調(diào)整經(jīng)常會(huì)耗費(fèi)大量的人力與物力，還可能會(huì)碰到環(huán)境算法配置復(fù)雜、模型結(jié)構(gòu)多樣適配繁瑣等問(wèn)題，這會(huì)耽誤寶貴的模型研發(fā)時(shí)間；

算力資源高效調(diào)度，降低算力使用成本。大模型訓(xùn)練的不同任務(wù)、不同階段對(duì)于算力的需求有著明顯的波動(dòng)性，如果無(wú)法精準(zhǔn)調(diào)度算力資源，不僅會(huì)造成冗余算力在平常時(shí)段的閑置浪費(fèi)，導(dǎo)致算力成本大幅提升，也很難滿足資源高效管理調(diào)度的需求。

提升AI算力利用效率加快大模型開(kāi)發(fā)

南開(kāi)大學(xué)采用了浪潮信息提供的算力方案，該方案包括浪潮信息高性能AI服務(wù)器、網(wǎng)絡(luò)交換機(jī)、存儲(chǔ)系統(tǒng)，滿足模型訓(xùn)練過(guò)程中對(duì)算力資源的需求。同時(shí)，為了最大化利用AI算力資源、提升大模型開(kāi)發(fā)效率，南開(kāi)大學(xué)利用AIStation平臺(tái)實(shí)現(xiàn)AI算力資源的高效調(diào)度。

全新升級(jí)的AIStation具備全面的大模型流程支持能力，幫助用戶低門檻構(gòu)建大模型微調(diào)任務(wù)，提供標(biāo)準(zhǔn)、安全的大模型推理服務(wù)，并針對(duì)大模型業(yè)務(wù)資源需求優(yōu)化了算力管理功能，助力南開(kāi)大學(xué)快速開(kāi)展大模型業(yè)務(wù)創(chuàng)新與落地，獲得穩(wěn)定、高效、易用、高精度的大模型服務(wù)。

浪潮信息AIStation為大模型訓(xùn)練提供有力支持，助力南開(kāi)大學(xué)的大模型開(kāi)發(fā)能力：

構(gòu)建端到端的大模型開(kāi)發(fā)流程：AIStation支持端到端的大模型開(kāi)發(fā)流程，支持TensorFlow、PyTorch、MxNet等主流大模型框架以及GoogleNet/VGG/ResNet等網(wǎng)絡(luò)模型，一臺(tái)GPU服務(wù)器可運(yùn)行多種框架環(huán)境，并實(shí)現(xiàn)快速切換。AIStation通過(guò)自動(dòng)環(huán)境部署和AI工作流，將MDT的開(kāi)發(fā)準(zhǔn)備時(shí)間大幅縮短，幫助南開(kāi)大學(xué)有效降低構(gòu)建大模型開(kāi)發(fā)環(huán)境和訓(xùn)練任務(wù)等門檻。

提升AI算力資源利用率：AIStation支持更加細(xì)粒度的分配調(diào)度算力，幫助南開(kāi)大學(xué)為每項(xiàng)AI訓(xùn)練任務(wù)合理匹配AI算力資源，實(shí)現(xiàn)資源的高效利用。針對(duì)MDT等優(yōu)先級(jí)較高的應(yīng)用，AIStation可設(shè)置GPU、CPU、內(nèi)存數(shù)量，硬件資源隔離，應(yīng)用環(huán)境獨(dú)立，各應(yīng)用之間互不影響。

實(shí)現(xiàn)算力資源快速調(diào)度：AIStation簡(jiǎn)化了算力調(diào)度和模型開(kāi)發(fā)流程，實(shí)現(xiàn)了業(yè)務(wù)按需使用、秒級(jí)下發(fā)，并實(shí)現(xiàn)大模型實(shí)驗(yàn)室不同團(tuán)隊(duì)共用流程、共享環(huán)境，開(kāi)發(fā)者與算力高效協(xié)同。平臺(tái)還提供了實(shí)時(shí)、可視化的數(shù)據(jù)支持，支持訓(xùn)練進(jìn)度、訓(xùn)練結(jié)果、資源利用情況等數(shù)據(jù)的可視化展示，助力南開(kāi)大學(xué)精準(zhǔn)進(jìn)行算力調(diào)度。

浪潮信息提供的算力解決方案，為南開(kāi)大學(xué)程明明教授團(tuán)隊(duì)在圖像生成領(lǐng)域的研究提供了強(qiáng)大的算力支持和高效的資源調(diào)度能力，顯著提升了MDT圖像生成模型的訓(xùn)練速度和圖像質(zhì)量，對(duì)于藝術(shù)創(chuàng)作、游戲開(kāi)發(fā)乃至醫(yī)學(xué)影像分析等領(lǐng)域都有重大潛力。

消息來(lái)源：浪潮信息