北京2024年9月24日 /美通社/ -- 只要輸入提示文字,大模型就能給我們高度擬真、準(zhǔn)確的圖像,相信很多人已經(jīng)體驗(yàn)到這種前沿且酷炫的圖像創(chuàng)作方式,這背后其實(shí)是能力強(qiáng)大的圖像生成模型做支撐。
目前諸如Sora等前沿圖像生成模型,基于的主體架構(gòu)都是Diffusion Transformer(DiT)。DiT可以將生成模型擴(kuò)展到更大的模型規(guī)模,從而實(shí)現(xiàn)高質(zhì)量的圖像生成。然而更大的模型規(guī)模導(dǎo)致訓(xùn)練成本飆升,為此,南開(kāi)大學(xué)計(jì)算機(jī)學(xué)院研發(fā)了Masked Diffusion Transformer(MDT)圖像生成模型,相比DiT訓(xùn)練速度提升10倍以上,實(shí)現(xiàn)了ImageNet Benchmark上1.58的FID score,再次刷新SOTA圖像生成質(zhì)量和學(xué)習(xí)速度。相關(guān)論文已在計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議ICCV 2023(計(jì)算機(jī)視覺(jué)國(guó)際大會(huì))發(fā)表。
MDT開(kāi)發(fā)和訓(xùn)練的背后需要強(qiáng)大的AI算力資源支持,為了建設(shè)滿足MDT開(kāi)發(fā)和訓(xùn)練需求的AI算力平臺(tái),南開(kāi)大學(xué)與浪潮信息合作,借助浪潮信息AI服務(wù)器構(gòu)建強(qiáng)大算力資源池,利用AIStation智能業(yè)務(wù)生產(chǎn)創(chuàng)新平臺(tái)實(shí)現(xiàn)算力高效分發(fā),提高計(jì)算資源利用率,加速M(fèi)DT圖像生成模型訓(xùn)練。
大模型創(chuàng)新面臨海量算力資源挑戰(zhàn)
DiT雖然在圖像生成領(lǐng)域取得了顯著的成功,但是DiT往往難以高效地學(xué)習(xí)圖像中物體各部分之間的語(yǔ)義關(guān)系,這一局限性導(dǎo)致了訓(xùn)練過(guò)程的低收斂效率,經(jīng)常需要數(shù)十萬(wàn)次地迭代訓(xùn)練才能生成高質(zhì)量的圖像。為了降低訓(xùn)練成本,提升訓(xùn)練效率,南開(kāi)大學(xué)計(jì)算機(jī)學(xué)院程明明教授團(tuán)隊(duì)開(kāi)展了大模型領(lǐng)域的深度研究,MDT就是重要科研成果之一。MDT利用mask modeling表征學(xué)習(xí)策略,增強(qiáng)DiT對(duì)上下文語(yǔ)義信息的學(xué)習(xí)能力,進(jìn)而提升圖像生成的質(zhì)量和學(xué)習(xí)速度。
大模型技術(shù)進(jìn)步的背后離不開(kāi)強(qiáng)大算力的支持,為了進(jìn)一步提升MDT的開(kāi)發(fā)和訓(xùn)練效率,同時(shí)實(shí)現(xiàn)算力成本效益的最大化,南開(kāi)大學(xué)對(duì)算力基礎(chǔ)設(shè)施的建設(shè)提出了如下訴求:
需要強(qiáng)大的AI算力資源支持。以程明明教授團(tuán)隊(duì)為例,研發(fā)高峰期甚至需要付費(fèi)租用更昂貴的云算力資源,特別是按照新引進(jìn)的團(tuán)隊(duì)規(guī)模,現(xiàn)有設(shè)備的峰值算力已經(jīng)無(wú)法滿足科研需求,亟需構(gòu)建高質(zhì)量的算力資源池;
快速構(gòu)建大模型開(kāi)發(fā)環(huán)境,提高模型訓(xùn)練效率。大模型訓(xùn)練環(huán)境配置、框架匹配與參數(shù)調(diào)整經(jīng)常會(huì)耗費(fèi)大量的人力與物力,還可能會(huì)碰到環(huán)境算法配置復(fù)雜、模型結(jié)構(gòu)多樣適配繁瑣等問(wèn)題,這會(huì)耽誤寶貴的模型研發(fā)時(shí)間;
算力資源高效調(diào)度,降低算力使用成本。大模型訓(xùn)練的不同任務(wù)、不同階段對(duì)于算力的需求有著明顯的波動(dòng)性,如果無(wú)法精準(zhǔn)調(diào)度算力資源,不僅會(huì)造成冗余算力在平常時(shí)段的閑置浪費(fèi),導(dǎo)致算力成本大幅提升,也很難滿足資源高效管理調(diào)度的需求。
提升AI算力利用效率 加快大模型開(kāi)發(fā)
南開(kāi)大學(xué)采用了浪潮信息提供的算力方案,該方案包括浪潮信息高性能AI服務(wù)器、網(wǎng)絡(luò)交換機(jī)、存儲(chǔ)系統(tǒng),滿足模型訓(xùn)練過(guò)程中對(duì)算力資源的需求。同時(shí),為了最大化利用AI算力資源、提升大模型開(kāi)發(fā)效率,南開(kāi)大學(xué)利用AIStation平臺(tái)實(shí)現(xiàn)AI算力資源的高效調(diào)度。
全新升級(jí)的AIStation具備全面的大模型流程支持能力,幫助用戶低門檻構(gòu)建大模型微調(diào)任務(wù),提供標(biāo)準(zhǔn)、安全的大模型推理服務(wù),并針對(duì)大模型業(yè)務(wù)資源需求優(yōu)化了算力管理功能,助力南開(kāi)大學(xué)快速開(kāi)展大模型業(yè)務(wù)創(chuàng)新與落地,獲得穩(wěn)定、高效、易用、高精度的大模型服務(wù)。
浪潮信息AIStation為大模型訓(xùn)練提供有力支持,助力南開(kāi)大學(xué)的大模型開(kāi)發(fā)能力:
構(gòu)建端到端的大模型開(kāi)發(fā)流程:AIStation支持端到端的大模型開(kāi)發(fā)流程,支持TensorFlow、PyTorch、MxNet等主流大模型框架以及GoogleNet/VGG/ResNet等網(wǎng)絡(luò)模型,一臺(tái)GPU服務(wù)器可運(yùn)行多種框架環(huán)境,并實(shí)現(xiàn)快速切換。AIStation通過(guò)自動(dòng)環(huán)境部署和AI工作流,將MDT的開(kāi)發(fā)準(zhǔn)備時(shí)間大幅縮短,幫助南開(kāi)大學(xué)有效降低構(gòu)建大模型開(kāi)發(fā)環(huán)境和訓(xùn)練任務(wù)等門檻。
提升AI算力資源利用率:AIStation支持更加細(xì)粒度的分配調(diào)度算力,幫助南開(kāi)大學(xué)為每項(xiàng)AI訓(xùn)練任務(wù)合理匹配AI算力資源,實(shí)現(xiàn)資源的高效利用。針對(duì)MDT等優(yōu)先級(jí)較高的應(yīng)用,AIStation可設(shè)置GPU、CPU、內(nèi)存數(shù)量,硬件資源隔離,應(yīng)用環(huán)境獨(dú)立,各應(yīng)用之間互不影響。
實(shí)現(xiàn)算力資源快速調(diào)度:AIStation簡(jiǎn)化了算力調(diào)度和模型開(kāi)發(fā)流程,實(shí)現(xiàn)了業(yè)務(wù)按需使用、秒級(jí)下發(fā),并實(shí)現(xiàn)大模型實(shí)驗(yàn)室不同團(tuán)隊(duì)共用流程、共享環(huán)境,開(kāi)發(fā)者與算力高效協(xié)同。平臺(tái)還提供了實(shí)時(shí)、可視化的數(shù)據(jù)支持,支持訓(xùn)練進(jìn)度、訓(xùn)練結(jié)果、資源利用情況等數(shù)據(jù)的可視化展示,助力南開(kāi)大學(xué)精準(zhǔn)進(jìn)行算力調(diào)度。
浪潮信息提供的算力解決方案,為南開(kāi)大學(xué)程明明教授團(tuán)隊(duì)在圖像生成領(lǐng)域的研究提供了強(qiáng)大的算力支持和高效的資源調(diào)度能力,顯著提升了MDT圖像生成模型的訓(xùn)練速度和圖像質(zhì)量,對(duì)于藝術(shù)創(chuàng)作、游戲開(kāi)發(fā)乃至醫(yī)學(xué)影像分析等領(lǐng)域都有重大潛力。