浪潮信息發(fā)布 "源2.0-M32" 開源大模型，大幅提升模算效率

浪潮信息

2024-05-30 17:52 2729

北京2024年5月30日 /美通社/ -- 5月28日，浪潮信息發(fā)布"源2.0-M32"開源大模型。"源2.0-M32"在基于"源2.0"系列大模型已有工作基礎上，創(chuàng)新性地提出和采用了"基于注意力機制的門控網絡"技術，構建包含32個專家（Expert）的混合專家模型（MoE），并大幅提升了模型算力效率，模型運行時激活參數(shù)為37億，在業(yè)界主流基準評測中性能全面對標700億參數(shù)的LLaMA3開源大模型。

在算法層面，源2.0-M32提出并采用了一種新型的算法結構：基于注意力機制的門控網絡（Attention Router），針對MoE模型核心的專家調度策略，這種新的算法結構關注專家模型之間的協(xié)同性度量，有效解決傳統(tǒng)門控網絡下，選擇兩個或多個專家參與計算時關聯(lián)性缺失的問題，使得專家之間協(xié)同處理數(shù)據的水平大為提升。源2.0-M32采用源2.0-2B為基礎模型設計，沿用并融合局部過濾增強的注意力機制（LFA, Localized Filtering-based Attention），通過先學習相鄰詞之間的關聯(lián)性，然后再計算全局關聯(lián)性的方法，能夠更好地學習到自然語言的局部和全局的語言特征，對于自然語言的關聯(lián)語義理解更準確，進而提升了模型精度。

Figure1- 基于注意力機制的門控網絡（Attention Router）

在數(shù)據層面，源2.0-M32基于2萬億的token進行訓練、覆蓋萬億量級的代碼、中英文書籍、百科、論文及合成數(shù)據。大幅擴展代碼數(shù)據占比至47.5%，從6類最流行的代碼擴充至619類，并通過對代碼中英文注釋的翻譯，將中文代碼數(shù)據量增大至1800億token。結合高效的數(shù)據清洗流程，滿足大模型訓練"豐富性、全面性、高質量"的數(shù)據集需求?；谶@些數(shù)據的整合和擴展，源2.0-M32在代碼生成、代碼理解、代碼推理、數(shù)學求解等方面有著出色的表現(xiàn)。

在算力層面，源2.0-M32采用了流水并行的方法，綜合運用流水線并行+數(shù)據并行的策略，顯著降低了大模型對芯片間P2P帶寬的需求，為硬件差異較大訓練環(huán)境提供了一種高性能的訓練方法。針對MOE模型的稀疏專家計算，采用合并矩陣乘法的方法，模算效率得到大幅提升。

基于在算法、數(shù)據和算力方面全面創(chuàng)新，源2.0-M32的性能得以大幅提升，在多個業(yè)界主流的評測任務中，展示出了較為先進的能力表現(xiàn)，在MATH（數(shù)學競賽）、ARC-C（科學推理）榜單上超越了擁有700億參數(shù)的LLaMA3大模型。

Figure2 源2.0-M32業(yè)界主流評測任務表現(xiàn)

源2.0-M32大幅提升了模型算力效率，在實現(xiàn)與業(yè)界領先開源大模型性能相當?shù)耐瑫r，顯著降低了在模型訓練、微調和推理所需的算力開銷。在模型推理運行階段，M32處理每token所需算力為7.4GFLOPs，而LLaMA3-70B所需算力為140GFLOPs。在模型微調訓練階段，對1萬條平均長度為1024 token的樣本進行全量微調，M32消耗算力約0.0026PD(PetaFLOPs/s-day)，而LLaMA3消耗算力約為0.05PD。M32憑借特別優(yōu)化設計的模型架構，在僅激活37億參數(shù)的情況下，取得了和700億參數(shù)LLaMA3相當?shù)男阅芩?，而所消耗算力僅為LLaMA3的1/19，從而實現(xiàn)了更高的模算效率。

浪潮信息人工智能首席科學家吳韶華表示：當前業(yè)界大模型在性能不斷提升的同時，也面臨著所消耗算力大幅攀升的問題，對企業(yè)落地應用大模型帶來了極大的困難和挑戰(zhàn)。源2.0-M32是浪潮信息在大模型領域持續(xù)耕耘的最新探索成果，通過在算法、數(shù)據、算力等方面的全面創(chuàng)新，M32不僅可以提供與業(yè)界領先開源大模型相當?shù)男阅?，更可以大幅降低大模型所需算力消耗?b>大幅提升的模算效率將為企業(yè)開發(fā)應用生成式AI提供模型高性能、算力低門檻的高效路徑。M32開源大模型配合企業(yè)大模型開發(fā)平臺EPAI（Enterprise Platform of AI），將助力企業(yè)實現(xiàn)更快的技術迭代與高效的應用落地，為人工智能產業(yè)的發(fā)展提供堅實的底座和成長的土壤，加速產業(yè)智能化進程。

源2.0-M32將持續(xù)采用全面開源策略，全系列模型參數(shù)和代碼均可免費下載使用。

代碼開源鏈接：https://github.com/IEIT-Yuan/Yuan2.0-M32

模型下載鏈接：
Huggingface：https://huggingface.co/IEITYuan/Yuan2-M32-hf
ModelScope：https://modelscope.cn/models/YuanLLM/Yuan2-M32-hf/summary

消息來源：浪潮信息