浪潮AI加速中國頂尖語言聲學研究

浪潮

2020-09-02 19:52 9557

在中國科學院語言聲學與內(nèi)容理解重點實驗室，浪潮AGX-5支撐著數(shù)十項以音頻為核心的人工智能重大項目研究。

北京2020年9月2日 /美通社/ -- 在中國科學院語言聲學與內(nèi)容理解重點實驗室，浪潮AGX-5支撐著數(shù)十項以音頻為核心的人工智能重大項目研究。相比原AI集群方案，AGX-5以強大的單機訓練性能，將人工智能模型的整體訓練速度提升了2-3倍。

語音是人類進行信息交互的一種重要方式，但對計算機或者機器人來說，理解語音并不是一件容易的事情。讓機器“能聽會說”是人工智能科學家期望實現(xiàn)的一大重要目標。如今很多語音技術(shù)已經(jīng)走出實驗室，在現(xiàn)實中應(yīng)用落地，如智能音箱、迎賓機器人、智能語音導航、語音輸入……讓人們的生產(chǎn)生活更加便利。這些成果離不開眾多科研機構(gòu)的努力，其中就包括中國科學院語言聲學與內(nèi)容理解重點實驗室（以下簡稱實驗室）。

該實驗室是我國語言聲學領(lǐng)域最大的國立研究機構(gòu)。經(jīng)過近20年發(fā)展，實驗室從最初的6人發(fā)展成為包含51名固定人員、總?cè)藬?shù)200余人的科研力量，被譽為“中國智能語音人才的搖籃”。

語言聲學研究改變中國

實驗室布局于音頻聽感知、語音識別和面向聲學應(yīng)用的大數(shù)據(jù)分析等研究方向，全方位覆蓋了以音頻為核心的媒體內(nèi)容理解研究內(nèi)容。目前，實驗室承擔著多項國家級和國際合作研究項目，如中科院戰(zhàn)略性先導專項“面向感知中國的新一代信息技術(shù)”媒體內(nèi)容項目、中日韓前瞻計劃A3項目“面向下一代互聯(lián)網(wǎng)的超臨場感聲通信應(yīng)用研究”、自然科學基金杰青項目“面向語音處理的言語聲學數(shù)字化建?！?、基金重大研究計劃重點支持項目“多人多方對話中的語音分離、內(nèi)容分析與理解”、聲學所率先行動計劃項目“以音頻驅(qū)動的媒體深度理解關(guān)鍵技術(shù)研究“等等，科研任務(wù)十分繁重。

實驗室的研究項目對于社會生產(chǎn)、生活的發(fā)展有著十分重要的價值和意義。以語音聽覺感知研究方向為例，通過深入研究多種復(fù)雜因素對語音聽覺感知的影響機理，探索復(fù)雜聲學環(huán)境下的語音感知機制及其建模方法，可能會使聽力障礙患者過上正常人的生活。據(jù)2016年3月公布的《全國聽力障礙與耳病調(diào)查結(jié)果》，我國有15.84%的人患有聽力障礙，其中中度以上聽力障礙的人占到總?cè)丝跀?shù)的5.17%。伴隨著我國老齡化趨勢加劇，聽力障礙總現(xiàn)患率仍在進一步升高，以語音技術(shù)為核心的助聽器具能夠直接為聽障患者帶來福音。此外，該研究方向所包含的三維音頻技術(shù)，通過研究人對真實三維聲學環(huán)境的感知機理，能夠?qū)⑻摂M現(xiàn)實技術(shù)的用戶體驗提高約50%，進一步促進真正的”沉浸式”用戶體驗實現(xiàn)。

目前，實驗室的部分研究成果已在多個領(lǐng)域得到應(yīng)用：在智能終端領(lǐng)域，推出了智能電視交互系統(tǒng)；在互聯(lián)網(wǎng)領(lǐng)域，先后跟百度、騰訊和阿里巴巴進行了卓有成效的合作，推出了語音輸入、語音和音樂檢索、語音客服等應(yīng)用；在廣電領(lǐng)域，實驗室的連續(xù)語音識別引擎成為該行業(yè)主流企業(yè)的標配，被索貝、大洋集成到各自的媒資管理系統(tǒng)和多媒體信息檢索系統(tǒng)，同時也被天脈聚源在其為電視臺提供新聞素材整理服務(wù)的云平臺中采用。

AGX-5助力語言聲學研究突破AI算力瓶頸

為了支撐重大項目的科研工作，實驗室在音頻內(nèi)容分析核心技術(shù)方面建立了全面的、具有國際水平的開發(fā)工具和處理平臺，主要包括非特定人大詞表連續(xù)語音識別系統(tǒng)、語種識別系統(tǒng)、說話人識別/確認系統(tǒng)、識別置信度評價關(guān)鍵詞檢測系統(tǒng)、發(fā)音評估系統(tǒng)、固定音頻檢測系統(tǒng)、口語理解和對話系統(tǒng)、噪聲消除系統(tǒng)、音頻水印編解碼系統(tǒng)、基于Hadoop的信息安全大數(shù)據(jù)分析系統(tǒng)等。同時，在基礎(chǔ)資源數(shù)據(jù)庫方面，實驗室建立了大規(guī)模的漢語、英語、朝鮮語、維語、日語等語種的語音基礎(chǔ)資源數(shù)據(jù)庫和音樂數(shù)據(jù)庫。

隨著研究項目的增多以及數(shù)據(jù)量的快速增加，實驗室的人工智能相關(guān)研究出現(xiàn)了AI計算資源緊張的局面，很多研究項目不得不“排隊”等待，科研進度與成果產(chǎn)出均受到重大影響。如自動語音識別的部分研究項目，每次需要訓練的語音數(shù)據(jù)樣本規(guī)模高達數(shù)萬小時，使用原有的分布式集群進行訓練，單次耗時就長達2周左右，AI算力已成為科研的“瓶頸”之一。

浪潮AI服務(wù)器AGX-5

實驗室希望在短時間內(nèi)完成海量非結(jié)構(gòu)數(shù)據(jù)的高速吞吐與并行訓練，需要計算平臺具備強大的模型優(yōu)化處理能力和高可擴展性，能夠支持更大規(guī)模設(shè)備間的分布式組網(wǎng)聯(lián)合訓練。為此，浪潮為實驗室設(shè)計并構(gòu)建了一套以AGX-5為核心的AI計算平臺，其單機訓練效率相比以往訓練集群實現(xiàn)了2-3倍的提升。

AGX-5是浪潮自研的新一代AI服務(wù)器，專為解決現(xiàn)代AI和深度學習需求的擴展難題而設(shè)計，單機計算性能高達2 PetaFLOPS。AGX-5采用業(yè)界最先進的AI計算芯片高速互聯(lián)架構(gòu)，可提供近乎線性的AI計算性能加速比。

實驗室主任顏永紅表示：“在以前，我們的研究人員經(jīng)常需要花費很多時間去等待計算資源，嚴重影響項目進度。使用浪潮AGX-5計算平臺后，模型訓練效率得到了很大的提升，開發(fā)周期大幅縮短?？蒲腥藛T可以將更多精力放在項目本身，推動了語言聲學研究和應(yīng)用落地的進程。”

消息來源：浪潮