北京2020年10月15日 /美通社/ -- 近日,“浪潮云數(shù)智中國行-重慶站”現(xiàn)場,重慶郵電大學計算機學院/人工智能學院執(zhí)行院長張清華做了題為《人工智能發(fā)展的內(nèi)驅(qū)動力》的主題演講。張清華院長分享了人工智能時代下數(shù)據(jù)、算法和算力的發(fā)展,尤其對人工智能時代下的“數(shù)據(jù)科學”做了精彩的解讀。
隨著計算機、互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)與物聯(lián)網(wǎng)的發(fā)展,我們已經(jīng)進入了以數(shù)據(jù)為主體的數(shù)字化進程中,科學研究也已經(jīng)走向“數(shù)據(jù)科學”第四范式。數(shù)據(jù)是數(shù)字世界的基本要素,也是人工智能的生產(chǎn)資料。然而,目前我們對數(shù)據(jù)的挖掘與探索仍然停留在表層,并未發(fā)現(xiàn)數(shù)據(jù)本身的新規(guī)律、新知識,并由此創(chuàng)造新的價值。面對數(shù)據(jù)的挑戰(zhàn),深化人工智能發(fā)展,重大的科學基礎(chǔ)設(shè)施建設(shè)必不可少。
將重慶郵電大學建設(shè)為“重慶市大數(shù)據(jù)智能化的一個實驗場所、人才高地、科技高地”,是重慶市的重要戰(zhàn)略部署。目前,重慶郵電大學正加緊籌劃建設(shè)“大數(shù)據(jù)試驗場”,推動科學基礎(chǔ)設(shè)施的建設(shè),為重慶市以大數(shù)據(jù)智能化為引領(lǐng)的創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略提供強有力的基礎(chǔ)設(shè)施支撐。2020年7月,重慶郵電大學與浪潮攜手打造了計算性能達每秒千萬億次規(guī)模的人工智能創(chuàng)新平臺,作為重郵的核心算力底座,支撐起重郵的大數(shù)據(jù)智能化研究,切實推動重慶市的智慧新基建發(fā)展與國家新一代人工智能創(chuàng)新發(fā)展試驗區(qū)建設(shè)。
以下為張清華院長演講實錄(節(jié)選):
數(shù)字世界來臨,數(shù)據(jù)成為生產(chǎn)資料
人工智能的三大要素是算法、算力和數(shù)據(jù)。其中,數(shù)據(jù)是人工智能時代的生產(chǎn)資料。那么我們?yōu)槭裁催M入數(shù)字世界,被數(shù)據(jù)包圍?首先要提到的是計算機的發(fā)展,計算機令一切數(shù)字化成為可能,也讓高效計算成為可能,我們已經(jīng)身處數(shù)字化進程中,是抵擋不住的潮流。第二,網(wǎng)絡(luò)的發(fā)明讓機器的互聯(lián)互通成為可能,讓信息高效匯聚成為可能。第三,移動互聯(lián)網(wǎng)的發(fā)展使得我們的數(shù)據(jù)從固定終端轉(zhuǎn)移到移動終端,變?yōu)槲覀兊氖謾C、iPad。第四,物聯(lián)網(wǎng)通過傳感器,使人與人之間、人與物之間、物與物之間構(gòu)建起萬物互聯(lián)的數(shù)據(jù)世界,讓現(xiàn)實世界精確映射到數(shù)字世界成為可能。實際上我們每個人都是數(shù)字世界的最基本要素和數(shù)據(jù)生產(chǎn)者,每個人都在數(shù)字世界上對自己進行畫像,最后匯聚成一個數(shù)字海洋,也就是我們今天所說的“數(shù)字世界”。
在人類社會誕生前,世界上我只有一維空間,即物理空間。有人類社會后,我們說形成了包含社會空間在內(nèi)的二維空間,現(xiàn)在我們給自己構(gòu)造了一個第三空間,就叫數(shù)字空間。在三維空間里,除了物理空間、社會空間,還有虛擬的數(shù)字空間。數(shù)字世界現(xiàn)在正在逐漸形成,其基本要素就是數(shù)據(jù),數(shù)字世界就是我們現(xiàn)實世界的基本映射,有人提出是孿生世界。我個人認為,這個映射空間目前還不是孿生,未來可能構(gòu)建從物理世界到數(shù)字世界的雙生,可能那時候提“數(shù)字人”會更為準確。
數(shù)據(jù)科學作為第四范式
2013年被稱為大數(shù)據(jù)元年,后來國家每年都在制定計劃推動大數(shù)據(jù)發(fā)展,我們?nèi)绾沃卫頂?shù)據(jù)世界,如何應(yīng)用數(shù)據(jù)世界?對應(yīng)的就需要處理數(shù)據(jù)的科學,因此,大數(shù)據(jù)戰(zhàn)略推出后,“數(shù)據(jù)科學”應(yīng)運而生。
什么是數(shù)據(jù)科學,我查了很多資料,但是沒有很準確的定義。有人這樣說過,要成為一門科學,背后一定要有基礎(chǔ)理論支撐。我們的人工智能發(fā)展得非常繁榮,然而,繁榮主要是在應(yīng)用端??梢哉f,治理數(shù)據(jù)的模型、方法都還在路上?,F(xiàn)在,應(yīng)用實踐已經(jīng)倒逼我們做理論研究、基礎(chǔ)理論分析。
科學研究的第一范式是實驗科學,第二范式是理論科學,第三范式是計算科學,第四范式就是數(shù)據(jù)密集型科學,也即“數(shù)據(jù)科學”,它以數(shù)據(jù)挖掘為依據(jù),也就是數(shù)據(jù)世界形成后我們希望從數(shù)據(jù)當中獲取其本身蘊含的規(guī)律和價值。然而,目前我們在數(shù)字世界中能還原現(xiàn)實世界的規(guī)律,但是還沒有發(fā)現(xiàn),數(shù)據(jù)世界本身的新規(guī)律。
“數(shù)據(jù)科學”的特征我主要說三個。第一是不在意數(shù)據(jù)的雜亂,而在意數(shù)據(jù)的量;第二是不要求數(shù)據(jù)精準,而強調(diào)數(shù)據(jù)面面俱到。面面俱到的含義不是涵蓋所有數(shù)據(jù),而是各個方面都要有代表性數(shù)據(jù),這就離不開概率論支持。第三是不追求因果關(guān)系,但重視統(tǒng)計規(guī)律。這意味著不只追求因果關(guān)系,更多在于追求關(guān)聯(lián)關(guān)系。
科學研究的前三種范式都屬于知識范式,它們的重要特征就是從數(shù)據(jù)特征里面挖掘出能夠被我們理解的知識。數(shù)據(jù)科學范式下,有一個不一樣的思維方式:我們是否可以挖掘出客觀存在但人類無法理解的知識呢?數(shù)據(jù)科學的內(nèi)涵知識,是否可以通過數(shù)字世界的特殊方式直接解決問題?我認為數(shù)據(jù)科學范式下挖掘出來知識,可能我們理解不了,但是機器能理解,這種規(guī)律應(yīng)該是數(shù)據(jù)范式下我們?nèi)ヌ剿骱退伎嫉摹?/p>
建設(shè)大數(shù)據(jù)試驗場驅(qū)動數(shù)據(jù)科學發(fā)展
要探索數(shù)據(jù)世界、治理數(shù)據(jù)世界,就必須發(fā)展“數(shù)據(jù)科學”,這是一個重要前提。每一個科學都需要探索,在探索過程中都需要做試驗或者實驗。試驗是探索,實驗是驗證。我想,最重要的事情就是做“大數(shù)據(jù)試驗場”。大數(shù)據(jù)試驗場想做的就是驅(qū)動數(shù)據(jù)科學發(fā)展,探索數(shù)字世界的奧秘,換一個角度看世界。
為什么要建大數(shù)據(jù)試驗場呢?因為數(shù)據(jù)孤島的存在,我們現(xiàn)在的一些數(shù)據(jù)挖掘方法,只能挖到一些很低端的淺層次的數(shù)據(jù),更深層次的怎樣進行挖掘,需要新的挖掘方法和新的理論,就需要建設(shè)試驗場。做一個比較淺顯易懂的對比方式,試驗場跟礦場是類似的。
目前,重郵正在建設(shè)“大數(shù)據(jù)試驗場”,我們建設(shè)大數(shù)據(jù)試驗場的目的是探索數(shù)據(jù)科學本身的內(nèi)涵、探究數(shù)據(jù)科學本身規(guī)律,然后引導產(chǎn)業(yè)創(chuàng)新,引導行業(yè)的發(fā)展。我們在浪潮等一些知名企業(yè)的指導下,構(gòu)建了千萬元級的算力,但長期目標是打造示范性算力基礎(chǔ)設(shè)施,構(gòu)建大數(shù)據(jù)試驗場基礎(chǔ)設(shè)施,在高校中打造算力平臺的典范,為重慶市實施大數(shù)據(jù)智能化發(fā)展作出貢獻。
最后,歡迎大家到重郵來,也對本次2020浪潮云數(shù)智峰會的召開表示祝賀,謝謝大家!