深度分析 | 數(shù)據(jù)治理安全理論落地與實(shí)踐（中）：AI 引擎自我迭代

2022-08-16 14:00

1.研究背景

隨著近年我國半導(dǎo)體產(chǎn)業(yè)快速發(fā)展，人工智能技術(shù)不斷積累迭代，軟硬一體的智能芯片等核心技術(shù)研究取得重要突破，AI也在數(shù)字時(shí)代扮演著越來越重要的角色，正加速融入電信運(yùn)營商、能源交通、醫(yī)療、教育、制造業(yè)、物流、直播等多個(gè)領(lǐng)域，加之“東數(shù)西算”新基建相關(guān)云計(jì)算數(shù)據(jù)中心大規(guī)模投入使用，帶來 AI 算力的大幅提升，算力充沛，不斷賦能創(chuàng)造出新業(yè)態(tài)、新模式行業(yè)場(chǎng)景，實(shí)現(xiàn)大數(shù)據(jù)集成的迭代創(chuàng)新，多場(chǎng)景智能應(yīng)用，提高生產(chǎn)過程自動(dòng)數(shù)字化程度，同時(shí)推動(dòng)經(jīng)濟(jì)社會(huì)發(fā)展全要素智能化革新，釋放數(shù)據(jù)要素紅利，創(chuàng)新美好未來。

社會(huì)生產(chǎn)能夠源源不斷地產(chǎn)生海量大數(shù)據(jù)，但數(shù)據(jù)作為新型的生產(chǎn)要素，是通過不斷采集、清洗、轉(zhuǎn)換、分類、打標(biāo)等流程完成整個(gè)數(shù)據(jù)資產(chǎn)積累過程，在這個(gè)過程中機(jī)器學(xué)習(xí)算法，尤其是深度學(xué)習(xí)算法，通過獲得海量的數(shù)據(jù)，能夠不間斷進(jìn)行密集型矩陣計(jì)算訓(xùn)練，訓(xùn)練可以幫助算法優(yōu)化，實(shí)現(xiàn)AI引擎更新和升級(jí)，完成AI深度學(xué)習(xí)模型的進(jìn)化，豐富行業(yè)知識(shí)圖譜，提升數(shù)據(jù)質(zhì)量，為AI提供優(yōu)質(zhì)可靠的“數(shù)據(jù)燃料”，從而進(jìn)入到 AI 引擎自我迭代的全新階段。

$\" src=$ 圖1. AI 引擎分層架構(gòu)圖

2.AI引擎進(jìn)入自我迭代階段

當(dāng)前，我國新基建建設(shè)強(qiáng)調(diào)產(chǎn)業(yè)融合，除了發(fā)揮數(shù)據(jù)的生產(chǎn)要素效能，比如：能源上下游產(chǎn)業(yè)打通并帶動(dòng)車聯(lián)網(wǎng)、物聯(lián)網(wǎng)平臺(tái)迅速發(fā)展，節(jié)點(diǎn)傳感器廣泛連接也帶來數(shù)據(jù)量的暴增，不斷突破，促使數(shù)據(jù)存儲(chǔ)處理相關(guān)的基礎(chǔ)設(shè)施加速“擴(kuò)容”，不僅實(shí)現(xiàn)數(shù)據(jù)在內(nèi)部流動(dòng)，甚至跨行業(yè)流動(dòng)，還要推動(dòng)數(shù)據(jù)要素跨越行業(yè)邊界，組成全新的生態(tài)網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)，數(shù)據(jù)要素是企業(yè)組織數(shù)字化轉(zhuǎn)型的成果。

那么，隨之而來的是企業(yè)組織數(shù)字化轉(zhuǎn)型，是要在解決數(shù)據(jù)要素生產(chǎn)的迫切需求的同時(shí)兼顧數(shù)據(jù)資產(chǎn)到數(shù)據(jù)要素的轉(zhuǎn)化成本，能夠讓企業(yè)組織更快更好實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)化的數(shù)據(jù)治理安全理論越來越倍受關(guān)注和重視，有助于提升數(shù)據(jù)價(jià)值。

根據(jù)IDC研究表明，到2025年，全球數(shù)據(jù)量將會(huì)從2016年的16 ZB上升至163ZB。著名研究機(jī)構(gòu)Garter也表示，全球信息量正以59%以上的年增長率快速增長，在這些數(shù)據(jù)中，結(jié)構(gòu)化數(shù)據(jù)僅占到全部數(shù)據(jù)量的20%，其余80%都是以文件形式存在的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)，日志文件、機(jī)器數(shù)據(jù)等又占據(jù)非結(jié)構(gòu)化數(shù)據(jù)的90%。對(duì)于企業(yè)組織而言，不僅面對(duì)已有的龐大冗余舊數(shù)據(jù)，未來還會(huì)有大幅激增的新類型數(shù)據(jù)，企業(yè)組織要管理和運(yùn)用好海量的數(shù)據(jù)并對(duì)這些數(shù)據(jù)進(jìn)行有效地挖掘，需要借助數(shù)據(jù)治理安全平臺(tái)落地實(shí)踐。因?yàn)榫邆銩I引擎自我迭代能力的平臺(tái)對(duì)數(shù)據(jù)識(shí)別分類的準(zhǔn)確率能夠達(dá)到90%以上，所以數(shù)據(jù)治理安全建設(shè)離不開AI 引擎助力，不斷自我迭代的AI引擎才能消化掉海量數(shù)據(jù)。

$\" src=$

圖2. AI 引擎的自我迭代

3.AI引擎的自我迭代之路

AI引擎自我迭代的過程是利用機(jī)器學(xué)習(xí)模型，模仿人腦的機(jī)制來解釋數(shù)據(jù)，例如：圖像、聲音和文本，訓(xùn)練好的AI模型，能夠自動(dòng)提取字符集、詞級(jí)、句子級(jí)的特征，結(jié)合上下文信息，完整的保留文本中短語級(jí)別特征信息，實(shí)現(xiàn)多源數(shù)據(jù)融合、數(shù)據(jù)采集頻率、數(shù)據(jù)標(biāo)準(zhǔn)建立、數(shù)據(jù)質(zhì)量管理，滿足AI模型所需數(shù)據(jù)的規(guī)模、質(zhì)量和時(shí)效，以提升模型擬合的效果。

首先是AI引擎早期小樣本數(shù)據(jù)學(xué)習(xí)階段?；跈C(jī)器學(xué)習(xí)、自然語言理解和知識(shí)圖譜訓(xùn)練所需的數(shù)據(jù)原料篩選需要人工監(jiān)督，通過人工不斷地提供結(jié)構(gòu)化、特征化處理和數(shù)據(jù)質(zhì)量的優(yōu)化服務(wù)，根據(jù)數(shù)據(jù)特征和用戶需求進(jìn)行動(dòng)態(tài)調(diào)整和反饋，知識(shí)圖譜搭建也需要大量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)支持來開展工作，在結(jié)構(gòu)化數(shù)據(jù)基礎(chǔ)上，將半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)納入數(shù)據(jù)源并支持AI引擎分析使用。

其次是AI引擎進(jìn)行數(shù)據(jù)分析階段。數(shù)據(jù)質(zhì)量的高度敏感要求，數(shù)據(jù)質(zhì)量的優(yōu)劣極大程度影響AI模型的應(yīng)用效果，必須進(jìn)行多維度的質(zhì)量檢查，以及對(duì)實(shí)時(shí)性高要求，實(shí)時(shí)數(shù)據(jù)分析、推薦和預(yù)警時(shí)，數(shù)據(jù)源更強(qiáng)調(diào)具備實(shí)時(shí)性接入能力。利用深度神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)AI模型的自我更新和優(yōu)化，尤其是視覺圖像識(shí)別應(yīng)用領(lǐng)域。比如：當(dāng)傳感器檢測(cè)到產(chǎn)品存在時(shí)，光源觸發(fā)并點(diǎn)亮產(chǎn)品區(qū)域，幀抓取器的數(shù)字化設(shè)備將這些原始數(shù)據(jù)轉(zhuǎn)換成數(shù)字輸出，然后這些數(shù)據(jù)作為數(shù)字文件由軟件系統(tǒng)存儲(chǔ)在計(jì)算機(jī)中，以供進(jìn)一步對(duì)比分析預(yù)先輸入的產(chǎn)品參數(shù)數(shù)據(jù)。如果這些數(shù)據(jù)有缺陷，AI引擎識(shí)別問題并學(xué)習(xí)如何解決，進(jìn)行數(shù)據(jù)質(zhì)量控制。

最后是AI引擎的自我迭代階段。通過打造AI引擎對(duì)數(shù)據(jù)的閉環(huán)流通管理，建立數(shù)據(jù)采集和回饋分析的閉環(huán)式自學(xué)習(xí)體系，基于實(shí)時(shí)數(shù)據(jù)處理、實(shí)時(shí)特征開發(fā)和實(shí)時(shí)應(yīng)用開發(fā)等數(shù)據(jù)架構(gòu)的搭建，將流式數(shù)據(jù)的接入實(shí)時(shí)反饋到模型運(yùn)行輸出，使模型結(jié)果更加及時(shí)準(zhǔn)確。達(dá)到AI模型上線后的持續(xù)迭代優(yōu)化。為了讓Al模型的預(yù)測(cè)結(jié)果更加準(zhǔn)確，可將模型運(yùn)行后的結(jié)果數(shù)據(jù)更新反饋給Al模型，利用實(shí)時(shí)閉環(huán)數(shù)據(jù)進(jìn)行自學(xué)習(xí)，強(qiáng)化反饋回路以優(yōu)化模型算法，防止模型效果因長時(shí)間使用而效果變差。比如，數(shù)據(jù)智能分類分級(jí)模型持續(xù)用舊模型預(yù)測(cè)新數(shù)據(jù)，不更新閉環(huán)數(shù)據(jù)反饋的話，隨著時(shí)間的流逝，模型將逐漸降低精準(zhǔn)分類分級(jí)效果，導(dǎo)致數(shù)據(jù)分類分級(jí)的效果越來越差。

一個(gè)好的數(shù)據(jù)治理安全解決方案必須做到算力、算法和數(shù)據(jù)的象限聚焦。在數(shù)據(jù)治理安全平臺(tái)，通過AI引擎對(duì)數(shù)據(jù)的深度加工與精煉，依賴算力、算法將數(shù)據(jù)訓(xùn)練成行業(yè)專用的知識(shí)圖譜模型，進(jìn)而實(shí)現(xiàn)包括結(jié)構(gòu)化、半/非結(jié)構(gòu)化數(shù)據(jù)的自動(dòng)發(fā)現(xiàn)，數(shù)據(jù)自動(dòng)分類分級(jí)打標(biāo)，數(shù)據(jù)資產(chǎn)化，數(shù)據(jù)質(zhì)量在數(shù)據(jù)字段豐富度、數(shù)據(jù)分布和數(shù)據(jù)實(shí)時(shí)性等維度應(yīng)用提升。

$\" src=$ 圖3. 機(jī)器學(xué)習(xí)技術(shù)框架應(yīng)用

4.AI引擎在數(shù)據(jù)治理安全平臺(tái)應(yīng)用實(shí)踐

積累沉淀行業(yè)業(yè)務(wù)場(chǎng)景的數(shù)據(jù)治理和模型開發(fā)經(jīng)驗(yàn)，搭建數(shù)據(jù)治理安全平臺(tái)，采用具備自我迭代的AI引擎，能夠自動(dòng)對(duì)AI數(shù)據(jù)形式進(jìn)行標(biāo)準(zhǔn)定義，將特征工程標(biāo)準(zhǔn)化、自動(dòng)化、智能化，快速對(duì)接得到可被機(jī)器理解的結(jié)構(gòu)化、半/非結(jié)構(gòu)化數(shù)據(jù)，投喂給AI引擎，縮短掃描敏感數(shù)據(jù)發(fā)現(xiàn)時(shí)間，提高數(shù)據(jù)自動(dòng)分類分級(jí)打標(biāo)效率，從而自動(dòng)改善數(shù)據(jù)質(zhì)量。

AI 引擎從全域全量數(shù)據(jù)自動(dòng)發(fā)現(xiàn)到暗數(shù)據(jù)掃描再到數(shù)據(jù)分類分級(jí)的階段，借助文本聚類等技術(shù)，對(duì)數(shù)據(jù)進(jìn)行基于上下文的識(shí)別，精準(zhǔn)分類分級(jí)，快速整理高頻詞根并將數(shù)據(jù)分類標(biāo)簽與敏感度自動(dòng)映射，建立數(shù)據(jù)分類分級(jí)標(biāo)準(zhǔn)和數(shù)據(jù)安全策略，通過深度學(xué)習(xí)自動(dòng)識(shí)別數(shù)據(jù)質(zhì)量，對(duì)數(shù)據(jù)質(zhì)量進(jìn)行效果評(píng)估和智能修復(fù)，并根據(jù)數(shù)據(jù)量和業(yè)務(wù)階段的變化進(jìn)行動(dòng)態(tài)更新；建立起業(yè)務(wù)部門與系統(tǒng)之間、多環(huán)節(jié)業(yè)務(wù)流程的信息采集、關(guān)聯(lián)和交互，提高數(shù)據(jù)要素流通效率和精確度。

首先是全域全量數(shù)據(jù)自動(dòng)接入。接入多源異構(gòu)數(shù)據(jù)源，挖掘企業(yè)組織內(nèi)外部信息，納入結(jié)構(gòu)化數(shù)據(jù)，半/非結(jié)構(gòu)化數(shù)據(jù)，提升與AI模型相關(guān)的數(shù)據(jù)積累?？紤]到數(shù)據(jù)訓(xùn)練規(guī)模擴(kuò)張，數(shù)據(jù)類型異構(gòu)，數(shù)據(jù)噪聲指數(shù)級(jí)增加，對(duì)此AI 引擎能針對(duì)性地進(jìn)行數(shù)據(jù)自動(dòng)發(fā)現(xiàn)。企業(yè)組織存在大量的暗數(shù)據(jù)無法通過人工完全發(fā)現(xiàn)，被動(dòng)地通過流量監(jiān)測(cè)方法去分析流量中的數(shù)據(jù)包，僅能使用少量暗數(shù)據(jù)，企業(yè)組織往往很難具備將大量暗數(shù)據(jù)的價(jià)值進(jìn)行挖掘的能力，暗數(shù)據(jù)只能“埋沒在角落里，無人問津”，AI 引擎有助于掃描到這些暗數(shù)據(jù)，即使是碎片化數(shù)據(jù)，也能進(jìn)行聚類分析，最大限度利用。

其次是數(shù)據(jù)自動(dòng)分類分級(jí)打標(biāo)。在行業(yè)數(shù)據(jù)訓(xùn)練集中，對(duì)各數(shù)據(jù)資源的字段信息進(jìn)行人工分詞、標(biāo)注，形成行業(yè)數(shù)據(jù)分類分級(jí)詞庫、語料庫、規(guī)則庫以及模型庫；然后利用規(guī)則引擎實(shí)現(xiàn)初步的行業(yè)數(shù)據(jù)分類分級(jí)；再結(jié)合深度學(xué)習(xí)聚類算法，AI 引擎驅(qū)動(dòng)數(shù)據(jù)分類分級(jí)全流程各環(huán)節(jié)，對(duì)數(shù)據(jù)分類和分級(jí)的規(guī)則進(jìn)行適配、更新和維護(hù)，定期核驗(yàn)規(guī)則合理性，動(dòng)態(tài)完善規(guī)則庫，隨規(guī)則變化進(jìn)行迭代更新，滿足規(guī)則靈活適配和管理要求，實(shí)施持續(xù)迭代訓(xùn)練和學(xué)習(xí)，使得AI 引擎能夠自動(dòng)發(fā)現(xiàn)高敏感度、高價(jià)值數(shù)據(jù)，對(duì)行業(yè)數(shù)據(jù)自動(dòng)智能分類分級(jí)打標(biāo)并能進(jìn)行動(dòng)態(tài)調(diào)整更新。

最后是數(shù)據(jù)質(zhì)量的自動(dòng)改善。對(duì)接入的多源異構(gòu)數(shù)據(jù)從數(shù)據(jù)有效性、數(shù)據(jù)一致性、數(shù)據(jù)唯一性、數(shù)據(jù)時(shí)序性、數(shù)據(jù)完備性、數(shù)據(jù)完整性、數(shù)據(jù)合理性和數(shù)據(jù)準(zhǔn)確性六個(gè)維度進(jìn)行質(zhì)量管理，在數(shù)據(jù)融合過程中，AI引擎能夠?qū)?shù)據(jù)有效性、一致性和唯一性三個(gè)維度進(jìn)行重新判斷，如：非結(jié)構(gòu)化數(shù)據(jù)在清洗處理后與結(jié)構(gòu)化數(shù)據(jù)出現(xiàn)實(shí)體重復(fù)或內(nèi)容不一致的情況。

場(chǎng)景舉例：海石平臺(tái)AI引擎如何解決工業(yè)高頻高價(jià)值應(yīng)用下的數(shù)據(jù)痛點(diǎn)。由于工業(yè)機(jī)理數(shù)據(jù)具備多樣、時(shí)序與復(fù)雜性特征，線下海量數(shù)據(jù)待挖掘，從驅(qū)動(dòng)經(jīng)濟(jì)效益的高頻高價(jià)值業(yè)務(wù)場(chǎng)景需求出發(fā)，使用AI引擎自動(dòng)發(fā)現(xiàn)數(shù)據(jù)，對(duì)數(shù)據(jù)整合、數(shù)據(jù)分類與清洗、模型訓(xùn)練，優(yōu)化迭代，實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)化目標(biāo)。

$\" src=$ 圖4. 數(shù)據(jù)治理安全平臺(tái)AI引擎框架

5.AI引擎在行業(yè)數(shù)據(jù)治理安全領(lǐng)域的持續(xù)優(yōu)化

由于工業(yè)數(shù)據(jù)來源眾多，既有經(jīng)營管理財(cái)務(wù)數(shù)據(jù)，還有工業(yè)生產(chǎn)制造數(shù)據(jù)及傳感器設(shè)備的海量數(shù)據(jù)等，并且數(shù)據(jù)采集設(shè)備種類多、接口復(fù)雜。打通數(shù)據(jù)，讓數(shù)據(jù)匯聚，可共享流轉(zhuǎn)應(yīng)用是工業(yè)數(shù)據(jù)的數(shù)據(jù)治理安全痛點(diǎn)。

工業(yè)數(shù)字化轉(zhuǎn)型過程中將產(chǎn)生龐大量級(jí)的時(shí)序數(shù)據(jù)，因此對(duì)時(shí)序數(shù)據(jù)的測(cè)點(diǎn)范圍選取、采集頻率考量、高并發(fā)高吞吐能力、能否支持云邊協(xié)同及實(shí)時(shí)應(yīng)用。

在產(chǎn)品的設(shè)計(jì)加工和生產(chǎn)制造流程中，企業(yè)需對(duì)時(shí)序數(shù)據(jù)的采集、存儲(chǔ)、查詢、處理和分析，實(shí)時(shí)監(jiān)控企業(yè)正常的生產(chǎn)經(jīng)營過程。

工業(yè)產(chǎn)業(yè)鏈條長及工業(yè)機(jī)理復(fù)雜，需了解大量工業(yè)技術(shù)原理、行業(yè)知識(shí)、基礎(chǔ)工藝等，強(qiáng)調(diào)對(duì)工業(yè)背景的理解。

海石平臺(tái)AI引擎利用機(jī)器學(xué)習(xí)技術(shù)，工業(yè)機(jī)理數(shù)據(jù)自動(dòng)發(fā)現(xiàn)，數(shù)據(jù)分類分級(jí)的環(huán)節(jié)更加自動(dòng)化、智能化，可極大提升數(shù)據(jù)治理工作效率，同時(shí)基于自然語言理解和知識(shí)圖譜挖掘關(guān)聯(lián)數(shù)據(jù)的應(yīng)用價(jià)值，解決數(shù)據(jù)質(zhì)量管理的傳統(tǒng)難題，使治理后的數(shù)據(jù)更加契合AI應(yīng)用的要求，從效率和質(zhì)量加速AI引擎的自我迭代進(jìn)程。那么AI引擎不斷優(yōu)化也給企業(yè)組織帶來更多智能化轉(zhuǎn)型信心，加大相關(guān)數(shù)據(jù)治理安全項(xiàng)目的預(yù)算投入，進(jìn)一步推進(jìn)了相關(guān)數(shù)據(jù)治理安全體系建設(shè)，打造平臺(tái)共享數(shù)據(jù)使用，確保數(shù)據(jù)安全合規(guī)，釋放價(jià)值。

結(jié)論：當(dāng)下數(shù)據(jù)生產(chǎn)要素已成為中國數(shù)字經(jīng)濟(jì)轉(zhuǎn)型、工業(yè)智能化、實(shí)現(xiàn)高質(zhì)量發(fā)展重要驅(qū)動(dòng)力，數(shù)據(jù)共享使用無疑是正確發(fā)揮數(shù)據(jù)生產(chǎn)要素價(jià)值的最佳途徑，而人工智能則是加快數(shù)據(jù)共享使用的火箭推進(jìn)器引擎。如果以人工智能為核心的AI 引擎的能夠不斷自我迭代的話，不僅能夠加快企業(yè)組織數(shù)據(jù)治理安全的效能，而且會(huì)對(duì)各行各業(yè)乃至中國數(shù)字經(jīng)濟(jì)和整體社會(huì)發(fā)展都有著至關(guān)重要的戰(zhàn)略意義。

$\" src=$ 圖5. 數(shù)據(jù)治理安全平臺(tái)可視化展示

消息來源：CIO時(shí)代網(wǎng)