北京2021年3月23日 /美通社/ -- 在數字化轉型戰(zhàn)略持續(xù)落地的今天,大數據分析與人工智能已成為各個行業(yè)挖掘數據價值、推動業(yè)務轉型升級的重要方式,但傳統的大數據平臺與人工智能平臺通常彼此獨立,構建一種從數據采集、數據預處理到模型訓練與推理的高效流程,經常存在基礎設施成本高、效率低下等一系列問題。
為了更好解決大數據分析與AI融合在開發(fā)和部署方面帶來的諸多疑難,浪潮云海Insight產品構建了端到端的智能計算解決方案,旨在將大數據預處理、模型訓練、模型推理與現有的數據處理工作流整合起來,基于傳統大數據分析平臺中的各種框架模型來簡化和加速人工智能業(yè)務的開發(fā)。
這個挑戰(zhàn)很嚴峻:傳統分析模式難以高效“回應”分布式端到端數據分析
通常傳統的人工智能學習框架與大數據分析平臺之間存在斷層,人工智能平臺由于不具備多元的數據接入及預處理能力,往往依賴外部(大數據平臺)預處理過的數據集進行分析;而傳統大數據平臺也沒有更多考量AI因素,自然難以為AI應用提供敏捷、高效的基礎設施支持。基于此,一個從無到有的AI應用場景搭建,往往面臨如下困難:
打造端到端智能計算解決方案:大數據與AI分析平臺要統一
大數據生態(tài)中,Apache Spark作為專為大規(guī)模數據處理而設計的計算引擎,其本身提供了很多Data Storage支持,可幫助操作者方便讀取HDFS、Parquet、Avro和HBase等格式;同時也提供了大量有用的API來完成數據的ETL、特征提取以及數據清洗等工作,還可以利用Spark MLlib完成一些傳統機器學習工作等。
而端到端的智能計算組件Analytics Zoo則可將Spark及AI生態(tài)中的TensorFlow、Keras 、BigDL等無縫整合到一個集成管道中,透明擴展至資源管理YARN集群,可便捷地將人工智能應用從單機擴展到大型集群,直接處理大規(guī)模生產環(huán)境中的數據并進行分布式訓練或推理,如此看來端到端的智能計算解決方案并不是重新開發(fā)各個組件,而是擁抱現有的開源生態(tài)。
此外Analytics Zoo 還為開發(fā)人員和用戶提供了多種分析和人工智能工具,以便更好地為端到端流水線提供支持,主要包括:簡單易用的抽象層,例如Spark DataFrame 和 ML 流水線支持、遷移學習支持以及服務 API 的 POJO 式模型等;面向圖像、文本和 3D 圖像的常用特征工程操作;內置的深度學習模型,例如文本分類、推薦和對象檢測;內置參考用例,例如時間序列異常檢測、欺詐檢測和圖像相似性搜索等。
如此形成的智能計算解決方案可以統一大數據與AI分析平臺,幫助用戶將數據存儲、數據處理以及訓練推理的流水線整合到一套基礎設施中,大幅提升方案的部署效率、資源利用率和系統的可擴展性,以此減少管理以及運維成本。
不斷探索:浪潮云海Insight關于“端到端智能計算”的實踐
作為面向海量數據存儲、計算、挖掘的一站式企業(yè)級大數據解決方案,浪潮云海Insight大數據平臺從用戶需求出發(fā)并結合業(yè)務場景,對端到端智能計算進行方案性POC及驗證,最終在平臺中將其技術產品化,包括智能計算相關組件的一鍵安裝部署、可視化運維、交互式智能數據分析體驗以及端到端AI流式推理等。
通過簡化大數據分析和人工智能的融合開發(fā)與部署,構建端到端的數據分析和深度學習應用流水線,進而打造統一的大數據分析和人工智能平臺,為用戶提供了更優(yōu)質的體驗。
該方案基于大數據HDFS存儲、Spark/Flink等計算以及Yarn資源調度來運行,將數據預處理、模型訓練、模型推理等通過Analytics Zoo構建在大數據平臺上,提供大數據分析和深度學習應用流水線,避免數據的反復遷移。
用戶可以便捷地將AI應用部署到現有的 YARN 集群,在“零”代碼更改的前提下將AI應用程序透明地擴展到大型集群,顯著節(jié)約企業(yè)在開發(fā)、優(yōu)化平臺等方面的時間與精力,具體可以達到:
重要的一點,得益于浪潮云海Insight大數據平臺在性能、數據管理、統一運維等方面的優(yōu)勢,以及對于Analytics Zoo的融合,該端到端智能計算解決方案如今能夠成功幫助政府、金融和互聯網等客戶構建高效、敏捷的大數據分析與人工智能平臺,助力數字化轉型。
伴隨大數據與人工智能的蓬勃發(fā)展,數智結合已成為大數據技術發(fā)展的必然趨勢。浪潮云海Insight將從數智深度融合的角度出發(fā),繼續(xù)加強端到端的大數據分析和人工智能的創(chuàng)新發(fā)展,為用戶提供更優(yōu)秀的解決方案。