北京2024年10月21日 /美通社/ -- 隨著數(shù)字化和智慧化的加速落地,數(shù)據(jù)中心的設(shè)備規(guī)模快速攀升。數(shù)據(jù)中心的Scale out給基礎(chǔ)設(shè)施運維管理帶來全新挑戰(zhàn)。以擁有10萬+設(shè)備的大規(guī)模數(shù)據(jù)中心為例,面對每日產(chǎn)生高達(dá)近30TB的設(shè)備運行狀態(tài)、億級監(jiān)控指標(biāo)、數(shù)千條告警推送等,如何秒級反饋海量并發(fā)需求,保證管理平臺穩(wěn)定運行?如何避免將每秒近千條的大規(guī)模設(shè)備告警風(fēng)暴強(qiáng)塞給客戶,進(jìn)行根因定位并避免誤報、漏報?這些挑戰(zhàn)正伴隨服務(wù)器、存儲和網(wǎng)絡(luò)設(shè)備規(guī)模的持續(xù)增長,成為超大規(guī)模數(shù)據(jù)中心管理亟待解決的難題。
浪潮信息InManage是一款面向數(shù)據(jù)中心基礎(chǔ)設(shè)施的智能管理平臺,通過統(tǒng)一接口、協(xié)議,能夠納管多達(dá)400種不同廠商、不同型號的服務(wù)器、存儲、網(wǎng)絡(luò)等機(jī)型,設(shè)備規(guī)模最多可達(dá)10萬臺,為超大規(guī)模數(shù)據(jù)中心運維提供智能均衡調(diào)度、實時精準(zhǔn)告警等管理功能。浪潮信息InManage通過智能均衡作業(yè)調(diào)度平臺,能夠在秒級內(nèi)處理超大規(guī)模數(shù)據(jù)中心億級實時并發(fā)運維管理數(shù)據(jù),并基于自研的告警管理框架,實現(xiàn)5秒內(nèi)響應(yīng)上千條告警風(fēng)暴,顯著降低告警誤報與漏報的風(fēng)險。InManage不僅創(chuàng)造了金融行業(yè)單一數(shù)據(jù)中心帶外管理的最大紀(jì)錄,還實現(xiàn)了數(shù)據(jù)中心基礎(chǔ)設(shè)施全生命周期管理,整體運維效率提升兩倍,為超大規(guī)模數(shù)據(jù)中心的穩(wěn)定、高效運行奠定了重要基礎(chǔ)。
10萬+超大規(guī)模設(shè)備集群管理,面臨穩(wěn)定性與實時性多重挑戰(zhàn)
隨著數(shù)據(jù)中心的規(guī)?;l(fā)展,服務(wù)器數(shù)量爆發(fā)式增長,數(shù)據(jù)中心設(shè)備規(guī)模從最初的1000臺增加到10萬臺,規(guī)模擴(kuò)大了100倍,涵蓋了不同年代和廠商的服務(wù)器、存儲、網(wǎng)絡(luò)設(shè)備等,設(shè)備種類多,內(nèi)存、電源、硬盤、風(fēng)扇等各類故障發(fā)生的不確定性大。對于不同設(shè)備的統(tǒng)一管理,一般運維管理平臺會在底層屏蔽設(shè)備差異,基于基線策略來實現(xiàn)納管。但隨著數(shù)據(jù)中心規(guī)模的驟增,數(shù)據(jù)中心運維管理的穩(wěn)定性和故障的實時精準(zhǔn)告警等挑戰(zhàn)變得日益嚴(yán)苛。
首要面對的挑戰(zhàn)是大規(guī)模數(shù)據(jù)中心基礎(chǔ)設(shè)施管理平臺的失穩(wěn)問題。大規(guī)?;A(chǔ)設(shè)施管理要對不同基礎(chǔ)設(shè)施運行狀態(tài)進(jìn)行實時分析,每天數(shù)據(jù)量達(dá)到TB級,而且海量并發(fā)需求要在秒級反饋,極易出現(xiàn)故障上報不及時、頁面卡頓,甚至管理平臺宕機(jī)。比如以往某客戶數(shù)據(jù)中心管理平臺進(jìn)行運維測試時,基礎(chǔ)設(shè)施規(guī)模從1000臺增長到5000臺,規(guī)模提升到原來的5倍,會出現(xiàn)管理頁面卡頓,后臺日志顯示大量采集任務(wù)超時的問題。即使后續(xù)對管理平臺進(jìn)行分布式部署,系統(tǒng)負(fù)載依然出現(xiàn)較明顯的峰值抖動現(xiàn)象,導(dǎo)致頁面周期性卡頓。其原因主要是作業(yè)被調(diào)度后,缺乏有效的離散管理,高峰與低谷負(fù)載不均,對系統(tǒng)穩(wěn)定性帶來極大的挑戰(zhàn)。此外,對于海量資源的數(shù)據(jù)采集任務(wù),會受線程數(shù)、采集周期和耗時等因素影響,容易造成任務(wù)積壓,對管理平臺異常情況下的任務(wù)隔離與自動降頻能力提出更高要求。
此外,設(shè)備大規(guī)模告警的延遲、誤報和漏報是另一大挑戰(zhàn)。在10萬+大規(guī)模設(shè)備運維場景中,一般金融等行業(yè)的客戶數(shù)據(jù)中心管理平臺通常以平鋪直敘方式呈現(xiàn)設(shè)備告警,缺乏更深層的故障根因判斷、全周期管理等能力。在此場景下,一旦服務(wù)器BMC在批量刷新固件時出現(xiàn)故障,可能會在短時間內(nèi)產(chǎn)生大量的Trap推送,同時還夾雜著設(shè)備離線等一系列異常告警。數(shù)千條告警的推送,易造成通信堵塞,從而出現(xiàn)告警延遲、告警丟失等。當(dāng)客戶看到堆積數(shù)千條告警郵件通知時,極易導(dǎo)致客戶誤認(rèn)為系統(tǒng)正面臨重大故障風(fēng)險。而且由于沒有全周期管理機(jī)制,即便設(shè)備故障修復(fù),告警信息仍會持續(xù)存在,這也大大增加了運維管理的復(fù)雜性。
智能均衡作業(yè)調(diào)度,10萬+超大規(guī)模設(shè)備億級指標(biāo)穩(wěn)定采集
在超大規(guī)模監(jiān)控場景下,作業(yè)調(diào)度不暢極易造成作業(yè)堆積、負(fù)載波峰波谷抖動,嚴(yán)重影響系統(tǒng)穩(wěn)定性,進(jìn)而影響采集進(jìn)度。為此,浪潮信息InManage自研了ChaosJob作業(yè)調(diào)度中間件,突破了作業(yè)智能均衡調(diào)度技術(shù),實現(xiàn)了采集作業(yè)的高效調(diào)度和穩(wěn)定執(zhí)行。
告警管道動態(tài)分析,1000+告警動秒級實時精準(zhǔn)響應(yīng)
在面對10萬+超大規(guī)模設(shè)備管理時,如何避免將系統(tǒng)產(chǎn)生的告警風(fēng)暴強(qiáng)塞給客戶,如何進(jìn)行根因定位并避免誤報、漏報,是數(shù)據(jù)中心統(tǒng)一管理的另一挑戰(zhàn)。為此,InManage提出了CDCAlarm告警管理框架,突破了告警集成管理技術(shù),實現(xiàn)了告警的及時性、準(zhǔn)確性和全面性,同時支持告警分析、聚合及根因分析等功能。該框架能夠為客戶呈現(xiàn)按優(yōu)先級排序和分類聚合的告警,直觀易懂、方便用戶進(jìn)一步處理。
InManage使用AI技術(shù)手段對告警進(jìn)行分類、分批處理,實現(xiàn)告警按來源、種類的歸并聚合策略,在保證告警時序性的同時,提升了告警處理的整體吞吐量。同時使用基于AI的根因定位方法,快速從告警風(fēng)暴中準(zhǔn)確識別出故障根因,并呈現(xiàn)給客戶,有效解決了客戶在面對告警風(fēng)暴時無從入手的局面。
同時,針對超大規(guī)模監(jiān)控場景下常見的誤報漏報等告警不準(zhǔn)確、不及時問題,InManage也做了優(yōu)化。
秒告警秒恢復(fù)問題:在10萬+設(shè)備的管理中,某些設(shè)備可能在發(fā)出告警的同時又快速發(fā)出了恢復(fù)信號,甚至可能出現(xiàn)恢復(fù)信息先于告警到達(dá)。在此場景下,傳統(tǒng)系統(tǒng)容易誤判為告警未恢復(fù),從而導(dǎo)致誤報。InManage的智能告警歸并技術(shù)能夠有效識別和規(guī)避此類時序問題,確保告警處理的準(zhǔn)確性。
告警噪點問題:在資源利用率實時采集場景下,短暫的峰值可能導(dǎo)致瞬時超閾值的告警,但整體使用率卻保持平穩(wěn)。為避免因這些噪點導(dǎo)致的誤報,InManage的告警管道采用了智能識別和計數(shù)技術(shù),能夠?qū)Χ虝r間內(nèi)的同類告警進(jìn)行聚合處理,從而徹底消除此類誤報。
告警遺漏問題:在大規(guī)模數(shù)據(jù)中心中,由于網(wǎng)絡(luò)負(fù)載高,SNMP協(xié)議中的Trap信息(基于不可靠的UDP傳輸)更容易丟失。為解決這一問題,InManage提出了融合多種協(xié)議和多源數(shù)據(jù)的AI智能預(yù)警技術(shù),該技術(shù)可提供全天候的設(shè)備實時監(jiān)控和故障分析,有效降低了告警遺漏的風(fēng)險,減少客戶業(yè)務(wù)隱患。
穩(wěn)定、快速和高效的超大規(guī)模監(jiān)控
在10萬+大規(guī)模設(shè)備管理環(huán)境中,InManage系統(tǒng)表現(xiàn)出了穩(wěn)定的性能與高效的運作能力,確保了數(shù)據(jù)采集任務(wù)得以平穩(wěn)且迅速地執(zhí)行,顯著增強(qiáng)了系統(tǒng)的整體處理能力,有效規(guī)避了任務(wù)積壓問題。面對每日高達(dá)近30TB的服務(wù)器運行狀態(tài)數(shù)據(jù)洪流,InManage每秒可處理高達(dá)1000條的告警風(fēng)暴,響應(yīng)延遲維持5秒以內(nèi),保證了系統(tǒng)監(jiān)控的實時性與準(zhǔn)確性。
此外,InManage還具備對歷史數(shù)據(jù)進(jìn)行高效壓縮與無縫轉(zhuǎn)儲的能力,在保障當(dāng)前系統(tǒng)流暢運行的同時,確保了歷史數(shù)據(jù)的完整性與可訪問性,有效避免了數(shù)據(jù)丟失的風(fēng)險。在如此龐大的規(guī)模下,InManage仍能快速查詢一年內(nèi)的歷史告警或事件通知,響應(yīng)時間縮短至2秒以內(nèi),為客戶提供了強(qiáng)大的歷史問題追溯能力,確保問題根源得以迅速定位,為系統(tǒng)的長期穩(wěn)定運行提供了堅實保障。
InManage滿足了客戶對于大規(guī)模、多元化、多類型設(shè)備的統(tǒng)一帶外管理,確保了數(shù)據(jù)的穩(wěn)定采集及告警集中高效監(jiān)控,同時還具備基礎(chǔ)設(shè)施全生命周期資產(chǎn)管理、自動化部署管理等能力。其大規(guī)模統(tǒng)一帶外管理技術(shù)、告警智能化分析技術(shù)水平處于國內(nèi)領(lǐng)先水平,授權(quán)國家發(fā)明專利超過20項。未來,InManage也將更加關(guān)注客戶需求的變化,不斷優(yōu)化產(chǎn)品和服務(wù),為客戶提供更加全面、高效、智能的解決方案,助力客戶實現(xiàn)數(shù)字化轉(zhuǎn)型和業(yè)務(wù)升級。