omniture

浪潮天梭M13服務(wù)器 RAS設(shè)計之IMS內(nèi)存檢測隔離技術(shù)

2018-01-25 08:30 11161
浪潮天梭M13服務(wù)器是專為超大規(guī)模實時事務(wù)處理而設(shè)計的大型關(guān)鍵計算系統(tǒng),面向總部級別的銀行存儲款、電信行業(yè)計費系統(tǒng)、跨國企業(yè)ERP等關(guān)鍵應(yīng)用場景。

北京2018年1月25日電 /美通社/ -- 浪潮天梭M13服務(wù)器是專為超大規(guī)模實時事務(wù)處理而設(shè)計的大型關(guān)鍵計算系統(tǒng),面向總部級別的銀行存儲款、電信行業(yè)計費系統(tǒng)、跨國企業(yè)ERP等關(guān)鍵應(yīng)用場景。M13支持處理器核心數(shù)量超過1000個,具有強大的在線事務(wù)處理能力,同時采用了復(fù)雜的高可用技術(shù)系統(tǒng),滿足業(yè)務(wù)7*24小時穩(wěn)定運行需求。

天梭M13的內(nèi)存高可用挑戰(zhàn)

RAS特性(即服務(wù)器的可靠性Reliability、可用性Availability以及可服務(wù)性Serviceability)對于大型關(guān)鍵應(yīng)用主機來說尤為關(guān)鍵,能夠讓主機容忍各類軟硬件故障,可以顯著延長系統(tǒng)平均無故障時間,保證客戶業(yè)務(wù)持續(xù)穩(wěn)定運行,是保障系統(tǒng)高可用性的技術(shù)基礎(chǔ)。

M13的可用性設(shè)計覆蓋了系統(tǒng)的每個部分,極為復(fù)雜,本文只介紹一項內(nèi)存可用性技術(shù) -- IMS內(nèi)存檢測隔離。

內(nèi)存錯誤和故障是引發(fā)系統(tǒng)硬件故障的原因之一,一方面,從SDR到DDR,再到目前的DDR3,內(nèi)存的容量和性能不斷提升,內(nèi)存顆粒容量的增大、單元密度增加、生產(chǎn)工藝的復(fù)雜,客觀上增加了內(nèi)存缺陷檢查和測試的難度;另一方面,天梭M13較大支持1536個DIMM插槽,內(nèi)存容量高達48TB,使得內(nèi)存發(fā)生錯誤和故障的概率顯著增加。

IMS -- Intelligent Memory Surveillance

目前,內(nèi)存錯誤的診斷和處理技術(shù)相對成熟,主要有ECC、chipkill、SDDC等,這些技術(shù)能夠檢驗內(nèi)存錯誤,進行相應(yīng)處理,但是有一定局限性,例如ECC可以檢驗和糾正一個數(shù)據(jù)位錯誤,但無法糾正2個錯誤位同時發(fā)生,而且如果ECC錯誤頻繁發(fā)生會導(dǎo)致Multi-bit被標(biāo)識為不可用,甚至觸發(fā)MRC內(nèi)存管理機制,將整個Rank/DIMM做disable處理。頻繁的內(nèi)存錯誤并不表示內(nèi)存物理失效,也有可能是外部環(huán)境溫度過高、電壓波動等因素導(dǎo)致,這樣的處理會減少內(nèi)存性能、浪費內(nèi)存空間,從而降低系統(tǒng)性能。

IMS -- Intelligent Memory Surveillance,是一套完整的內(nèi)存錯誤和故障校驗、診斷和處理方法,具備內(nèi)存檢測、失效隔離和預(yù)警等完整的內(nèi)存管理功能,解決了內(nèi)存故障無法修復(fù)導(dǎo)致停機、故障難于定位、個別錯誤導(dǎo)致大規(guī)模內(nèi)存浪費等內(nèi)存錯誤和故障處理難題。

IMS系統(tǒng)概述

浪潮天梭M13高端服務(wù)器的IMS系統(tǒng)配置了高效的內(nèi)存診斷工具,用戶可以自行對內(nèi)存問題進行檢查。M13開機時,在BIOS啟動階段(進入操作系統(tǒng)前),用戶可進入Diagnostic模塊,在3種不同強度的測試模式 -- Quick、Standard和Extensive中進行選擇,對內(nèi)存進行測試和檢驗。檢測完成后,對于關(guān)鍵區(qū)域或大塊面積的不可修復(fù)錯誤,IMS會給出警示信息,提示用戶需要更換內(nèi)存,對于非關(guān)鍵區(qū)域、分散性的少量錯誤,IMS會將錯誤地址記錄并對故障單元進行隔離,機器之后的運行時不會再對這些錯誤地址進行訪問。

當(dāng)系統(tǒng)啟動成功,進入OS后,IMS會實時進行內(nèi)存的監(jiān)測、保護和處理。首先IMS系統(tǒng)會實時統(tǒng)計內(nèi)存ECC錯誤信息,并對錯誤地址以IMS自帶的多個測試算法進行強化測試,對錯誤進行有效性確認,同時預(yù)測相關(guān)可能出錯的地址。最后,IMS系統(tǒng)對確認錯誤或預(yù)測產(chǎn)生的不可糾錯的內(nèi)存,應(yīng)用 OS的隔離技術(shù),在此部分內(nèi)存區(qū)域空閑時予以隔離,離開應(yīng)用內(nèi)存空間。

IMS -- 內(nèi)存錯誤減少95%以上

IMS系統(tǒng)能夠在天梭M13服務(wù)器運行過程中,有效減少失效內(nèi)存進入系統(tǒng)的機會。開機前的可選Diagnostic功能類似工廠專用內(nèi)存測試ATE,但又優(yōu)于ATE,可以讓用戶方便的進行全面內(nèi)存檢查。隨著服役時間的延長,內(nèi)存的電氣性能會不斷衰減,從而產(chǎn)生內(nèi)存失效隱患,Diagnostic功能讓用戶有效避免這一隱患。

在系統(tǒng)運行時,IMS可以將故障內(nèi)存進行隔離,也很好的防止內(nèi)存退化帶來的內(nèi)存錯誤,提高系統(tǒng)可靠性。而且IMS對于內(nèi)存錯誤的定位和處理更為精細和及時,某些本應(yīng)作RMA處理的內(nèi)存,可以在現(xiàn)場進行處理修復(fù),大幅減少內(nèi)存空間浪費行為。

在使用IMS后,ECC log報錯日志內(nèi)容隨時間推移成收斂狀態(tài),效果顯著,每小時ECC報錯數(shù)從400次逐步減少到不足10次。浪潮統(tǒng)計數(shù)據(jù)表明,IMS可以有效減少內(nèi)存錯誤的發(fā)生,提高內(nèi)存可用性。

從天梭K1到天梭M13,浪潮關(guān)鍵應(yīng)用主機在系統(tǒng)性能、可用性等方面都有了顯著的提高。浪潮在RAS高可用等關(guān)鍵核心技術(shù)上的持續(xù)突破,有效提升了其關(guān)鍵應(yīng)用主機系統(tǒng)的可靠性及產(chǎn)品品質(zhì),為金融、電信等關(guān)鍵行業(yè)的核心信息化應(yīng)用提供了強有力的基礎(chǔ)設(shè)施保障。

消息來源:浪潮集團
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection