omniture

脈山龍專家為鐵道部數(shù)據(jù)中心運維支招

2012-12-28 16:00 5328
從事數(shù)據(jù)中心運維服務(wù)近10年的專家、脈山龍公司服務(wù)業(yè)務(wù)部總經(jīng)理謝飛針對鐵道部售票網(wǎng)“三天兩宕”提出了專業(yè)的見解和建議,從數(shù)據(jù)中心運維角度為12306支招。

鐵道部售票網(wǎng)12306“三天兩宕” 脈山龍數(shù)據(jù)中心運維專家支招

深圳2012年12月28日電 /美通社/ -- 繼12月24日“因機房空調(diào)系統(tǒng)故障”停止售票數(shù)小時之后,12月26日上午鐵道部12306訂票網(wǎng)站再度癱瘓,直到傍晚6點鐘左右才恢復(fù)正常,公告原因仍是“空調(diào)系統(tǒng)故障”。從事數(shù)據(jù)中心運維服務(wù)近10年的專家、脈山龍公司服務(wù)業(yè)務(wù)部總經(jīng)理謝飛對此提出了專業(yè)的見解和建議,從數(shù)據(jù)中心運維角度為12306支招。

鐵道部售票網(wǎng)(www.12306.cn)“三天兩宕”,引發(fā)業(yè)界、媒體及網(wǎng)友質(zhì)疑的同時,即將到來的春運購票高峰期更讓不少旅客憂心忡忡??照{(diào)故障是導(dǎo)致售票網(wǎng)站癱瘓的罪魁禍首嗎?為什么機房空調(diào)故障會導(dǎo)致網(wǎng)站售票系統(tǒng)無法正常運行呢?在現(xiàn)有技術(shù)架構(gòu)下,如何能有效降低設(shè)備故障率,保障售票網(wǎng)站正常運行呢?從事數(shù)據(jù)中心運維服務(wù)近10年的專家脈山龍公司服務(wù)業(yè)務(wù)部總經(jīng)理謝飛提出了專業(yè)的見解和建議,從數(shù)據(jù)中心運維角度為12306支招。

12306癱瘓原因解析:空調(diào)故障是造成系統(tǒng)癱瘓的重要因素

回顧12306歷次停擺事件,網(wǎng)站技術(shù)架構(gòu)及中標的相關(guān)服務(wù)方都成為被外界質(zhì)疑的熱點話題。數(shù)據(jù)中心運維整體服務(wù)商脈山龍公司服務(wù)業(yè)務(wù)部總經(jīng)理謝飛認為,12306本質(zhì)上與蘇寧易購、京東商城、淘寶網(wǎng)等電商網(wǎng)站一樣,對同時并發(fā)訪問和下單的響應(yīng)要求極高,但鐵路售票系統(tǒng)需要處理大量車次、坐席、時間等查詢?nèi)蝿?wù),對服務(wù)器請求處理的能力要求非常之高。在現(xiàn)有技術(shù)架構(gòu)下,鐵道部為提高響應(yīng)速度和購票體驗,不斷增加服務(wù)器等硬件設(shè)備和功耗無疑給既定的空調(diào)系統(tǒng)和動力系統(tǒng)帶來沉重的負擔(dān),壓縮了動力系統(tǒng)和制冷系統(tǒng)冗余空間,可能一臺空調(diào)設(shè)備發(fā)生故障就會導(dǎo)致整個機房的溫度上升,最終導(dǎo)致服務(wù)器過熱而宕機。

謝飛表示,空調(diào)系統(tǒng)非常重要,數(shù)據(jù)中心內(nèi)的服務(wù)器、存儲、網(wǎng)絡(luò)設(shè)備等硬件運行時產(chǎn)生大量的熱量,對于制冷的要求非常之高。國標對于機房的溫度要求一般在23±2度,一般的服務(wù)器如果進風(fēng)口溫度在40攝氏度以上,服務(wù)器就會因為熱保護自動關(guān)機。如果機房溫度超過30攝氏度就有可能導(dǎo)致部分熱積聚區(qū)域的服務(wù)器宕機,機房溫度在35攝氏度以上就可能有較多的服務(wù)器宕機,超過40攝氏度,將會有大部分的服務(wù)器宕機。一旦空調(diào)故障停機,機房內(nèi)的溫度會迅速升溫,半個小時內(nèi)機房溫度就可達到50攝氏度以上,這時大部分服務(wù)器等設(shè)備都會因為過熱而宕機,造成系統(tǒng)癱瘓??照{(diào)故障是造成系統(tǒng)癱瘓的一個很重要的因素。

專家支招:災(zāi)備是前提,運維管理是根本

數(shù)據(jù)中心常見故障如斷電、空調(diào)故障、UPS 故障、網(wǎng)絡(luò)接口線路松動等,空調(diào)故障可能只是造成12306宕機的一個原因,但一般數(shù)據(jù)中心都有備用空調(diào)、UPS 等設(shè)備,并輪流使用和定期保養(yǎng),一旦遇到設(shè)備故障,可實現(xiàn)平滑無縫切換備用設(shè)備,不會影響系統(tǒng)正常運行。謝飛認為,12306這種支撐超大訪問量的數(shù)據(jù)中心應(yīng)該也配有備用空調(diào),“空調(diào)故障導(dǎo)致系統(tǒng)停止運行,極大可能是運維技術(shù)團隊對空調(diào)系統(tǒng)和數(shù)據(jù)中心的日常運維的缺位?!?/p>

同時,為保障業(yè)務(wù)的連續(xù)性,目前大部分企業(yè)的數(shù)據(jù)中心都設(shè)有災(zāi)備中心,通常采用雙機熱備、定時備份以及異地存儲和備份的方式,尤其是金融行業(yè)已經(jīng)開始引入虛擬化和云計算的新技術(shù),形成“兩地三中心”的備份模式,能確保數(shù)據(jù)的安全。謝飛建議,如果12306業(yè)務(wù)均集中在一個數(shù)據(jù)中心處理,安全系數(shù)非常低,一定要考慮建設(shè)備份中心,進行數(shù)據(jù)的實時傳輸和容災(zāi)備份,這是數(shù)據(jù)中心安全運行的前提。一旦主數(shù)據(jù)中心癱瘓,系統(tǒng)就可以實時切換到備份中心繼續(xù)運行。

他還建議,數(shù)據(jù)中心運維團隊?wèi)?yīng)對監(jiān)控報警系統(tǒng)進行測試和檢查,一旦機房空調(diào)系統(tǒng)故障導(dǎo)致機房內(nèi)溫、濕度升高或設(shè)備出現(xiàn)溫度告警等異?,F(xiàn)象時,還應(yīng)執(zhí)行機房空調(diào)故障應(yīng)急處理預(yù)案,將影響降到較低。

有著豐富經(jīng)驗的謝飛,作為脈山龍公司服務(wù)業(yè)務(wù)部負責(zé)人,目前掌管著包括金融、商業(yè)連鎖、通信電子、政府等行業(yè)上千家企業(yè)機構(gòu)的數(shù)據(jù)中心運維服務(wù)業(yè)務(wù)。以他多年的運維經(jīng)驗來看,備份和運維缺一不可,可以保障業(yè)務(wù)連續(xù)不中斷,但是,“即使采取各個層次的容災(zāi)備份方式,建立了災(zāi)備中心,運維服務(wù)管理仍然是問題的根本所在,良好的運維服務(wù)管理能使數(shù)據(jù)中心保持健康狀態(tài),也只有服務(wù)管理才能防患未然、真正降低故障率?!敝x飛提到本月中旬網(wǎng)傳中行信用卡 IBM 大機宕機超過4小時的事件,他指出盡管大型機一般都很穩(wěn)定,但發(fā)生宕機或故障后,未能及時切換災(zāi)備、快速恢復(fù)運行,還是跟系統(tǒng)監(jiān)控檢查、監(jiān)控預(yù)警、日常的運營演習(xí)、災(zāi)備演習(xí)等日常運維存在很大關(guān)系。

建立在一系列標準運維流程基礎(chǔ)上的數(shù)據(jù)中心運維服務(wù)管理,可以跟蹤記錄設(shè)備的動態(tài)歷史運維數(shù)據(jù),通過分析這些數(shù)據(jù)提供數(shù)據(jù)中心的健康狀態(tài),為用戶的 IT 決策提供依據(jù)?!爸匾暺鸱?wù)的管理,12306可以實現(xiàn)數(shù)據(jù)中心各個子系統(tǒng)健康狀況的可視化,在設(shè)備還沒有出現(xiàn)故障之前,就已經(jīng)及時進行了維修或更換,機房的可用性就能得到極大提升”,謝飛總結(jié)道,“T4的機房規(guī)劃還需要T4的運營管理?!?/p>

消息來源:深圳脈山龍
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection