北京2021年8月20日 /美通社/ -- 人們經(jīng)常會(huì)在熱搜上看到某個(gè)網(wǎng)站崩了,某個(gè)APP服務(wù)器“走丟”了,這背后,都是對(duì)服務(wù)器安全及可靠性的擔(dān)憂。尤其是政府、金融、電網(wǎng)以及鐵路等行業(yè)對(duì)IT基礎(chǔ)設(shè)施的可靠性以及安全性要求極高的行業(yè)應(yīng)用,一旦系統(tǒng)出現(xiàn)問題,對(duì)用戶來說可能是上千萬甚至是上億的損失。
可靠性從4個(gè)9到5個(gè)9,如何達(dá)到?
談及服務(wù)器的可靠性,業(yè)內(nèi)人士常常會(huì)用4個(gè)9或者5個(gè)9,也就是99.99%與99.999%。看上去雖然4個(gè)9與5個(gè)9的差距僅有微乎其微的0.009%,但是對(duì)于核心系統(tǒng)而言,恰恰是這不到0.01%的差距,決定了系統(tǒng)的可靠性完全不在一個(gè)層級(jí)。
4個(gè)9與5個(gè)9的可用性,在一年的時(shí)間維度上,相差了47.304分鐘,平均一個(gè)月相差僅4分鐘,但是一家大型商業(yè)銀行如停機(jī)超過半小時(shí)造成的業(yè)務(wù)損失與聲譽(yù)等損失可達(dá)數(shù)億元人民幣,并且這種損失有逐年遞增的趨勢(shì)。因此大型商業(yè)銀行需要服務(wù)器的可靠性達(dá)到“5個(gè)9”級(jí)別(一年間業(yè)務(wù)中斷時(shí)間不能超過5.256分鐘)。而比如在電網(wǎng)行業(yè)與鐵路行業(yè),服務(wù)器的可靠性直接關(guān)系到居民的用電安全以及乘車安全,因此電網(wǎng)與鐵路行業(yè)對(duì)服務(wù)器的可靠性要求同樣達(dá)到“5個(gè)9”的更高級(jí)別。
其實(shí),服務(wù)器的可靠性并不完全取決于硬件,而是由軟件和硬件來共同決定的,想要一款高可靠的服務(wù)器,就必須從元器件的選擇、硬件架構(gòu)設(shè)計(jì)、生產(chǎn)組裝、品質(zhì)檢測(cè)各個(gè)環(huán)節(jié)嚴(yán)格把控。多年以來,浪潮在服務(wù)器領(lǐng)域積累的豐富的設(shè)計(jì)制造經(jīng)驗(yàn),并將這些經(jīng)驗(yàn)不斷總結(jié)提煉,形成了一套獨(dú)有的方法論。
精細(xì)考量 不放過任何一個(gè)元器件
千里之堤毀于蟻穴,任何一點(diǎn)小小的瑕疵,都可能成為引起整個(gè)系統(tǒng)崩潰的元兇。一臺(tái)服務(wù)器擁有至少5000多個(gè)元器件,每一個(gè)元器件的選擇都不能容許任何瑕疵,所以選擇可靠的元器件是最基礎(chǔ),卻也是最不容忽視的關(guān)鍵一步。
浪潮服務(wù)器在選擇元器件時(shí),首先會(huì)對(duì)眾多供應(yīng)商的產(chǎn)品質(zhì)量、技術(shù)水平、響應(yīng)速度以及環(huán)保標(biāo)準(zhǔn)等方面進(jìn)行綜合考量,從中選出滿足標(biāo)準(zhǔn)的供應(yīng)商。同時(shí),浪潮服務(wù)器要求所有元器件滿足高于國(guó)家通用規(guī)范的降額設(shè)計(jì)標(biāo)準(zhǔn),即元器件在工作中承受的極限應(yīng)力小于額定值,并留有足夠的應(yīng)對(duì)極限情況的余量,其實(shí)主要是電應(yīng)力和溫度應(yīng)力,保障高可靠的電性能及較低熱衰減,大大降低故障率,提升系統(tǒng)可靠性。
此外,為了確保所有元器件并非“外強(qiáng)中干”,浪潮還會(huì)采用諸多先進(jìn)的元器件分析設(shè)備,如雙束聚焦離子束顯微鏡、等離子刻蝕機(jī)等,對(duì)其進(jìn)行剖析、驗(yàn)證、失效分析等,以確定器件的工藝水平、質(zhì)量滿足浪潮服務(wù)器生產(chǎn)要求。
潛在故障預(yù)測(cè)分析 將一切隱患扼殺在搖籃
雖然大部分企業(yè)業(yè)務(wù)系統(tǒng)都有故障預(yù)警應(yīng)急機(jī)制,而大部分服務(wù)器等IT基礎(chǔ)設(shè)施也都有故障快速定位功能,但是浪潮服務(wù)器追求的卻是從產(chǎn)品設(shè)計(jì)階段就把所有可能存在的潛在問題快速識(shí)別出來,從而預(yù)先采取防御措施,將一切隱患扼殺在搖籃里。
在產(chǎn)品設(shè)計(jì)階段,浪潮針對(duì)所有板間互聯(lián)信號(hào)和關(guān)鍵器件的工作狀態(tài)進(jìn)行仿真分析,確保無故障遺漏,并對(duì)故障進(jìn)行預(yù)測(cè)識(shí)別和優(yōu)化處理。同時(shí)要進(jìn)行系統(tǒng)級(jí)故障監(jiān)測(cè)、預(yù)警及隔離開發(fā),對(duì)于所有風(fēng)險(xiǎn),要求盡最大可能避免,對(duì)于需要處理的故障,要求能夠快速監(jiān)測(cè)定位。
浪潮服務(wù)器盡量在設(shè)計(jì)階段最大限度地消除潛在的可靠性隱患,在產(chǎn)品發(fā)生故障之前提前進(jìn)行分析,確保各組件之間實(shí)現(xiàn)最高可靠協(xié)同運(yùn)行。
關(guān)鍵系統(tǒng)創(chuàng)新性設(shè)計(jì) 給可靠性再加一道保險(xiǎn)
浪潮對(duì)服務(wù)器的散熱系統(tǒng)、存儲(chǔ)系統(tǒng)以及系統(tǒng)備用等方面不斷進(jìn)行創(chuàng)新性探索和研究,保障服務(wù)器可靠性在整機(jī)層面臻于極致。
服務(wù)器為了追求更高密度,不斷壓縮空間,對(duì)散熱帶來了很大的挑戰(zhàn),在現(xiàn)有的風(fēng)冷致冷條件下,浪潮服務(wù)器采用了許多創(chuàng)新性散熱設(shè)計(jì),例如在M6系列服務(wù)器中增加蜂窩波導(dǎo)散熱網(wǎng),對(duì)風(fēng)扇入風(fēng)處風(fēng)流做整流處理,提高風(fēng)扇進(jìn)風(fēng)口的流速并且減少了擾流的產(chǎn)生,加大波導(dǎo)網(wǎng)厚度可進(jìn)一步提高空氣壓力,產(chǎn)生平行穩(wěn)定且強(qiáng)勁的氣流,相比傳統(tǒng)服務(wù)器,散熱效率整體可提升22%。
存儲(chǔ)型服務(wù)器因?yàn)榕鋫淞舜罅康挠脖P往往面臨著共振問題,針對(duì)這個(gè)問題,浪潮服務(wù)器的硬盤托架專門選擇了航空減震材料,能夠有效抗震,保證硬盤安全的同時(shí)大幅降低故障概率。同時(shí)配備硬盤故障監(jiān)控、預(yù)警功能,可對(duì)硬盤無法讀寫、硬盤RAID信息損壞、硬盤讀寫速度變慢、硬盤溫度過高等故障進(jìn)行快速告警。
浪潮服務(wù)器注重?zé)岵灏卧O(shè)計(jì),對(duì)電源模塊、風(fēng)扇模塊、存儲(chǔ)模塊、IO模塊等關(guān)鍵模塊均采用冗余設(shè)計(jì),可實(shí)現(xiàn)在線更換,保證系統(tǒng)穩(wěn)定可靠的運(yùn)行環(huán)境。
魔鬼般檢測(cè)標(biāo)準(zhǔn) 確保都是精品
在汽車屆著名的達(dá)喀爾拉力賽,被稱為勇敢者的游戲,參賽選手們需要在最短時(shí)間內(nèi)穿越無人的沙漠險(xiǎn)地。由于賽程地勢(shì)險(xiǎn)峻、氣候惡劣,對(duì)汽車和車手堪稱魔鬼般的歷練,沒有強(qiáng)大的技術(shù)和品質(zhì)保證,很難跑完全程。在浪潮的實(shí)驗(yàn)室,每一款服務(wù)器出廠之前也都要經(jīng)過“達(dá)喀爾拉力賽”:跌落、沖擊、雷擊、高低溫、高低濕、鹽堿、噪聲、電源、老化、失效分析……測(cè)試,覆蓋了產(chǎn)品設(shè)計(jì)驗(yàn)證、測(cè)試到產(chǎn)線質(zhì)量保障等14個(gè)技術(shù)平臺(tái),解決從產(chǎn)品可行性驗(yàn)證、產(chǎn)品和部件各類測(cè)試、量產(chǎn)問題消除等覆蓋全生產(chǎn)鏈的技術(shù)問題。
浪潮服務(wù)器生產(chǎn)線配備老化實(shí)驗(yàn)室,對(duì)服務(wù)器進(jìn)行加速壽命試驗(yàn)。這主要是為了加速暴露母板的設(shè)計(jì)缺陷和薄弱點(diǎn),并對(duì)暴露的缺陷和故障從設(shè)計(jì)、工藝和用料等諸方面進(jìn)行分析和改進(jìn),從而達(dá)到快速提升產(chǎn)品可靠性的目的。
此外還會(huì)進(jìn)行超過業(yè)界標(biāo)準(zhǔn)的電磁兼容性測(cè)試,所謂電磁兼容,就是對(duì)電子產(chǎn)品在電磁場(chǎng)方面干擾大?。‥MI)和抗干擾能力(EMS)的綜合評(píng)定,是產(chǎn)品質(zhì)量最重要的指標(biāo)之一,涉及傳導(dǎo)抗擾度、射頻抗擾度、靜電抗擾度等多項(xiàng)測(cè)試指標(biāo)。
為了讓服務(wù)器具備更強(qiáng)的環(huán)境適應(yīng)性,浪潮服務(wù)器還會(huì)模擬運(yùn)輸環(huán)境測(cè)試、氣候環(huán)境測(cè)試和極限環(huán)境測(cè)試,進(jìn)行三大類幾十種測(cè)試,檢驗(yàn)服務(wù)器在各種條件下的可靠性,測(cè)定耐受高低溫、跌落、高濕等惡性環(huán)境的極限。例如進(jìn)行45度/分鐘的溫度劇變?cè)囼?yàn),在零上100和零下40-50度進(jìn)行產(chǎn)品溫度極限測(cè)試,30G震動(dòng)過載抗振強(qiáng)度,模擬海拔12000米的環(huán)境進(jìn)行高空低氣壓測(cè)試等。
百煉成鋼 磨礪鑄就完美
通過前面的介紹可以看出,想要鍛造一款真正高可靠的服務(wù)器,需要每個(gè)階段全方位的努力,對(duì)元器件嚴(yán)苛的品質(zhì)管理,對(duì)產(chǎn)品設(shè)計(jì)快速準(zhǔn)確的自我糾錯(cuò)能力,對(duì)產(chǎn)品系統(tǒng)設(shè)計(jì)的不斷創(chuàng)新,對(duì)出廠產(chǎn)品的一道道檢測(cè)標(biāo)準(zhǔn),只有這些都不斷做到完美,才能產(chǎn)出真正高可靠的服務(wù)器。
浪潮服務(wù)器正是秉承著這樣的原則,一步步打造出全新的M6系列服務(wù)器,針對(duì)智慧時(shí)代需求設(shè)計(jì),包括面向云計(jì)算、大數(shù)據(jù)、人工智能等應(yīng)用場(chǎng)景的6大系列16款產(chǎn)品,以業(yè)界最為豐富的場(chǎng)景產(chǎn)品陣列為用戶數(shù)字化轉(zhuǎn)型提供更加強(qiáng)大的算力支撐。
本文作者浪潮信息服務(wù)器產(chǎn)品線副總經(jīng)理 陳彥靈