北京2022年9月13日 /美通社/ -- 隨著數據的爆炸式增長和算力需求的急劇攀升,由開放計算引領的數據中心基礎設施創(chuàng)新,正影響著越來越多的公司爭相學習和效仿。在近日舉行的OCP China Day 2022(開放計算中國技術峰會)上,OCP中國社區(qū)負責人、浪潮信息首席架構師葉毓睿分享了開放計算如何實現協作創(chuàng)新、傳統行業(yè)如何利用開放計算技術、開放計算目前重要的創(chuàng)新成果以及未來的發(fā)展方向等話題。
開放計算,"寬進嚴出"的全球化協作模式
"以OCP為代表的開放計算項目,其實是‘寬進嚴出'的一個全球化協作平臺。"葉毓睿提到,CSP(Cloud Service Provider,云服務提供商)、系統廠商、零部件供應商、傳統行業(yè)等各類公司,都可以自由在OCP官網上獲取標準、規(guī)范,觀看演講視頻和下載材料。產業(yè)鏈上下游的合作伙伴,能通過全球化協作的模式來消除技術壁壘,加快硬件創(chuàng)新的速度。然而加入OCP成為會員之后,想要影響標準的制定,則需要做出實質性貢獻,并具備前瞻性;滿足這些要求并非易事,即使是想參與例行會議的工作組討論,也有一定門檻。
OCP是一個開放的技術平臺,各個成員公司可以通過知識共享、技術共享,掌握云邊端的創(chuàng)新技術,并形成相關產品或方案。引用OCP標準,幾乎沒有門檻,因為這些標準基本都是公開的,可供任何人下載和使用。
雖然OCP對成員的加入持歡迎的態(tài)度,但是涉及到具體的工作組,則會要求項目參與者在專業(yè)領域具備深厚積累,否則無法取得參加內部會議的資格。例如,浪潮信息準備參與DC-SCM(Datacenter Secure Control Module,數據中心安全控制管理模塊)標準制定之前,做了大量的準備工作,包括技術研發(fā)和實現等方面,然后由項目組的已有成員進行投票表決,最終獲準加入該項目。DC-SCM標準定義了一種與主板解耦的安全控制管理模塊,實現計算單元和安全管理單元解耦,能夠簡化主板設計,加快計算組件的迭代。
"雖然成為標準的領導者、參與者需要投入很多的人、財、物等資源。但這些投入是值得的,因為浪潮信息作為全球第二大服務器廠商,要逐漸參與到更多的全球標準的制定中,盡量通過先進技術的標準化、規(guī)?;?、產業(yè)化、生態(tài)化來促進全行業(yè)的降本增效,普及深化ESG可持續(xù)發(fā)展理念,貫徹實現中國的‘雙碳'戰(zhàn)略目標。" 葉毓睿表示。
目前,浪潮信息已積極參與面向AI、邊緣計算、整機柜、通用服務器、硬件管理、固件、液冷等國內外標準規(guī)范的建立,并牽頭服務器全部國標、OAM(OCP Accelerator Module,OCP加速器模塊)規(guī)范、天蝎標準、OTII(Open Telecom IT Infrastructure,開放電信IT基礎設施)規(guī)范等。同時,浪潮信息也在推動技術標準產品化,率先向社區(qū)貢獻了多款產品,可供其他廠商借鑒,如全球唯一符合三大開放組織標準的整機柜產品;全球首款AI開放加速計算系統MX1;全球首款面向云基礎架構優(yōu)化的四路服務器參考設計NF8260M5、全球首款OTII邊緣計算服務器、首款通過國內開放數據中心認證的天蝎多節(jié)點服務器等等。
我們發(fā)現,OCP包含不少自下而上的項目組。隨著市場需求不斷涌現,項目的評判標準主要看市場的認可度,需求多了,這個標準就漸漸有機會成為全行業(yè)的標準。但需要注意的是,有些標準或者項目組可能會無疾而終。這種"物競天擇"的演化機制,也確保了每個可持續(xù)的項目組都是有生命力、具備市場前景的,是能夠不斷迭代的。
規(guī)模決定方向,領域決定特性
"開放計算的創(chuàng)新與應用,實際上是由兩個因素決定的:規(guī)模決定方向,領域決定特性。"在葉毓??磥?,開放計算最初從超大規(guī)模數據中心興起,再逐漸滲透到其他領域,在這個過程中,開放計算的各類產品各有其相對應的適用場景。
"規(guī)模決定方向"簡單來說,就是數據中心規(guī)模的大小,決定了宏觀尺度上開放計算的發(fā)展大方向,例如Google、Meta的應用分別是超大型的搜索網站和社交網站,由此催生了支撐它的IT硬件基礎架構,朝著數據中心即計算機(Datacenter as a Server)的方向重構,即在擁有數萬臺服務器的數據中心里,站在整個數據中心的角度進行集中管理(包含供電、冷卻等)和CPU、內存、存儲的全局資源調度。目前我們能看到,與之相關并仍在發(fā)展的技術有CDI(Composable Disaggregated Infrastructure)、NoF(NVMe Over Fabrics)、CXL(Compute Express Link)等標準。參與這些標準的制定者當中不乏全球云計算或者互聯網巨頭這類用戶,例如Microsoft、Google、Meta、阿里云、騰訊、百度、字節(jié)等,這些用戶本身服務器的使用量巨大,容易通過大規(guī)模采用攤銷成本,助力相關技術和組件推廣、普及。我們注意到,字節(jié)近年來致力推動云固件,并在OCP China Day 2022分享《超大規(guī)模數據中心內存性能故障的監(jiān)控》,有望成為好的例子。
另外,由數據中心即計算機引發(fā),并可能進行組件推廣及可進一步觀察的有網卡、連接器、存儲部件、OAM、DC-SCM、硬件管理等產品或規(guī)范。硬件重構的方向是"一切皆計算機",不僅體現在數據中心即計算機、機柜即計算機(Rack as a Server)上,也體現在設備即計算機(Device as a Server)上,例如智能網卡SmartNIC、DPU(Data Processing Unit,數據處理器)、CSD(Computational Storage Drive,即可計算型SSD,包含持久存儲和計算模塊)或 SmartSSD等。
對于中小型數據中心用戶來說,他們更關注安全性、可靠性、業(yè)務連續(xù)性,對設備部署效率、運維管理方面的要求并不苛刻。而對于大型和超大型數據中心用戶而言,如何將資源利用率提高到80%,甚至接近100%?如何將數據中心的運維從以人為本到以智為本,通過算法和數據模型、歷史使用的特點,實現自動化運維甚至無人值守?如何在成本可控范圍內,盡可能讓PUE值趨近于1?……這些是他們首要考慮的問題。這種差異導致了不同規(guī)模的數據中心用戶,對技術創(chuàng)新和應用實踐的思考和設計有所不同。
"這是從量到質的變化。"葉毓睿強調說,當數據中心的規(guī)模擴張到一定程度之后,數據中心的產品交付模式、部署方式、能耗與效率、運維管理模式等等,都會發(fā)生與傳統模式截然不同的改變,開放計算項目從早期成立開始,到當前發(fā)展的主流部分,較多的是面向超大規(guī)模數據中心展開創(chuàng)新的。但這并不意味著,傳統行業(yè)用戶無法利用開放計算來降本增效,實現可持續(xù)發(fā)展。
葉毓睿指出,開放計算項目在做硬件重構的創(chuàng)新過程中,也產生了不少組件級或者設備級的創(chuàng)新技術和產品,這些技術和產品經過了大型和超大型數據中心用戶的實際驗證,已經成為開放計算生態(tài)當中的標準組件,中等規(guī)?;蛐∫?guī)模用戶可以直接使用。
NIC 3.0(Network Interface Card,網絡接口卡)項目是目前OCP最成功的項目之一。迄今為止,該項目在物理形態(tài)和電氣性能上,定義了一種免開箱維護且尺寸適中、性能優(yōu)秀的網卡,獲得了業(yè)界絕大部分服務器廠家的支持,成為服務器新的標準配置項。此外,針對特定領域專用架構(DSA,Domain Specific Architecture)設計,支持多元AI芯片標準化接入的OAM規(guī)范,可滿足全球范圍內AI加速器的爆炸式增長需求,而用于Chiplet(芯粒)互連的線束(BoW,Bunch of Wires)規(guī)范,則允許芯片制造商混合和匹配使用不同制造工藝技術的芯片,實現跨各種工藝制程的高性能芯片設計。這些項目的持續(xù)發(fā)展,可以讓大型CSP和傳統行業(yè)用戶,能夠更方便的利用飛速發(fā)展的多元化AI技術。
"領域決定特性"是指開放計算從超大規(guī)模數據中心逐步推廣的過程中,不同的場景和應用領域會衍生出不同的特性。以國內某電商為例,從它的實際業(yè)務需求來分析,并沒有音視頻、AI計算和海量冷數據的需求。因此,在其整機柜的設計初期,就聚焦更好的支持高CPU通用算力,以及熱數據和溫數據的存儲,忽略異構計算和冷存儲的需求,以獲取更高的性價比。
類似的,開放計算在走出互聯網領域,走向更多傳統行業(yè)的過程中,也將逐漸和該行業(yè)的領域特性相匹配。葉毓睿提到:"因為尺寸、重量、供電、兼容性等問題,OCP整機柜部署到非互聯網行業(yè)的傳統數據中心時需要進行調整。"近段時間以來,浪潮信息聯合各大合作伙伴商討標準機柜+標準服務器的整機柜的設計。
以電信行業(yè)為例,OCP當前超過12大類的項目中,包含Telco(電信)這個類別,其下設有Edge(邊緣計算)子類。在電信這個領域,邊緣計算有其自身的特性,應該以集成的方式,將通用計算、存儲、網絡、異構計算等融為一體,滿足該領域所處的物理環(huán)境對于空間、溫度、震動、防水、防塵等的嚴格要求。
當然,邊緣計算應用的場景包羅萬象,包括但不限于物聯網 、MEC(Multi-access Edge Computing,多接入邊緣計算) 和NFV(Network Functions Virtualization,網絡功能虛擬化)等 5G 應用場景。值得一提的是,浪潮信息邊緣計算產品線推出的ECOM(Edge Computing Optional Modular)系統,為適應智能邊緣網關產品復雜多變的應用場景做出了有意義的探索和實踐,通過將系統進行模塊化拆解,能最大限度的復用各個組件,也使產品設計更加多樣、靈活、易于實現,適應室內室外多種應用場景;通過將核心計算平臺、異構加速平臺、IO模組、管理功能等模組進行架構解耦,實現標準化、模塊化,平臺模組及功能模組多重復用,基于不同的場景和應用進行環(huán)境適應型設計,以實現短、平、快的產品開發(fā)模式,高質量的滿足各類用戶的產品需求。
葉毓睿坦承道:"我們希望有更多傳統行業(yè)的用戶加入到開放計算組織中來。這樣在未來發(fā)展的過程中,有更多機會發(fā)掘一些OCP產品面向特定領域的特性,這也是我們一直在思考并努力踐行的。"
以金融行業(yè)為例,隨著人工智能、5G、大數據等技術在金融行業(yè)的深度應用,刷臉支付、在線開戶、線上貸款等"非接觸式"金融服務越來越普及。但金融創(chuàng)新業(yè)務的發(fā)展也帶來了系統數量繁多,數據類型多元化,需要在有限的數據中心空間內,兼容各種不同的需求。銀行客戶在采用開放計算解決方案后,相較傳統解決方案,部署密度提升6倍,通過RMC(Rack Management Controller )集中管理單元實現整個系統資源的實時監(jiān)控。
隨著開放計算生態(tài)的發(fā)展,其所致力的全球化協作與創(chuàng)新,將會帶來更多的開放接口、開放組件、開放管理和自動化運維,實現包括數據中心在內的,云邊端低碳、高效的可持續(xù)發(fā)展。未來,開放計算還有巨大的潛力有待挖掘。