北京2022年5月20日 /美通社/ -- 近年來,基因測序等分子生物學檢查技術已經(jīng)在血液病基因分析、基因診斷、白血病分型、指導治療、判斷預后等方面廣泛應用,血液學成為現(xiàn)代生命科學技術發(fā)展最為活躍的領域之一。通過加強技術創(chuàng)新,中國血液學研究在基礎理論研究以及臨床轉化和實踐方面已然躋身世界前列。
基因測序作為一種新型基因檢測技術,在生命科學研究中扮演著十分重要的角色。隨著測序技術的飛速發(fā)展,人類發(fā)現(xiàn)的基因序列數(shù)目以指數(shù)級增長,對于如此數(shù)量龐大的基因進行同源性搜尋、比對、遺傳發(fā)育分析等操作,往往伴隨著巨大的數(shù)據(jù)處理量和并行計算量。江蘇省血液研究所(以下簡稱血研所)采用浪潮分布式存儲AS13000搭建了血液病檢測平臺,支撐了前端的基因檢測業(yè)務,并依靠方案的高可靠、高可用、易擴容等特點,保障血研所業(yè)務高效運行并滿足后續(xù)業(yè)務持續(xù)增長需求。
血研所主要研究方向為血栓與止血、惡性血液病和造血干細胞移植,本次搭建的科研平臺主攻血液病的基因檢測場景?;驕y序是一種新型基因檢測技術,能夠從血液或唾液中分析測定基因全序列,預測罹患多種疾病的可能性,過程中將會產(chǎn)生大量的數(shù)據(jù),對存儲系統(tǒng)帶來了較大規(guī)模的挑戰(zhàn)。血研所也是國內(nèi)第一個血栓與止血研究室,需要對大量樣品進行數(shù)據(jù)的采集、分析和計算,且對數(shù)據(jù)的持續(xù)讀取性能、安全性要求很高,隨著血液檢測的技術創(chuàng)新與精確度的提升,預計未來每年的數(shù)據(jù)增長量在100TB左右。
浪潮分布式存儲支撐血液病檢測平臺
結合檢測平臺數(shù)據(jù)特點及需求,血研所采用浪潮分布式存儲AS13000系列,在基因測序過程中滿足了海量空間、高IO并發(fā)性能、業(yè)務連續(xù)性等需求,滿足了血研所臨床與多課題組同時在線使用的業(yè)務需求。
面對基因測序業(yè)務增長帶來的性能和容量需求,浪潮分布式存儲AS13000通過文件方面的智能條帶化(Stripe)技術,實現(xiàn)單個文件跨節(jié)點分布,提高數(shù)據(jù)并發(fā)訪問性能。若后續(xù)數(shù)據(jù)規(guī)模不斷增長,業(yè)務負載壓力變大,AS13000支持通過整合SSD資源作為高速數(shù)據(jù)緩沖區(qū),可進一步提升系統(tǒng)IO性能。平臺一期建設配置超300TB可用空間,滿足血研所未來兩年的數(shù)據(jù)增長需求,隨著血研所科研數(shù)據(jù)量的增加,還可通過節(jié)點在線橫向擴展的模式,實現(xiàn)系統(tǒng)容量和性能呈線性增長,總容量可達EB級,滿足基因測序數(shù)據(jù)持續(xù)增長需求。
整個基因測序業(yè)務需要在高負載下7*24持續(xù)運行,一旦出現(xiàn)業(yè)務中斷,那么整個基因測序工程就要中斷,甚至于整個的基因測序要重新進行。因此,連續(xù)性是基因測序的根本生產(chǎn)力保證,基因測序業(yè)務對存儲系統(tǒng)連續(xù)運行能力有極高的要求。浪潮分布式存儲在設計方面能夠保證所有的關鍵系統(tǒng)服務都分布在多個硬件上,避免系統(tǒng)資源單點故障,消除系統(tǒng)瓶頸;糾刪碼策略能夠在保障最高94%空間利用率的同時,允許集群內(nèi)同時故障2個節(jié)點而數(shù)據(jù)不丟失,保障基因測序的業(yè)務連續(xù)運行。
江蘇省血液研究所血液病生物樣本庫經(jīng)過多年發(fā)展,建成包括生物樣本庫、臨床數(shù)據(jù)庫和質(zhì)量控制實驗室三個部門的血液病生物資源庫,涵蓋樣本及信息收集、儲存、利用全環(huán)節(jié)的生物資源管理體系。截至目前,共收集了103910 例各類血液疾病患者的樣本共計578331 份,樣本類型涵蓋凍存細胞、骨髓組織、骨髓細胞玻片、血漿、血清、DNA 和RNA 等,出庫樣本量達59522 份;臨床數(shù)據(jù)庫建立造血干細胞移植患者檔案3000 余例。血液病生物資源庫是目前國內(nèi)規(guī)模較大的血液疾病生物資源庫之一,建立了國內(nèi)最大的造血干細胞移植、骨髓增生異常綜合征和急性混合細胞白血病的生物樣本研究隊列,為血液病基礎和臨床研究提供高質(zhì)量的樣本和數(shù)據(jù)支持。江蘇省血液研究所將繼續(xù)堅持科研與臨床相結合的理念,努力建設成為具有國際一流水平的血液病臨床診療和轉化研究中心,為血液學領域做出新的貢獻。