經(jīng)過(guò)20多年的發(fā)展,寶德持續而深刻地把握市場(chǎng)需求,積累了海量的客戶(hù)資源和豐富的服務(wù)經(jīng)驗
易源興華公司是我國石油勘探領(lǐng)域內一支強有力的研發(fā)隊伍,其在地震偏移處理及解釋方面開(kāi)發(fā)了一套獨有的高效軟件,代表了在這一領(lǐng)域的最高技術(shù)水平。公司主要客戶(hù)涵蓋中國海洋石油、中國石油等石油勘探研究所。石油勘探系統包括三個(gè)環(huán)節:數據采集、地震偏移處理、成像解釋。其中的關(guān)鍵應用為地震偏移處理。寶德集群主要支持后兩者。地震偏移處理對計算機廠(chǎng)商的要求最為苛刻,要求計算機具備高 IO 帶寬,高計算能力。一直以來(lái),SGI、SUN、IBM 等國際 IT 巨頭憑借多年來(lái)在該領(lǐng)域積累的經(jīng)驗壟斷了這一市場(chǎng),包括易源興華公司在內的石油行業(yè)一直采用國外產(chǎn)品。近年來(lái),我國開(kāi)始自主研發(fā)石油系統地震偏移處理軟件,力求打破了國際軟件廠(chǎng)商的壟斷。在硬件方面,國產(chǎn)廠(chǎng)商也不斷發(fā)力,縮小了同國際廠(chǎng)商之間的差距,開(kāi)始登上石油勘探領(lǐng)域的舞臺。在認真分析客戶(hù)需求的基礎上,寶德打出了一套組合牌,成功贏(yíng)得這個(gè)項目。
在了解 CGG、Omega 等地震偏移軟件方面的資料后發(fā)現石油行業(yè)高性能計算應用,要求硬件設備具備以下幾個(gè)特性:
節點(diǎn)的高可靠性,避免計算節點(diǎn)和管理節點(diǎn)頻繁死機。
I/O 的高并發(fā)及高帶寬訪(fǎng)問(wèn),由于節點(diǎn)數較多,存儲系統不僅需要滿(mǎn)足高并發(fā)的讀寫(xiě)訪(fǎng)問(wèn)需求,而且還要提供高帶寬的讀寫(xiě)相應能力具有便捷的集群管理方案,提供簡(jiǎn)單易用的集群管理工具和接口。
多套針對不同應用的網(wǎng)絡(luò ),數據網(wǎng)、計算網(wǎng)和管理網(wǎng)分離,互相無(wú)干擾。
針對上述應用分析的結果,我們設計了一套高性能計算集群整體解決方案。
計算部分包含 50 臺 2U 機架式 CPU 計算節點(diǎn),10 臺 2U 機架式 GPU 計算節點(diǎn)及相應輔助節點(diǎn)。共擁有 20Tflops 的計算能力。其中每臺 CPU 計算節點(diǎn)根據應用特點(diǎn),特別設計了由 7 塊高速 SAS 盤(pán)做 RAID0 組成的高性能本地數據盤(pán)。每臺 GPU 計算節點(diǎn),特別設計了由3 塊 GPU 加速的高性能異構計算環(huán)境。網(wǎng)絡(luò )部分采用網(wǎng)絡(luò )分離結構,包括管理網(wǎng)和計算網(wǎng)。管理網(wǎng)絡(luò )設計使用最普遍的千兆以太網(wǎng)作為整個(gè)集群的管理網(wǎng)。它保障了所有節點(diǎn)最基本的互通互聯(lián)需求,方便了管理員遠程登陸。同時(shí)也肩負操作硬件底層芯片實(shí)現遠程開(kāi)關(guān)機等功能的重任。計算網(wǎng)絡(luò )全部使用萬(wàn)兆低延遲無(wú)阻塞以太網(wǎng)作為數據傳輸通路,使數據無(wú)阻塞、高效快速的轉發(fā)。保障了集群所有節點(diǎn)之間的數據的高速可靠傳遞。通過(guò)以上網(wǎng)絡(luò )配置的組合。存儲部分基于高性能計算集群的“統一數據池”的特點(diǎn),針對目前石油勘探計算平臺的現狀以及未來(lái)的發(fā)展趨勢。為了有效相應前端數以百計的計算節點(diǎn)大規模高并發(fā)長(cháng)時(shí)間訪(fǎng)問(wèn)的需求。后端存儲既要具有高帶寬的特性,又要有高 IOPS 的特性。傳統的 SAN 文件系統和 NAS 文件系統是遠遠無(wú)法滿(mǎn)足實(shí)際需求的。寶德設計了一套分布式的海量存儲系統。整套系統可提供 256TB的可使用空間,以及 5GBps 的實(shí)際使用帶寬,保證數據調用的暢通無(wú)阻。存儲具有大容量文件共享、高效海量并發(fā)訪(fǎng)問(wèn)、可定制的數據安全性保證、低總體擁有成本、方便的系統管理等諸多特點(diǎn)。軟件部分我們采用聯(lián)科的 Chess 軟件。Chess 集群軟件系統是對高性能計算行業(yè),耗時(shí)多年開(kāi)發(fā)出來(lái)的一套功能完善的大規模服務(wù)器集群管理軟件。它擁有強大的工作負載管理平臺,簡(jiǎn)化了 HPC 集群管理。它為客戶(hù)提供了全方位的集群監控管理、作業(yè)調度等功能??梢跃氄宫F當前集群運行狀態(tài),動(dòng)態(tài)顯示監控信息,記錄歷史錯誤信息,及時(shí)發(fā)現集群的異常狀況。在集群軟件系統的管理平臺中,整合了集群監控,作業(yè)提交,節點(diǎn)監控,web 遠程登陸等功能。