經(jīng)過(guò)20多年的發(fā)展,寶德持續而深刻地把握市場(chǎng)需求,積累了海量的客戶(hù)資源和豐富的服務(wù)經(jīng)驗
某大學(xué)某學(xué)院擬建設科研人工智能共享共建平臺,面向全院提供計算資源服務(wù),軟件基于K8S架構,可實(shí)現計算資源集中管理、靈活分配,支持定制開(kāi)發(fā),支持多用戶(hù)使用等。此次建設需把學(xué)院前期購置的一臺GPU服務(wù)器,一臺40T容量的服務(wù)器納管進(jìn)來(lái),形成平臺系統,達到:
1) 統一平臺管理,由基礎設施層作為整個(gè)平臺的支撐,通過(guò)云平臺對底層資源進(jìn)行靈活的調度管理,通過(guò)系統功能層為用戶(hù)端和管理端降低 AI 技術(shù)門(mén)檻,釋放AI 技術(shù)潛力;
2) 解決“信息孤島”,實(shí)現信息共享,提高信息安全水平,提升科研體驗,提高工作效率;
3) 通過(guò)新平臺建設降低成本、提升效率、節能減排,滿(mǎn)足學(xué)院科研資源充分利用的要求。
該方案平臺使用寶德PLStack實(shí)現,由管理系統和業(yè)務(wù)系統組成,將兩者從底層IT資源中分離開(kāi)來(lái),以提高管理系統的可移植性和業(yè)務(wù)系統的后期擴展性。集群拓撲設計從浮點(diǎn)計算能力強、GPU卡管理便捷、擴展豐富三個(gè)原則出發(fā),將計算資源和管理資源進(jìn)行分離,同時(shí)管理網(wǎng)絡(luò )與計算網(wǎng)絡(luò )分開(kāi),避免管理對計算網(wǎng)絡(luò )資源的擠占,集群網(wǎng)絡(luò )分為:計算網(wǎng)絡(luò )、管理網(wǎng)絡(luò )兩個(gè)平面:
計算網(wǎng)絡(luò ):?jiǎn)慰?00Gb IB匯聚鏈路,用于連接所有GPU計算節點(diǎn),同時(shí)提供塊設備、對象存儲等服務(wù);
管理網(wǎng)絡(luò ):雙口千兆匯聚鏈路,用于管理人工智能平臺中的所有節點(diǎn),為管理員提供 Web 控制臺;