以客戶(hù)為中心,提供定制化或一站式的全棧解決方案,賦能千行百業(yè)
寶德依托強大的研發(fā)能力以及豐富的行業(yè)經(jīng)驗,針對機器/深度學(xué)習科研、實(shí)訓教學(xué)等場(chǎng)景提供一站式解決方案?;谛碌脑O計理念,打造出一款功能完善的PLStack人工智能管理平臺,平臺能提供端到端的流程化管理,涵蓋數據標注、算法開(kāi)發(fā)、模型訓練、模型管理、模型服務(wù)等AI完整生命周期流程支持。
PLStack平臺采用容器輕量級虛擬化方式作為基礎,實(shí)現對多集群多節點(diǎn)的GPU、CPU、內存、存儲等基礎設施資源池化;基于Kubernetes定制化開(kāi)發(fā)的編排調度工具,實(shí)現資源高效靈活調度;同時(shí)企業(yè)級設計理念使平臺具備多租戶(hù)多層級用戶(hù)管理、權限管理、資源管理、vGPU等豐富的平臺能力,全方位滿(mǎn)足用戶(hù)對AI開(kāi)發(fā)平臺高可用、高可靠、高穩定要求。大大緩解深度學(xué)習算法訓練的瓶頸,從而釋放人工智能的全新能力,讓用戶(hù)不再因為GPU的昂貴望而卻步。
平臺為用戶(hù)提供簡(jiǎn)潔的WEB界面,豐富的功能以及多樣化工具。如開(kāi)發(fā)模塊提供一鍵式環(huán)境生成、在線(xiàn)交互式開(kāi)發(fā)工具M(jìn)lab;模型訓練提供參數調優(yōu)、分布式并行訓練等;模型服務(wù)提供在線(xiàn)模型部署推理、模型服務(wù)調用;平臺同時(shí)集成數據標注工具、鏡像倉庫等,實(shí)現一站式AI開(kāi)發(fā)。
同時(shí)深度學(xué)習框架鏡像以插件的方式接入系統,集成了多種業(yè)界常用框架,如 Tensorflow,PyTorch ,Caffe和 MXnet等,支持自定義擴展,極大提升整體系統的擴展性和可維護性。
PLStack AI平臺整體分為三層:基礎設施層、資源調度層、平臺功能層,架構如下圖:
基礎設施層主要包括物理機、虛擬機、存儲設備、網(wǎng)絡(luò )設備、一體機等資源,為業(yè)務(wù)提供基礎算力支撐。
資源調度層借助Docker引擎實(shí)現CPU、GPU、內存、存儲等資源的輕量級虛擬化,基于Kubernetes 定制化研發(fā)實(shí)現對任務(wù)和資源的靈活編排調度,具有多租戶(hù)隔離、任務(wù)資源邏輯隔離等特點(diǎn),結合高可靠的存儲服務(wù)、分布式并行訓練服務(wù)等功能組件,為上層業(yè)務(wù)功能模塊提供堅實(shí)的基石。
平臺功能層提供端到端 AI科研流程支撐,其中用戶(hù)端包含了開(kāi)發(fā)模塊、AI框架、訓練模塊、數據管理模塊、模型服務(wù)模塊、鏡像倉庫、工單管理等;管理端包含計量計費、多租戶(hù)管理、告警監控設置、平臺運營(yíng)運維等。
PLStack平臺由管理端和業(yè)務(wù)端兩個(gè)系統組成。管理端為平臺管理員視圖,包括資源總覽、業(yè)務(wù)管理、產(chǎn)品管理、運維管理、配置管理、財務(wù)管理、安全中心等7個(gè)模塊;業(yè)務(wù)視圖為普通用戶(hù)視圖,包括賬號中心、資源總覽、開(kāi)發(fā)環(huán)境、模型訓練、存儲管理、模型服務(wù)、模型管理、鏡像倉庫等八個(gè)模塊。如下圖所示。
寶德人工智能集群方案通過(guò)分析用戶(hù)的研究方向和實(shí)際需求,利用PLStack AI管理軟件平臺再結合寶德最新一代服務(wù)器,打造了一套計算能力強、資源利用率高、管理便捷和具有超高安全性的AI集群平臺。
1、提供對容器+鏡像的管理,支持網(wǎng)頁(yè)端容器全生命周期管理,對異構資源進(jìn)行高效管理、調度、監控。
2、多數據中心管理,用戶(hù)可以選擇使用某一數據中心的資源;同時(shí)具備3層組織架構管理,如管理員、組織管理員、成員等,通過(guò)設定對組織及用戶(hù)進(jìn)行資源配額;
3、平臺集成多種深度學(xué)習各種框架(如TensorFlow,pytorch,caffe,keras等)用戶(hù)模型開(kāi)發(fā)、模型訓練等;支持自定義框架擴展;
4、平臺具備多種計費模式;提供完整的計量計費功能,管理可通過(guò)計費模塊對GPU、CPU、內存等資源進(jìn)行費用設定,根據用戶(hù)使用時(shí)長(cháng)進(jìn)行計費;
5、支持多個(gè)物理區域的GPU卡資源統一納管,統一分配;支持單機單卡,單機多卡,多機多卡以及單GPU卡多用戶(hù)共享方式分配資源;以任務(wù)方式分配計算資源;任務(wù)完成計算資源回收;
6、支持管理集群中GPU服務(wù)器及GPU卡的運行狀況,資源使用情況,包含GPU總數/使用數,GPU核心平均利用率,GPU顯存平均利用率等
7、支持用戶(hù)按需設置深度學(xué)習環(huán)境,包括深度學(xué)習框架,網(wǎng)絡(luò )模型,GPU及CPU資源;訓練完成銷(xiāo)毀運行環(huán)境,釋放計算資源;支持快速創(chuàng )建深度學(xué)習環(huán)境,應用程序及硬件資源相互隔離,獨立運行;
8、內置上百種各種優(yōu)化AI算法,可滿(mǎn)足多個(gè)業(yè)務(wù)場(chǎng)景需求,降低用戶(hù)門(mén)檻,提升AI開(kāi)發(fā)效率
9、提供web端高效協(xié)同AI算法模型開(kāi)發(fā)工具,提供Jupyter lab和jupyter notebook的集成,支持AI相關(guān)數據集成到Jupyter中;。
10、支持web及shell提交訓練任務(wù),支持用戶(hù)可以實(shí)時(shí)查看自己任務(wù)的運行結果;
11、支持可視化作業(yè)管理、版本管理、克隆任務(wù)(參數管理)等功能,基于參數管理可以快速創(chuàng )建任務(wù),提升模型訓練任務(wù)的迭代效率;
12、支持基于常用的AI算法框架及準備好的算法可以進(jìn)行多版本任務(wù)參數調優(yōu),優(yōu)化并增強機器學(xué)習全生命周期管理流程;
13、集群可實(shí)現分布式并行訓練功能;支持動(dòng)態(tài)申請分布式訓練所需要的GPU數量和節點(diǎn)數量,且平臺可以實(shí)時(shí)監控每個(gè)節點(diǎn)的運行情況;
14、具備本地鏡像倉庫,支持鏡像分組管理及分享,允許用戶(hù)上傳自定義鏡像,支持將用戶(hù)環(huán)境一鍵打包至鏡像倉庫,且支持將權限設置為公有或者私有;
15、支持對多版本的模型統一管理功能,可以集中管理所有在模型訓練中得到的模型,導入并管理在本地開(kāi)發(fā)的模型,滿(mǎn)足模型需要不斷迭代和調試的管理需求;
16、提供scp訪(fǎng)問(wèn)/Web訪(fǎng)問(wèn)/擴容/重命名/修改密碼/共享存儲/刪除等功能;能支持個(gè)人用戶(hù)上傳數據集之后可由多用戶(hù)同時(shí)調用
異構硬件融合和算力優(yōu)化,支持多種CPU和GPU卡,同時(shí)集成多種主流的深度學(xué)習框架和交互式IDE開(kāi)發(fā)環(huán)境。
借助容器、K8S等云計算技術(shù)打造的AI平臺再結合超強算力的 GPU 集群,提供高并行、高吞吐、低時(shí)延的極致性能,在科學(xué)計算表現中性能比傳統架構提高 50 倍以上。
彈性計算資源和算力優(yōu)化管理,vGPU技術(shù)、GPU共享、多機多卡分布式并行訓練、多層級組織架構、組織及用戶(hù)資源配額等。
平臺預置TensorFlow 、 PyTorch、Caffe 等多種深度學(xué)習開(kāi)源框架,無(wú)需安裝配置環(huán)境,一鍵快速提交訓練任務(wù)。同時(shí)數據模型分析交互式開(kāi)發(fā)工具 MLab,還支持一鍵添加代碼和數據集。
高效的資源優(yōu)化調度和管理顯著(zhù)地降低資源使用和運維成本,多種計費模式極大地降低前期投入。
平臺完善的環(huán)境隔離及網(wǎng)絡(luò )監控服務(wù),保障用戶(hù)數據和服務(wù)安全無(wú)虞。