JobMax
Amax集群監(jiān)控系統(tǒng)是一款基于Slurm工作負(fù)載管理器開發(fā)的專業(yè)集群資源監(jiān)控與管理平臺(tái),聚焦數(shù)據(jù)中心集群運(yùn)維核心需求,打造集實(shí)時(shí)監(jiān)控、節(jié)點(diǎn)管理、作業(yè)管控、硬件監(jiān)控、資源統(tǒng)計(jì)、配置管理于一體的一站式解決方案。
產(chǎn)品面向系統(tǒng)管理員、集群運(yùn)維人員、開發(fā)人員及所有使用集群資源的用戶,通過可視化的界面、精細(xì)化的管控能力、多維度的統(tǒng)計(jì)分析,幫助運(yùn)維團(tuán)隊(duì)實(shí)時(shí)掌握集群全維度運(yùn)行狀態(tài),高效管理計(jì)算資源,解決集群運(yùn)維中資源監(jiān)控不及時(shí)、作業(yè)管理效率低、資源分配不精準(zhǔn)等核心痛點(diǎn),保障集群系統(tǒng)穩(wěn)定、高效運(yùn)行。
產(chǎn)品面向系統(tǒng)管理員、集群運(yùn)維人員、開發(fā)人員及所有使用集群資源的用戶,通過可視化的界面、精細(xì)化的管控能力、多維度的統(tǒng)計(jì)分析,幫助運(yùn)維團(tuán)隊(duì)實(shí)時(shí)掌握集群全維度運(yùn)行狀態(tài),高效管理計(jì)算資源,解決集群運(yùn)維中資源監(jiān)控不及時(shí)、作業(yè)管理效率低、資源分配不精準(zhǔn)等核心痛點(diǎn),保障集群系統(tǒng)穩(wěn)定、高效運(yùn)行。

產(chǎn)品架構(gòu)
-
系統(tǒng)架構(gòu)采用B/S(瀏覽器/服務(wù)器)架構(gòu),所有核心功能與數(shù)據(jù)均部署在后臺(tái)服務(wù)器,用戶僅需通過主流瀏覽器即可訪問,無需在客戶端進(jìn)行任何軟件安裝、配置操作。
-
訪問方式訪問途徑:通過主流瀏覽器(Chrome、Firefox、Edge等)即可訪問,無客戶端軟硬件要求
訪問權(quán)限:免登錄直接訪問,打開頁面即可查看集群全維度監(jiān)控與管理信息
運(yùn)行要求:無客戶端軟硬件要求,僅需保證設(shè)備可正常訪問系統(tǒng)后臺(tái)服務(wù)器網(wǎng)絡(luò)

核心功能
集群概覽與實(shí)時(shí)監(jiān)控
以儀表盤為核心數(shù)據(jù)看板,一站式展示集群節(jié)點(diǎn)、作業(yè)、CPU/GPU的總數(shù)、狀態(tài)及使用率,通過圖表呈現(xiàn)節(jié)點(diǎn)/作業(yè)狀態(tài)分布,實(shí)時(shí)更新運(yùn)行/等待作業(yè)列表,快速掌握集群整體運(yùn)行態(tài)勢(shì)。

硬件節(jié)點(diǎn)全維度管控
整合節(jié)點(diǎn)與GPU專屬監(jiān)控能力,支持節(jié)點(diǎn)狀態(tài)篩選、名稱模糊查詢,展示節(jié)點(diǎn)硬件及Slurm配置詳情,可靈活調(diào)整節(jié)點(diǎn)運(yùn)行狀態(tài);同時(shí)監(jiān)控GPU使用量、溫度、顯存等核心指標(biāo),查看單卡詳情及資源占用進(jìn)程,實(shí)現(xiàn)硬件精細(xì)化監(jiān)控。

作業(yè)全生命周期管理
支持按狀態(tài)、分區(qū)、ID、用戶名多條件精準(zhǔn)篩選作業(yè),展示作業(yè)資源分配、運(yùn)行時(shí)間等全量信息;提供作業(yè)批量取消、掛起、釋放等高效操作,可查看作業(yè)詳情與輸出日志,實(shí)現(xiàn)作業(yè)從提交到結(jié)束的全流程管控。

資源使用統(tǒng)計(jì)與分析
融合用戶、分區(qū)、歷史數(shù)據(jù)統(tǒng)計(jì)能力,支持多時(shí)間范圍篩選,統(tǒng)計(jì)用戶CPU/GPU使用占比、分區(qū)作業(yè)運(yùn)行負(fù)荷;通過多圖表展示作業(yè)狀態(tài)、時(shí)長(zhǎng)及提交趨勢(shì),分析作業(yè)等待時(shí)間,支持?jǐn)?shù)據(jù)導(dǎo)出,為運(yùn)維決策提供完整數(shù)據(jù)支撐。

資源配額與QOS管理
實(shí)現(xiàn)資源配額與服務(wù)質(zhì)量策略一體化配置,可篩選查看QOS、賬戶、用戶級(jí)別的配額規(guī)則并精準(zhǔn)設(shè)置資源限制;支持QOS策略的創(chuàng)建、編輯與刪除,自定義優(yōu)先級(jí)、資源限制等規(guī)則,保障資源公平分配與核心業(yè)務(wù)作業(yè)優(yōu)先級(jí)。

賬戶層級(jí)規(guī)范化管理
基于Slurm實(shí)現(xiàn)集群賬戶的層級(jí)化管理,以樹形結(jié)構(gòu)展示根賬戶、子賬戶的層級(jí)關(guān)系,支持賬戶層級(jí)、用戶列表等視圖切換,可新建賬戶,實(shí)現(xiàn)賬戶與用戶的規(guī)范化關(guān)聯(lián)管理,適配集群權(quán)限管控需求。
