方案背景
深度學習是人工智能領域的一個重要學科。從人類發明計算機開始,就一直嘗試讓計算機具有學習的能力,特別是從20世紀80年代以來,深度學習在算法、理論和應用等方面都獲得巨大成功。2006 年以來,“深度學習”開始成為一個新的科研熱點,目前已經深入到很多行業,在很多應用領域獲得成功,相關的研究工作也得到了大力推廣。
HPC應用往往基于第一性原理的探索,在面對大量的數據庫數據和樣本數據時,對于數據的處理顯得有些捉襟見肘,同時對于大量的仿真結果與大量計算結果數值的分析,也需要更多的時間完成,但AI是基于大量數據結合算法誕生的技術,擅長對于大量樣本數據的提取,同時對于大量仿真結果與計算結果的加速分析,用AI的方式處理HPC任務時,不僅可以有效處理樣本數據,對于得到的大量計算結果,可以利用AI的迭代細化的底層模型,完成大量結果的快速分析計算,實現降本增效。同時HPC的大量結果數據又可以為AI提供原始數據,為模型的預測提供更好的支持,二者相輔相成。
大模型的誕生源于深度學習與大數據、大算力的結合。2017年Transformer架構提出后,模型規模迅速擴大。以2018年BERT、2020年GPT-3為代表,大模型展現出強大語言理解和生成能力,隨著Deepseek、千問等優質大模型的發布,人工智能領域算力提升、海量互聯網文本積累及自監督學習技術進步,共同推動了大模型快速發展,并廣泛應用于搜索、對話、創作等領域。
HPC應用往往基于第一性原理的探索,在面對大量的數據庫數據和樣本數據時,對于數據的處理顯得有些捉襟見肘,同時對于大量的仿真結果與大量計算結果數值的分析,也需要更多的時間完成,但AI是基于大量數據結合算法誕生的技術,擅長對于大量樣本數據的提取,同時對于大量仿真結果與計算結果的加速分析,用AI的方式處理HPC任務時,不僅可以有效處理樣本數據,對于得到的大量計算結果,可以利用AI的迭代細化的底層模型,完成大量結果的快速分析計算,實現降本增效。同時HPC的大量結果數據又可以為AI提供原始數據,為模型的預測提供更好的支持,二者相輔相成。
大模型的誕生源于深度學習與大數據、大算力的結合。2017年Transformer架構提出后,模型規模迅速擴大。以2018年BERT、2020年GPT-3為代表,大模型展現出強大語言理解和生成能力,隨著Deepseek、千問等優質大模型的發布,人工智能領域算力提升、海量互聯網文本積累及自監督學習技術進步,共同推動了大模型快速發展,并廣泛應用于搜索、對話、創作等領域。
應用領域
用戶價值
算力靈活擴展
一體機計算能力可根據用戶需求靈活調配,可支持單機環境深度學習全流程設計或HPC單機計算,也可根據用戶算力需求擴展為單柜或多柜的分布式AI、HPC、大模型任務,適應不用應用場景及用戶對于計算的需求。
智能管理監控
一體機可實時監控系統資源、節點狀態、任務運行情況,通過圖形化界面,從分區、用戶、集群等各個層次和維度展示當前CPU、GPU等使用率、使用趨勢、配額雷達圖、任務運行概況;平臺通過折線圖、旭日圖、直方圖、分布雷達圖、?;鶊D、氣泡圖等多種監控、統計方式,滿足不同用戶使用需求。
AI+HPC+大模型作業管理
用戶可以提交配置調試任務、HPC、交互式開發任務、AI任務以及快速部署GPU Stack和Dify,完成從配置、腳本、代碼驗證到AI、HPC、大模型的運行,同時展示AI、HPC作業、大模型的任務名稱、節點、分區、項目、狀態、以及對任務的操作。
高效數據存儲
采用軟件定義存儲,通過分布式存儲系統構建統一存儲資源池,支持塊、文件、對象等多種存儲協議,滿足業務平臺的存儲需求,可實現統一管理,實現簡化運維。分布式存儲支持IB高速網絡和RDMA,數據讀寫效率高。
產品特點
算力靈活擴展
一體機計算能力可根據用戶需求靈活調配,可支持單機環境深度學習全流程設計或HPC單機計算,也可根據用戶算力需求擴展為單柜或多柜的分布式AI或HPC任務,適應不用應用場景及用戶對于計算的需求。
智能管理監控
一體機可實時監控管理集群資源使用情況和硬件狀態,包括任務監控、GPU使用看板、節點健康等,并提供用戶、集群、分區、節點維度的詳細使用報表,大幅提高資源使用效率,用戶通過遠程控制臺監控一體機的運行和健康狀態。
AI+HPC作業管理
用戶可以在線提交配置調試任務、HPC、交互式開發任務、AI任務,完成從配置、腳本、代碼驗證到AI及HPC的運行,同時展示AI和HPC作業的任務名稱、節點、分區、項目、狀態、以及對任務的操作。
高效數據存儲
采用軟件定義存儲,通過分布式存儲系統構建統一存儲資源池,支持塊、文件、對象等多種存儲協議,滿足業務平臺的存儲需求,可實現統一管理,實現簡化運維。分布式存儲支持IB高速網絡和RDMA,數據讀寫效率高。
任務作業 — 智算融合平臺
數據存儲 — 分布式存儲系統
推薦機型