鯨品堂|異構算力(lì)管理與調度:高效利用計算資源

2025-03-11 593

大模型的爆發式發展正將算力推至數字經濟的核心戰略地位。GPT-4o與DeepSeek-R1等模型的多模態突破,不僅標誌(zhì)著(zhe)AI進入(rù)"參(cān)數爆炸"時代(GPT-4單次訓練需2.15×10^25 FLOPs,等同3萬台A100全年運轉),更暴露出算力供需的尖銳矛盾——據智源研究院的報告預估(gū)國內大模型訓練算(suàn)力缺口已達(dá)109EFLOPS(約20個太湖之光(guāng)年產能)。在新技術廣泛應用和全球(qiú)算力短缺的背景下(xià),信創國產化率要求倒逼華為昇(shēng)騰、海光DCU等(děng)替代方案落地。芯片類型、架構和供應商方麵都呈現出多元化的趨勢。


01
異構算力現(xiàn)狀分析


根據中國信通院《數據中心算(suàn)力技術(shù)圖譜(2023)》及IDC《全球異構計(jì)算白皮(pí)書》,異構算力可分為以下幾大層級: 

圖片(piàn)關鍵詞


根信通院公布數據顯示,算力(lì)主要集中在數據(jù)中心、運營商網格。在這兩大主力中存(cún)在明顯的算(suàn)力異構分布,運營具體(tǐ)情況如下:


圖片關鍵詞


從上信(xìn)通院發表文章和數字(zì)中國萬裏行的洞(dòng)察中發現,國內數據中心、運營商等均存(cún)在多元異構算力。但多元算力的開發(fā)生態體係相對獨立,無標準和統一規範,應(yīng)用的跨架構開發和遷移困難(nán),亟需通過開源、開放的方(fāng)式建立可(kě)屏蔽底層硬件差異(yì)的統一異構開發平台。


從東數西算下新型算力基礎(chǔ)設施發展白皮(pí)書整理和(hé)業務場(chǎng)景(jǐng)梳理,我們發現異構算力管理和調度存在以下核心的難點問題:


硬(yìng)件多樣(yàng)性與兼容性問題:數據中心采用(yòng)多種硬件設備(如 CPU、GPU、NPU、TPU 等),不同架構的硬件設備(如 x86、ARM 等)難以兼容,不同的硬件(jiàn)底座具(jù)備(bèi)的算力發現和監控方法不一致,導致管理和調度複雜;


算力(lì)服務(wù)的標準化與規範化不足:目前的算力接口較為複雜,缺乏統一的標準和規範,導(dǎo)致算力資源的輸出和服務質量參(cān)差不齊,業務跨架構遷移難度大,無法有效在異構算力資(zī)源上進(jìn)行調度,跨架構任務遷移(yí)成本激增(某金融雲平台改造耗時6個月),算法研發(fā)周期被非必要工程化拖累;


算力調度(dù)接口不(bú)一致,資源錯配導致的資源浪費:不同算力的調度接口不一致(zhì),錯誤的調度方式無法使用資源,導致混合架構的集群資源(yuán)閑置;


異構架構依賴(lài)的技術棧不同,對人(rén)力技術要(yào)求大,導(dǎo)致(zhì)異構接入難,新硬件資源難快速賦能業務,需要(yào)龐大的生態支撐,推廣難。


02
異構(gòu)算力調度方案


在麵對以上(shàng)異構算力管理和調度的難點(diǎn)和問題,我們探索了更優的異構(gòu)資源(yuán)的管理和調度解決方案。旨在(zài)提高(gāo)資(zī)源利用率和管(guǎn)理效率。本方案通過三(sān)個關鍵層次實現(xiàn)對異構資源的(de)有(yǒu)效管理和高效調度。


首先,在底層異構納(nà)管層,我們實現了對多種硬件(如CPU、GPU、FPGA等)的適配,確保係統的算(suàn)力發現和資源監控(kòng)功能能夠精準識別並管理所有可(kě)用計算(suàn)資(zī)源。這不僅為(wéi)後續的資源分配提供了堅實的基礎(chǔ),還極大地增強了係統對不同硬件平(píng)台的支(zhī)持(chí)能力。


其次,在調度層,我們開(kāi)發(fā)了一款統一的異構調度(dù)工具,該工具(jù)通過一個統一調度(dù)接口(kǒu)將各類異構算(suàn)力整合起來,顯著降低了資源調度的複雜度(dù)。同時,利用先進(jìn)的協同技術和精(jīng)細化調度算法(fǎ),我們在多維(wéi)度上提升了資源的使用效率,實現了負載均衡和動態資源調整,從而提高了服務響應速度和服務質量。


最後,在異(yì)構適配層,我們針對(duì)常用模型進行了定(dìng)向適(shì)配,並提供了(le)強大的(de)模型轉換工具,大幅(fú)簡化了業務遷移過(guò)程中的兼(jiān)容性問題。這些措施不僅減少了遷移成(chéng)本,還加快了新應用的(de)部署速度,使得企業能夠更快地適(shì)應市場變化和(hé)技術更新。整體方案架構如(rú)下:

image.png


異構資源統一管理與運維


針對異構(gòu)資(zī)源統一管理和運維,主要圍繞異構資(zī)源的接入、算力(lì)發現和算力使用情況的監(jiān)控(kòng)三個維度展開,特別強調(diào)在異地資源納管策略時需要重點考(kǎo)慮主機之(zhī)間的帶寬情況。


首先在異地(dì)資源納管策略層麵會考慮主機之間的帶寬清單(dān),當異構資源在同一機房(fáng)或者帶寬較大的網絡裏麵,低延遲和(hé)高帶寬有助於更(gèng)高效的數據傳輸和任務調度。這種情況一般會考慮一個集群納管(guǎn),這樣節省(shěng)管理節點的資源消耗,如果時高可用部署方式需(xū)要3個管理(lǐ)節點,如(rú)兩種(zhǒng)異構統一(yī)到一個集群管理則可以節省3個管理節點的資源消耗。


異構資源統一納(nà)管,利用Kubernetes插件擴展機製來對接異構底(dǐ)層(céng)算力發現。通過擴展插件(jiàn),係統可以識別(bié)並管理異構(gòu)硬(yìng)件GPU資源。通過插件適(shì)配係(xì)統具備(bèi)自動掃描(miáo)網絡中所有(yǒu)連接的計(jì)算設備的能力,識別其類型、型號及性能參數(如核心數、頻率、內存大小等)。通過算力發(fā)現機製將新(xīn)接入的(de)硬件設備將被自動注冊到係統中(zhōng),降(jiàng)低人工信息填寫(xiě)錯誤導致的調度偏(piān)差。


在(zài)資源管理層麵利用算力專用的監控代理(lǐ),實時采集(jí)硬件設備的運行數據,如CPU使用率、內存使用率、顯存使用量(liàng)和算力使用量等(děng)參數,確保數據的準確(què)性和及時性,幫助算(suàn)力正(zhèng)常調度(dù)。將采集(jí)的監控數據在(zài)一個平台展示,助力管理員從(cóng)多維度查看平台資(zī)源使用狀(zhuàng)況,更清晰地了解平台資源運維問題,從而指導管理員進行資源規劃調整,有效(xiào)避(bì)免因分配不當而引發(fā)的資源過(guò)載和閑(xián)置現象。


異構算力硬軟(ruǎn)件智能適配調度


AI模型運行環境與底層(céng)驅動之間存在依賴關係,不適配的(de)資源會致使模型運行出現故障。為降低因錯誤調度引發的資(zī)源浪費和部署困難(nán)的問題,平台對任務類別、模型(xíng)運行環境依賴、硬件依賴等信息加以管理,以保障任務能夠正常使用資源。


那麽平台底層是如何調度的呢?首先為資源主機添加標簽,標簽信息涵蓋:芯(xīn)片型號、網絡特性、驅動版本等。其次對模型(xíng)運行環境依賴進行管理,如(rú) CUDA/CANN/PyTorch 版本等信息。平台內部(bù)維護一套任務、環境依賴與驅動版本的適配關(guān)係表。當(dāng)平台部署模型時,在指定模型鏡像和資源規格後,係(xì)統會自動獲取依(yī)賴信息,並得到該模型需要的部署(shǔ)資源標簽,調度器依據(jù)標簽進行調度。通過上述過程,即可實現芯片硬軟件的智能適配,通過自動(dòng)調度減少因錯誤指令啟動不合符任務需求的算力導致的資源浪費。具體的自動適配流程示意如下(xià)。

圖片關鍵詞image.png


標(biāo)準(zhǔn)服務API屏蔽異構調(diào)度差異


每種芯片均具備其獨有(yǒu)的編程接口與使用規範,開發者在運(yùn)用資源(yuán)時,必須針對每一種芯片類型予以適配。如此一來,不僅加大了開發的難度,還延長了開發的周期。伴隨芯片技術的持續發展,新的接口與功能不斷湧現,開發者需要不斷追(zhuī)蹤並適應這些變化,這會耗費大量的人力(lì)和時間。為應對上述挑(tiāo)戰,對接入的異構資源進(jìn)行統一適配,構建形成標(biāo)準服務 API,其設計如下:

1)提供標準統一API,將硬件類型作(zuò)為輸入參數中的一部(bù)分(fèn),底層獲取API中的(de)硬件信息並自動調度到匹配(pèi)硬件,這樣屏(píng)蔽了底層硬件接口差異,業務側在調(diào)用時無需關注(zhù)具體的硬件調度,僅需關注需要的硬件設備即可。

2)指定標準的資源配額信息,通過指定芯片類型和配額信息作為調度參數(shù)傳入標準API,由平台依據參數智能調度最為(wéi)適宜(yí)的計算資源(yuán)。這一設計使業務(wù)開發者隻需適配一次(cì)API,便能調用多種(zhǒng)算力資源。


模型的適配和轉換提效


為了業務(wù)更好的使用異構算力,能達到快速遷移(yí)的目標,智算平台針對當前主流模型(如qwen、LLama、deepseek、 ResNet、BERT、YOLO 等)進行定向適配,從模型運行(háng)環境構建、模(mó)型文件轉換、推理服務部(bù)署到模型的微調訓練進行各種硬(yìng)件的適配,形成開箱即用的工具,用戶即可通過頁麵的配置,實現對(duì)這些適配過模型的使用,單次模(mó)型適配的投入即可實現多用戶的賦能。


同時在算子層,集成各異構算力的轉(zhuǎn)換工具,支持用戶使用工具快速轉換出自定義模型的格式,實現異構算力(lì)的(de)快速遷移。


03
建設成效


通(tōng)過部署異構納(nà)管調度解決方案(àn),我們實現了顯著的(de)運營優化和效能提升,具體表現在以下幾(jǐ)個方麵:

1)運維成本與複雜度大幅削減:構建統一管理(lǐ)平台(tái),一個界麵可查看分布在11個不同地(dì)市的資源監控情況。這(zhè)極大地簡化了運維流(liú)程,通過(guò)集中化(huà)管理(lǐ)減少了運維工作量,從而有效降低了總體運維成本。

2)資源調度可靠性增強(qiáng):借助硬軟(ruǎn)件智能適配技術,實(shí)現了更為精(jīng)準、高效的(de)資源(yuán)分配。有效地預防了因硬軟件不兼容而(ér)引發的故障,確保了資源調度過程中的穩定性和可靠性(xìng)。

3)業務(wù)開發效率躍升:引入標準服務API接口,屏蔽了底層硬件的複雜性,使開發人員無需(xū)關心具體的算力調度,僅適(shì)配一次API,即可獲取所需計算資源,大大簡化了開發流程,縮短了產品(pǐn)迭代周期。

4)模(mó)型異構適配層(céng):我們的目標是通過針對常(cháng)用模型的定(dìng)向適配和提供強(qiáng)大的模型轉換工具,大幅簡化(huà)業務遷移過程中的兼容性問題。


官方(fāng)微信公眾號

国产亚洲熟妇在线视频(jīng)雲(yún)計算科技股份有限公司 版(bǎn)權所有 2003-2023

蘇ICP備10224443號-6       蘇公網安備 32011402011374號

国产亚洲熟妇在线视频-亚洲熟妇AV乱码在线观看-亚州国产AV一区二区三区伊在-中文字幕无码人妻少妇免费视频-欧美 日韩 人妻 高清 中文-熟妇人妻中文字幕无码老熟妇-丰满熟女人妻一区二区三-亚洲精品字幕