FOREXBNB獲悉,工業和信息化部近日印發通知,組織開展算力強基揭榜行動。將面向計算、存儲、網絡、應用、綠色、安全等六大重點方向,發掘一批掌握關鍵核心技術、具備較強創新能力的企事業單位,突破一批標誌性技術產品和方案。工業和信息化部將統籌利用各類資源對揭榜入圍、優勝單位予以支持,推动优秀成果示范應用推广。

其中提出,到2026年,研發一套支持萬億參數模型的超大規模訓推一體化智算平台,萬卡環境下穩定訓練時間不低於30天,有效訓練時長不低於95%,訓練效率較當前主流水平提升不低於30%,推理效率提升不低於50%。支持主流深度學習框架,兼容多種硬件架構,並提供統一的編程接口和開發環境,實現不低於10個行業用戶的落地驗證。

原文如下:

關於組織開展算力強基揭榜行動的通知

工信廳通信函〔2025〕55號

各省、自治區、直轄市工業和信息化主管部門、通信管理局以及有關中央企業:

為夯實算力網絡發展底座,加快創新技術和產品應用,推動算力網絡“點、鏈、網、面”體系化發展,現組織開展算力強基揭榜行動。有關事項通知如下:

一、揭榜任務內容

面向算力網絡的計算、存儲、網絡、應用、綠色、安全等六大重點方向,發掘一批掌握關鍵核心技術、具備較強創新能力的企事業單位,突破一批標誌性技術產品和方案。

計算方面,攻關智能算力管理、算力加速等技術,提高計算性能與效率;存儲方面,研發多介質存儲設備管理、跨域存儲資源池協同等技術,實現海量數據可靠與靈活存儲;網絡方面,突破算內網絡與算間網絡等技術,促進算力資源高速互聯;應用方面,加強算力與行業深度融合,實現多場景便捷用算;綠色方面,研發新型製冷、碳排放感知優化等技術,推動算力設施節能降碳;安全方面,推動智能監測、運維機器人等技術發展,保障算力中心可靠運行。

二、申報和推薦

(一)申報單位須為在中華人民共和國境內註冊、具有獨立法人資格、具有較強技術創新和產業化應用能力的企事業單位。申報單位根據《算力強基揭榜行動任務榜單》(見附件)選擇揭榜任務,並需承諾揭榜後能夠在指定期限內完成相應任務,每個單位申報不超過3個項目。有關企業、高校、科研機構等以聯合體方式申報的,牽頭單位為1家,聯合參與單位不超過4家。

(二)各省、自治區、直轄市工業和信息化主管部門、通信管理局以及有關中央企業按照政府引導、企業自願的原則,組織有關單位積極申報揭榜,並作為推薦單位,遵循公開、公平、公正的原則,審核遴選推薦創新能力突出、產業化前景好、行業帶動作用明顯的項目,報工業和信息化部(信息通信發展司)。

三、工作程序和要求

(一)申報單位通過申報系統進行申報,完成註冊後填寫申報所需材料。申報截止時間為2025年3月15日。

(二)各省、自治區、直轄市工業和信息化主管部門、通信管理局以及有關中央企業作為推薦單位,應於2025年3月31日前登錄系統並確認推薦名單(賬號密碼請通過聯繫人獲取)。推薦單位在每個方向推薦項目數量原則上不超過3個,所有方向累計推薦項目總量不超過20個。鼓勵各推薦單位結合實際情況,對推薦項目單位在政策、資金、資源配套等方面加大扶持力度。

(三)工業和信息化部組織遴選並公佈入圍揭榜單位名單。入圍揭榜單位完成攻關任務後(名單公佈之日起不超過2年),工業和信息化部委託第三方專業機構開展測評工作,擇優確定揭榜優勝單位(每個揭榜方向原則上不超過3家)。工業和信息化部將統籌利用各類資源對揭榜入圍、優勝單位予以支持,推動優秀成果示範應用推廣。

工業和信息化部辦公廳

2025年2月21日

附件

算力強基揭榜行動任務榜單

一 計算

(一)雲邊端算網協同管理系統

揭榜任務:面向雲邊端多層級算力環境,研發算網協同應用管理系統,設計面向不同應用軟件架構的管理機制,支持對不同架構應用軟件的統一管理;研發應用軟件在算網協同中的自動化構建部署能力,支持應用軟件的自動構建和分發部署;研究算網協同應用系統的一體化觀測能力,降低運維複雜度,提高複雜應用軟件運行的穩定性和可靠性。

預期目標:到2026年,研製應用軟件管理系統,支持對傳統應用軟件、雲原生應用軟件、AI應用軟件、大数据應用軟件等不少于5种應用軟件的全生命周期管理。研究基於算網協同的分佈式構建和部署技術,支持上述應用軟件的自动分发和跨算力节点部署,實現零人工介入。研發算網應用一體化觀測功能,具備白盒化動態分析以及智能故障根因定位能力。在不少於3個行業完成試點驗證。

(二)支持超大規模參數模型的訓推一體化異構智算平台

揭榜任務:面向人工智能大模型訓練和推理對計算資源的需求,研發支持超大規模參數模型的訓練、推理一體化智算平台,包括資源調度策略、訓推加速套件等,並可支持多種硬件架構,屏蔽底層硬件差異,提升超大規模模型在訓練、推理過程中穩定性、資源利用率和運行效率。

預期目標:到2026年,研發一套支持萬億參數模型的超大規模訓推一體化智算平台,萬卡環境下穩定訓練時間不低於30天,有效訓練時長不低於95%,訓練效率較當前主流水平提升不低於30%,推理效率提升不低於50%。支持主流深度學習框架,兼容多種硬件架構,並提供統一的編程接口和開發環境,實現不低於10個行業用戶的落地驗證。

(三)異構算力跨域任務編排系統

揭榜任務:針對跨域異構算力協同,研發跨域異構算力管理系統,實現跨域異構算力的管理和應用。研發針對多樣性算力的規範化開放互聯功能,支持對不同類型的異構算力模型統一抽象封裝;研發跨域異構算力的管理功能,支持對跨域異構算力的統一管理和協同;研究跨域多主體算力的安全認證和控制方法,保障跨域協同安全。

預期目標:到2026年,研發不少於6種跨域協同調度算法,支持數據處理、函數計算、機器學習等不少於3個場景的計算任務部署,完成不少於5個跨域算力中心的統一管理。研發跨域多主體算力的安全認證方法,支持雲邊端等不同層級算力協同的安全要求。在不少於2個行業完成試點驗證。

(四)訓推算力一體機

揭榜任務:面向人工智能訓練、推理場景,研發基於基礎設施即服務(IaaS)和平台即服務(PaaS)的高性能訓推一體化解決方案,覆蓋對大模型開發訓練和部署推理的全流程,包括數據準備、模型訓練、模型評測和模型部署。同時,支持大模型加密、攻擊防禦等能力,解決針對大模型數據洩露、指令攻擊等安全問題和風險。

預期目標:到2026年,研發支持至少3種指令集芯片的訓推一體機,針對至少5個行業開展人工智能訓推一體機應用,為用戶提供多元化訓推一體化服務,並在至少10種不同的場景進行人工智能訓推一體機落地。

(五)大規模異構算力集群推理加速技術

揭榜任務:研發存儲、網絡、計算的協同優化技術,通過模型加速、調度加速等方法實現大規模異構算力集群在大模型推理方面的加速,從而支持更大的模型、更長的上下文、更高的性能及更低的能耗,促進算力芯片在大模型推理方面的更好應用。

預期目標:到2026年,實現集群有效吞吐量5倍以上提升,實際應用場景中可處理的請求數提升1倍以上,首字延遲性能提升1倍以上,芯片利用率提升50%以上。通過優化算力中心計算、存儲、網絡的配比以及拓撲結構和系統調度策略,實現千卡以上異構集群在推理加速領域的突破。

二 存儲

(六)磁光電融合存儲系統

揭榜任務:針對單一存儲介質難以滿足多樣化數據存儲需求的現狀,依托磁、光、電存儲在性能、壽命、功耗等方面的差異化特性,將磁、光、電存儲技術進行融合,研發磁光電融合存儲系統,構建基於固態硬盤(SSD)、機械硬盤(HDD)和光存儲的多級存儲架構。根據業務特徵,將數據保存在不同級別的存儲設備中,實現海量數據的集中、統一存儲管理,支撐算力中心高效、低碳、安全持續發展。

預期目標:到2026年,研發磁、光、電融合存儲系統,支持適配分佈式文件、分佈式塊和分佈式對像等至少3種存儲類型,系統可以根據數據的訪問時間、訪問頻率、文件屬性等自定義分級策略,根據業務負載動態調整遷移。系統可通過介質安全、系統安全、軟件安全等夯實底層安全能力,通過防勒索、加密算法、遠程監控、光存儲預警檢測等增強數據安全能力。打造磁光電融合存儲應用示範,完成至少20個業務系統應用,實現至少4個東部地區數據流動至西部磁光電存儲系統,且數據存儲量不少於10PB。

(七)存儲調度管理及應用技術

揭榜任務:針對海量數據存儲和算力孤島問題,研發跨域多算的存力調度、存網編排和存算網一體化系統,實現數據的智能冷熱分級、應用的跨域無感訪問等能力,有效降低成本、提高性能和支撐業務。系統具備資源規劃、策略調整能力,可優化和調整全網數據存儲佈局,實現對不斷變化的需求的適應。

預期目標:到2026年,研製具備高效、可擴展性的存儲系統,基於智能算法,對數據進行分析和調度,實現應用無感訪問和智能流動。研究存力調度策略,使數據召回率控制在30%以下;研究基於潮汐網絡調度算法,實現網絡帶寬利用率提升50%以上,達到存網一體的目標。集成存儲、計算和網絡的能力,支持存算網一體化調度,在算力中心資源池落地應用。

三 網絡

(八)高性能數據處理器(DPU)

揭榜任務:開展基於芯粒(Chiplet)和第五代精簡指令集(RISC-V)技術的軟硬件一體DPU芯片技術研究,支持算力中心、智算中心、超算中心場景所需的超高帶寬和超低時延,突破Chiplet異構芯片封裝技術、高速Serdes通信、大規模無損網絡擁塞算法、硬件密碼算法、高性能虛擬化、硬件可編程等技術,實現基於ARM、X86、RISC-V等異構核心的DPU應用,提升算力中心基礎設施處理能力和數據傳輸能效比。

預期目標:到2026年,完成超高性能DPU芯片研發工作,吞吐能力達到400Gbps,單向流量時延不高於30us,支持與國內外主流CPU、GPU芯片平台的適配,支持主流操作系統兼容,支持數據報文硬件處理邏輯可編程。

(九)基於RoCE的智算網絡

揭榜任務:面向RoCE網絡開展設備及管控系統研發,通過提高設備帶寬、優化負載均衡算法、強化網絡流量規劃及運維能力等方式,提升RoCE網絡的吞吐量和時延性能。研製新一代智能化管控工具,引入AI大模型能力,簡化RoCE網絡的部署和配置工作,實現全局、多維度的可視化運維。在網絡波動、業務變更、故障等情況下,網絡參數自動調整,流量快速切換,從而達到提升網絡效率和降低運維成本的目標。

預期目標:到2026年,實現新型RoCE網絡整體方案的商用部署,網絡性能提升10%以上。通過智能化管控及運維工具,網絡部署難度大幅降低,運維效率提升50%以上,可支撐更大規模部署和應用。

(十)光交換智算網絡技術研究與驗證

揭榜任務:面向智算集群低功耗、高帶寬、低延遲技術需求,開展智算集群光交換組網關鍵技術研究與驗證,重點突破智算集群光交換組網、路由協議適配等關鍵技術。針對智算集群的功能、性能、可靠性和擴展性等要求,研究光拓撲映射、光電混合路由、多路徑負載均衡等技術。

預期目標:到2026年,實現支持智算集群的易操作、高可靠、可平滑過渡升級的光網絡,支持人工智能等關鍵業務承載;光交換設備單端口速率支持100GE/400GE/800GE,交換容量彈性可擴展,可支持不少於3種異構算力資源互聯,在不少於2個智算集群完成驗證,並完成不少於3種智算業務承載驗證。

(十一)面向分佈式智算中心的網絡關鍵技術研究與驗證

揭榜任務:針對智算集群從集中式向分佈式部署探索的趨勢,攻關算力中心間網絡技術,研發麵向智算中心間的高可靠傳輸設備,構建智算中心間超大容量、超低時延、超高可靠光電協同網絡,實現智算中心高速、可靠互聯。

預期目標:到2026年,突破智算中心間超大容量、超高可靠網絡傳輸關鍵技術,研製面向智算中心間網絡的傳輸設備,單波速率不低於1.6Tbps,設備時延不超過30us,支撐分佈式智算中心間業務的高可靠傳輸。

四 應用

(十二)智算中心跨域互聯應用

揭榜任務:優化人工智能算力基礎設施佈局,構建跨地域互補、協同算力調度的超大規模人工智能算力服務能力。加強與人工智能芯片廠商的兼容適配,構築大規模高性能異構算力池,提供面向大模型訓推場景深度優化的彈性調度、彈性容錯、高資源利用率的人工智能算力服務。

預期目標:到2026年,形成覆蓋5個以上全國重點算力樞紐節點的人工智能算力中心,支持跨地域、跨雲的算力需求感知和動態調度,完成3款以上算力芯片適配,聚焦大模型訓練和推理場景,構建大規模、高性能、彈性調度、高容錯的訓推一體算力資源池,具備分鐘級斷點續訓能力,支持萬卡級別並行訓練。

(十三)算力電力協同應用

揭榜任務:研發基於算力調度技術與能源大模型的多雲異構算電協同管理平台,構建基於數據驅動的算力集群用電負荷特性模型、基於計算任務的時空轉移特性的能源大模型,推動算力預測與調度技術在智算中心應用落地,提升整體資源利用率,基於新能源、新型儲能係統開展算力負荷與電力系統的協同優化,實現精準、動態、實時的能源調度與交易,實現算力與電力等能源的深度協同。

預期目標:到2026年,實現智算場景下能源與算力全鏈路的數據穿透及流程整合,構建“算”隨“電”動的直接控制及間接引導機制,實現算力需求預測精準度達到70%、集群有效負載率提升25%以上,智算中心整體集群資源利用率提高10%。结合算力集群用電数据、時間週期、氣象數據、工作負載等多種因素,實現“電”隨“算”用的能源效率優化與算效提升,實現基础设施用能决策精准度85%以上,響應時效性達到提前15分鐘響應級別,智算中心整體算力能效水平提升30%,算力中心用電成本降低5%以上。

(十四)大規模通信業務場景中的算力應用

揭榜任務:圍繞網絡功能虛擬化(NFV)系統架構,針對NFV中網絡性能、資源利用和靈活展性等方面的挑戰,研發麵向NFV架構的高性能虛擬化、智能化網絡管理和資源編排算法等技術和系統,突破虛擬化層與硬件加速器(如FPGA、DPU、GPU)之間的協同能力。

預期目標:到2026年,NFV算力平台系統中實現對虛擬化網絡功能的智能調度,支持異構集群部署、動態擴展,資源動態分配,虛擬化資源利用率提升20%以上;支持GPU、FPGA等硬件加速器的虛擬化調度,加速網絡處理性能至Tbps以上;支持智能化網絡虛擬化功能管理,提升NFV系統的自動化運維能力和管理效能,故障修復時間縮減不低於30%。

五 綠色低碳

(十五)綠色算力技術研究及應用

揭榜任務:圍繞算力的綠色節能技術突破,面向算力中的任務調度特性、能源使用模式、負載均衡要求等關鍵要素,研發適應於綠色計算的動態資源調度算法、能耗優化管理系統,以及面向多場景的協同節能機制,突破節能算法的智能化程度,提升算力網絡中多節點的能源利用效率。

預期目標:到2026年,能耗管理系統實現對算力中心和網絡節點的實時監控與節能調度,通過計算節點支持動態調頻、動態電壓調節,單節點平均能耗降低30%以上,滿足AI推理等應用需求。

(十六)企業綠色計算碳感知平台

揭榜任務:建立企業算力中心碳排放度量體系,能夠實時、精準地統計企業各個算力中心碳排放,並能將碳排放量分攤到不同的業務部門、應用場景和工作負載,實現精細化的碳排放的管理。同時,基於碳排放的數據,實現碳感知調度能力,通過在保證業務體驗和連續性的情況下將工作負載調度到更加低碳的算力中心,進一步降低碳排放。

預期目標:到2026年,圍繞千萬核級別跨域的算力中心,構建企業級綠色計算碳感知平台,形成一套行業通用的、可精確度量不同類型工作負載碳排放的技術方法和指標體系,通過生態共建形成綠色度量衡標準體系。構建碳感知調度能力,達到算力中心可再生能源比例30%的目標。

(十七)冷板式液冷原生整機櫃服務器

揭榜任務:面向新一代液冷算力中心,研發冷板式液冷整機櫃,包括液冷服務器節點、無源液冷門等,突破高密算力、多樣性算力的散熱技術及架構要求,實現支持供電總線、網絡互聯總線、液冷管路可盲插運維的液冷設備,具備液冷機櫃及液冷服務器等多級漏液檢測能力,有效降低業務中斷範圍與損失。

預期目標:到2026年,液冷整機櫃實現100%液冷散熱,製冷PUE低於1.15。整機櫃服務器內部實現全盲插設計,管理模塊可實現整機櫃功耗管理、漏液檢測、資產管理等功能;通用算力单柜功率不低於20kW,智能算力单机柜功率不低於30kW,實現不少於500台液冷節點的規模落地應用。

(十八)算力中心節能調優平台

揭榜任務:研製高精確度、高仿真效率、多場景覆蓋的算力中心PUE仿真平台,突破物理機理模型構建、仿真引擎集群、模型自動生成等關鍵技術,實現對算力中心不同運行狀態下細分時間顆粒度PUE的快速、精準評估。研發基於大數據分析技術的算力中心製冷系統AI節能優化系統,通過自動化數據治理、自動推理等關鍵技術,準確匹配製冷需求,在滿足可靠性要求條件下實現算力中心製冷系統整體動態實時優化,優化算力中心PUE。

預期目標:到2026年,支持液冷、水冷等至少2類典型製冷場景進行能效優化,支持製冷系統和配電系統聯合仿真,系統可輸出不同負載及運行工況條件下的PUE運行曲線、系統設備運行模擬工況等參數,PUE仿真精度達到97%以上。基於能效優化平台,支持AI自動推理,小時級策略自動下發,實現對算力中心能耗的可視、可管、可控。通過AI能效優化,實現算力中心PUE降低5%以上,通過算力中心基础设施与IT聯動節能,實現總能耗降低5%以上,在5個以上算力中心落地應用。

(十九)新型製冷系統

揭榜任務:研發人工智能節能係統,針對算力中心基礎設施的運行調控和環境監測。提出全新自適應算法,突破原有常見算法的局限性,提升數據的分析和處理效果,搭建基於專家經驗的人工智能算法數據庫,提升包括能耗管理、能源調度、安全監測、故障診斷、輔助運維等功能的節能性、可靠性、經濟性。

預期目標:到2026年,在滿足製冷要求的基礎上,提高冷卻系統的可靠性和自適應性,提高能源使用效率、水資源使用效率和運維效率,其中節電率提升10%以上。支持冷卻系統數據採集、標註、治理、存儲,具備系統運行異常告警、告警收斂、自動診斷、遠程通信、自動控制等功能,支持冷卻系統智能化調優、智能化控制的核心能力,並開展不少於5個實際業務場景所提供的AI節能調優案例。

六 安全可靠

(二十)算力中心智能運維機器人

揭榜任務:研發算力中心智能運維機器人以及智能機器人管理平台,基於雲邊端三層架構,實現智能機器人在多層、多房間樓宇機房內的設備設施識別、多模態環境感知、精準空間定位、智能人機協同、多任務聯合調度等方面的技術與算法優化。支撐機器人在算力中心設施運維和IT運營等典型場景的應用,提升巡檢質量,促進算力中心運維、運營的降本增效。

預期目標:到2026年,實現大型算力中心內智能機器人的多機房、多樓層協同應用部署;機器人巡檢任務成功率不低於95%,設備識別準確率達到97%,環境巡檢召回率不低於90%,保障算力中心巡檢業務持續運行。實現雲邊端協同調度,支持不同場景下的自主作業,提高任務並發執行效率,促進穩定、安全、可靠、可控的算力中心智能運維體系建設。

(二十一)雲邊端一體化智能監測平台

揭榜任務:開發高性能雲邊端一體化系統,研發以智能化終端或機器人為硬件載體、以多算法模型融合和平台工具為軟件載體的軟硬結合的集中監測管理與運維巡檢方案。突破多層級自動化運維、多維度診斷、多平台覆蓋、多模型量化等關鍵技術。構建綜合運維健康度數字化評估體係與模型,實現算力設施從規劃、設計、建設、部署、運行、維護的全生命週期數字化管理。

預期目標:到2026年,建立大規模集群的智能化運維能力,設備實現跨平台及系統穩定性風險和安全風險識別能力,綜合視頻識別技術等,結構化告警收斂推送,準確率超過98%。算力設施全生命週期數字化聯動,平台自動化流程推進,實現雲端直控覆蓋超10棟算力中心,落地數字化算力中心健康度評估,智能化終端或機器人的自驅動巡檢,視頻流識別與告警的聯動,系統的智能化運維問答,並保障業務服務級別協議(SLA)達標率99%以上。

七 其他

(二十二)其他算力領域的特色化技術、產品、服務和平台等,應具有技術先進性,技術成熟度較高,產業化前景較好。

本文編選自微信公眾號“工信微報”,FOREXBNB編輯:李佛。