好博体育(集团)有限公司官网 | 中国领先的智能体育管理平台
算力“管家”:那些守护AI“中枢”的人
发布时间:
2026-04-12 02:17:12
来源:好博体育
浏览量:1
手机人工智能(AI)助手瞬间给出答复,高清游戏画面丝滑流转,行车导航路线精准锁定……在这些智能体验日益融入我们日常的背后,是谁保障其所需的算力在毫秒间完成?
在内蒙古呼和浩特南郊的和林格尔数据中心集群,我们找到了答案。这里是全国十大数据中心集群之一,汇聚了华为、中国移动、国有银行总行等约50家大型数据中心,算力总规模突破12.5万P,其中智能算力占比96%,绿色算力指数全国靠前。
“风吹草低见牛羊”变成“风起电生算力涌”,离不开一群默默奉献的算力“管家”。他们日夜值守,让算力像水电一样稳定、好用。
中国移动呼和浩特数据中心基础设施网络运维工程师侯晓雯正在对数据中心供配电系统进行日常运维。(受访者供图)深夜11点,中国移动呼和浩特数据中心机房内的机柜嗡嗡作响。中心基础设施网络运维工程师侯晓雯从一排排机柜前走过,目光扫过供配电柜的指示灯,又侧耳听了听液冷系统的循环声。作为基础设施网络运维工程师,她的职责是“守着数据中心的水电命脉”,统筹供配电、制冷、液冷设施的运维,确保IT业务安全运行。
该数据中心整体规划34栋机房楼,目前已建成10栋、可提供机架2.9万架。这里还坐落着一个大型液冷智算中心,国内多种前沿大模型训练、推理均在此进行。
记者走进液冷智算中心看到,偌大的机房内摆满一排排机柜,里面装载的服务器内部采用冷板式液冷技术,流动着特殊冷却液的冷板紧贴芯片,像“贴身空调”一样直接带走热量,较传统风冷能耗更低。“服务器高速运转会产生大量热量,制冷是保障稳定运行的底线。”侯晓雯边巡检边说。
一次巡检,侯晓雯的步数轻松过万。但在她看来,最累的不是走路,而是突发故障处置。有次节假日,数据中心遭遇市电故障,侯晓雯和团队立即启动应急预案,保障油机和UPS供电稳定输出,同时全力确保制冷系统持续供冷,最终机房业务安然无恙。
“我们保障数据中心基础设施和数据底座的安全,一旦电力、制冷出问题,会波及整个IT业务。”侯晓雯说,因此7×24小时监控值机是常态,手机常年不关机。
如果说侯晓雯守护的是数据中心的“心肺”,那么算力网络运维工程师赵一帆管的就是“大脑”——那些承载大模型训练、AI推理的算力服务器。“大模型训练全靠这些服务器发力,我的任务就是不让它们出岔子。”
智算集群规模庞大、链路复杂、故障点多,问题根源排查难度指数级上升。而大模型训练对连续性要求极高,停机一次可能造成巨大损失。赵一帆说:“我们尽量靠预防性维护,提前排查隐患,利用业务间隙维修,最大程度降低损失。”
入职14年,赵一帆亲历了算力产业的跨越式发展:从单一机房到规模化集群,从传统风冷到液冷、算电协同、绿电储能,数据中心已成为数字经济的核心底座。“我们的工作也不断面临新挑战,但我并不抵触,边干边学,碰到一次复杂故障,只要解决了也就学会了,很有成就感。”
中国移动呼和浩特数据中心算力网络运维工程师赵一帆正在进行设备线缆检查。(受访者供图)中国移动呼和浩特数据中心副总经理李程贵表示,凭借专业运维团队和先进技术,该数据中心能完成万亿级参数大模型的稳定训练,创下连续22天无中断训练纪录。
运维工程师守护算力“心脏”,算力调度员则操盘“算力网络”。
和林格尔新区多云算力资源监测与调度平台大厅内,电子屏上的算力负荷、资源分配、跨区域调度数据实时跳动,勾勒出一幅“全国算力一张网”的动态图景。“我们已实现与北京、芜湖、贵州、重庆等地算力调度平台互联互通。”平台负责人兰小汀说。
该平台融合通算、超算、智算等统一管理,通过AI调度算法支持多数据中心、多集群算力的统一调度。2023年,“和林格尔绿色算力超市”在这里上线,卖家可以将剩余算力注册售卖,买家可以像逛淘宝一样选择算力商品加入购物车,结算后智能调度系统自动匹配最适合的算力供应商进行交付。
不过,调度精度远超想象。从和林格尔至京津冀枢纽核心区域,时延必须稳定在5毫秒以内。这是什么概念?要知道人类眨一次眼睛大约需要100到400毫秒。
为此,当地已建成至合肥、北京等地的400G全光网络,打造了“2.5.20”时延圈——2毫秒抵达乌兰察布,5毫秒抵达北京,20毫秒覆盖全国主要城市。“算力统一供给、统一售卖,让算力像用水、用电一样便捷,触手可及。”兰小汀说。
“你不知道我们的存在,说明一切正常。”采访中,几位采访对象不约而同向记者提及这句话。正如赵一帆所说,只要没人想起他们,就证明系统稳定、算力顺畅。这份幕后托底的踏实感,正是他们最大的价值与成就感。(记者安路蒙)