上海电信临港智算谷:算力新引擎,重塑数字未来
时间:2024-07-02 22:13:02
文/毛宇
摄影/徐大伟
当前,算力正以前所未有的姿态重塑着世界。
在上海临港片区的中国电信“临港智算谷”(以下简称“智算谷”)内,一场数字革命正悄然上演。科技时代,如何高效拥抱“数字”浪潮?从千卡到万卡,十万卡、百万卡,这个趋势是可持续的吗?算力能为企业带来哪些效能?在这里,能寻觅到答案。
步入智算谷机房,映入眼帘的是井然有序的机房景象,上千台服务器整齐排列,犹如科技矩阵,在风冷与液冷技术的双重守护下高效运行,为各类前沿科技应用提供着源源不断的动力。
2023年9月,智算谷在行业期待中正式启动,这不仅是上海临港新片区发展历程中的一个里程碑时刻,更是上海区域数字经济发展的强劲脉搏。尤为瞩目的是,智算谷打造了中国电信“两弹一优”高标准AIDC示范基地,即弹性供电、弹性供冷与优化气流组织。2024年1月,上海电信重磅发布了全国首个单体万卡液冷智算集群,作为长三角最大规模的运营商级算力资源,创新性的“魔方”式布局实现了单体超万卡的极致集群能力,能够支持万亿参数大模型训练。
数字推动经济变革,算力解锁未来潜能。作为临港新区数字化转型的“桥头堡”,临港智算谷不仅肩负着推动科技创新和产业升级的重任,更承载着构建可持续发展社会的愿景。
首个国产液冷万卡算力池已启用
站在一尘不染的2号楼机房内,冷风在耳边呼啸,风冷和液冷两套系统同时运转,要将万卡算力池运行所散发出的热量转移至另外一个空间,柜机上仪表盘显示的数字表明机房正处于20摄氏度左右的标准温度值区间。“全国首个国产液冷万卡集群就在我们眼前,目前在运行的已有6000卡,预计今年底前将实现万卡。”临港算力(上海)科技有限公司市场部经理曹春说。
为了打通单池万卡算力集群,而非将千卡池“拼”在一起,智算谷创新性的“魔方”式布局实现了单体超万卡的集群能力。
如同魔都繁华地段的高架桥,上下层叠,左右延伸,似经络般贯穿城市肌理,“魔方”三层立体架构便依靠核心交换机在中间楼层的巧妙布局,实现了Spine网络层的近距离全链接,巧妙绕过了IB网络50米传输的局限。每层楼单独能承载10000张算力卡,为万卡级别的超级集群开辟了新天地。
服务器内部GPU总线带宽飙至T比特级,令数据飞驰无阻。对外,每台服务器如同拥有八车道的超级入口,提供400Gbps的高速接入。网络构建上,无论是追求速度的IB网络,还是兼顾效率与稳定的ROCE无损以太网,都能确保数据传输时延极低,前者不到1微秒,后者则需10微秒,真正实现数据交流的“零等待”,为高性能计算和人工智能的飞速发展铺设了坚实的数字跑道。
“诞生”不到一年时间,临港智算谷已为中国电信千亿参数“星辰”大模型产品的运行奠定了坚实基础。其中,星辰政务大模型已于2023年率先在上海12345市民热线实现应用落地。未来,还将为智慧城市、医疗、自动驾驶、金融等领域添光增彩。
如今,临港智算谷既满足了人工智能大模型训练高速网络和算力需求,又保障超大集群内部的高带宽、低延迟、零丢包需求,为推动人工智能研究与应用的边界拓展提供了强大的基础设施支持。
在这里,千卡、万卡已经实现。“只要技术持续进步,智能计算卡的性能将继续提升,算力规模也会持续扩大。”曹春表示。
“两弹一优”显现创新能力
随着GPU算力不断攀升,对智算中心的供电、散热等基础条件提出了更高挑战。
中国电信领先一步,采用创新的弹性模块化设计方案,让先进的风冷与高效的液冷机柜能在同一机房和谐共存,液冷机柜能轻松应对48千瓦的高功率需求,而风冷机柜则在25千瓦以内灵活调节。这种设计不仅高效还节能环保,为中国电信打造了“两弹一优”的超前数据中心示范点。
这里,“两弹一优”意味着供电和供冷都能随需应变。
想象一下,电力像水流一样,在“水管”中自如流通,无论跨越楼层还是机房,都能快速、弹性地分配到每一台服务器。而站在一列供冷系统面前,则能体验到数台智能空调开到最大风力的感受,根据服务器的发热情况进行自动调节,确保每个机架都“凉爽”适宜。加上利用人工智能优化的气流管理,让数据中心的冷空气运用得恰到好处,既节约能源,又提升效率,为数字世界的绿色发展树立了新标杆。
液冷技术相较于传统风冷模式,能显著降低数据中心的PUE(电源使用效率)值。智算谷的一般PUE值可达到国家新建数据中心1.25的标准,部分区域更是达到1.08,接近理想水平。
尽管液冷系统的初期投资成本较高,大约比传统系统高出20%~30%,但其带来的长期节能效益与稳定性优势,使它成为目前高性能计算服务器的优选方案。
算力背后 节能更重要
在当今科技日新月异的浪潮中,中国算力产业正以破竹之势飞速前行。
截至2023年底,我国算力服务的在用机架总量已突破810万个,稳居全球第二。伴随算力需求的激增,电力供应面临前所未有的挑战,全球数据中心的电力消耗预计将在四年间翻番,达到1050太瓦时,中国亦不例外,数据中心耗电量占全社会用电量的比例逐年上升,2022年已达到约3%。
在这一背景下,绿色算力成为缓解“比特与瓦特”这对“最强能源CP”供需矛盾的关键解法。
早在几年前,中国电信便开始在青浦区和临港新片区前瞻布局“东西两翼”智算中心,支撑人工智能产业发展,加大智算基础设施投入。2021年成立的临港算力(上海)科技有限公司,建设运营中国电信临港园区智算基础设施建设项目,并将项目打造成中国电信临港智算中心。
临港智算谷率先落地实施应用,整体占地300亩,分三期建设,目前一期规划10万张卡,包括训练、推理、渲染等各类算力集群。在“碳中和、碳达峰”的大背景下,智算谷在设计之初就融入了绿色低碳的理念,风能、光伏等设施均在园区内可落座的区域搭建,与自然环境和谐共生,液冷技术的应用不仅大幅提升了能源利用效率,更是大大降低了运营成本。
作为该地区首个实现220千伏直供园区的项目,其电力供应系统的可靠性与应急准备的周密性可见一斑。变电站与柴油发电机的配置,不仅确保了电力供应的不间断,也为应对突发情况提供了坚实保障。
在2号楼的供电监控室内,一面壮观的模拟控制面板引人注目。各式表盘与指示灯交织,红绿蓝三色光点交织闪烁,如同精心编排的灯光秀,实则是园区电网健康状况的直观反映。数十根线条在面板上交错纵横,每一条线路都承载着智算谷服务器的正常运转和输出。“这里的供电设备可以负载智算谷一期全部电力,目前的负载率占总电力的10%。”工作人员介绍道。
当下,临港智算中心正积极探索绿电应用,与多方合作引入光伏等可再生能源。通过虚拟电厂等创新模式,提高能源使用效率,并有望参与电力市场交易,为数据中心运营带来更多经济效益,同时减轻社会能源负担,尤其是在用电高峰期。
随着数据洪流的不断涌动,算力作为支撑人工智能、大数据、云计算等高新技术的基石,正以前所未有的姿态重塑着世界。