智算中心“火了”,但为什么火了起来?

撰文 | 李里里

编辑 | 李信马

题图 | IC Photo

“算力”相关产业近期持续火爆,智算中心的建设,也正在遍地开花。

据《全球计算力指数评估报告》显示,全球算力排名美国和中国分列前两位,同处于领跑者的位置,而在代表先进产业的 AI 算力上,中国以 AI 服务器指出规模同比增长 44.% 的增幅超过美国,位列全球第一。

据中国信息通信研究院测算,截至2021年底,中国算力核心产业规模超过1.5万亿元,关联产业规模超过8万亿元。其中,云计算市场规模超过3000亿元,互联网数据中心(服务器)市场规模超过1500亿元,AI 核心产业规模超过4000亿元。

智算中心,简单来说就是专门服务于人工智能的数据计算中心,能够为人工智能计算提供所需的专用算力。随着智能推荐、自动驾驶、智能制造等领域发展迅速,超大规模人工智能(AI)模型对算力的需求不断提高,智算中心的建设也纷纷被提上日程。

7月30日,在中国首届算力大会上,工业和信息化部副部长张云明表示:“算力已经成为继热力、电力之后新的关键生产力。”据不完全统计,从2021年1月1日到2022年2月15日,全国共有至少26个城市在推动或刚刚完成当地智算中心的建设,其中投入使用的有8个,包括南京、合肥等地的智算中心。除了这些投入使用的,全国至少还有18个城市签约、开工、招标、计划建设智算中心项目,包括深圳、长沙的项目都已经开工建设。

8月30日,阿里云宣布正式启动张北超级智算中心,其建设规模为12 EFLOPS(每秒1200亿亿次浮点运算)AI算力,可以为AI大模型训练、自动驾驶、空间地理等人工智能探索应用提供强大的智能算力服务。智算中心用来满足AI计算需求,张北超级智算中心投入使用后,其算力规模超过了谷歌的9 EFLOPS和特斯拉的1.8 EFLOPS,成为全球最大的智算中心。

阿里云同步宣布了将启动另一座位于乌兰察布的智算中心,建设规模为3 EFLOPS(每秒300亿亿次浮点运算)AI算力。2020年,中国工程院院士、浪潮集团执行总裁王恩东就曾提出,智算中心正在成为经济社会运行的重要基础设施,而如今,这一预测已然成为现实。

为什么要发展智算中心?

在8月30日的发布会上,阿里云智能全球销售总裁蔡英华谈到了近年来的两个观察:第一,是数字化转型带来了大量的数据,有机构预测2025年中国的数据量将达到48.6ZB,这驱动着我国算力基础设施升级;第二,除了算力供给的总量在提升,算力供给的结构也在发生变化,十三五期间,我国算力总规模增长近5倍,其中通用算力增长接近3倍,但智能算力的增长接近百倍,智能算力在融合算力中的占比达到了40%,未来可能会更多。

据中国信通院数据统计,2016年至2021年,我国数字经济规模从22.6万亿元增至45.5万亿元,增长1.01倍,总量稳居世界第二,占GDP的比重39.8%。2021年全年,我国数据产量达到6.6ZB(1ZB约等于1万亿GB),占全球数据总产量(67ZB)的9.9%,仅次于美国而位列全球第二;且近三年来,数据产量保持每年30%左右的增速。

根据IDC、清华大学和浪潮信息联合发布的《2021-2022全球计算力指数评估报告》,国家的算力指数每提高1个百分点,数字经济和GDP将分别增长3.3‰和1.8‰。国家工业信息安全发展研究中心此前发布的《新一代人工智能算力基础设施发展研究报告》认为,现阶段人工智能已经成为世界各国竞争角逐的焦点。智算中心作为人工智能产业发展的重要底层基础设施形态,每单位功耗所能产生的计算的能力、智能的能力,远远高于传统的算力中心,也因此被推向发展新高地。

目前我国的智算中心基本采用了高标准建设,算力高的像张北超级智算中心,少的也有100P,比如哈尔滨和郑州的智算中心(1P相当于每秒运算能力为一千万亿次,100P大约相当于5万台高性能电脑的算力)。

“我们看到AI,或者说以数据为核心的AI场景智能化应用的使用趋势在增加。”阿里云智能副总裁、行业解决方案销售部总经理霍嘉表示,智算中心的价值,本质上来自于人工智能丰富的应用场景。智能计算和通用计算的区别,在于通用计算主要面向传统的计算处理任务,或者离线大数据的计算,而智能计算可以满足许多领域对人工智能、机器学习、深度学习的新需求,比如科研、 自动驾驶、生物制药、智能制造、数字孪生、空间治理等一系列的场景,“可能很多时候大家没有意识到在使用智能化的服务,其实打开高德导航的时候,背后全部是数据智能化应用,比如随时提醒你改变一条道路。”

相比传统数据中心,智算中心能满足更具针对性的需求,以及更大的计算体量和更快的计算速度。从硬件上来看,传统数据中心多采用通用计算的CPU,而智算中心中更多的是GPU等进行人工智能训练的芯片;软件上,智算中心会部署不同的人工智能框架,用于分配计算任务提高效率,并且提供了人工智能应用开发工具。

比如张北超级智算中心由飞天智算平台支撑建设,据阿里云表示,其算力效率的核心指标“千卡并行计算效率”由传统架构的40%提升至90%,算力资源利用率提高到3倍以上,AI训练效率提升了11倍,推理效率提升了6倍。蔡英华表示,智算不仅在于规模大,没有体系化的核心技术能力,堆硬件是堆不出算力的,更无法带来实际的产业价值。

在阿里巴巴内部,飞天智算平台支撑了达摩院前沿AI和电商智能技术的发展,并服务了小鹏汽车、深势科技、上汽集团、中国气象局、南方电网等机构和企业。其中,达摩院大模型M6仅使用512张GPU,在10天内就完成了10万亿参数模型训练,阿里巴巴拍立淘训练速度提升了200倍,10亿张图片全量训练时间从2.5个月缩短到8小时;小鹏汽车在乌兰察布建设智算中心“扶摇”,算力规模达600PFLOPS,是国内最大的自动驾驶智算中心,将自动驾驶模型训练提速近170倍;深势科技将集群性能优化提升超过100%,让分子动力学仿真模拟训练效率提升了5倍。

今年8月初,浪潮信息总裁彭震曾表示:“根据全球服务器出货量估算,从2020年到2025年全球算力规模将提高30倍,用于深度学习的人工智能算力规模每隔三四个月就翻一番。数字化、智慧化时代对于算力的需求几乎是无穷尽的。”

这也意味着,智算中心的纷纷落地还在前期阶段,未来仍有增长空间。

要高效,也要绿色

不过,智算中心的建设并没有那么容易。

智能计算不同于通用型计算,需要海量数据对AI模式进行训练,算力被损耗在数据迁移、同步等环节,千卡以上规模的算力输出最低往往仅有40%左右。传统智算中心达到一定规模之后,增加算力资源反而会降低算力输出的能力。这导致了智能算力成本高昂,制约了产业发展。

在张北和乌兰察布的两座超级智算中心,阿里云通过体系化的核心技术自研,改变了智能计算的损耗难题。据了解,基于阿里云磐久基础设施的融合算力和大数据AI一体化平台整体解决方案,可以实现“一云多芯”,以最高10倍IO优化和5倍通信性能优化,实现90%的千卡并行计算效率。其中在通信技术上,阿里云自研了Solar-RDMA网络,实现端对端最低2微秒延迟,并配合了自研的无阻塞通信技术。此外在AI开发层,大数据+AI一体化平台在模型训练环节,提供分布式训练框架,可以将训练效率提升了11倍以上。一站式的通用推理优化工具可将推理效率提升6倍以上。

计算效率之外,另一个重要的问题是能耗,由于在数字化的过程中,算力会使用巨量的电力,如何在双碳背景下降低能耗,近期被反复提及。在9月13日的《零碳制造论坛》上,国家信息中心信息化和产业发展部主任单志广表示:“其实,数字技术本身并不是完全绿色化的,现在ICT的碳排放占比为2.3%左右,虽然碳排放总量不高,但增速非常快,据相关机构数据表明,其速度超过60%,到2040年总量会达到14%,超过现在排第三的建筑业。此外,2021年我国数据中心的整个用电量也达到了2160多亿度,比2020年增加了44%,整个数据中心占了整个数字产业30%多的碳排放。所以降碳的需求也是非常大的。”

据工信部发布的《新型数据中心发展三年行动计划(2021-2023年)》等政策,算力设施的建设方针和能耗管理逐渐趋于严格,如2023年新建大型及以上数据中心电能利用率(PUE)将被要求降到1.3以下。

阿里云大计算产品研发负责人曹政也对此表示:“在建设智数中心时,首先从IDC角度,你要有非常绿色的能耗,能降低成本,保证绿色发展。”据了解,通过自然风冷、液冷等绿色技术的应用,阿里云让智算中心的能耗持续降低,PUE最低可达1.09。

“我们在液冷领域应该已经有了六七年的研发,现在液冷我们与其他家不太一样的是,可以根据不同类型的服务器架构做自适应,现在我们单芯片功耗越来越高了,AI的加速芯片密度和热量达到一定程度没法扩展,这种情况下,不上液冷是不可能持续的,这是很现实的技术的要求。” 曹政表示。

智算中心在张北和乌兰察布的落地,也与两地得天独厚的气候与地质离不开关系。不过,阿里云智能副总裁、行业解决方案销售部总经理霍嘉透露:“我们今天的数据中心建设,不是只在北方,在上海也已经启动了华东智算中心的建设,随着产业的发展,会有更多的智算中心,不单在中国,可能是在全球的很多地方都会有。其实现在也有一些客户在跟我们沟通一些海外,帮他们做智算中心的一些事情。

当前发展数字经济是国家战略,政策支持力度不断加大,“东数西算”全面铺开,云计算、数据中心等基建投资不断加码。据IDC预测,2025年中国AI算力市场规模将达到701.8亿元,占整体服务器市场近三成。彭震曾表示,智算中心的建设会围绕开放标准、集约高效、普适普惠三个原则,未来发展主要有三个趋势:更加开放多元的架构与标准体系;通过算力、算法的基建化和一体化,让服务更加的高效;建立智算生态,让智算中心更好用。

工信部副部长张云明也表示,下一步工信部将要加速推进高端芯片、核心算法等算力关键核心技术的研发突破,攻克关键技术,支持企业、科研机构开展联合攻关,增强算力产业链、供应链自主可控能力,并在绿色低碳发展等方面发力。

热门相关:随时跑路系统   清穿皇妃要娇养   恶魔专属:小可爱,超凶的   蜜恋百分百:恶魔少爷,宠翻天!   反派王妃上位指南