理论研究 | 算力“争夺战”中,浙江如何建设算力强省

发布时间:"2024-08-27 03:36" 

2024年第8期《信息化建设》杂志刊发我中心高媛、胡胜蓉同志《关于算力“争夺战”中,浙江如何建设算力强省》一文。全文如下:


从2022年ChatGPT的横空出世到2024年Sora的惊艳亮相,通用人工智能的迅猛发展超乎人们的想象,各种新技术新产品层出不穷,例如谷歌Deepmind升级后的AlphaFold 3能够以前所未有的原子精度预测所有生物分子的结构,苹果发布颠覆性个人智能系统Apple Intelligence彻底改革Siri,华为首发的人形机器人可以下厨房、进工厂……这些人工智能产品能力不断涌现的背后都离不开强大算力的支撑,AI对智能算力的需求呈指数级上涨,国内外算力进入到大爆发阶段,各地都在加快智算中心建设。算力是数字经济时代的新质生产力,是全球人工智能产业争夺的焦点。加快建设算力强省,亦是浙江省当前阶段的重要任务。

01

✦ 智能算力开启算力新时代


智算地位越来越重
2023年全球计算设备的算力总规模达到1369EFlops,近年来算力结构经历了革命性的变化,智能算力的占比已经从10%左右增长至60%以上。我国高度重视算力发展,算力规模位居全球第二,工业和信息化部等6部门发布《算力基础设施高质量发展行动计划》等政策文件,提出到2025年算力规模超过300EFlops,智能算力占比达到35%,推进算力基础设施高质量发展。各地纷纷加快智算中心布局,广东明确提出到2025年智能算力规模全国第一、全球领先的目标,上海在“算力浦江”智算行动中提出到2025年智能算力规模超过30EFlops、占比达50%以上,北京则强调到2027年具备100%自主可控智算中心建设能力。
智算芯片越来越快
在人工智能发展大背景下,传统通用计算芯片已经不能满足大模型训练要求,智算芯片成为支撑人工智能大模型训练和推理的关键。智算芯片迭代更新速度非常惊人,国际芯片巨头英伟达在数据中心GPU方面近乎垄断地位,每年都发布新的GPU芯片,今年发布的芯片B200,AI性能为每秒20千万亿次浮点运算,是此前最强的H100的5倍,过去8年间将AI计算性能提高了1000倍。近年来中美科技博弈愈发激烈,美国不断加强对中国出口尖端AI芯片的管制,国内芯片公司奋起直追,以华为为代表的国内龙头厂商给出了替代方案,目前华为昇腾910B能力已经基本做到可对标英伟达A100,为世界构建第二选择。
集群规模越来越大
AI大模型的主战场,万卡已是标配。Open AI的GPT—4在约2万块A100上训练了90—100天,Meta最新的两个AI训练集群均集成了超2.4万张H100。从大语言模型到音频、视频等多模态模型,未来模型训练对算力集群规模的要求越来越高,OpenAI/微软、Meta、xAI等都在竞相建立超10万卡集群。万卡集群搭建并不是简单的算力堆叠,多卡互联非常考验算网存系统级优化的功力,可预见从万张到十万张演进还需进一步解决超大规模算力组网、集群效能提升、多元异构算力生态等方面问题。国产芯片领域,华为去年7月宣布将昇腾AI扩张到1.6万张卡,我国迎来“万卡时代”,摩尔线程今年7月也官宣实现万卡且兼容CUDA。
算力发展越来越绿
全球数据中心占用了全球3%的电力,绿色化发展成为重要趋势,是响应环境保护、降低能耗成本的有效途径。美国科技巨头开始实施绿色算力战略,谷歌提出到2030年实现全天候使用无碳能源,亚马逊计划到2040年实现整个运营的净零碳排放。通过建设在寒冷地区或利用自然冷源冷却可以有效降低能耗,Meta靠近瑞典北部的北极圈数据中心PUE维持在1.1以下,微软建在海底的数据中心PUE低至1.07。国内的智算中心也在积极探索绿色发展之路。中国政府鼓励采用液冷、高压直流、余热利用等节能技术,推动数据中心向绿色、低碳转型,部分智算中心已经开始采用冷板式或浸没式液冷技术,大幅降低冷却能耗。



02

✦ 我国算力竞争进入白热化


芯片之争是核心
美国长期占据芯片技术的领先地位,英伟达在美国政府对华芯片禁售令后断供最高端芯片,发布特供的“H20”与国内芯片争抢市场份额。国内芯片企业不断崛起,除领头羊华为外,海光、沐曦、壁仞、摩尔线程等企业主打GPU产品,寒武纪、燧原深耕神经网络芯片,兆芯和龙芯在CPU领域外持续开拓GPU产品。但在芯片产业不断繁荣的同时,芯片行业投资巨大、人才争抢严重,一定程度上也加剧了市场内耗。芯片制造的竞争也异常激烈,各大企业都在努力提升芯片的集成度和性能,英伟达最新一代芯片预计采用台积电3纳米制程,华为采用了7纳米制程,与国际最先进制程还有代际差距。
生态之争是关键
英伟达早在2006年就推出CUDA平台,完善覆盖了软件库、AI框架和算子库,CUDA生态成为英伟达最强护城河。国产AI芯片存在不同技术路线,一类以海光、摩尔线程等为代表,选择类CUDA生态的路线,便于迁移适配;另一类以华为昇腾为主,试图从底层逻辑到算法框架等全面开展自主研发,打造全栈式AI生态。目前主流的技术范式尚未形成,业界也很难达成共识,国内顶尖服务器厂商表示,不得不为各种芯片做服务器研发适配。此外,和美国TensorFlow、PyTorch等AI开发框架相比,百度飞桨等国内开发人员只有国外的1/10,AI开发框架、AI芯片、AI应用等各层之间未深度适配,生态合力尚未形成。
能源之争是根本
算力发展中能源消耗巨大,有种说法是,AI的核心是算力,算力的尽头是电力。智算中心每个环节都离不开电力支撑,包括GPU等硬件设备、数据的存储和传输、模型训练推理、制冷设备及供配电系统等,ChatGPT每天处理2亿个用户请求会耗电50万千瓦时,相当于1.7万个美国家庭一天的用电量。电力成本占到算力中心运营总成本的60%—70%,全国各地电价差异大,如何打造算力成本洼地成为各地政府吸引产业的关键。此外,服务器一旦开启就要24小时不间断运作,当前我国IDC机柜平均上架率在58%左右,利用率还有提升空间,如果各地盲目无序建设智算中心可能导致服务器闲置风险,造成大量能源浪费。
模式之争定长远
建设模式方面,国内投资建设主体多元,有政府、高校、科研机构、电信运营商、央国企、互联网巨头及民营企业等;民营企业建设热情高,平湖润泽国际信息港已成为长三角区域单体规模最大的算力集群。运营模式方面,部分高校、科研机构及民企采取自建自用模式,政府、国企对外提供普惠算力服务、会委托第三方机构进行运营,互联网巨头则通常采取云服务方式对外提供算力。算力调度模式方面,政府、运营商、企业、行业机构主导的算力调度平台百花齐放,云计算平台天生具有分布式、弹性扩展等特点,但在智能算力调度方面还有待技术突破,政府调度则在分配、定价、结算等问题上还需进一步探索。 



03

✦ 浙江打造算力强省的对策建议


要技术跟随,更要自主可控
短期模型训练、人工智能应用仍需要用到国外先进芯片,但是不支持短视的盲目大量囤卡行为,避免芯片过时过剩风险。长期坚定不移发展自主可控技术路线。建议从推理芯片切入,大模型训练需要大规模高性能芯片集群,且随着企业AI应用逐步成熟,企业的算力需求逐步转向具体应用场景的高能效、低延迟、低成本的推理需求,国产芯片目前完全可以满足推理需求,可以从推理领域助力实现国产芯片的市占率提升。积极引入和培育高端芯片厂商,搭建好基础公共服务,让芯片设计—制造—封测全流程都可以在浙江本地完成。聚焦基础关键技术攻关,依托高能级创新载体、上下游创新联合体等开展联合攻关,突破多元异构、存算一体、高速互联、安全可信等计算技术,不断提升高端芯片性能。前沿布局量子计算、类脑计算、光计算等前沿非经典计算技术,多条技术路线并行争取实现换道超车。
要自建生态,更要开源开放
积极发展自主生态,逐步做到技术路线收敛,集中力量打造具有国际影响力的头部生态。支持开源体系建设,大力普及开源文化,加强国内外交流合作,打造1—2个具有国际影响力的开源社区。围绕芯片设计、服务器操作系统、数据库等算力基础软硬件,鼓励龙头企业软件开源、硬件开放,布局一批开源项目,支持符合条件的开源技术商业化创新项目列入省产业链协同创新项目计划目录,加快开源成果工程化、产业化。加大开源人才培养力度,支持龙头企业与省内高校联合基于国产化基础体系开设相关课程,通过基础教育和实践培训培养国产基础研究人才和复合型高技能人才。积极推进开源文化进校园,研发开源贡献价值评价体系,在职称评价、毕业推免标准中纳入开源项目贡献,机制上激励更多师生投入开源。做好公共服务平台支撑,以创新大赛、研修班等形式,大力培养软件开发、适配、迁移等方面专业人才。


要适度超前,更要绿色用能
统筹考虑存量算力中心和新增智算中心建设,做到全省算力布局“一盘棋”。对全省算力设施供给和算力需求情况进行摸底,对存量老旧数据中心进行淘汰和改造。提升现有算力中心利用率,比如可通过云服务、算网一体化调度等方式,将分散的算力资源进行整合和优化配置。对新增算力基础设施进行合理规划布局,参照合规指引进行严格审批,按照适度超前原则保障算力供给,优先建设绿色集约高效能的算力中心。聚焦绿色算力技术创新,推进算力基础设施全生命周期绿色设计,围绕计算、存储、网络等关键环节加强绿色技术攻关,推进绿色新技术、新产品、新解决方案。建设绿色能源替代,提升太阳能、风能等可再生能源利用,探索突破可聚变核能,降低电力成本。加强绿色节能技术推广应用,短期率先推动冷板式液冷,长期持续发展浸没式液冷,降低算力中心PUE。
要政府引导,更要市场主导
政府主体建设的算力中心需要体现公共基础设施的特点,提供普惠算力服务;积极承担重大国家任务,建设基于多种国产芯片的万卡高性能计算集群,建设基于国产指令集、国产芯片的服务器集群及其配套设施的融合算力平台,提供通用算力、智能算力、超算等多种算力。政府要发挥引导作用,做好资源统筹,支持建设算力产业联盟,鼓励高校、科研机构将自建算力开放使用,并联合政府主导和联盟内伙伴的算力中心进行算力调度平台建设与使用。发挥好市场主导的作用,鼓励有能力有条件的市场化建设方积极拓展应用渠道,提高算力使用效率和投入产出比;支持不断深耕加强自身技术壁垒,鼓励算力企业出海、拓展国际市场;鼓励云计算厂商以云服务方式整合算力资源,实现多元异构算力跨域调度编排。鼓励算力中心与有技术、有经验的链主企业、龙头企业合作进行市场化运营,引入算力产业上下游企业,推动产业集群化发展。

【作者:浙江省数字经济发展中心数字经济部高媛,浙江省数字经济发展中心副主任胡胜蓉;本文刊发于2024年第8期《信息化建设》杂志