中国科学院院士钱德沛:“东数西算”催生算力新趋势 需要建设和运营超算应用网
每经记者 淡忠奎 每经编辑 刘艳美
“2021年全国数据中心的能耗已经达到全社会用电量的2.6%,而且还在快速增长。”在11月24日上午举行的2022天府数字经济峰会上,中国科学院院士、北京航空航天大学教授钱德沛以《从网格到东数西算:构建国家计算基础设施》为题作了主旨发言,谈及东数西算背景下算力需求不断上升、计算机异构化及算力中心多样化等最新趋势。
他认为,在“双碳”背景下,如何降低IT设备的能耗是一个非常紧迫的任务,因此我们要约束数据中心的能耗。2021年,全国数据中心能源消耗2166亿千瓦时,较2020年增长44%,占全社会用电量的2.6%左右;二氧化碳排放量约1.35亿吨,较2020年增加3915万吨,占全国二氧化碳排放量的1.14%左右。
算力中心正朝多样化方向发展
钱德沛表示,东部地区的电能已非常紧张,而西部地区的水电、太阳能、风电等资源比较多。但是新能源电力入网比较困难,西电东送投资巨大、输电损耗也很大。相比输电,传输数据是比较划算的一种方式。
这也是“东数西算”工程的重要背景。在他看来,在“东数西算”驱动下,我国的算力需求已经出现新的趋势。第一,算力需求不断上升。一方面,传统的科学研究、产业升级转型对算力的需求越来越大,比如数字模拟、数字孪生、产品优化设计;另一方面,新兴的人工智能应用和大数据应用对算力的需求也不断上升,比如像大模型训练,训练一次就需要很大的算力。
与此同时,云计算、大数据已经成为行业技术进步的手段,越来越多的用户把网站、业务平台和信息系统牵引托管到云数据中心,也造成了算力持续上升。
为了高效处理多样化应用,计算机体系结构异构化,这是第二个趋势。钱德沛指出,在世界TOP500前十的计算机当中只有1台日本的同构系统,其他都是异构系统。面向人工智能应用,异构结构也不断发展,CPU+深度学习处理器/加速器结构被智算中心广泛采用,比如CPU+Google TPU,CPU+寒武纪等。
简言之,同构计算是使用相同类型指令集和体系架构的计算单元组成系统的计算方式,而异构计算主要是指使用不同类型指令集和体系架构的计算单元组成系统的计算方式。
第三个趋势是算力中心多样化。为了应对应用多样化,算力中心也朝着多样化的方向发展,传统的超算面向科学和工程计算,而智算中心面向人工智能应用,需要配置深度学习处理器。多样化算力中心的业务存在交叉,比如超算中心在努力支持人工智能和大数据应用,而云服务商除了传统主机托管外,也开始支持新兴的业务服务,像AI、大数据等。
算力需求变化亟待运行模式创新
在钱德沛看来,算力需求不断上升、计算机体系结构异构化和算力中心多样化趋势,给算力发展带来三个亟待破解的问题。首先要解决的问题就是异构算力中心的透明调度问题。在多种体系结构、多种算力形态、不同部门算力发展的前提下,如何把它们互联和调动起来。
这需要根据任务类型确定所需要的计算机资源,然后根据各种算力中心的软硬件配置,将任务合理分配和调度。不仅要考虑中心的硬件资源,还要考虑中心是否具备软件资源、用户服务质量和计费需求,比如限定完成时间、资费水平等。
除此之外,异构体系结构显著增加了并行编程的复杂性,这在多样化算力中心场景下更为明显。虽然厂商推出了编程语言/接口,但这些编程语言和接口仍然只能支持他们自己的平台,异构平台编程的程序通常难以不加修改就可以在其他平台运行。这就需要在软件编程模式和语言方面做更多的工作,支持并行程序在多样化算力中心的透明调度和运行。
钱德沛认为,分布环境下的数据放置也是一个亟待解决的问题。如科学/工程计算和大数据应用等多数计算应用的数据规模都较大,在分布式算力中心环境下,数据的放置对应用性能和能耗影响很大,计算任务调度和迁移时要考虑数据传输和访问的开销。
这些都是亟待突破的技术性问题。与此同时,算力需求的变化也亟待运行模式创新。根据他的设想,下一步要基于国家超算基础设施建设和运营超算应用网,类似于现在的网络销售平台,“要在超算运营网上建设和运营‘计算淘宝网’‘计算京东网’。”
他认为,在这种环境下领域用户面对的是他们所需要的应用软件、应用流程、问题解决方案,而不是超级计算机,不以获取机时为主要目的。领域应用可以按量付费、按需使用,改变传统的购买许可证的方式,从机时提供向应用服务转变。
此外,应用软件和应用解决方案应该是计算商店出售的按用收费的商品,因此要发展与应用模式相匹配的新开发机制。比如,采用类APP无商店的模式和机制,鼓励更多的开发者进入这个领域开发各种应用软件。