EN
【原创研究】算力也能网络共享?
来源: 高级合伙人 徐院凌日期:2023-07-12浏览量:188
01 算力缺,算力贵,算力网络能否打破算力魔咒?

电气时代,电力成为经济社会良好运行的“底配”;信息时代,互联网成为产业快速发展的“标配”。我们已经迎来第四次工业革命——人工智能时代,算力成为了各行各业高精尖发展的“顶配”。

算力已经成为全球竞争的战略制高点,直接影响数字经济的发展速度,也是国家综合国力的体现,全球算力产业竞争日趋激烈,均发起了算力军备战。由于算力需求急剧膨胀,加上以美国为首的算力供应强国进行了高端算力的封锁和限购,导致中国算力供给严重不足。

目前,摩尔定律逐渐进入瓶颈,单芯片的算力提升空间越来越窄,成本越来越高。在单点算力无法持续倍增的情况下,盘活现有的算力资源,是解决算力不足问题的唯一办法。换句话说,让算力流动起来,像通信、电力等行业一样,通过资源统一调度,精准服务用户,提升算力的利用率,最终实现随用随取,这比单纯堆砌算力、死磕芯片制程更有价值。

因此算力网络应用而生,其主要由我国通信行业玩家发起和推动,最近一年逐步开始引起国际关注。今年非常火热的“东数西算”也是算力网络的一个实践方向。2023年5月移动云大会上,移动云发布全国首套算网体系,并展示了业界首个算网大脑。号称可提取各行业典型业务场景,构建东视西渲、东数西存、中训边推等东数西算类任务式服务,充分利用闲置算力,降低运营成本和客户成本。

那么到底算力网络能否实现社会算力共享,成为算力军备战的“终结者”?其中又有怎样的投资和产业布局机会呢?


02 算力网络≠算力+网络

算力网络是数字化时代的资源网,是以计算为核心,通过网络实现连接,通过感知实现匹配与调度的服务。
1、算力网络的组成要素:
算力网络在2019年由三大运营商分别发布白皮书以来才逐步进入公众视野。整个产业还在发展初期,三大运营商的架构体系不尽相同,但殊途同归,都有三大组成要素:
(1)计算:算力网络的核心资源;
(2)感知:对具体场景算力需求的感知及算力资源的感知;
(3)连接:将分散、异构、多层级、闲置的算力集合起来。
以上三大要素赋予算力网络功能属性和服务属性,让其能高效盘活全社会算力资源,并赋能产业应用。
2、算力网络产业链图谱:
根据全面收集的信息和多方行业调研,我们将算力网络产业链图谱划分如下。我们以技术架构作为纵轴,算力网络从下到上可分为基础资源层、编排管理层和应用服务层,其中应用服务层中算网安全和运维作为两大核心服务内容贯穿全网;最终,算力网络会以产品或能力的形式,赋能产业应用。横轴上我们以数据流展开,分别将基础资源层分为网络资源、存储资源和算力资源,而编排管理层以软件为主,贯穿数据流始终。
算力网络的实现方式,不同于“云计算+通信网络”的传统方式,而是将算力资源彻底“融入”通信网络,以一个更整体的形式,提供最符合用户需求的算力资源服务,因此有新增领域,主要集中在编排管理层中的算网运营、算网大脑和算网调度(图谱中标蓝处)。

图片Source:行业调研,远桥资产整理

3、算力网络发展阶段:
根据算力与网络的连接和融合状态,行业内普遍将算力网络建设和发展分为三个阶段:
(1)泛在连接:强化算网连接属性,形成具有包容性、互联互通的算力和网络基础资源池;
(2)融合感知:基于对业务场景和资源池的感知体系,形成算与网融合调度的新型运营模式;
(3)无感调用:算力网络突破固有的物理空间限制,在端与端间建立确定性算力连接,让用户无感、无限使用算力。
目前算力网络的建设正处于“泛在连接”阶段,由运营商牵头各研究院和相关组织共同立项开展研究,同时推进大型数据中心和异构算力层面的算网资源补齐。放眼未来,算力网络的成熟应用还任重道远。产业内正在全力推进标准与资源共建,向无感调用发展。


03 算力网络的难点:市场 or 技术

从技术上来看,单个企业的全国算力资源可以统一调度。云这种商业模式本身就是集中建设数据中心,向全社会提供算力资源。阿里云、腾讯云已经实现这一目标。电信运营商正在做算力网络相关技术研究。中国电信相关人士表示,天翼云自研了算力分发网络平台,希望让不同企业的算力并网,统一调度、计量、消费。今年3月,中国电信在北京推出算力互联互通验证平台。在中国建立统一的算力网络体系,从概念到实践还有大量问题需要解决。不管是从市场机制、技术标准、数据归属来看,都还有很长的路要走。业内共识是,实现全国算网调度至少需要5年-10年。总的来说,相应的难点在于:
1、 算网融合技术待突破:
◎ 核心技术产业布局待完善:异构计算相关产业是算力网络落地的关键环节,但当前国内对异构计算的加速器、编译器、工具链等基础软件投入不足,产业整体成熟度较低。
 算网融合深度不够:算力网络涉及多学科、多领域的融合,目前网络、计算两个产业融合深度、广度还不足,仍处于简单叠加状态。能够在这些关键领域提出原创性成果的顶尖科技人才和创新团队也较为匮乏。算力网络配套产业的成熟度决定了其产业化进程的速度。但如今,相关产业现代化水平低,已成为阻碍算力网络发展的“瓶颈”。
2、 行业标准待统一
 算力度量:异构算力标识与度量标准未统一,云厂商的服务器、芯片、算法不同。管理不同算力,要统一度量体系。
 路由协议:设备之间的交互接口、算力路由的基础协议未统一;
 体系架构:各家企业和各区域算力大脑跨域编排和算力调度层单域调度之间构建的逻辑未统一。
3、 场景应用待优化
 多云差异:不同云资源的能力和业务布局有差异,难统筹;
 数据问题:算力调度时,数据也随算力传输,此时要考虑数据隐私的归属和隔离。数据跨节点存储流通,增加暴露和被攻击风险,还有数据安全问题;
 市场及商业模式:激发算力需求、加快应用创新,对算网生态建设及健康发展而言也至关重要。目前我国算力使用成本较高。国内数据中心市场存在一定程度的供需失衡,算力成本尚不能有效满足普惠发展需求。同时算力交易的产品和服务提供形式有待验证。
总的来说,算力网络是一个复杂的技术网络体系,涉及异构硬件和芯片、接入和互联网络、数据中心、云计算以及大数据、人工智能、区块链等多产业链,算力网络推动统一架构、技术标准和开源生态的成熟完备,要求多产业链协同发展。全国一张算网需要统一算网相关标准,形成算网资源底层互通的标准化通道。加快数据流通共享,推动数据跨区域、跨层级流通。还要加强算力网络核心技术研发。但全国一张算网想真正落地,核心难题不是技术,而在市场,尤其是市场中两大竞争选手对具体角色分工的争议,才是全国统一算力网络的最大“拦路虎”。


04 算力网络的格局:运营商VS科技云厂商

中国拥有算力资源的两大主力军分别是国资背景的三大电信运营商(移动云、联通云、天翼云)、民营背景的四大科技公司(阿里云、腾讯云、华为云、百度云),俗称“七朵云”)。两大主力军背后,是一条设备服务商、芯片供应商、芯片制造商的庞大算力产业链。行业竞争格局如下:

图片

1、运营商 PK 科技云厂商
民营科技云厂商和运营商云的优劣比较如下:
(1) 电信运营商:有钱有德,但无才缺智。
◎ 有钱:电信运营商资本支出高,扩大算力投入意愿强。
◎ 有德:承担构建“一体化算力网络体系”任务,还要反哺国产芯片产业链。
◎ 无才:由于研发支出低,缺少技术积淀,习惯卖资源。
◎ 缺智:目前大部分投入都集中于通用算力,智算资源不足。电信运营商面对智能算力浪潮时,反应迟缓。
(2) 科技云厂商:缺钱少责,但有才有智。
◎ 缺钱:资本支出在下滑。
◎ 少责:作为市场主体,无法完全承担政策任务。
◎ 有才:优势是技术基础好、研发强度高,紧跟国际技术变革。
◎ 有智:智能算力资源较多。
科技公司研发支出高,原本最有条件发展智能计算,但资本支出却在下滑。科技公司的资本支出通常用于采购服务器、建数据中心、购置园区土地等固定资产。这意味着智算业务投入会受到限制。美国科技公司资源、技术并重,资本支出、研发支出营收占比长期超过10%。2022年亚马逊和微软的研发支出分别为5099亿元、1807亿元,资本支出4062亿元、1970亿元,其中超过50%用于投资云基础设施。这也意味着两家公司算力支出超过2000亿元、1000亿元。和亚马逊、微软、谷歌等国际厂商相比,阿里、腾讯、百度资本支出的营收占比均低于10%,2022年的资本支出占比、支出规模相较2021年还在下滑。
2、 运营商和科技云厂商的“悲”与“欢”
据业内人士透露,在一张讨论桌上,电信运营商积极主动,华为态度暧昧,阿里、腾讯则没多大兴趣。如果形成统一调度的算力网,电信运营商会像掌握通信网一样掌握市场,获得更大市场份额。华为长期为运营商提供网络设备,网络业务也会因算力网受益。但对阿里云、腾讯云来说,这可能意味着失去现有市场地位。
(1)科技云厂商的“忧虑”与“希望”
◎ 担忧电信运营商用政策、网络、成本优势抢占市场:互联网云厂商最初设想就是成为算力市场的“国家电网”。但随着政策清晰,电信运营商正在云市场不断抢占市场份额。不管是从政策、市场现实来看,这个设想都需要调整。未来算力网如同通信网,可能将由电信运营商等“国家队”运营
◎ 理想格局是电信运营商继续担任“管道商”角色,专注降低算网成本,科技公司积极技术创新、参与国际市场竞争:多位云厂商技术人士直言,算力、数据调度都依赖网络带宽。大型互联网公司每年要为电信运营商支付百亿元规模带宽费用。阿里云、腾讯云带宽成本占比超过20%。随着AI计算、东数西算推进,数据传输成本还会更高,电信运营商在数字化市场应该像4G网络阶段一样“提速降费”,做好基础设施服务商,而非利用资源优势侵吞网络、数据中心、云计算、政企项目等各环节的产业蛋糕。
◎ 统一调度应首先在三大电信运营商之间实现:目前中国云市场已形成相对稳定的市场供需关系。企业按照各自需求从云计算厂商手中租赁算力、存储资源。有多位云厂商、ICT制造企业高管表示,像电力网络那样统一调度全国算力资源,这种主张与现有市场需求存在矛盾。大量企业还有私有云、混合云需求,算力网络无法满足这部分需求。
◎ 算力产业首要任务是技术创新,而不是统一调度:和通信网、电力、高铁等成熟行业不同,云还在技术快速迭代时期。全球科技公司在激烈技术竞赛。过早规划统一算力网络可能会造成投资浪费,也会限制市场主体的创新意愿。因此希望政策方通过市场配置资源,促进合理竞争,激发创新能力。主张按市场竞争、供需关系规律提供算力资源。
(2)运营商的“委屈”和“野心”:
◎ 不想再给人做嫁衣。移动互联网阶段,运营商付出巨额资本支出铺设3G、4G网络,却长期被互联网公司管道化。互联网公司既享受了廉价带宽,又赚取了游戏、电商、广告等移动领域巨额利润。产业互联网阶段,电信运营商不想再给人做嫁衣。一位资深电信技术人士认为,高铁、通信、公路、电力这些国民基础设施都是低利润行业。如果科技公司把算力当成网络一样的公共基础资源,那么就不可能有高利润率。科技公司不能既想垄断云市场成为基础算力服务商,又想在数字化市场赚取像游戏、电商、广告行业的高利润。
 运营商并不打算只做算力管道。来自电信运营商的一个主流观点是,中国的电信运营商一直在为中国市场提供廉价网络资源,毛利率长期低于30%,而美国电信运营商没有承担类似的国家级任务,毛利率高达60%。
3、 鹬蚌相争,渔翁得利?
(1)美国的市场格局:
美国只有三朵公共云,三者在市场竞争中形成了规模效应,最大程度降低了算力成本。
中国市场七朵云,而且还都是竞争关系,地方政府还在建大数据产业园、做国资云。中国市场分散且割裂,算力成本高,每家云都在亏损。长此以往,企业资本支出、研发支出无法摊薄,难以形成良性循环。
美国三大电信运营商(AT&T、Verizon、T-Mobile)和微软、亚马逊也曾有过短暂竞争。双方很快划清边界各司其职并战略合作,前者只做网,后者只做云。AT&T与微软Azure,Verizon、T-Mobile与亚马逊AWS签署了合作协议。美国电信运营商通过云厂商把网络虚拟化进而提高效率,美国云厂商集成电信运营商的5G网络为客户提供边缘计算。在美国市场,云厂商主导着电信运营商的发展,单个电信运营商甚至不能做到全美通信网覆盖。
(2)“攘外”VS“安内”:
国内市场,科技公司、电信运营商竞争仍然在初期。国际市场,算力产业技术竞争在加剧。中国算力产业链中,电信运营商、民营科技公司都不可或缺,产业发展的要害是市场化和公平竞争。如果力量分散且失衡,中国算力产业会在关键时刻被拉开差距。一位国内头部云厂商的高管建议,运营商和民营科技公司不可调和的矛盾只能通过政府和政策机制来解决。中国政府应该鼓励市场竞争和技术创新,以此形成更健壮的产业生态,孵化出具备国际竞争力的平台企业。


05 算力网络的机会:新领域 & 新技术

由于算力网络是基于已有的网络、算力和存储资源进行的连接、融合和调度,其诞生和发展主要有两方面产业投资和布局的机会:新的变化趋势催生的新技术和算力网络诞生的新领域。
1、 算力网络诞生的新领域:
整个编排管理层作为算力网络的神经中枢,连接着算网资源和应用,向下对接底层算力资源并进行注册和标识,向上解析终端业务场景的算力需求并智能分解至各个使能平台。其中算网运营、算网大脑和算力调度都是新领域。我们认为近三五年内主要的机会在于:

• 应有为单独运营商进行算网调度整体解决方案能力,因为运营商并没有该软件和平台开发能力,但他希望自己掌握算网大脑和算网运营。而科技云厂商都有自己的研发能力。

• 可能会有第三方独立算网大脑和算网运营平台或服务商。因为七朵云各自为政,也不愿意将资源和平台交给竞争对手,因此很可能是七朵云之外的国资平台。

2、 新的变化趋势催生的新技术:
(1) 新的变化趋势来源于三:
 产业数字化导致To C到To B:
前十年是C端客户引导的移动互联网,而未来十年将是产业数字化浪潮下产业互联网大爆发。
 产品智能化导致人工到AI:
越来越多的产品和业务都寻求机器替人的机会,AI已经无所不入,这就导致AI三要素即数据、算力和算法都面临极大的机遇。而且算力也从通用算力往AI算力去转移。在2021年,智能算力占比已从2016年的3%提高到50%以上(基础算力为47%,超算为3%),成为中国整体算力体系中的主要构成。
 中美科技战导致供应链国产化:
无论从国家发展自主可控的决心,还是为了应对风云变幻的国际政治和经济环境,供应链国产化趋势有目共睹。伴随而来的就是“卡脖子”和低国产化领域的布局好时机。
(2) 主要的技术趋势及机会:
 更强更多样化的算力:
一是多层级算力体系:在网络接入层通过无线BBU、固网OLT内嵌算力单板,可
以进行能力拓展,同时提供现场级分流和边缘算力。在边缘云层,通过网络接入机房、汇聚机房和核心机房,可部署UPF/小型5GC+MEC边缘计算,提供边缘数据分流能力/核心网王网元能力,更强的边缘算例。在中心云层,通过数据中心算力更加集中,可随需获取。
另一方面是新型算力基础实施和升级底层数据中心异构算力资源:随着并行计算要求大大提高,大家都希望大大降低传输和交换等网络芯片损耗的算力,同时可以减少存算、网络和计算的访存时间等,因此算力卸载新技术的发展促进存算一体、超异构SoC,以及GPU+DPU面临大的市场机遇,云原生、无服务计算和算力原生等底层新技术的发展,催生云端服务器等的新发展。在GPU领域,可参考腾讯云GPU容器虚拟化产品qGPU,支持多个容器共享GPU卡,并支持融间算力和显存精细隔离,且在保证安全前提下,支持离线混部。
 更大带宽更确定的网络:
各个场景无论To G如东数西算,或To B如行业转往,抑或To C新业务如车联网,都要更大带宽、更确定(即低时延、低抖动和高可靠)的网络。这就要求在接入/移动网络层,5G甚至6G将是趋势,承载/传输网络层,以光通信为基础的OTN(全光网)将成为主流,未来甚至要结合卫星网络打造云网空地一体化的星云算网。
 更智能化的算网大脑:
虽然编译与优化、虚拟化和集群管理过往也有,但是也呈现了新的变化,有较大的空间诞生国内自己的细分领域龙头:

· 虚拟化将往新型硬件虚拟化发展,而非仅仅软件虚拟化;

· 集群管理也从过往的数据中心内再到跨域大规模集群管理;

· 编译/优化层也将诞生像英伟达CUDA生态这样的平台型产品。


06 大产业大趋势,却是“难啃的大骨头”

综上所述,算力网络是人工智能时代的大势所趋,其市场覆盖百行千业,集ICT产业核心技术的大成者,是高门槛的大市场。然而创业企业想要分一杯羹,投资者想要投资到百亿级的独角兽,其实并不容易:
 算力网络的产业化仍任重道远:目前产业仍处在初级阶段,行业标准待统一,算网融合技术待突破,场景应用待优化以及两大主阵营落地分歧巨大,都大大掣肘了产业发展。
 夹缝中生存:这不是新产业链,而是网络市场与算力市场的融合与创新,在已经群雄割据的产业格局里面,运营商和云厂商已经覆盖了主要的市场和领域,且一方有钱有资金和资源,另一方有技术和算力。因此唯有切入只有七朵云他们没法做的,不想做的,以及谁也不服谁只能由独立第三方来做的领域去。
 更大的机会可能在于新的变化趋势催生的新技术:所有能实现更强更多样化的算力、更大带宽更确定的网络、更智能化的算网大脑的新技术,以及以其为载体的产品/服务都将被市场所需。