甚至到目前为止,向控制平面注入更复杂的算法仍然是网络技术研究领域的主流方向,只不过控制的基石从分布式控制切换到了集中控制,控制的载体从路由器转移到了服务器,而控制的算法也无可避免地升级到了机器学习以及大模型。
而物质基础决定网络技术,现有网络技术体系的物质基础诞生于上世纪后半叶,成熟于上世纪90年代中后期,并在2010年前后达到巅峰。而这一体系遭遇颠覆性挑战的起点以及发展过程则与云计算的崛起几乎同步,行至AI在全球形成规模,终于出现了几个月前思科将网络部门与其他部门重组的一幕,让我们以为数通已经开始衰落。
其实无论是云计算还是AI的崛起,不仅没有削减对网络基础设施的需求,反而通过大幅度增加数据产能带动了网络规模的快速增长,但相映成趣的是,全球主要网络设备制造商的营收和利润率却并没有出现同步的增长。与此同时,全球主要的互联网公司开始投入巨大的人力物力进行网络器件、设备、操作系统、协议的自研开发,其自研程度之彻底果决史无前例。这时候再讨论网络技术,就必须明确地区分为传统电信运营商和设备制造商的网络技术以及大型互联网公司的网络技术两个门类。而且,后者仍然处在以各自为战、按需研发的阶段,尚未形成全球统一的体系架构。
尽管大型互联网公司的网络技术和产品自研在对外兼容TCP/IP技术体系方面都表现极佳,几乎令电信运营商和友商无感,但内部的迭代演化速度却远远超出了传统网络体系的想象。网络技术革命,始于数据中心网络,而数据中心网络技术革命,是一场典型的以自上而下驱动的自下而上技术变革。这场变革的驱动力之大,已经到达了非触动底层不足以适应应用层需求的地步。
2019年,现代强化学习之父,加拿大阿尔伯塔大学教授Rich Sutton在“The Bitter Lesson”一文中写道:
“过去70年人工智能研究领域最重要的一堂课是,只有通用计算方法最终是最有效的,而且优势巨大。根本原因是摩尔定律,更确切地说是,每个计算单元的成本持续呈指数下降。大多数人工智能研究都是假设 Agent 可用的计算量是恒定的(在这种情况下,利用人类知识将是提高性能的唯一方法之一),但是,从较长的时间看,不可避免地会产生大量的计算量。为了在短期内获得有所作为的改善,研究人员试图利用该领域内的人类知识。但长远来看,唯一重要的是利用算力。这两者不必相互对立,但在实践中它们往往会相互对立。时间投入到一种方法上,就没办法投入到另一种方法上,这是对投入一种或另一种方法的心理承诺。而人类知识往往很复杂,不太适合利用好通用算力。有很多的例子表明人工智能研究人员迟迟未能学习这个苦涩的教训,回顾一些最突出的例子很有启发性。”
**https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson.pdf
Rich Sutton的观点与AI领域关于Scaling Law的大讨论相得益彰,其核心要义都是能用资源解决的问题勿要诉诸复杂技术,云计算的出现,要求网络承载能力出现指数级增长,对控制平面的调度能力和调度效率都提出了全新的要求,于是SDN出现。SDN通过集中控制简化了分布式控制缓慢的收敛过程,但借助强大的算力以及大规模带宽资源供给能力对冲掉了大部分导致控制失灵或网络失能的风险,这本质上是一种富裕仗的打法,基本原则是能用资源供给对冲的问题绝不用复杂的技术去解决,能消灭在萌芽状态的问题绝不等问题发生以后再去补救,控制平面的逻辑越简单,网络系统越稳定。
故善战者之胜也,无智名,无勇功。
而传统的网络技术体系是在带宽资源匮乏且昂贵的时代条件下的产物,既要开放系统互联,又要保持稳定的网络服务能力,就只能将服务压缩到最低限度的网络连通性,至于连通之后能提供多大的带宽、多低的延迟,随缘。有趣的是,当传统网络技术体系中的很多人与非传统数据中心网络衍生出的SDN相遇之后,便碰撞出了巨无霸级别的控制器以及巨复杂的流量调度算法。SDN及其在传统网络技术体系中的数字孪生并行不悖。
随后出现的SDWAN要拜谷歌的B4所赐,但B4的核心仍是以网络资源的超量供给对冲超大规模网络系统中的风险,控制平面的算法聊胜于无。但在传统网络领域,除了一部分先知先觉的跨境带宽资源集成商以及隧道技术研发者名利双收赚得一桶金之外,真正将真金白银投入SDWAN控制系统研发领域的公司最终用自己的绳命为SDWAN画上了技术的句号。
在广义的网络技术领域,之所以会同时存在数据中心内外两套截然不同的技术体系且并行不悖,我认为是受算力和能源瓶颈所限,数据中心内部的网络场景和需求尚不具备大规模溢出到广域网的条件,即便是大模型应用一片繁荣,用户终端和数据中心之间的交互仍然与普通的网页浏览或视频观看无异。
一旦算力和能源的瓶颈被突破,则矛盾的焦点会迅速转移到数据要素匮乏方面,即现有的互联网并不具备大规模生产要素级别数据的能力,而这种产能无论对于算力还是网络承载能力的要求都远远超过目前业内想象力的极限。
这一时刻同时也是数据中心内部网络技术体系向广域网溢出和替代升级的过程,在数百倍甚至数千倍于现网数据流量压力之下,生于网络资源匮乏时代的传统网络技术体系将被能够适配超大规模供给能力的新型技术体系所取代,TCP/IP的哲学理念将会以另一种表现形态继续存在,但依附于上一个时代的肉身可能会消失得无影无踪。
很多大模型行业的从业者对于上述愿景嗤之以鼻,因为他们相信大模型训练网络所需的超大规模数据量和网络带宽仅存在于数据中心内部以及大模型训练阶段,用户请求和应答行为不会产生如此巨大的带宽需求。
这是一种刻舟求剑式的思维定式,他们没有意识到,当前AI产业面临的显性瓶颈虽然是GPU和电力,但更深层的矛盾却是可供训练的数据产能严重不足。数据若要成为生产要素,AI若要成为生产力,必须建立在数据产能提升若干个数量级的基础上,其规模远远超过目前互联网的数据生产速度,包括垃圾数据的生产速度。在这样一个数据生产、消费高速对流的网络中,超大规模流量将无处不在,整个互联网都将数据中心化,哪里是数据中心内部网络,哪里是数据中心外部网络,这样的界限将变得模糊,而与之对应的是数据中心内部网络技术体系的外溢和替代效应。
所有这一切令人眼花缭乱的愿景,实际上都服务于一个极其简单的目标,承载超大规模流量。
量变引起质变,但质变的核心不是越来越复杂,而是越来越简单。
简单到传统的网络部门甚至无需作为一个独立的部门存在。
但在这一过程之中,无论是工业界还是学术界,都将持续付出高昂的学费,反复承受Bitter Lessons的教诲。因为互联网作为一个复杂巨系统,要想积累出足够引起质变的量变,需要等待的各种前提条件几乎涉及到整个工业体系的方方面面,这是一场社会性变革,而不是一场狭义的单一领域技术革命。达成革命的共识需要支付足够高的试错成本,经历足够多次的失败之后,才可能看到成功的曙光。
本月的AWS Re:Invent CTO专场, Werner Vogels博士并没有发布任何新的产品, 而是把他入职亚马逊20年的宝贵的经验和教训分享出来, 主旨是当复杂性是不可避免时, 大家拥抱简单性(Simplexity), 这些经验在我们构建新的AI云基础设施时是尤为重要的。对于如何把复杂性(Complexity)变为Simplexity(简单性), werner博士剧了一个很形象的例子: 自行车
独轮车虽然组件最少, 看起来最简单, 却在实际操作运维中很困难, 需要很高的技术能力的团队努力才能实现. 而三轮车虽然组件多, 稳定性更好, 但是灵活度上却带来的一定的限制, 例如转弯不方便.
而普通两轮的自行车介于两者之间, 提供了最佳的平衡, 既灵活又易于控制. 其设计到到了功能和体验的最佳平衡, 因此也成了最简单易用的交通工具.
Nitro vs CX8的定位也是如此, 为什么要坚持使用Nitro接入AWS?
从弹性的角度, Nitro隐藏了基础设施中的大量的复杂性, 让所有的资源都能对等的接入到整个Fabric中, 无论是存储/CPU/GPU等资源, 都可以按照用户的需求进行组织和构建. 这一点非常关键, 在第一天Peter的演讲中也有详细的讲解,根据负载的动态可伸缩的架构Nitro把中间的网络/存储的资源动态配置和物理拓扑的复杂性全部隐藏了, 也就是Werner博士讲的, 将这些真正复杂的东西转移到了基础设施这一层, 让用户能够更加专注于业务, 并以业务的需求来使用资源.
从性能和稳定性的角度, Nitro当前才200Gbps是CX8的1/4, 但是从稳定的角度考虑, CX8单卡故障导致流量损失模型训练中断, 即便是采用2x400G的接口也会导致一半的流量中断, 对整个集群的影响太大. 而如果采用4张200Gbps的Nitro, 并且拆分成2x100G的接口, 光模块故障率普遍在0.3%左右, 即便是一个链路故障, 流量损失仅有1/8. 实际上这里有一个取舍.AWS针对AI云基础设施的演讲, 也有大量的可演进性的思考. 首先它并没有因为这一波AIGC的热潮而迅速的上线一个1.0的业务, 让过去的一年多大家普遍认为落后了.相反正是这一年多来业务的快速演进, 工业界在可靠性上遇到了大量的问题, 特别是训练集群逐渐通过Prefill-Decode转为训推一体集群时, 很多原有的训练集群架构也存在一些局限性. 而在推理场景, 也存在早期的一些推理系统架构的缺陷基本上就昙花一现,然后就跟不上业务的节奏匆忙下线了.
Bitter Lessons of Network仍将继续,尽管大多数人对于网络传输技术以及网络带宽的增长无动于衷,但这一变化正在以不随个人意志为转移的速度发生,直到所有人都被房间里的大象吓得跳起来为止。
自古以来,网络存在的价值在于带宽资源供给能力,网络技术存在的价值,要么是能够直接提升数据传输速率,要么是能够通过扩张网络规模形成麦卡夫效应,间接提升网络价值,除此以外的那些看起来很美、能够暂时用大幅度提高复杂性换取小幅度资源利用率提升的技术,都难以久存。
因为世界不仅是物质的,而且是发展的。需求不会呆坐在原地任人摆布,需求具有天然的扩张性,得寸进尺、得陇望蜀,一旦些许的需求得到满足,需求便会迅速膨胀起来,对更大规模的资源提出刚性诉求。
而穷日子富过式的榨汁机技术,并没有能力从残渣中压榨出更多的资源,其设计的初衷,也几乎没有考虑过需求的这种无限扩张属性。
在无限扩张的需求面前,唯一的取胜之道只剩下大力出奇迹。
而要大力出奇迹,就必须放弃那些看起来唾手可得的低垂的果实,把人力物力聚焦于突破网络传输能力乃至基础科学瓶颈上。这些瓶颈一日不突破,大量的从业者就难以摆脱疲于奔命但又劳而无功的花式内卷和PPT竞争,以及开员节流降本增效的恐惧。
取胜之道非常简单,但正是因为过于简单,才极其难于被遵守。
孙武在《孙子兵法.谋攻篇》中说:用兵之法,十则围之,五则攻之,倍则分之,敌则能战之,少则能逃之,不若则能避之。
抗倭名将俞大猷《正气堂集》有言,“海上之战无他术,大船胜小船,大铳胜小铳,多船胜寡船,多铳胜寡铳,而已。”
在网络技术领域,或者在更加广义的工程技术领域中,在全局或局部形成压倒性的资源优势都是技术进步的不二法门,但也同时是最常被违背的制胜法门。
在大模型训练网络中,由于量变的速度远远超过传统网络,因此对资源制胜的理解更加透彻,变革的速度更快,试错的成本也更低。
所谓时势造英雄,不过如此。
The Bitter Lesson
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 芯东西(公众号:aichip001) 作者 | ZeR0 编辑 | 漠影 英伟达在数据中心的“带货能力”不是一般的...
- 本文转载自钛媒体,原文链接 摘要: 阿里云在直面公有云前辈竞争的时候正在变得越来越有自信,其云服务生态战略布局也在...