2025-01-20亚马逊CTO沃格斯:AWS如何通过自定义硬件提升云端性能

 转载

在re:Invent大会上,亚马逊的CTO沃格纳•沃格尔斯(Werner Vogels)详细介绍了AWS如何通过部署自定义硬件来创建与裸金属性能相近的实例。

AWS reInvent已经成为每年最值得关注的科技盛会之一,对于技术人员而言,尤其是Amazon CTO Dr. Werner Vogels的keynote值得关注,每年的keynote都会讲到一些技术的发展趋势,那么来看看在刚刚过去的reInvent 2019上Dr. Werner Vogels讲了些什么。

1. 虚拟化技术的发展

Vogels表示,虚拟化“从一开始就一直是云环境中计算部分的基础”。随着时间的推移,AWS已经“突破”了这项技术的界限。传统虚拟化的问题是,所有用户操作系统都在争夺相同的资源,这通常会导致计算环境出现噪音,有时甚至不可靠。“我们开始思考如何从根本上改变这一点,”Vogels说,因为“旧式虚拟化”确实阻碍了用现代软件架构构建的应用程序的性能。

AWS希望向其客户提供云中裸金属的性能,尽可能减少传统云构建软件的资源消耗。解决方案来自于亚马逊在软件开发方面取得的创新,然后将其应用于构建新的硬件。“如果我们从微服务、小型模块中吸取经验,并将其应用到硬件领域,会怎么样”,Vogels说,“或许我们可以改变虚拟化的世界。”

于是AWS思考该怎么来改进虚拟化技术,出发点是怎么能让用户的虚拟机尽可能获得和用一台物理机同样的性能,在设计这个新的虚拟化系统(代号为Nitro)的时候,AWS想的是软件从单一的系统演进到微服务带来的灵活度的优势,他们希望同样可以把这个优势带入到新的虚拟化系统中,使得这个系统更加模块化,而不是像以前的虚拟化技术一样,只能由hypervisor去对接所有的硬件。

按照这个思想,AWS首先在2013年的c3实例上,采用了将网络模块从原来的虚拟化技术体系offload到一块单独的硬件卡上,AWS用了差不多两年的时间才让这个技术得以成熟,有了这个为基础,在之后的c4实例上,接着讲ebs storage也offload到了单独的硬件卡上,在c5实例上,则把local storage也offload了,也就意味着到了c5所有的io操作都offload到了单独的硬件卡上,不用再消耗卖给用户的机器上的cpu了,最后一步是把management的部分也offload了,同时写了新的更为轻量级的Nitro Hypervisor。

从效果上,也很清楚的可以看到到了c5的版本,相比之前经典的虚拟化,无论在网络io,storage io上都有明显的性能提升,在整个机器的性能上,也能看到c5相比c4,已经更为接近物理机的性能。

除了性能以外,开始讲到之前的虚拟化体系中最大的一个风险,就是安全,dom0其实就是一个linux,所以是可以登录进去的,登录进去后其实就拥有了巨大的权力,例如管理机器上所有的虚拟机,做个内存dump,而Nitro则把dom0去掉了(讲到这观众席一阵掌声),其实现的核心机制是只有通过Nitro Controller才能操作Nitro Hypervisor,并且是单向的,其他扩展出来的controller也只能通过Nitro Controller来操作,同样Nitro Controller也不能反向操作扩展出来的Controller。

WS与以色列的Annapurna实验室合作,开始研究Nitro,将网络嵌入到一个单独的卡中,并在2013年为一类新的C3实例提供动力。Annapurna的下一个任务是将处理过程也转移到Nitro卡上,从而实现C4架构。这次合作非常成功,Annapurna加入了AWS。

2015年收购以色列芯片设计公司后,“我们开始研究C5,新的目标是将I/O装载到单独的卡上。”AWS还着眼于移动其虚拟机监控程序的一部分,并将其放在Nitro上,把硬件组件发展成一个全面的系统。

由于虚拟化系统的许多主要组件现在都在silicon上运行,AWS基础设施软件设计师能够通过剥离hypervisor,使EC2实例更精简、更可靠、更安全,只需运行最低限度的所需功能。这导致了功能上的下一次飞跃——新一代的EC2实例实现了AWS“几乎像裸金属一样”的目标。

Vogels告诉与会者:“虚拟机监控程序很小,几乎不影响用户操作系统。”将功能装载到硬件上不仅提高了性能,而且大大提高了安全性,限制了组件之间的通信,能够方便的阻止不需要的功能和不良程序。

“Nitro成为了创新的基础,”Vogels说,它允许AWS“做很多我们以前做不到的事情。” 由于Nitro平台支持最新和最好的AWS计算环境,使得提供软件实时更新、打补丁、虚拟机监控程序,以及创建诸如Outposts本地服务这样的新系统都成为可能。

Nitro不仅支持虚拟机,还支持容器和无服务器服务。这一努力催生了Firecracker,它被用来提高AWS Fargate服务的效率,该服务为容器工作负载提供动力。AWS的首席软件工程师Clare Liguori说,这种先进的方法允许Fargate在“虚拟化的框架下”运行由容器组成的应用程序的每个副本,从而更好地隔离客户。

Ligouri在周四的主题演讲中告诉与会者,AWS最初使用EC2实例来隔离Fargate上运行在无服务器模型中的容器化工作负载的空间,但这些实例通常“太重”。Firecracker是一种速度更快、重量更轻的高效容器平台。Ligouri 说,“随着我们在Firecracker上运行更多的Fargate,我们的效率越来越高”。

2. 持续演进的架构

亚马逊目前正在开发一个新的数据平台,直接在Nitro上运行,核心代码在GitHub上向开发者开放。这个项目利用了containerd,一个开源项目,它是开放容器计划的一部分。

Vogels指出,AWS Lambda无服务器系统也运行在Firecracker上,随着无服务器越来越受欢迎,这将带来更多的创新。当AWS首次推出Lambda时,它预计无服务器计算将主要吸引年轻的、有预算意识的公司。后来发现并非如此:“企业中正在迅速采用无服务器,”Vogels说。”

EBS讲了后,总结了下三种典型架构:

Regional Architecture

这个简单说就是用一个集群支持所有用户,坏处就是如果集群出问题,所有用户就全部受影响了。

Cell-Based Architecture

每个集群支持部分用户,其中一个集群故障,只会影响其对应服务的用户。

Shuffle Sharding Architecture

用户群体复制N份,sharding后组合,每个集群服务组合后的用户group,这样就意味着每个用户其实有多个集群在提供服务,而每个集群服务的又是不同的用户group,所以组合情况够多的情况下,每个集群故障影响的面就会大幅减少。

这三种架构确实是比较典型的降低故障影响面的架构体系,但说起来容易做起来其实非常难,尤其是这里面涉及到的数据一致性问题,感兴趣的也可以去翻翻网上关于阿里异地多活的技术分享,对于大多数的场景,我认为能够做到有两个Region(可以是同一地域)同时服务所有用户,在任何一个Region出问题都能快速切换,这基本就可以大幅降低blast radius,相对实现难度和代价也不会太大。

接着讲到设计一个分布式系统是非常具备挑战的,Amazon在过去这么多年积累了非常多的经验,于是Amazon对这些进行了总结,对外提供了一个library,里面有很多Amazon自己实际的经验的文章,讲到这一片掌声,我也简单翻了下这网站,还是挺值得看的。

最后一个部分是讲工业制造方面,在和云、AI结合后带来的一些变化,这块我觉得更偏case一些,不过可以看到的是AWS也越来越强调相应的技术在Amazon的使用。

整个keynote看下来给人的感觉还是很不错的,可以看到AWS对技术的思考,创新,也会更让技术人员认可AWS的技术领先性,推荐大家自己也去看看,尤其是技术人员,更尤其的是做基础技术的,扩充视野是非常重要的,不能坐井观天,而AWS reInvent现在显然是扩充视野不可错过的科技盛会。

编译:若画

原文:https://www.crn.com/news/cloud/amazon-s-werner-vogels-on-reinventing-virtualization

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,188评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,464评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,562评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,893评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,917评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,708评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,430评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,342评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,801评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,976评论 3 337
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,115评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,804评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,458评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,008评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,135评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,365评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,055评论 2 355

推荐阅读更多精彩内容