多云架构,JuiceFS 如何实现一致性与低延迟的数据分发

随着大模型的普及,GPU 算力成为稀缺资源,单一数据中心或云区域的 GPU 资源常常难以满足用户的全面需求。同时,跨地域团队的协作需求也推动了企业在不同云平台之间调度数据和计算任务。多云架构正逐渐成为一种趋势,然而该架构下的数据分发面临一系列挑战。

01 多云架构下的存储挑战

在实际操作中,不少企业在各个云平台自行构建计算 Pod,来处理特定的计算任务并进行数据分发。然而,如何确保这一分发过程的持续性,并将训练结果及时归并,成为了亟待解决的难题。尤其是当数据需要跨地域传输时,性能瓶颈和数据一致性问题尤为突出。

以一个具体场景为例,图中左侧为训练集群,部署于腾讯云,而右侧则为推理集群,位于阿里云。如何将训练集群所生成的模型数据高效地分发至推理集群呢?

首要问题在于,数据的分发与异地计算难度较大,需用户自行将数据从文件系统层面拷贝至异地,并设定定时定量的策略。

其次,当数据量庞大时,若需全面同步,将耗费大量资源。而热数据往往仅占少数,企业往往难以预知哪些数据为热数据,需在读取后才能确定。因此,按需拷贝而非全面拷贝,并在异地设立本地缓存,既能提升性能,又能兼顾成本。

再者,网络带宽、出错重试等问题可能导致数据不一致。此外,云厂商通常倾向于构建封闭的生态,不愿提供跨云功能,如腾讯云便不会提供工具协助用户将数据拷贝至其他云进行分发。因此,作为云中立的第三方文件系统,我们需提供整体的解决方案,以打破单一云厂商的束缚,满足客户的跨云与多云需求。

02 JuiceFS 跨云、多云解决方案

JuiceFS 企业版是基于对象存储的分布式文件系统,相比社区版它提供了更强的元数据引擎和缓存管理能力。针对用户在多云架构中对数据访问性能的不同需求,juiceFS 提供跨区和跨地域的多种方案。

方案 1:同地域、跨云数据分发

该方案是指在同区域的不同云之间进行数据分发,常被应用于数据双活与灾备场景。通过在源区域(下图左上角)与目标区域之间建立异步数据同步关系,系统能够自动将数据从一个区域复制到另一个区域,并保证数据的一致性。

该方案采用共享元数据服务的方式,使得不同区域的客户端可以在挂载文件系统时进行就近写入,优化数据存取效率。异步复制和元数据一致性保证了在不同区域间的数据一致性和稳定性。

数据一致性方面,JuiceFS 的强一致性由元数据保证,文件有变更会在对象存储上追加新的数据块,然后元数据会指向新的数据块,所以只要元数据一致,就能确保整个文件的一致性。因此,当目标客户端访问同一元数据服务时,不存在数据不一致的情况。期间若数据已同步至目标区域存储桶,则直接从该桶读取;若尚未同步,则会回源至源存储桶读取,以确保数据的完整性和一致性。

此方案广泛适用于数据双活和灾备场景。对于数据双活应用,企业可以通过跨区数据复制在多个区域之间共享数据,实现高可用性和负载均衡。

在灾备场景中,该方案通过异步将数据备份到目标区域,避免了因源云平台出现问题(如账号封禁、访问限制等)导致的数据不可用情况。即便源区域发生故障,客户端只需挂载并切换到目标区域即可继续正常工作,数据可以无缝恢复。

方案 2:跨地域数据访问,适用于大规模 AI 训练场景

针对跨地域数据访问的性能挑战,我们提供了多种解决方案以满足不同场景下的需求。

元数据和数据同步

当两地享有共同地域的元数据服务时,数据访问通常不会受到显著延迟影响。然而,当数据需要跨国或跨大洲传输,如从新加坡或美国节点访问时,性能问题可能变得尤为突出,尤其是当涉及大量小文件时。此时,远程数据访问若未命中缓存,可能需要回源区域读取,这将严重影响性能。

为解决这一问题,我们设计了镜像文件系统功能,该功能通过同步源区域和目标区域(镜像区域)中的数据和元数据,确保两地数据一致性,从而实现跨地域数据的低延迟访问。虽然我们期望实现实时同步,但由于地域间的网络限制,实际上无法做到完全的实时性。

镜像文件系统中的操作流程如下:当源区域的客户端对源区域的存储桶发起读写操作时,会异步地将数据写入镜像区域的存储桶。当镜像区域的客户端在进行训练或推理时,系统将就近从镜像区域读取数据,以减少访问延迟从而提高性能。若数据尚未同步至镜像区域,系统将回源读取。

值得注意的是,在 JuiceFS 5.0 版本之前,镜像区域仅支持读操作;5.0 及之后版本则加入了写操作功能。在进行写操作时,系统先将数据写入镜像区域桶里,再将元数据更新到源区域的元数据服务中(注意:元数据不会直接写入镜像区域)。然后,元数据再按正常流程同步到镜像区域。

这个镜像写入流程看起来有些复杂,但为了确保在各种网络波动情况下同步不会出现错误,我们采用了单向同步的设计,虽然在写入时会承受一定的延迟,但这是为了一致性做出必要的妥协。

仅元数据同步

此外,为了应对大数据量同步时的成本和时间挑战,我们提供了按需同步的方案。用户可以选择仅同步元数据。这与上一种方式的差别就在于避免的全桶复制,虽然缺乏一定数据本地性,但如果分布式缓存有足够命中率,性能仍能得到保障。最为关键的是,这种方式省去了大量时间、复制流量及重复存储的成本。在写入数据时,系统同样将数据写回源区域的存储桶和元数据区域,并同步至镜像区域。通过这样的方式,我们实现了安全、高效的跨地域数据同步和访问。

03 某 LLM 企业腾讯云到阿里云跨云案例(仅元数据同步)

该企业在阿里云上拥有大量闲置的训练 GPU 资源,希望能够将这些资源与腾讯云的训练任务协同使用。因此,企业需要将数据从腾讯云分发到阿里云。然而,由于两者之间网络波动频繁,数据分发受阻,进而影响了训练效率,尤其是在处理大量小文件时,卡顿现象更为明显

为解决这一问题,企业选择使用 JuiceFS 来支持跨地域的数据分发场景。通过同步元数据, JuiceFS 有效降低了网络波动带来的影响。同时,为了控制成本,企业并未将所有数据同步到阿里云,而是采用分布式缓存,仅按需预热并同步需要的数据,从而在保证性能的同时优化了成本。

目前,镜像文件系统的大小约为 256TB,文件数量达到 1300 万个,平均文件大小约为18.6MB。阿里云客户端在镜像区域的数量达到 540 个,有大量的训练容器协助腾讯云进行训练。阿里云端元数据的 QPS 已达到 5.81 万次。尽管分布式缓存节点数量为 138 个,缓存容量仅为 8.8TB,但通过足够的节点数量和网卡数量,系统能够聚合出较大的带宽,缓存的最大读取吞吐量为 37GB/s,写入吞吐量为 4GB/s,能够满足该场景的性能要求

03 小结

针对用户在多云架构中对数据访问性能的不同需求,JuiceFS 从第三方云中立的角度提供完整的解决方案,不捆绑任何特定云平台。

  • 方案 1:同地域跨云数据分发
    • 适用于两地距离相对较近、数据通信稳定的场景,同时也适用于跨云桶数据灾备的解决方案。
  • 方案 2:跨地域数据访问
    • 数据与元数据均同步。此方案支持多份数据同步,尤其适用于地域相隔较远的场景。其优势在于读取性能最佳,因为元数据和数据均可从本地读取。然而,这也带来了最高的成本。
    • 仅元数据同步:兼顾成本与性能的折衷方案。元数据从本地读取,而数据则按需从缓存中读取;若缓存未命中,则回源读取。然而,其写入性能相对一般,因为无论是数据还是元数据,均需回源写入。此方案尤其适用于对成本敏感且镜像区域大量数据为只读的场景。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,451评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,172评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,782评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,709评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,733评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,578评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,320评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,241评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,686评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,878评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,992评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,715评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,336评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,912评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,040评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,173评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,947评论 2 355

推荐阅读更多精彩内容