SeaWeedfs 分布式网络文件存储介绍

SeaWeedfs 分布式网络文件存储介绍

引子

随着业务量增长,一个系统需要存储上百万文件的情况越来越多,尤其是互联网网站。在这种情况下依然使用传统磁盘/共享存储的方式进行支持会有以下问题:

  • 文件的备份、恢复困难,大量文件的copy 耗时耗力
  • 文件数量暴增占满操作系统文件系统inode,导致磁盘空间虽然没有用完但是因为inode用尽无法使用
  • 文件读取效率太低,无法应对高并发读取要求
    针对以上问题,facebook 提出了自己的方案 Facebook's Haystack design paper 。 之后各种实现出现,如tfs、MogileFS、GlusterFS等,其中Seaweedfs是一个比较优秀的实现。具有效率高、结构简单、代码清晰等优点。本文针对seaweesfs进行简要的分析,在开始之前推荐阅读facebook的论文以学习理解NoFS(Net Object File System) 相关的理念。

拓扑结构

                111 模式下的复写
 --------------------------------------------------------
|            DataCenter A          DataCenterB    ....  |
|              |                       |                |
|              ├─Rack a                ├─Rack b         |
|              |                       |                |
|              ├─DataNode1             ├─DataNode3      |
|              |    ├─Volume1          |      ├─Volume2 |
|              |    ├─Volume2          |      ├─Volume3 |
|              ├─Rack c                ├─Rack d
|              ├─ DataNode2            ├─DataNode4      |
|              |  ├─Volume2            |   ├─Volume1    |
|              |  ├─Volume3            |   ├─Volume3    |
 --------------------------------------------------------

在逻辑上Seaweedfs的几个概念:

  • Node 系统抽象的节点,抽象为DataCenter、Rack、DataNode
  • DataCenter 数据中心,对应现实中的不同机房
  • Rack 机架,对应现实中的机柜
  • Datanode 存储节点,用于管理、存储逻辑卷
  • Volume 逻辑卷,存储的逻辑结构,逻辑卷下存储Needle
  • Needle 逻辑卷中的Object,对应存储的文件
  • Collection 文件集,可以分布在多个逻辑卷上

在实际实现中

代码结构

文件目录          逻辑层级   用途
weed
├── command          1    weed的命令抽象
├── filer            2 
├── filer2           2    Filer 实现
├── filesys          2    FUSE mount到本地操作系统的实现
├── glide.yaml       0    包依赖关系
├── glog             4    日志组件
├── images           3    对图片的伸缩/矫正操作
├── operation        4    对于查询/读写的一些原子操作工具类,如通过http请求查询master下指定的volume
├── pb               4    MasterServer和VolumeServer之间 gRpc 心跳实现,主要是两个pb 文件以及自动生成的go-grpc文件
├── security         4    安全模块,主要是黑白名单实现,JWT实现
├── sequence         3    序列号生成
├── server           2    服务器实现,包括MasterServer/VolumeServer/FilerServer的实现
├── stats            3    监控状态,主要是主机内存、磁盘等
├── storage          3    物理存储的部分,包括物理Needle/物理卷Volume 的读写
├── tools            1    实用的工具
├── topology         2    逻辑拓扑结构,Datacenter、Rack、DataNode,主要是全局卷伸缩/查找等操作
├── util             4    工具类
└── weed.go          0    主程序

部署结构

 ----------------------------------------------------------------------------------------------------------------
|             HttpClient
|                 |
|             MasterServer1 <====Http/Raft=====> MasterServer2 <====Http/Raft=====> MasterServer3(leader)
|                     ||                                    ||
|               ( grpc||HeartBeat)                   ( grpc||HeartBeat)
|                     ||                                    ||
|                    ├─VolumeServer(多个)                    ├─VolumeServer(多个)
|                         ├─Stroage
|                             ├─VolumeData(.dat/.idx)
|                                ├─Needles
|                             ├─VolumeData(.dat/.idx)
|                                ├─Needles
|                         ├─Stroage
|                             ├─VolumeData(.dat/.idx)
|                                ├─Needles
|
----------------------------------------------------------------------------------------------------------------

使用指南

详见: [Seaweedfs wiki](https://github.com/chrislusf/seaweedfs/wiki/Getting-Started) 

不足与问题

* seaweedfs 采用的是同步式复写有以下几个问题:
 a. 当在某个volume-server 下线又上线恢复的情况下,没有自动的同步机制
 b. 同步复写需要等待每个节点都复写成功,效率相对较低
 c. 虽然节点的上下线会快速通过心跳通知master节点,但是仍然存在一定的延迟,期间Volume-Server在复写的时候可能会出现因为复写已经下线的volume-server导致上传失败的情况
* seaweedfs目前在权限管理方面还相对比较弱,目前仅有一个白名单控制机制,来控制外部的读写权限/恶意删除。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,858评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,372评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,282评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,842评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,857评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,679评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,406评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,311评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,767评论 1 315
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,945评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,090评论 1 350
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,785评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,420评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,988评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,101评论 1 271
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,298评论 3 372
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,033评论 2 355

推荐阅读更多精彩内容

  • 一个基本的计算机系统由“硬件”和“软件”组成,一台Linux设备,主要的组成如下图所示: 一般情况下,我们所说的L...
    时待吾阅读 1,644评论 0 16
  • 父母在,人生尚有来处。 ...
    夜未央00阅读 765评论 2 2
  • 平静地让孩子与父母合作的“ABCDE”法,就是英文字母表的前五个字母。都代表什么意思呢?A是ask,当你意识到自己...
    williie007阅读 140评论 0 0
  • 听着朴树的《平凡之路》突然想起似乎很久没有写随记了。突然好像记起一些事情,又好像忘记一些事情。好吧,这也是放松的一...
    单双眼星人阅读 127评论 0 0