今年五月给自己立了个写个IPFS相关App的flag,但是因为一些原因中断了,最近又重新捡起来了。
这些文章或者叫学习笔记打算用比较粗糙的方式写,也就是按照自己在读文档时的想法,记录当时的理解和发现的问题。可能有些问题在当前文章就被解决了,有些问题可能在之后才能理解。此举是为了看看自己当时都在想什么奇怪的东西。
毕竟从事的是区块链,要能trace back。
What
先附上原文档: https://docs.ipfs.io/introduction/overview/
IPFS全称是Inter-Planetary File System,翻译过来叫星际文件系统。
官方原话是A peer-to-peer storage network
,很准确地描述了自己的特点
p2p
storage
network
个人的理解是要做一个去中心化的网络,取代当前的web2.0。
具体来说:
当前的互联网所有的服务提供商需要将自己的资源(Whatever kinds of)部署在具体的服务器上,比如阿里的数据肯定在阿里的服务器上,腾讯的数据肯定在腾讯的服务器上,一旦某个服务器挂了,就暂时无法访问这个数据了。
在IPFS的网络上,我们的数据是被去中心化存储的,尽管某个结点(peer)挂了,但其他的结点仍然保留有这段信息,因此仍然可以被检索到。
问题:
- 资源的定义是什么,静态资源当然可以存储,那么动态的比如一个服务、一段程序要如何连接到IPFS上?
- IPFS如何保证数据不被篡改
How it works
CID(Content Identifier)
对于IPFS网络内的所有资源,会对其内容进行Hash得到一个Content Identifier用来标识它,例如:
/ipfs/QmXoypizjW3WknFiJnKLwHCnL72vedxjQkDDP1mXWo6uco/wiki/Aardvark.html
中间的QmXoypizjW3WknFiJnKLwHCnL72vedxjQkDDP1mXWo6uco
就是一个CID
问题:为什么后面的wiki和Ardvark.html没有显示成CID
IPLD(Inter Planetary Linked Data)
IPLD
因为不同的去中心化系统对于他们数据结构的描述方式是不同的,IPFS提供了IPLD这层layer来提供一个统一的数据格式用以描述各个资源。
实际上只要有人为自己的服务写了IPLD的适配器,他的服务就可以接入IPFS,例如 https://github.com/ipld/js-ipld-git
使用ipld-git
以后就可以在IPFS上浏览git的资源
Merkle-DAG
IPFS使用了Merkle-DAG这一结构用来组织资源,在此结构下所有东西都有一个CID,当多个资源组成一个文件夹时,这个文件夹本身也有CID,实际上,当前操作系统的文件系统就是这么个结构。
同时IPFS会把你的资源分成不同的blocks,存储在不同的结点上。其实就是p2p下载。
DHT(Decentralized Hash Table)
去中心化哈希表,看英文名感觉贼牛逼。不还是哈希表么。
如果说比特币以太坊共识的是交易记录的话,IPFS共识的是DHT。
DHT标记了资源的具体位置。
寻址步骤
个人理解是
- 使用DHT查到当前检索的资源在哪个结点上
- 再用DHT查到要找的结点在哪
- 找到需要的结点(们)后,告诉这些结点我需要哪些CID,结点把资源给我,我本地对内容verify,CID一样的话就交易成功。
Recap
目前来看IPFS并没有用到一些独创的技术,更像是把一些已经验证过的技术放在一起,做了一个去中心化的文件系统。让我想起在学校时的IPV6资源站,如果想要使用站上的资源,就得自己先做种换token,区别可能就是做种获得的奖励变成了File Coin
问题:
- 资源的定义是什么,静态资源当然可以存储,那么动态的比如一个服务、一段程序要如何连接到IPFS上?
目前来看IPFS的资源的定义还是静态资源,第三方的文件可以通过IPLD连接到IPFS上。 - IPFS如何保证资源不被篡改
CID - 为什么wiki和Ardvark.html没有显示成CID
https://explore.ipld.io/#/explore/QmSnuWmxptJZdLJpKRarxBMS2Ju2oANVrgbr2xWbie9b2D
使用IPLD的explorer可以看到这个CID代表的是最Root级别的CID,其下的资源会按照更可读的方式(unixFS)来显示,但实际上都拥有各自的CID
完。