生信log42|生信数据太多怎么办--聊聊数据存放的策略

基因组数据的数据量一般来说都不小,一个细菌基因组测序clean data的压缩文件都能去到1个G,更别说其他非原核的物种了。实验室的数据是不能随便删除的,更别说公司甚至是公共数据库级别的了,但为了省空间(省钱)还是要想想办法的。下面记录一下降低数据存储压力的策略和常用的压缩算法。

0、问题

  • 如何解决存储问题

  • 什么样的数据适合适用压缩

  • 怎么验证解压后的数据是无损的

1、降低存储压力的策略

整体的策略在于将数据的大小进行压缩、将数据转移到低价的存储设备

或许小型实验室不太需要,小型实验室而言只需把数据上传到公共的数据库即可。公共的类似gnomAD、千人基因组计划1000genomes这些大数据库,需要满足第三方访问和下载需求的可以考虑云存储了。而且云存储有一个好处,存放在云存储的资料有单独的访问防止,方便在网页、博客里面展示或者引用。

  • 存储设备(实验室或者公司可以用的):

    • 硬盘/光碟等等(别问为什么23年还要用光碟,便宜能用就是好!)
  • 云存储什么情况下会用到云存储呢?

    • 对象存储桶bucket/NAS盘

2、什么数据适合压缩?——数据压缩原理

数据压缩技术分为两种:有损压缩和无损压缩,在生信领域里面肯定是用无损压缩的。

哪什么数据适合压缩呢

👇下面先看看各种数据压缩的原理(此处可以可视化)

  1. bgzip的:bgzip使用的压缩算法是基于游程编码(Run-Length Encoding)的。游程编码是一种简单的无损数据压缩算法,它通过消除连续重复的数据元素来压缩数据
  2. gzip: LZ77是一种基于字典的压缩技术,可以有效地处理重复出现的字符串序列。
  3. bzip2 (bz2):Burrows-Wheeler变换通过重新排列字符顺序来增重复字符的集中度,这使得之后的压缩步骤更有效。
  4. tar.gz:

总结:由数据压缩的原理可见,如果数据中含有具有大量重复元素或者重复结构的大文件都可以考虑压缩的操作,像测序文件fastq这一类的文件里面含有大量A,T,C,G的字母元素缺失比较适合压缩,而基因组压缩也确实是计算机算法教材中的经典案例。

3、在生信中常用的压缩算法使用命令(压缩和解压缩)

讨论完什么数据适合压缩,那就到了下一个环节了,该怎么压缩呢?

生信中常见的压缩文件格式(后缀为例):.zipbgzip.gzbgztar.gztar

常见的压缩算法:gzipbgz

# gzip 压缩和解压缩
gzip filename               # 压缩文件
gunzip filename.gz          # 解压缩文件
gzip -d filename.gz         # 解压缩文件(另一种命令)

# bzip2 压缩和解压缩
bzip2 filename              # 压缩文件
bunzip2 filename.bz2        # 解压缩文件
bzip2 -d filename.bz2       # 解压缩文件(另一种命令)

# xz 压缩和解压缩
xz filename                 # 压缩文件
unxz filename.xz            # 解压缩文件
xz -d filename.xz           # 解压缩文件(另一种命令)

# ZIP 压缩和解压缩
zip filename.zip files      # 压缩文件或文件夹
unzip filename.zip          # 解压缩文件或文件夹

# tar 结合 gzip/bzip2/xz 压缩和解压缩
tar -czvf archive.tar.gz directory/   # 使用gzip压缩文件夹
tar -xzvf archive.tar.gz              # 解压缩.tar.gz文件
tar -cjvf archive.tar.bz2 directory/  # 使用bzip2压缩文件夹
tar -xjvf archive.tar.bz2             # 解压缩.tar.bz2文件
tar -cJvf archive.tar.xz directory/   # 使用xz压缩文件夹
tar -xJvf archive.tar.xz              # 解压缩.tar.xz文件

# samtools (针对SAM/BAM文件)
samtools view -bS filename.sam > filename.bam   # 将SAM转换为BAM
samtools view -h filename.bam > filename.sam   # 将BAM转换为SAM

# bgzip 压缩和解压缩
bgzip filename          # 压缩文件
bgzip -d filename.gz    # 解压缩文件

# CRAM (针对基因组序列数据)
samtools view -C -T reference.fa -o filename.cram filename.bam  # 将BAM转换为CRAM
samtools view -b -T reference.fa -o filename.bam filename.cram  # 将CRAM转换为BAM

4、压缩效果

该怎么评估压缩的效果呢?下面给出了最直观的评估,其他不作展示

  • 压缩后文件的大小:这是最直观的体现压缩效果的指标
  • 压缩和解压缩的时长和资源消耗:如果压缩使用的时间太长且计算资源消耗过大,就应该考虑其他的压缩算法
  • 解压缩后文件的完整性:就是传说中的有损还是无损(关于解压缩后如何验证文件是否为原来的文件请参考我的这篇日志,日志之间居然联动起来了喂!)

5、总结

在日常业务中经常会听到文件太大把盘占满的消息,特此将这个点记录一下,或许计算机的同学不需要看这个,但是生物转生信的同学可以参考一下噢。

PS:码文不易点个赞再走吧!👍


参考及推荐阅读

生信log38|拿到的数据就是想要的数据吗?-附数据校验的方式

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,561评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,218评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,162评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,470评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,550评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,806评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,951评论 3 407
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,712评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,166评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,510评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,643评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,306评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,930评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,745评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,983评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,351评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,509评论 2 348

推荐阅读更多精彩内容