day16ChIP-seq下载数据

要实战之前,要有数据和软件两样。

一、数据

从网上下载数据,最好的办法是本节最后的方法直接用sratoolkit里的fastq-dump命令。

下面的是学习过程,但是走弯路了,——按照day18更新版本操作更简便,而且直接能转换成样本名称

1. jimmy大神早前的帖子里用了ChIP-seq实战

和视频里不一样。

2.从GEO下载数据

可以详见手把手教你如何从GEO下载数据
方法一:从网页下,需要在NCBI的GEO数据库中进入相应的GEO Series (GSE) study ID,如GSE42466。再选择要下载的样本GEO Sample (GSM) 样本ID,如GSM1041372 Ring1B_ChIPSeq。再点击RSA格式的文件编号,如| SRP017311。在右上角sent里面选择File,format选择run info。就会下载一个scv文件,里面有 download_path选项。copy到浏览器里就会自动下载啦。看下载进程600多M的文件大约0.5-4小时。
SRA为了节省空间,一般上传的数据都是.sra的压缩文件,那我们如何将sra文件转化成常用的双端数据呢?这里就要用到SRA提供的一个工具:fastq-dump,
这个软件需要在Linux系统下进行操作,命令行如下:

fastq-dump *.sra --split-3

这里的--split-3会把原来双端拆分成两个文件,但是原来单端并不会保存成两个文件。运行完成后就能获得原始数据了。

方法二:从Linux系统直接下载,也需要提前在网页的GEO数据库中找到GSE42466,再点击SRA对应的ID:SRP017311 ,会出现6个文件。全部选中之后,点击sent to,选择File 和runinfo,会把这六个数据的信息全都保存在csv文件中。


image.png

发现这个地址和jimmy大神写指南时不一样了哦。

for ((i=204;i<=209;i++)) ;do wget https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR620$i/SRR620$i;done

3. 把下载的sra数据转成fq格式文件,需要用Sratoolkit

找到下载地址为:https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.0.0/sratoolkit.3.0.0-ubuntu64.tar.gz
可以在linux里面下载直接安装哦。

$ wget -c --no-check-certificate https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.0.0/sratoolkit.3.0.0-ubuntu64.tar.gz  # --no-check-certificates 使用“不检查证书”,这样就能下载成功。且option要放到地址的前面哦。
$ tar -xzvf sratoolkit.3.0.0-ubuntu64.tar.gz #解压缩
$ echo 'export PATH=$PATH:~/software/sratoolkit/sratoolkit.3.0.0-ubuntu64/bin' >> ~/.bashrc
$ source ~/.bashrc

试图运行程序,提示"libc.so.6: version `GLIBC_2.14’ not found",原因是系统的glibc版本太低,软件编译时使用了较高版本的glibc引起的:
查看系统glibc支持的版本:
$strings /lib64/libc.so.6 | grep GLIBC

image.png

二、尝试升级一下GLIBC(经历很复杂,结局却反转)

http://ftp.gnu.org/gnu/glibc/找2.14

$wget http://ftp.gnu.org/gnu/glibc/glibc-2.14.tar.gz #从ftp下载加了-n这个参数怎么就不行了呢?删掉就可以了。
$wget http://ftp.gnu.org/gnu/glibc/glibc-ports-2.14.tar.gz 
$tar -xvf  glibc-2.14.tar.gz

$tar -xvf  glibc-ports-2.14.tar.gz

$mv glibc-ports-2.14 glibc-2.14/ports

$mkdir glibc-2.14/build

$cd glibc-2.14/build 
#下面运行configure配置,make &&  make install

$~/glibc-2.14/configure  --prefix=/data/zds209/usr/local/glibc-2.14/lib--disable-profile --enable-add-ons --with-headers=/usr/include --with-binutils=/usr/bin

#configure 一定要指定路径。上面这一步在运行了glibc-2.14文件夹里面的configure文件。该条命令会在工作目录~/glibc-2.14/build生成Makefile和其他文件。没有root权限,要把prefix设定成自己指定的。
$make #在工作目录~/glibc-2.14/build下进行编译。要挺长时间约2小时,看着一行行跳动的字符,由衷佩服这些代码的创作者。。有人用参数-j4,让make最多允许4个编译命令同时执行,这样可以更有效的利用CPU资源。
$make install #安装,就是把编译出来的二进制文件,库,配置文件等等放到相应目录下-就是configuration里面指定的prefix吧。

没有root权限,需要添加路径到.bashrc,在bashrc里面填下面一行。
export LD_LIBRARY_PATH=/home/username/usr/local/glibc-2.14/lib:$LD_LIBRARY_PATH#这里PATH后面的路径应该就是configuration时候的prefix啦。


结局:
在我折腾第二次make的时候等待中,实在忍不住了,给网管大神发了求助信息。他只回了一句:执行一下这个 export LD_LIBRARY_PATH=/data/software/glibc-2.141/lib:$LD_LIBRARY_PATH原来大神在公共文件夹下已经放了2.14在里面,我只要做网上教程里最后一个操作——添加环境变量就行了,简直不要太爽。要不要请大神吃个饭?

三、make命令-编译

在前面make的长时间等待中加餐点儿知识。代码变成可执行文件,叫做编译(compile);先编译这个,还是先编译那个(即编译的安排),叫做构建(build)。
Make可以从一个名为makefile的文件中获得如何构建你所写程序的依赖关系,Makefile中列出了每个目标文件以及如何由其他文件来生成它。 当你编写一个程序时,你可以为它编写一个makefile文件,这样你就可以使用Make来编译和安装这个程序。

四、configure命令-配置

参数解释
--prefix:指定生成的lib库运行时保存的路径(要写绝对路径)。最终一直glibc交付件时存放位置必须要和prefix指定路径保持一致。

五、继续Sratoolkit的使用

5.1 配置

使用前在sratoolkit的安装目录下,先输入这个命令vdb-config --interactive,按入字母x。即可。

5.2 执行

单个文件下载+格式转换

#定义存放输出数据的文件夹,需要先创建这个文件夹‘fastq’
mkdir fastq
$fqdir=~/ChIP-seqtest/data/fastq
$fastq-dump --gzip --split-3 -X 25000 -O ${fqdir} SRR1039510 #转换单个文件,而且不用下载sra数据,直接输入SRR号码就可以啦。完美。25000这是测试用的,只转换前25000条数据。实际操作中不用这个参数。

批量下载+格式转换

建立样本名文件sample.ID
建立sh文件,vim。

fqdir=~/ChIP-seqtest/data/fastq
cat ~/ChIP-seqtest/data/sample.ID | while read id
do
fastq-dump --gzip --split-3  -O ${fqdir} ${id}
done 
#保存为sh脚本 提交后台运行命令,脚本文件后缀为.sh

sra2fq.sh 文件放到software/sratoolkit下面,以后就可以调用啦。第一次独立写脚本,开心。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,546评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,224评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,911评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,737评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,753评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,598评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,338评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,249评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,696评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,888评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,013评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,731评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,348评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,929评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,048评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,203评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,960评论 2 355

推荐阅读更多精彩内容