写在前面
求爷爷告奶奶的在服务器上跑了几次hisat2目录,还是因为小麦基因组太大无法成功。最后只能去了外显子和可变剪切建立index。终归是不死心,虽然唐医生表示可以借我一个512内存的服务器跑index,但这东西求人不如求己吧。再加上其间已经有两个人跟我说可以租用云服务器建立index,200块钱就能搞定。择日不如撞日,于是拿着300大洋去试试腾讯云了。
前期准备
众所周知,esembl的下载速度想当玄学,用几十核心的服务器跑下载那是相当的奢侈了。所以最好提前把所有的文件准备好,找一个靠谱的网盘,避免在下载上浪费时间。我这里选择的是奶牛快传。
之后是找齐一系列的连接和代码。比如:
miniconda
#下载miniconda
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
#安装miniconda
bash Miniconda3-latest-Linux-x86_64.sh
#激活
source .bashrc
奶牛快传
#下载奶牛并安装
curl -sL [https://git.io/cowtransfer](https://git.io/cowtransfer) | sh
#给奶牛改个名
mv cowtransfer-uploader cow
conda下的安装
#安装hisat2
conda install -c bioconda hisat2
#安装screen,主要是方便上去查看进度
conda install -c conda-forge screen
服务器购买
服务器当然是买越大越好,但越大的价格嘛就越贵了。我的建议是看你的dna.fa文件大小,人类的基因组需要大约160G内存。小麦基因组有14g多,预估计使用的内存量就是14/3*160g=747g。注意这里说的文件并不包涵SNP,如果还需要考虑SNP,那么也要把SNP包含在里头。之前有人告诉我人类3G的基因组+外显子+可变剪切+SNP总计需要200G以上的内存,所以……最后记得硬盘也得有内存那么大的体积。
整个服务器选购流程没什么说的,直接按需求选择就好了
注意,如果你不清楚linux下的操作以及如何使用ssh连接服务器。我建议你先买个腾讯88元的一年服务器练练手或者去生物技能树学习一下
开跑
等服务器建立后立马登录进去开始操作吧。
首先开两个窗口一个下载数据,另一个趁这段时间配置好环境。
命令都写在开头了就不赘述了。
文件下载好后解压缩
-x 解压缩 -z zip格式 -v 显示解压缩过程 -f 需要解压缩的文件名字
tar -xzvf file.tar.gz
列一下常用的tar命令
压缩
tar –cvf jpg.tar *.jpg //将目录里所有jpg文件打包成tar.jpg
tar –czf jpg.tar.gz *.jpg //将目录里所有jpg文件打包成jpg.tar后,并且将其用gzip压缩,生成一个gzip压缩过的包,命名为jpg.tar.gz
tar –cjf jpg.tar.bz2 *.jpg //将目录里所有jpg文件打包成jpg.tar后,并且将其用bzip2压缩,生成一个bzip2压缩过的包,命名为jpg.tar.bz2
tar –cZf jpg.tar.Z *.jpg //将目录里所有jpg文件打包成jpg.tar后,并且将其用compress压缩,生成一个umcompress压缩过的包,命名为jpg.tar.Z
解压
tar –xvf file.tar //解压 tar包
tar -xzvf file.tar.gz //解压tar.gz
tar -xjvf file.tar.bz2 //解压 tar.bz2tar –xZvf file.tar.Z //解压tar.Z
具体参考这个:https://www.cnblogs.com/jyaray/archive/2011/04/30/2033362.html
之后运行:
#开启窗口,防止ssh断线导致程序中断
screen -r RNA
#build index
hisat2-build -p 12 --ss ss_wheat.txt --exon exon_wheat.txt dna.fa IWGSC
之后等着就行了。创建的文件大概有这些。
可以看到占用了429g内存
这里有个有意思的点是,648G内存还是不够,所以所以买了648G内存也不会变更强!(我是个憨批)
Settings:
Output files: "IWGSC..ht2l"
Line rate: 8 (line is 256 bytes)
Lines per side: 1 (side is 256 bytes)
Offset rate: 4 (one in 16)
FTable chars: 10
Strings: unpacked
Local offset rate: 3 (one in 8)
Local fTable chars: 6
Local sequence length: 57344
Local sequence overlap between two consecutive indexes: 1024
Endianness: little
Actual local endianness: little
Sanity checking: disabled
Assertions: disabled
Random seed: 0
Sizeofs: void:8, int:4, long:8, size_t:8
Input files DNA, FASTA:
dna.fa
Reading reference sizes
Time reading reference sizes: 00:01:21
Calculating joined length
Writing header
Reserving space for joined string
Joining reference sequences
Time to join reference sequences: 00:00:51
Time to read SNPs and splice sites: 00:00:35
Ran out of memory; automatically trying more memory-economical parameters.
暂时分享个纯genome的hisat2的index吧……已经跟课题组申请aws服务器了,等到位了就去跑……
https://cowtransfer.com/s/31d15fd04c0640
最后,祝科研顺利……