转录组学习二（数据下载）

转录组学习一（软件安装）
转录组学习二（数据下载）
转录组学习三（数据质控）
转录组学习四（参考基因组及gtf注释探究）
转录组学习五（reads的比对与samtools排序）
转录组学习六（reads计数与标准化）
转录组学习七（差异基因分析）
转录组学习八（功能富集分析）

任务

学习的文章是：《AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors》. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034
在文章里面找到数据地址GSE81916 这样就可以下载sra文件作业，看文章里的methods部分，把它用到的软件和参数摘抄下来，然后理解GEO/SRA数据库的数据存放形式。

文章

image

主要内容的是利用RNA-seq及RIP-seq(RNA-immunoprecipitation)来证明AKAP95对转录后调控的可变剪接具有重要作用。
其中对于RNA-seq分析部分主要在Methods方法的Bioinformatic analyses：
测序平台：Illumina HiSeq 2500
取样物种：Homo sapiens和Mus musculus 的293个cells
数据类型：双末端PE reads 2 x 50bp
参考基因组：人类参考基因组CRCh37/hg19
比对软件：TopHat(v2.0.13)
GTF文件类型：GRCh38.70
比对数据质控：过滤低质量比对reads(MQ > 30)
平均插入长度及标准差(mean insert sizes and the s.d.'s)：Picard-tools(v 1.126)
计算reads count: HTSeq(v0.6.0)
差异基因分析：DESeq(v3.0)
差异外显子分析：DEXSeq(v3.1)
(RPKM/FPKM?)The read per million normalized:BEDTools(v2.17.0), bedGraphToBigWig tool(v4)
GO富集分析：DAVID

数据

首先简单介绍NCBI的GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)

GEO数据库(Gene expression Omnibus)就是当今最大、最全面的公共基因表达数据资源。简单说GEO就是一个公共数据库，包含大多数已在杂志发表文章的原始数据。

主页输入文章的登录号GSE81916。根据Overall design可知：1-8位RIP-seq数据，9-15为RNA-seq数据。其中9-11为AKAP95敲除后在人类293个cells里的数据，12-15为在小鼠ES cells里的数据。故我们需要下载9-15的RNA-seq数据。
另外一个重要的数据库就是SRA Run Selector(https://trace.ncbi.nlm.nih.gov/Traces/study/?go=home]r)。同样搜索数据登录号GSE81916。得出关于这些数据的基本信息，其中我们所关注的RNA-seq数据的基本信息如

image
- SRR原始数据文件为SRR35899{56..62}
- 其中56~58为人类数据 56为对照组，57, 58为控制组
- 59~62为小鼠的数据.实验处理方式如图：
- 最后下载SRR35899{56..62}这7个数据集
- 看了一下，这7个SRR数据需要10.38Gb 解压完全之后共占空间24.17Gb，数据量感觉"比较大"。
  
  image

下载

总共10Gb的数据量下载起来还是需要挺长时间的。目前所知道的有两种下载方式：sratoolkit里自带的preftch程序，与直接循环脚本wget下载数据。

Sratoolkit下载

mkdir rna_seq_test && cd rna_seq_test
###根据SRR数据结尾可知变化的数值主要是最后两个56~62故

for i in `seq 56 62` ## shell的``与seq 两个用法
do
nohup preftch SRR35899${i} & ##preftch与 后台运行
done

preftch程序会将数据下载存储在$HOME/ncbi/public/sra/目录下。总共10.38Gb，慢慢下。

直接根据ftp网址用wget下载
ftp网址一般都是具有规律的。根据徐洲更所提各种网址会分为共同部分和变动部分
FTP网址(ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747)可以分为以下部分(可以自行删除探索其他网站部分)
- 所有SRA数据的共同部分：ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant
- reads表示存放reads数据，在FTP可以看到另一个选项是analysis，表示分析结果的文件
- ByStudy表示根据Study进行分类，其他还可以根据实验ByExp,根据Run,ByRun.
- sra/SRP/SRP075/SRP075747: 进一步的分类检索。
  可以知道这些文件的地址改变只有最后两个数字的不同。故循环脚本下载如下

for i in `seq 56 62`
do
nohup wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747/SRR35899${i}/SRR35899{$i}.sra &
done

最后总共下载完10多G啊，截个图

image

2017/10/14 Sat.晚8点小结：对知识点： GEO、SRA数据库，简单的循环脚本做了进一步的熟悉。仍然存在的问题就是这些SRA数据包括的数据具体是什么，是如何设计实验方案的。这些预计在接下来解压的文件和后续分析中会有所解释。

参考文章

徐洲更（伪）从零开始学转录组：读文章拿到测序数据 https://mp.weixin.qq.com/s?__biz=MzI1MjU5MjMzNA==&mid=2247484450&idx=1&sn=61784c91c745b0e3705bbc9145e69f3c&chksm=e9e02d83de97a495a87df0008977d2213736ab0505372c2f04a517ffcfcbf52747e911e89851&scene=21#wechat_redirect
青山屋主如何从NCBI下载高通量数据 http://fbb84b26.wiz03.com/share/s/3XK4IC0cm4CL22pU-r1HPcQQ2FSGeS3LE4tM2rg0A-1qRcP-
沈梦圆 PANDA姐的转录组入门(2)：读文章拿到测序数据 https://mp.weixin.qq.com/s/kRSIHuXtgZs6HWiPwYnSmA
GEO数据库简介 https://wenku.baidu.com/view/907abb0c1711cc7931b716e4.html

最后编辑于：2018.08.16 20:32:50

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,123评论 6赞 490
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,031评论 2赞 384
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 156,723评论 0赞 345
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,357评论 1赞 283
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,412评论 5赞 384
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,760评论 1赞 289
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,904评论 3赞 405
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,672评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,118评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,456评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,599评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,264评论 4赞 328
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,857评论 3赞 312
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,731评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,956评论 1赞 264
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,286评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,465评论 2赞 348

转录组学习二（数据下载）

转录组学习二（数据下载）

任务

<font color =orange>文章</font>

<font color =orange>数据</font>

<font color =orange>下载</font>

参考文章

推荐阅读更多精彩内容