2019-12-22 Day10-14-学习 TCGA数据库单基因文章套路

花了5天,把视频看完。顺便整理了一下。
IF4.5分左右
套路:TCGA数据下载,选择想要研究的基因,然后对基因ID进行转换,提取矩阵中基因表达量,然后做差异表达分析-散点图-疾病和正常或肿瘤与癌旁比较,配对的差异分析-肿瘤与癌旁,然后对TCGA临床数据进行下载和整理,生产分析与基因联合,然后临床相关性分析-与性别-分期等是否有关,然后COX分析-模型预测疾病风险-探究单基因是否可以作为预后因子,GSEA富集分析-哪些基因哪些通路调控

1数据下载

TCGA-GDC


image.png

进入download界面下载


image.png

检测CART是否有数据 有的话 清空
image.png

选择癌症类型-TCGA-Type等细分
选择Files-Data Category(转录本)-Data Type(基因表达)-Workflw Type(FPKM)-点击cart进入界面- 下载三个文件download和metadata(名字)

2数据整理

使用脚本对数据进行整理


image.png

解压到目录中(不要当前文件夹)
然后对获得的目录进行合并解压(


image.png

使用perl脚本)下载Perl
image.png

下载下面那个,然后安装
安装验证是否成功-在菜单栏cmd-输入perl -v


image.png

将脚本复制到解压后目录下
image.png

然后cmd-cd空格输入路径-输入perl 脚本名称及后缀
image.png

image.png

完成之后对新文件夹内所有目录解压,将新文件夹移动到外面。然后将meta文件和脚本拷贝到新文件夹
然后cd 空格 目录名-perl 脚本名称 meta名称-运行(时间比较长,等光标到>之后)

3 ID转换

TCGA数据中ID第4个0开头为肿瘤样本
将之前得到到mRNA matrix.txt文件复制到第四个文件中。
human.gtf文件为gene symbol与ID对应文件,看mRNA matrix.txt中ID是否gtf中都有,没有的删除行。然后全放到一个文件下,运行脚本
cmd cd空格+路径 perl空格+脚本


image.png

image.png

4 提取单基因表达数据

对上述得到的数据,进行提取
首先对数据进行整理,如果有重复基因,对其进行取均值。
将上述得到的文件复制到文件5目录下
将脚本打开 复制命令到R中或搜索lima 安装软件


image.png

image.png

然后按要求改内容
改完之后输入R中进行运行。

5 散点差异图绘制

将单基因的数据复制大6脚本目录中
安装install.packages("beeswarm")
复制工作目录,复制单基因的数据的文件名
根据基因表达范围确定纵轴范围
复制脚本到R

6 配对差异分析

然后全放到一个文件下,运行脚本
cmd cd空格+路径Enter perl空格+脚本 Enter-得到两个文件
打开脚本,改工作目录。
复制脚本到R中进行运行。

7 临床相关性分析

临床数据下载
搜索TCGA GDC。清空Cart
点击


image.png

选择肿瘤类型
选择数据类型


image.png

因为是临床信息,所以选择最后一个
数据格式Data Format选择BCR XML
然后加入Cart中下载
image.png

将下载好的文件与10脚本放置于同一目录下
cmd cd空格+路径Enter perl空格+脚本 Enter
得到XLS文件,从中提取数据整理表格

8 生存分析

对得到的临床数据进行整理,按生存时间排序,去除未知数据,复制前三列ID 生存时间 生存状态到新建time.txt中。将单基因表达文件与脚本和新建time.txt放置到同一个目录下。
cmd cd空格+路径Enter perl空格+脚本 Enter
得到生存分析的输入文件,将其和12脚本放置同一目录下,打开R,安装软件


image.png

设置工作目录和基因名称


image.png

image.png

同时改后面year
然后将脚本复制到R中,运行
将这个命令放到最后,然后运行,得到5年生存率。
image.png

9 临床相关性分析

image.png

单基因表达量和临床文件拷贝到13脚本
整理临床数据,如按照分期,则删掉其他的,然后按分期排序,改分期太细的,按四大分然后复制到TXT中。其他临床数据分级等一样


image.png

然后cmd cd空格+路径Enter perl空格+脚本 Enter
得到临床新输入文件。
ks检验,打开14脚本,按要求修改格式
两种之间比较wilcox.test,两种以上krushal.test


image.png

然后复制14脚本到R中运行

10 逻辑回归比较

image.png

复制singleGeneClinical.txt文件到15中,打开脚本15,改相关信息,输入R
分期1为对照 分期2与分期1比 分期X与分期1比 改信息,得到OR和置信区间


image.png

image.png

然后复制到R中,得到单独比的数据


image.png

image.png

11 COX分析

独立性预后


image.png

脚本在16中。拷贝单基因表达文件singleGene,和临床信息文件clinical,以及clinical.xls。对XLS进行排序,删除缺少信息的数据,如果某个性状的unknown太多,则去除这个信息列,不然删太多行后没有样本。
对分期分级等及性别进行数字化,男1,女0。然后将处理好的数据复制到文本中,新建clinical.txt
然后cmd cd空格+路径Enter perl空格+脚本 Enter
得到coxInput.txt,COX分析输入文件

单因素COX
image.png

image.png

将coxInput.txt复制到目录中,复制17脚本到R中运行得到uniCox.xls
当基因的HR值不明显时,可log,如果基因中有0的数值,需要加1


image.png

image.png
多因素COX

单因素是单独一个一个输入,多因素一起
复制coxInput.txt到18。
打开脚本,需要安装survminer包,survival包已经安装好,然后设置,工作目录双斜杠,基因。
复制脚本到R中运行。
基因不显著的时候,可以去log。


image.png

11 GSEA分析

GSEA富集分析,主要分析这个基因通过什么通路或功能来对癌症的发生产生影响
搜索,GSEA ,download,注册下载软件


image.png

下载jre,然后下载界面中下载Java8版本的jre,然后直接安装。cmd java判断是否安装好。
输入文件:5文件中,uniquesymbol。提取基因信息。只需要肿瘤样品,删掉正常,低表达l高表达h


image.png

将文件全部放到目录19,cmd cd空格+路径Enter perl空格+脚本+基因名称Enter
获得Ch和GCT两个文件。
GSEA富集分析

将CLS和GCT和jre软件复制到20目录下
cmd cd空格+路径Enter
java- Xmx2G-jar软件名Enter ,得到界面


image.png

image.png

导入文件Ch和GCT两个文件


image.png

image.png

设施好后运行。
时间很久,结束后找到index文件
image.png

打开index,打开htm,对通路进行筛选
image.png

image.png
多GSEA富集图
image.png

节省了单GSEA的富集,如果有多条通路。21脚本
打开20的HTML的高表达和低表达的excel表,整理,FDR>0.05的可以删掉,如果都>0.05的只能删p值大于0.05.然后将选择的通路的excel表,全部复制到21中。


image.png

在R中安装包ggplot2.然后复制脚本到R中运行。


image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 198,154评论 5 464
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,252评论 2 375
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 145,107评论 0 327
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,985评论 1 268
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,905评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,256评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,978评论 3 388
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,611评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,891评论 1 293
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,910评论 2 314
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,736评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,516评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,995评论 3 301
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,132评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,447评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,034评论 2 343
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,242评论 2 339

推荐阅读更多精彩内容

  • 个人学习批处理的初衷来源于实际工作;在某个迭代版本有个BS(安卓手游模拟器)大需求,从而在测试过程中就重复涉及到...
    Luckykailiu阅读 4,668评论 0 11
  • [TOC] ##Assoc 显示或修改文件扩展名关联 Assoc [.Ext[=[Filetype]]] .Ex...
    btijjj阅读 326评论 0 1
  • 命令简介 cmd是command的缩写.即命令行 。 虽然随着计算机产业的发展,Windows 操作系统的应用越来...
    Littleston阅读 3,308评论 0 12
  • feisky云计算、虚拟化与Linux技术笔记posts - 1014, comments - 298, trac...
    不排版阅读 3,803评论 0 5
  • win7 cmd管理员权限设置 net localgroup administrators 用户名 /add 把“...
    f675b1a02698阅读 5,116评论 0 11