作者:山木、麦茬道
编辑:angelica
随着测序技术的蓬勃发展、测序成本一再下降,转录组测序分析已然成为生物学及医学研究最最不可或缺的必备技术手段。
但是,对于大多数初学者来说,偶尔也还是会给你带来一些小困扰,为节省宝贵的时间,小编给大家特此整理了一些常见问题或者分析经验,供大家参考~
有参转录组常见问题之聚类篇
1、Q:样本聚类和相关性可以通过什么方式得到呢?
A:使用样本的fpkm值,默认通过最长距离法(complete),计算样本间的欧氏距离,计算模式为斯皮尔曼相关系数(spearman),得到样本间的相关性打分,和聚类结果。相关性结果可以通过热图展示。
2、Q:表现趋势相同的一组样本为何会聚类不好?
A:组内样本存在个体差异,此差异影响整体基因表达差异较大(噪音基因存在),建议查看差异基因聚类情况,若良好可让步处理。
3、Q:聚类良好的分组,为何比较组间差异基因较少?
A:样本间差异很小,实验处理没有导致较大的基因表达水平差异;默认差异基因筛选条件较为严格,此类情况可适当放松筛选阈值(如调参[1.5,0.05,0.05])。
4、Q:剔除离群样本后,聚类为何依然并不理想?
A:样本聚类为整体基因(所有样本所有基因)参与计算,剔除的样本的基因表达不再参与计算,整体的聚类情况会有一定变动,多数情况下聚类可向预期方向改善,但不保证实际聚类与预期完全一致。
有参转录组常见问题之差异基因篇
1、Q:影响组间比较得到的差异表达基因数目的因素有哪些?差异表达基因数目太少怎么办?
A:比较组的差异表达基因的数目的影响因素主要有以下2个方面:
比较组内和比较组之间的样本相关性。正常情况下,组内样本相关性要高于组间样本的相关性;若出现组间部分样本相关性较高的异常情况,组间样本整体基因表达模式相近,则组间的差异表达基因的数目则会降低。
差异基因筛选的参数设定。差异基因筛选主要参考差异倍数(Fold change 值)以及 q值(padj 值,矫正之后的Pvalue值)作为相关指标,通常选取|log2 Fold change|≥1和q<0.05的差异基因作为显著差异基因。
差异表达基因数目太少,则可以通过2个方面进行调整:
- (1)根据样本间的相关性和样本聚类图,尝试剔除异常样本后分析。
- (2)调整差异基因筛选的参数。
2、Q:有100多个差异基因,为何GO或KEGG无富集结果呢?
A:虽然差异分析后筛选到了差异基因,但是得到的基因集较为“分散”,各条目/通路都未能富集到较多基因(未达显著富集判断标准),因此无显著富集结果。
建议可以试着关注下差异基因涉及的通路、功能,是否和研究课题相关,或者尝试其他的功能富集方法。
后续,我们会定期推出各类产品分析常见的问题,请大家拭目以待!