分析过程
- 以rela基因为例,featureCounts结果文件“all.id.txt”中提供的信息为:
Geneid ENSMUSG00000024927
Chr 19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19
Start
5687511;5687747;5687857;5687961;5687972;5687987;5688460;5688460;5688460;5688460;5688579;5688579;5688579;5688579;5688579;5688579;5688883;5688883;5688883;5688883;5688883;5689887;5689887;5689887;5690331;5690331;5690331;5690331;5691174;5691209;5691209;5691209;5691492;5691492;5691492;5691492;5695353;5695353;5695353;5695353;5695541;5695541;5695541;5695541;5696622;5696828;5696828;5696828;5696828
End
5687869;5687869;5687869;5688004;5688176;5688176;5688486;5688486;5688486;5688486;5688724;5688730;5688730;5688730;5688730;5688730;5689031;5688997;5689031;5689031;5689031;5689978;5689978;5689978;5690460;5690462;5690462;5690462;5691313;5691313;5691313;5691313;5691704;5691704;5691704;5691704;5695433;5695433;5695433;5695433;5695615;5695615;5695615;5695615;5696726;5697104;5697451;5697636;5698158
Strand
+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+
Length
3072
- 接下来用R语言进行分析:
1. 提取featureCounts结果中的信息
# 加载需要用到的包
library(tidyverse)
# 读取featureCounts结果
all=read.table(file = "./featureCounts/all.id.txt",header = T)
# 提取rela基因行
a=all["ENSMUSG00000024927",]
# 提取strat和end信息
b=t(str_split(a$Start,pattern = ";",simplify = T))
c=t(str_split(a$End,pattern = ";",simplify = T))
d=cbind(b,c)
d=as.data.frame(d)
# 计算每个片段的长度
d$l=as.numeric(d$V2)-as.numeric(d$V1)
发现并没有“Length 3072”这个信息
2. 计算所有这些片段合并后的长度
e=c()
for(i in 1:nrow(d)){
e=union(e,d[i,1]:d[i,2])
}
length(e)
# [1] 3072
正好是featureCounts结果文件中提供的Length值!
结论
featureCounts结果文件中提供的Length值是所有片段合并后的长度