1. 问题
最近在使用R读取数据的时候,发现数据本来的行数与读入后的行数严重不符合,比如TCGA-OV的表型数据,实际数据是759行,但是读入后R只有379行,而且试了好几遍,读入命令如下:
ph<-read.table('TCGA-OV.GDC_phenotype.tsv',sep='\t',header=T)
dim(ph)
#[1] 379 98
#wc -l TCGA-OV.GDC_phenotype.tsv
#759
2. 解决问题
通过查询相关问题,发现其实别人之前也遇到过类似的问题,比如read.table/read.delim读入数据行数变少?有介绍,其实就是quote参数的问题,将quote设定为:quote=“”即可,究竟是什么原因造成的,这主要是由于我的数据中有特殊符号:‘,这将会造成,因此以后为了读取数据的方便和准确性,还是尽量的直接加上这个参数:
ph<-read.table('TCGA-OV.GDC_phenotype.tsv',sep='\t',header=T,quote="")
dim(ph)
[1] 758 98