虽说简单,但对R语言不熟悉的人来说还是需要指点一下,才会用。首先是GPL下载的文件,以GPL96为例。
提取最感兴趣的3列。
好的,接下来需要得到每个probe 对应单个symbol name的数据框。比如,10073_s_at ——DDR1;10073_s_at ——MIR4640;1053_at——RFC2……
上代码:
symbola=data.frame(probe=selectAnno$probe,symbol=selectAnno$symbol,
stringsAsFactors = FALSE)#22283
symbola=symbola[which(symbola$symbol!= ""),] #21225 #删去symbol为空的
symbolb=strsplit(symbola$symbol,split = " /// ") # 分割字符串
names(symbolb) <- symbola$probe #这一步很关键
symbolc <- ldply(symbolb,data.frame) #23749 #list转换为data.frame
colnames(symbolc) <- c("probe","symbol")
save(symbolc,file = "GPL96_probe_symbol.Rdata")
大功告成!