在进行数据分析的过程中,我们常常会根据不同变量做去重处理,有单一变量和多变量处理两种情况
单一变量去重
result <-rawdata[!duplicated(rawdata$Topic),]
result <-rawdata[unique(rawdata$Topic),]
使用这两种方法,获得的结果是一样的,其中rawdata[XXXXX,]的作用是提取选中的行数据,同理,rawdata[,XXXXX]则是提取选中的列数据
unique() 和 !duplicated() 是提取去重后的所在行的相关变量
多变量去重
按照Topic以及Sentiment进行去重,方法如下,该方法适用于>=2以上的参数进行去重
result<-rawdata[!duplicated(rawdata[,c('Topic','Sentiment')]),]