1、先导入一个formula包,训练模型使用
备注:先要完成数据的预处理(数据导入和分割,training_set, test_set)为分割好的数据
install.packages('Formula')
2、formula包 为数据喂养线性函数 Fitting Linear(formula:画线的方法,lm画线的模型)
datasets = read.csv('Salary_Data.csv')
#数据分割
#用
library(caTools)
#set.seed(123)里面有数据就是随机处理
set.seed(123)
split = sample.split(datasets$Salary, SplitRatio = 2/3)
training_set = subset(datasets, split == TRUE) #2/3
test_set = subset(datasets, split == FALSE) #1/3
#数据规范化(缩放)
#training_set[,2:3 ] = scale(training_set[, 2:3])
#test_set[,2:3 ] = scale(test_set[,2:3 ])
#导入formula包 为数据喂养线性函数 Fitting Linear(formula:画线的方法,lm画线的模型)
regression = lm(formula = Salary ~ YearsExperience, data = training_set)
解释:这张图下次解释,特别是“*”号
3、查看模型预期结果
#预期结果
y_pred = predict(regression, newdata = test_set)
运行上面代码后,在控制台敲上y_pred,2:工作年限 37766.77:预测出来的Salary
4、数据可视化
(1)、导入包(相对勾选这是第二种方式)
#数据可视化
install.packages('ggplot2') #导包的第二种方式
(2)、上数据可视化代码,这里于Python 有点差异,用“+”号 还有颜色用colour
library(ggplot2)
ggplot() +
geom_point(aes( x = training_set$YearsExperience, y = training_set$Salary), colour = 'red') + #画点,Colour 红色
geom_line(aes( x = training_set$YearsExperience, y = predict(regression, newdata = training_set)), colour = 'blue') + #画线
ggtitle('Salary vs Experience') +
xlab ('Years of experience') +
ylab ('Salary')