早几天不论是函数,还是爬虫,都只是一个铺垫,对于一个文科生来讲,阅读并理解代码是有一定的困难的,随着早几天的看视频,现在也差不多能看出是几个意思了,,但昨天去写爬虫,错误一大堆,知道就是那么回事,但代码就是出错,我也没啥办法,现在的自己只想看到投入产出,如果没有的话,就果断放弃。欲速则不达,希望自己好好记住。今天学习些一点机器学习方面的代码,以前做了点铺垫,所以并不难。
第一句一定要写,不然图片出不来,-10到10之间100个等长的sin值
最后一行还是用print吧,,他只是为了使结果输出显现的更美观点,主要是我试了,搞不出来,智能用print
注意选值得方式,data_pandas[data_pandas['age']>30] 也行
这是查看当前计算机各个python模块的版本,记住这种匹配的方式。.format(),以后就都是这种,不要用%s%d那些。
有内置数据,导入相关模块,通过函数调用,刚看过的函数模块,应该对这种方式不会感受到陌生
也可以用iris_dataset.data[:5],来切片
大概意思就是因为好多原因,要将数据集分为两部分,一部分测试,一部分做模型用,有一个train_test_split()函数就是干这事的,测试的占总的0.25(这是一个首屈一指 的法则)。并且就像简单函数一样,维度少的做结果,维度多的做判断条件。
knn.fit(x,y) 调用 检测
X_new为一个数组 np.array([[ , ,]])
只要记住最后一个的表达的书写方式,前面的就算了
最后的核心代码就是上面的这点,不多,所有的机器学习的步骤差不多就是这样,还有一点参数from sklearn.model_selection import train_test_split
如果报错的话,就用
from sklearn.cross_validation import train_test_split 这个可以
cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)
test_size:样本占比,如果是整数的话就是样本的数量
random_state:是随机数的种子。
随机数种子:其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数。比如你每次都填1,其他参数一样的情况下你得到的随机数组是一样的。但填0或不填,每次都会不一样。
随机数的产生取决于种子,随机数和种子之间的关系遵从以下两个规则:
种子不同,产生不同的随机数;种子相同,即使实例不同也产生相同的随机数
数据------模型训练------训练得分
在监督机器学习中一般分为分类和回归问题,上面的就是典型的分类预测