逻辑回归(Logistic Regression)
指一个被Logistic方程归一化后的线性回归。
.优点:算法易于实现,执行效率和准确度高,适合属性非常多的情况
.缺点:离散型的数据需要通过生成虚拟变量方式来实现
回归建模:Model=sklearn.linear_model.LogisticRegression()
训练模型:Model.fit(x,y)
模型评估:Model.score(x,y)
模型预测:Model.predict(x)
案例代码:
import pandas
data=pandas.read_csv('filepath')
#清除空值
data.dropna()
#转成字典
fdata=data[[data.columns[(data.columns!='GustomerID')&(data.columns!='Home Ownership')]].
to_dict('records')
tdata=data[[Home Ownership']].as_matrix()
#转成虚拟变量
from sklearn.feature_extraction import DictVectorizer
dictvectorizer=DictVectorizer()
pata=dictvectorizer.fit_transform()
#随机重排列
import numpy
permutation=numpy.random.permutation(data.shape[0])
pdata=pdata[permutation]
tdata=tdata[permutation]
#建立模型
from sklearn.linear_model import LogisticRegression
lModel=LogisticRegression()
lModel.fit(pdata[:2000],tdata[:2000])
lModel.score(pdata[2000:],tdata[2000:])
lModel.predict(pdata[1])
#评估结果
lModel.score(pdata[2000:],tdata[2000:])
Out[32]: 0.82488479262672809
#预测结果
Out[33]: array(['Own'], dtype=object)