利用python进行分类-预测顾客流失(简版)

更新内容：第4点c方式
计算准确率的方式（用了sklearn方式）

由于每个算法都基于某些特定的假设，且均含有某些缺点，因此需要通过大量的实践为特定的问题选择合适的算法。可以这么说：没有任何一种分类器可以在所有的情况下都有良好的表现。
分类器的性能，计算能力，预测能力在很大程度上都依赖于用于模型的相关数据。训练机器学习算法涉及到五个主要的步骤：

1.特征的选择
2.确定性能评价标准
3.选择分类器及其优化算法
4.对模型性能的评估
5.算法的调优

写在前面：接下来的我们通过一些电信数据来看看一些常用的分类器的简单情况(默认参数)，通过这些分类器来预测客户是否会流失。这次是一些比较简单的做法，有空再来完善，比如超参调优等。

1.加载数据

数据下载链接https://pan.baidu.com/s/1bp8nloV

import pandas as pd
data = pd.read_csv("customer_churn.csv",header=0,index_col=0)
data.head()

但是在读取的过程中出现了如下错误：

OSError:Initializing from file failed

查看了源码，应该是调用pandas的read_csv()方法时，默认使用C engine作为parser engine，而当文件名中含有中文的时候，用C engine在部分情况下就会出错

所以解决方案有二：

1.将文件路径的中文替换掉
2.在read_csv中加入engine=‘python’参数,即：

data = pd.read_csv("C:\\Users\\Administrator\\OneDrive\\公开\\customer_churn.csv",header=0,index_col=0,engine='python')

2.查看数据

data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3333 entries, 1 to 3333
Data columns (total 20 columns):
state                            3333 non-null object
account_length                   3333 non-null int64
area_code                        3333 non-null object
international_plan               3333 non-null object
voice_mail_plan                  3333 non-null object
number_vmail_messages            3333 non-null int64
total_day_minutes                3333 non-null float64
total_day_calls                  3333 non-null int64
total_day_charge                 3333 non-null float64
total_eve_minutes                3333 non-null float64
total_eve_calls                  3333 non-null int64
total_eve_charge                 3333 non-null float64
total_night_minutes              3333 non-null float64
total_night_calls                3333 non-null int64
total_night_charge               3333 non-null float64
total_intl_minutes               3333 non-null float64
total_intl_calls                 3333 non-null int64
total_intl_charge                3333 non-null float64
number_customer_service_calls    3333 non-null int64
churn                            3333 non-null object
dtypes: float64(8), int64(7), object(5)
memory usage: 546.8+ KB

3.特征选取

特征其实就是属性、字段等的意思
我们这里采取比较简单的方式，直接将state 、account_length 、area_code 这三列去掉，因为和是否流失的关系不大

data = data.ix[:,3:]
data.head()

4.将标称特征的值转换为整数，方便算法的运算

这里的话我们有三种方式

var = ['international_plan', 'voice_mail_plan','churn']
for v in var:
    data[v] = data[v].map(lambda a:1 if a=='yes' else 0)

#可以用字典的方式
data = pd.read_csv("customer_churn.csv",header=0,index_col=0,engine='python')
data = data.ix[:,3:]
mapping = {'yes':1,'no':0}
var = ['international_plan', 'voice_mail_plan','churn']
for v in var:
    data[v] = data[v].map(mapping)

#或者也可以使用sklearn里的LabelEncoder类
from sklearn.preprocessing import LabelEncoder
data = pd.read_csv("customer_churn.csv",header=0,index_col=0,engine='python')
data = data.ix[:,3:]
le = LabelEncoder()
var = ['international_plan', 'voice_mail_plan','churn']
for v in var:
    data[v] = le.fit_transform(data[v])
data[var].head()

c方式我们可以用以下方式得出将yes和no分别转换成了什么整数

le.transform(['yes','no'])

结果

array([1, 0], dtype=int64)

5.将数据分为测试集和训练集

X=data.ix[:,:-1]
y=data.ix[:,-1]
from sklearn.cross_validation import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=0)

6.1使用决策树进行分类

#使用决策树
from sklearn import tree
clf = tree.DecisionTreeClassifier(max_depth=3)
clf.fit(X_train,y_train)

我们可以通过以下方式将决策树的图导出来，只是在python上相对R来说要麻烦一点，需要下载Graphviz软件，并将其安装目录下的bin文件夹设置在系统变量中

#将决策树的决策过程导出到当前代码文件所在文件夹
tree.export_graphviz(clf,out_file='tree3.dot')

再在cmd中输入以下命令，将dot文件转换为png文件

dot -T png tree.dot -o tree.png

因为本人用的是jupyter notebook，所以要想在jupyter notebookz中插入图片的话，得用以下命令

%pylab inline
from IPython.display import Image
Image("tree.png")

结果如下

tree.png

可以看到决策树最先是以训练集中的第3列特征进行分支的

#检测分类结果
import numpy as np
print("Test accuracy:%.3f" %(np.sum(y_test==clf.predict(X_test))/len(y_test)))

结果为：Test accuracy:0.910

我们可以利用sklearn里面的东西直接计算准确率

#1
print("Test accuracy:%.3f" % clf.score(X_test,y_test))

#2
from sklearn.metrics import accuracy_score
print("Test accuracy:%.3f" % accuracy_score(y_test,clf.predict(X_test)))

结果同样都为0.910

6.2逻辑回归

from sklearn.linear_model import LogisticRegression
clf = LogisticRegression()
clf.fit(X_train,y_train)
print("Test accuracy:%.3f" % clf.score(X_test,y_test))

结果为：Test accuracy:0.870

6.3支持向量机

#使用支持向量机
from sklearn.svm import SVC
clf = SVC()
clf.fit(X_train,y_train)
print("Test accuracy:%.3f" % clf.score(X_test,y_test))

结果为：Test accuracy:0.862

写在最后：从准确率上看，这份数据决策树分类器的泛化能力最好，但是我们这里用的是各个分类器的默认参数，没有进行相关检验，调优，所以目前的结果并不可信，也不能完全按照准确率去比较分类器的优劣

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,194评论 6赞 490
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,058评论 2赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 156,780评论 0赞 346
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,388评论 1赞 283
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,430评论 5赞 384
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,764评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,907评论 3赞 406
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,679评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,122评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,459评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,605评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,270评论 4赞 329
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,867评论 3赞 312
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,734评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,961评论 1赞 265
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,297评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,472评论 2赞 348