175、Excel分析亚马逊智能产品评论

1.png
2.png
3.png
4.png
5.png
6.png
7.png
8.png
9.png
10.png
11.png
12.png
13.png
14.png

下面是分析过程

1、 提出问题

(1) Kindle相关产品的评论数排名和平均评分能反映哪些问题?
(2) Kindle相关产品的好评率如何?推荐评论占比怎样?
(3) Kindle相关产品随时间变化其评论数的变化情况是怎样的?
(4) Kindle相关产品备受好评的原因主要是什么?

2、 理解数据

数据来源:

https://www.kaggle.com/datafiniti/consumer-reviews-of-amazon-products/home

数据集中有用的字段如下:

id-用户编号

name-产品名称

asins-产品编号,每一个产品编号对应一个产品,可用它进行产品分组

brand-品牌

categories-产品类别

keys-类别关键字

manufacturer-制造商

reviews.date-评论时间,可以分析各时间段评论数

reviews.dateAdded-追评时间

reviews.dateSeen-评论可见时间

reviews.doRecommend-评论是否被推荐

reviews.numHelpful-帮助性分子数

reviews.rating-评分,可进行求平均值等描述统计分析

reviews.sourceURLs-评论链接

reviews.text-评论文字内容,可以进行抽取关键字,分析评分原因

reviews.title-评论标题

reviews.username-用户名

3、 数据清洗

(1) 选取子集

1) 在产品类别(categories)中筛选含 Kindle类别的产品,并将筛选的数据复制到新的文件中:
1选择子集.png
1选择子集2.png

2) 隐藏与分析问题无关的字段,保留以下字段:name-产品名称、asins-产品编号、categories-产品类别、reviews.date-评论时间、reviews.doRecommend-评论是否被推荐、reviews.rating-评分、reviews.text-评论文字内容、reviews.title-评论标题
2隐藏字段.png

(2) 列重命名

将数据集中字段的名称更改为中文字段
3列重命名.png

(3) 删除重复项

这里需要对评论文字内容列进行删除重复项,此操作删除0个重复项。

(4) 处理缺失值

缺失值处理方法有四种:

1)对比缺失内容,通过手动输入内容补全

2)删除缺失的数据

3)用平均值代替缺失值

4)用统计模型计算出的值去代替缺失值

通过筛选查看各字段内容,发现产品名称(name)、产品品牌(asins)、评分(rating)、评论时间(date)和是否被推荐(doRecommend)字段中均存在缺失值

a. 产品名称(name)、产品编号(asins)、评分(rating)、评论时间(date):对这4个字段中存在的缺失值,为了避免输入错误信息或删除有用的信息,这里选择直接删除空白项对应的行

操作:选择对应字段 – 定位条件 - 空值 - 删除行

b. 是否被推荐(doRecommend):用FALSE手动补全评论是否被推荐(doRecommend)字段中的缺失值

操作:选择对应字段 - 定位条件 - 空值 - 输入FALSE - ctrl+Enter

(5) 一致化处理

1) 日期格式转换

评论时间字段中格式包含日期+时间,分析中并未使用到具体时间段,这里把评论日期拆分为三列,分别为年、月、日

年:插入一列年,使用LEFT()函数
4-1截取年份.png

月:插入一列月,使用MID()函数和FIND()函数
4-2截取月份.png

日:插入一列日,使用MID ()函数和FIND()函数
4-3截取天数.png

2) 分组

在评分字段后面插入一列评价等级,对评分进行分组,03分为差评,45分为好评

使用IF函数实现:=IF(P2<=3,"差评","好评"

)
5评价等级取值范围.png
6IF函数实现评分分组.png

4、 构建模型

(1) Kindle相关产品的评论数排名和平均评分能反映哪些问题?

利用数据透视表对每个产品进行统计评论数,并按高低排名,通过产品评论数,可以大概了解到各产品的销售情况,评论数越多,表示该产品销量越多。
7-1各产品评论数排名.png
7-2各产品评论数排名.png

由图上可以看出,产品(Amazon Kindle Paperwhite - eBook reader - 4 GB - 6 monochrome Paperwhite - touchscreen - Wi-Fi - black) 的评论数最多,前3名的评论数差别不大,从第4名起评论数明显减少,相比第1名减少5倍多,这说明 Kindle类产品容易出现聚集效应,绝大部分用户只喜欢特定的两三种产品。
产品的平均评分表示消费者对该产品的评价。

下图为各产品平均评分的折线图:
8各产品平均评分.png

由图上可知,大多数产品的平均评分都在4.5分或以上,这说明 Kindle类产品的评价都较高。但有些产品的评论数很少,考虑是知名度较低,或者相对其他产品有明显的缺点。
(2) Kindle相关产品评论总数中各评分的占比?推荐评论中好评数量占比怎样?

首先,统计评论中每个评分(1~5分)占有多少数量。使用数据透视表,将评分字段拉入行和值选框,得到如下数据:
9评分统计.png

插入饼图,了解各评分段的占比:
10各评分段的占比.png

通过数据透视表对评价等级中统计好评数量与差评的占比,并插入饼图:
11评论中好评数量占比.png

由图上可以看出,评分中3分及3分以下的占比5%,4分及以上的占比95%,由此可见该类好评率高达95%,虽然不能保证所有评论评分都值得相信,但是仍然反映用户对Kindle相关产品的使用普遍感到满意。
(3) Kindle相关产品随时间变化其评论数的变化情况是怎样的?

使用数据透视表,将年拉入行标签处,对评论文字内容进行计数统计,并插入折线图,分析总评论数随时间的变化趋势:
12-1总评论数随时间的变化趋势 .png
12-2总评论数随时间的变化趋势.png

使用数据透视表,将年拉入行标签处,将产品名称拉入列标签处,对评论文字内容进行计数统计:
13-1统计Kindle类各产品评论数 (1).png
13-2 统计Kindle类各产品评论数 .png

插入折线图,分析Kindle类各产品评论数随时间的变化趋势:
13-3分析Kindle类各产品评论数随时间的变化趋势.png

由图上可知 ,评论数量是从2015年开始快速变化的,从15年急剧增加到6000多,有关Kindle的产品种类也是从15年快速上升。

选取15、16和17年三个主要年份进行逐月分析:
14-1总评论数在15、16和17年的变化情况.png
14-2分析Kindle类各产品评论数在15、16和17年的变化情况.png

由图上可以看出,评论数量是从2015年开始迅速增加,在2016年12月达到最高峰,用户一年中的消费主要集中在11月、12月和1月。
(4) Kindle相关产品广受好评的原因主要是什么?
对评论文字内容字段进行关键字提取,获取产品受欢迎的原因有哪些?
该部分使用到Python软件,通过调用第三方工具包,对评论内容生成词云,从而获得关键信息。
Python代码如下:

#导入相关模块
import numpy as np
import pandas as pd
from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator 
import matplotlib.pyplot as plt
from scipy.misc import imread

# 加载数据
word = pd.read_csv(r'C:\Users\Administrator\Desktop\amazon.csv')

# for循环遍历每个单词
text = ''
for i in word['评论文字内容']:
    i = i.lower().replace(".","")    # lower将单词改为小写
    text += i + ' '

# 生成词云图
"""
WordCloud参数
collocations:是否包括两个词的搭配
width : int (default=400) #输出的画布宽度,默认为400像素
height : int (default=200) #输出的画布高度,默认为200像素
background_color:设置背景颜色
scale:按照比例进行放大画布,如设置为1.5,则长和宽都是原来画布的1.5倍
"""
font = r'C:\Windows\Fonts\simfang.ttf'
wordcloud = WordCloud(collocations=True,font_path=font,background_color='white',width=500, height=300).generate(text)
# 显示词云图片
plt.imshow(wordcloud)
plt.axis('off')
plt.show()

最后生成词云图片为:
15词云图.png

由图上可知,Oasis(钢化膜)、cover(封面)、电池寿命长(battery life)、轻便(very handy)、小巧(small)、运行流畅(works great)这些字样特别明显,这说明消费者喜欢该类产品的原因是它轻便小巧、电池寿命长、运行流畅、价格实惠、封面漂亮,但是屏幕易碎,需要贴膜。
5、 总结与建议
(1)总结
1)Kindle及周边各产品评分比较高,但评论数排名前3和排名第4名起其数目差距比较大,大部分产品只有少数评论数,绝大部分用户只喜欢特定的两三种产品。
2)Kindle及周边商品深受消费者喜爱,好评度很高。
3)Kindle及周边产品在每年1月、11月和12月评论数骤增,应加大销售手段,刺激消费增长销售额。
4)Kindle及周边产品广受好评的主要原因是:其产品特点轻便小巧、电池寿命长、运行流畅、价格实惠、封面漂亮。
(2)建议
1)选择最受欢迎的三种产品作为主要商品,分别是
I. Amazon Kindle Paperwhite - eBook reader - 4 GB - 6 monochrome Paperwhite - touchscreen - Wi-Fi – black
II. Echo (White)
III. Amazon Fire Tv
2)利用商品使用、性能及价格的优势作为主要宣传手段。
3)在黄金时期(11、12、1月),加大宣传力度,刺激产品销售,提高销售量。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,133评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,682评论 3 390
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,784评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,508评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,603评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,607评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,604评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,359评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,805评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,121评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,280评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,959评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,588评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,206评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,193评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,144评论 2 352

推荐阅读更多精彩内容

  • 这篇作文有一点应付的意思,但是呢,这篇作文很重要,这是我暑假的最后一篇作文,之所以代号,零零七四。因为这是第八篇作...
    应枘宇阅读 342评论 1 1
  • 每有灾难,就会有明星被逼捐。从前是王石,后来是马云,而现在,换成了风头正盛的吴京。 你的《战狼2》赚了几十亿票房,...
    午后窗台的猫阅读 1,260评论 0 0
  • 音乐女神邀请我来到她的殿堂 生命里有了一道新的光亮 我希望 日子永远这样芬芳 土里虫儿叫 林间歌声绕 雨儿轻柔 ...
    喜乐心记阅读 222评论 0 1