美团网商家数据分析

一、数据准备

爬虫爬取美团网广州市地区美食商家信息 1025条,爬虫工具是八爪鱼采集器,主要字段包括:店铺名称、店铺网址、评分、消费评分、消费人数、类型、店铺地址、人均价格、所在城市、关键字。

二、分析目标

针对美团网广州市地区美食商家
1、不同区域商家的商家数量、评论数量、种类分布、价格和评价如何?
2、不同种类商家的商家数量、评论数量、区域分布、价格和评价如何?
3、连锁店的门店数量、种类分布、区域分布、评论数量和价格如何?
4、评论人数最多的10家店?价格最高的10家店?

三、数据清洗与处理

下图为原数据


原数据.JPG

数据处理

  • 删除44条重复记录
  • 删除字段店铺网址、所在城市、关键字
  • 连锁店店铺名称中括号内容删除
  • 字段名消费评论数改为消费评分,变量值转换为数值型
  • 从店铺地址中截取出区域名,区域名缺失值根据地址填充为南沙或从化
  • 人均价格截取价格,并转换为数值类型

清洗数据结果见下图


清洗结果数据.JPG

四、分析内容

区域

区域数量

SELECT COUNT(DISTINCT area)
FROM food;
区域数量.JPG

目前广州市辖有11个市辖区,数据中有11个区域,符合广州实际情况。

店铺数量

SELECT COUNT(*), COUNT(DISTINCT res)
FROM food;
店铺总数量.JPG

一共有980条记录,但店名去重后的数量是823,判断有部分店铺是连锁店。

各区域商家数量

SELECT area, COUNT(area)
FROM food
GROUP BY area
ORDER BY COUNT(area) DESC;
各区域商家数量.JPG

天河区的美食商家数量远大于其他区域,其次是番禺、白云、海珠和越秀,可能是这些区域人流量比较大,因此商家也比较多。

各区域评论数量

SELECT area, SUM(`comment`)
FROM food
GROUP BY area
ORDER BY SUM(`comment`) DESC;
区域评价总人数.JPG

这里用各区域评论总数量粗略代表人流量,可以看到各区域按评论数量排序的顺序跟按商家数量排序的顺序基本一致,人越多越繁华的地方,商家就越多。

结合广州各行政区常住人口数据(数据来源:维基百科)


广州各行政区常住人口.JPG

这里按常住人口数量排序跟上面两个排序有出入,但是前5名依然是白云、海珠、天河、番禺和越秀区。

各区域商家种类数量

SELECT area, COUNT(DISTINCT kind)
FROM food
GROUP BY area
ORDER BY COUNT(DISTINCT kind) DESC;
各区域商家种类数量.JPG

美食种类最多的仍然是天河、白云、海珠、番禺和越秀,商家越多,种类就越多,选择也就更多样了。

各区域平均价格

SELECT area, ROUND(AVG(price))
FROM food
GROUP BY area
ORDER BY ROUND(AVG(price)) DESC;
区域平均价格.JPG

天河区平均价格最高,毕竟是广州CBD,紧随其后的是越秀和海珠区,白云和番禺区平均价格处在中等水平,比较实惠。

各区域平均评分

SELECT area, ROUND(AVG(score),2)
FROM food
GROUP BY area
ORDER BY ROUND(AVG(score),2) DESC;
区域商家平均评分.JPG

每个区域商家评价比较好,平均评分都在4以上。

种类

种类数量

SELECT COUNT(DISTINCT kind)
FROM food;
商家种类数量.JPG

美食种类一共有122种,可供选择的类型和口味挺多的,但是可能有一些种类是从一个大类种拆分出来的。

不同种类商家数量

SELECT kind, COUNT(kind)
FROM food
GROUP BY kind
ORDER BY COUNT(kind) DESC;
不同种类商家数量最高部分.JPG
  • 奶茶/果汁、粤菜和蛋糕商家数量是其他种类商家数量两倍以上,这些类型可能有连锁店,特别是奶茶/果汁。
  • 湘菜、川菜和火锅商家数量挺多,这些菜基本上是辣的,看来挺多人喜欢吃辣的。
  • 一些外国菜,日本寿司、披萨、西餐的商家数量也挺多的。
SELECT kind, COUNT(kind)
FROM food
GROUP BY kind
ORDER BY COUNT(kind);
不同种类商家数量最低部分.JPG

商家数量最少的种类是一些小类,再次验证了我们的想法,有些类型其实属于同一大类。

不同种类商家区域分布情况

SELECT kind, COUNT(DISTINCT area)
FROM food
GROUP BY kind
ORDER BY COUNT(DISTINCT area) DESC;
不同种类区域分布数量.JPG

与之前的不同种类商家数量对比,商家数量越多,覆盖的区域越广。

不同种类商家平均价格

SELECT kind, ROUND(AVG(price))
FROM food
GROUP BY kind
ORDER BY ROUND(AVG(price)) DESC;
不同种类商家价格最高部分.JPG
SELECT kind, ROUND(AVG(price))
FROM food
GROUP BY kind
ORDER BY ROUND(AVG(price));
不同种类商家价格最低部分.JPG

自助餐和外国菜普遍比较贵,新疆菜、杭帮菜、云南菜和重庆火锅价格也比较高,但小吃类普遍比较便宜,比如豆腐花、地方小吃、麻辣烫等等。

不同种类商家平均评分

SELECT kind, ROUND(AVG(score))
FROM food
GROUP BY kind
ORDER BY ROUND(AVG(score));
不同种类商家评分最低部分.JPG

商家平均评分还是挺高的,基本都大于3。

连锁店

CREATE VIEW chain_stores AS (
SELECT *
FROM food
GROUP BY res
HAVING COUNT(res)>1);

连锁店数量

SELECT COUNT(DISTINCT res)
FROM food
WHERE res IN (SELECT res
              FROM food
              GROUP BY res
              HAVING COUNT(res)>1);
连锁店数量.JPG

爬取数据种有65家门店是连锁店。

连锁店种类分布

SELECT kind, COUNT(kind)
FROM chain_stores
GROUP BY kind
ORDER BY COUNT(kind) DESC;
连锁店种类数量.JPG

奶茶/果汁和蛋糕店连锁店数量最多,这两种类型的连锁店可能比较容易开设。

连锁店门店数量分布

SELECT res, COUNT(res)
FROM food
WHERE res IN (SELECT res
              FROM chain_stores)
GROUP BY res
ORDER BY COUNT(res) DESC;
连锁店门店数量最高部分.JPG

快餐店华莱士门店数量最多,奶茶店的门店数量也挺多的。

连锁店区域分布

SELECT res, COUNT(DISTINCT area)
FROM food
WHERE res IN (SELECT res
              FROM chain_stores)
GROUP BY res
ORDER BY COUNT(area) DESC;
连锁店区域分布最高部分.JPG
SELECT res, COUNT(DISTINCT area)
FROM food
WHERE res IN (SELECT res
              FROM chain_stores)
GROUP BY res
ORDER BY COUNT(area) ;
连锁店区域分布最低部分.JPG

通过与连锁店门店数量对比,连锁店门店数量越多,所覆盖的区域也就越大。

连锁店评论数量

SELECT res, SUM(`comment`)
FROM food
WHERE res IN (SELECT res
              FROM chain_stores)
GROUP BY res
ORDER BY SUM(`comment`)  DESC;
连锁店评论数量最高部分.JPG
SELECT res, SUM(`comment`)
FROM food
WHERE res IN (SELECT res
              FROM chain_stores)
GROUP BY res
ORDER BY SUM(`comment`);
连锁店评论数量最低部分.JPG

连锁店之间的评论数量相差蛮大的,有的评论数量上万,一部分连锁店本身门店数量多,一部分连锁店吸引的顾客量大,有的评论数量只有几百。

连锁店平均评分

SELECT res, AVG(score)
FROM food
WHERE res IN (SELECT res
              FROM chain_stores)
GROUP BY res
ORDER BY AVG(score) DESC;
连锁店平均评分最高部分.JPG
SELECT res, AVG(score)
FROM food
WHERE res IN (SELECT res
              FROM chain_stores)
GROUP BY res
ORDER BY AVG(score);
连锁店平均评分最低部分.JPG

连锁店平均评分大于3,总体评价不错,毕竟口碑不好,也很难开连锁店。

Top商家

评论数量最多的10家店

SELECT res, score, `comment`, kind, area, price
FROM food
ORDER BY `comment` DESC
LIMIT 10;
最受欢迎前10商家.JPG

最受欢迎的商家9家都分布在商家数量最多的区域,种类不一,价格没有明显的趋势。

价格最高的10家店

SELECT res, score, `comment`, kind, area, price
FROM food
ORDER BY price DESC
LIMIT 10;
最贵10家商家.JPG

平均消费价格最高的10家店有4家都在天河区,有7家都是自助餐类型的,集中在最贵的地区和类型,平均消费价格都大于200。

五、总结与不足

总结:

  • 人口比较大的五个区——天河、番禺、白云、海珠和越秀的商家数量最多,可选择的种类也很多,作为CBD的天河区平均消费价格是最贵的,商家总体评价比较好。
  • 奶茶/果汁、粤菜、蛋糕、湘菜、快餐等商家数量比其他种类多,不同种类商家数越多所覆盖的区域越广,自助餐和外国菜价格较高,而小吃类比较便宜。
  • 奶茶/果汁、蛋糕、小吃快餐和粤菜的连锁店较多,连锁店门店数量越多,覆盖区域越大,评论数量也会比较多,连锁店总体评分还是不错的。
  • 将评论数量作为简单评判商家受欢迎的标准,最受欢迎的10家店集中在商家数量最多的区域,但种类和价格没有明显的趋势;平均消费价格最贵的10家店有4家都在天河,7家都是自助餐,平均消费在200以上。

不足:
美团广州地区美食最多只有32页,因此只爬取了32页的数据,数据与真实数据相比存在偏差。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容