Python数据分析案例-租房价格分析

又快到了高校的毕业季,不知道即将毕业的同学们有没有想好怎么租房呢?最近复习了python数据分析的一些知识,然后在网上爬取了广州的租房价格数据,做了一个广州租房价格的数据分析小项目。

步骤

  • 明确分析的目的
  • 数据准备
  • 数据清洗
  • 数据分析
  • 数据可视化
  • 分析报告

明确分析的目的

通过对广州租房房源的价格、面积、地理位置、交通信息等因素的分析,为毕业后想留在一线城市如广州工作的同学,提供一个广州租房情况的整体的分析调查.

探索的问题

  • 房租的分布情况
  • 哪种户型的房源最多
  • 哪条地铁线附近的房租比较贵
  • 哪个区的房租更贵

数据准备

1.数据说明

  • 数据来源于广州房居客
  • 采用八爪鱼采集器工具爬取
  • house_district:表示房屋所在的区
  • house_location:表示房屋所在的地理位置
  • house_name:表示房屋的名字
  • house_room:表示房屋的户型
  • subway_info:表示房屋周边的地铁的信息
  • house_price:表示房屋的价格

2.数据预览

1).首先看一下整个数据集
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.rcParams['font.sans-serif']=['Microsoft YaHei']   #使图像显示中文
%pylab inline
gz_house = pd.read_csv('house_gz.csv')      #加载数据
gz_house.head(5)        #预览数据
预览数据

每列数据条数

本次分析一共采集了871条有效的房源信息,其中的subway_info属性只有693条记录,存在缺失值,说明有一部分的房源是周边没有地铁的,这些将在数据清洗中进行处理.


数据清洗

数据清理的流程为:

  • 选择子集
  • 缺失数据处理
  • 数据类型转换
  • 异常值处理
  • 有时为了便于分析,也会对列名进行重命名或者新增列字段

1.选择子集

对于house_room字段,我们需要提取出其中的面积数据和房屋户型数据
对于subway_info字段,我们需要提取出其中的地铁信息数据

#清洗house_room字段,把其中的房子规格、面积提取出来
#提取house_room字段中房子的面积大小,并插入到原数据中,命名为house_area
#提取house_room字段中的房间的规格,并插入回house_room字段中
house_room_info = gz_house['house_room'].str.split('|',expand=True)
gz_house['house_area'] = house_room_info[2]
gz_house['house_room'] = house_room_info[1]
#对地铁信息字段进行清洗,提取其中的几号线
gz_house['subway_info'] = gz_house['subway_info'].str.slice(1,4)

2.缺失数据处理

缺失数据的常用处理方式有:(1)删除缺失值 (2)平均值填充 (3)算法填充 等
对于subway_info字段,有部分的房源没有地铁信息,可以人为的为缺失值命名为“无地铁”

gz_house['subway_info'][pd.isnull(gz_house['subway_info'])] = '无地铁'

3.数据类型转换

对于house_area中的面子字段,分离出来的值都带有㎡符号,而在分析时房屋面积一般需要为浮点型(float)的数据,因此需要将house_area中的㎡除去,并将数据类型进行转换

'''提取house_area字段中的数字'''
def remove_m2(area):
    new_value = area.replace('㎡','')
    return np.float(new_value)
gz_house['house_area'] = gz_house['house_area'].apply(remove_m2)

经过上面的步骤,来看一下清洗完的数据集.


清理后的数据

每一列的数据类型

数据分析与可视化

1.房租的分布情况

  • 最底的房租价格为800元/月,最贵的房租价格为35000元/月
  • 平均的房屋均价为4616元/月,有75%的房租超过了2825元/月


    房租分布
最贵房租的房子和最低房租的房子长什么样?
gz_house[gz_house['house_price'] == 35000]
gz_house[gz_house['house_price'] == 800]
最贵

最低

最贵的房子面积达到了315㎡,每平方米均价为 35000 / 315= 111元;
最便宜的房子面积为76平米,每平方米均价为 800 / 76 = 11元,两者的房屋每平方米均价相差接近十倍!
最贵的房子位于珠江新城,地理位置处于广州的CBD位置,周边商圈林立,是最繁华的地段。而且房屋面积超过300㎡,附近还有地铁5号线和3号线经过,房租这么贵也正常。
最便宜的房子位于花都美林湖,位置偏僻,开车需要1-2小时才能到达,而且周边没有地铁,交通极不方便,所以虽然房屋面积不小,但是仍然是一个低的价格

房租价格直方图

广州大部分的租房的价格集中在2500至5000元的区间,其中以4000至4500的房源最多,超过8000以上的房源很少。
这个价格区间对于刚毕业的大学生来说还是比较贵的


2.面积的分布情况

  • 房屋面积最小的为16㎡,最大的为315㎡,有75%的房子超过65㎡
  • 65㎡的房子足够提供两个生活的面积,对于刚毕业薪资水平不高的毕业同学可以考虑找一两个朋友进行合租,房租会相应低一点.
  • 房屋面积集中分布在50-100平米的区间内,而低于50㎡的小面积型房源要少得多。这对于毕业后希望一个人住的同学来说不是一个好的消息.
面积分布

3.区域房源分布情况

  • 天河区的房源最多,有288间可租房源,占总体的33%,其次是番禺区有156间可租房源,占总体的18%,最少的是花都和黄埔区,只有17间和6间可租房源,仅占总体的1%


4.地铁房源分布情况

  • 有地铁的房源比无地铁的房源多,无地铁的房源仅占20%
  • 5号线附近的房源最多,由于5号线的起点和终点分别在黄埔荔湾,并且途径珠江新城、杨箕等重要换乘站,如果在黄埔区工作,可以考虑沿着5号线租房
  • 3号线附近的房源第2多:3号线沿途经过多个高校和重要写字楼,起点和终点分别为天河客运站还有番禺广场,附近的房源价格会比市中心的房源便宜不少。如果在市中心上班的话可以考虑去番禺或者天河客运站附近租房
  • 2号线、6号线、1号线都位于广州的主城区越秀区、荔湾区,并且相互之间换乘方便,如果工作地点在越秀区的话,沿着这三条地铁附近租房也是个不错的选择


5.双维度分析——同时考虑区域和房租

  • 越秀区的房租最贵,75%的房租都超过了3000元每月,其箱体也最长。越秀区位于广州市中心,区内有许多广州优秀中小学,属于教育大区,附近的房源对于家中有在读书的小孩来说是一个不错的选择,但是对于刚毕业的大学生来说可能不太适合.
  • 天河区房租紧随越秀区后,天河区聚集了广州的服务、金融、银行等企业,薪资水平在广州相对来说也比较高,如果工作地点在天河区,同时希望上班近一点的同学,可以考虑一下在天河区租房.
  • 如果在越秀区工作,可以考虑去荔湾区租房,地铁方便,房租也比越秀区便宜很多;如果在天河区工作,可以考虑去番禺或者黄埔租房


6.多维度分析——同时考虑房屋面积、价格和地铁之间的关系

将自变量设为房屋的面积,因变量设为房屋的价格,同时考虑房屋附近是否有地铁的因素,绘制散点图,并进行线性回归分析(这里用了2次多项式进行曲线的拟合)

  • 总体上,在同一面积下,有地铁的房源的租房价格高于无地铁的房源
  • 面积和地铁不是影响房源的唯一因素,同一面积下,有的无地铁房源价格也要比有地铁房源高.
  • 根据拟合的回归曲线,可以根据自己希望住的房间户型大致找出一个房价的区间,比如75㎡的房屋无地铁对应价格约为3000,而有地铁房屋对于价格约为5000,刚毕业的同学可以根据价格的变化来选取适合自己条件的房源


    散点图

    拟合曲线

7.多维分析——同时考虑面积、价格和区域之间的关系

  • 3号线和5号线沿线的房子最贵,主要分布在天河区,且50%的房租都超过5000元每月
  • 14号线沿线的房子主要分布在南沙区,且绝大多数房价低于5000元/月
  • 海珠区的房源地铁主要为3号线和2号线,且房源数量多、价格也比天河、越秀略低
  • 增城、花都基本没有房源有地铁经过,交通不便利
  • 相较于中心城区,黄埔区和荔湾区附近有地铁的房源较少

分析结论

1.广州房居客绝大多数的房租都在3000元以上,面积均为中等户型,这个价位性价比属于比较高的,刚毕业的学生可以考虑
2.天河区的房源数量最多,价格也是第二贵的。天河区拥有广州的CBD,对于经常需要加班的白领来说,在公司附近租房是个不错的选择
3.有地铁的房源占调查总体的80%以上,如果在中心城区的租房价格超过承受能力,可以沿着地铁线路跨区找房,房源多,价格也相对低一点。


结语

快毕业了,希望这份分析报告能够帮助想要留在广州的同学都能找到自己喜欢的房子,在广州扎下根来。
有纰漏的地方还希望大家能够多多指正

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容