Python 爬取了 1.7 万条房产数据,告诉你深圳的生存压力究竟有多大!

最近各大一二线城市的房租都有上涨,究竟整体上涨到什么程度呢?我们也不得而知,于是乎笔者为了一探究竟,便用 Python 爬取了房某下的深圳租房数据。以下是本次的样本数据: 

除去【不限】的数据(因为可能会与后面重叠),总数据量为 16971 ,其中后半部分地区数据量偏少,是由于该区房源确实不足。

因此,此次调查也并非非常准确,权且当个娱乐项目,供大家观赏。


01:统计结果

我们且先看统计结果,然后再看技术分析。深圳房源分布如下,按区划分的话,其中福田与南山的房源分布是最多的。但这两块地的房租十分不菲。 


房租单价即 1 平方米 1 个月的价格。方块越大,代表价格越高:

房租单价:平方米/月

可以看出福田与南山独占鳌头,分别是 114.874 与 113.483 ,是其他地区的几倍。如果以福田 20 平方的房间为例算一下每个月的开销:

福田 20 平方房间的租金:

114.874 x 20 = 2297.48

再来个两百的水电、物业:

2297.48 + 200 = 2497.48

我们节俭一点来算的话,每天早餐 10 块,中午 25 块,晚饭 25 块:

2497.48 + 60 x 30 = 4297.48

是的,仅仅是活下来就需要 3997.48 块。隔断时间下个馆子,每个月买些衣服,交通费,谈个女朋友,与女朋友出去逛街,妥妥滴加个 3500:

4297.48 + 3500 = 7697.48

给爸妈一人一千:

7697.48 + 2000 = 9697.48

月薪一万妥妥变成了月光族。

租房单价:平方米/日

如果在乡下没有寸土寸金的感觉,那么可以到北上广深体验一下,福田区每平方米每天需要 3.829 元。

户型方面主要以 3 室 2 厅与 2 室 2 厅为主。与小伙伴抱团租房是最好的选择了,不然与不认识的人一起合租可能会发生一系列让你不舒服的事情。字体越大,代表户型数量越多。 


租房面积统计,其中 30 - 90 平方米的租房占大多数——所以,组团租房是最好的选择。

然后是租房描述词云,字体越大,标识出现的次数越多。其中【精装修】占据了很大的部分,说明长租公寓也占领了很大一部分市场。 



02:爬虫思路

先爬取房某下深圳各个板块的数据,然后存进 MongoDB 数据库,最后再进行数据分析。 


数据库部分数据:



03:爬虫技术分析和代码实现

爬虫涉及到的技术工具如下:

请求库:requests

HTML 解析:Beautiful Soup

词云:wordcloud

数据可视化:pyecharts

数据库:MongoDB

数据库连接:PyMongo

首先右键网页,查看页面源码,找出我们要爬取的部分。


代码实现,由于篇幅原因只展示主要代码:(获取一个页面的数据)

    defgetOnePageData(self, pageUrl, reginon="不限"):

        rent = self.getCollection(self.region)

        self.session.headers.update({

            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'})

        res = self.session.get(

            pageUrl

        )

        soup = BeautifulSoup(res.text, "html.parser")

        divs = soup.find_all("dd", attrs={"class": "info rel"})  # 获取需要爬取得 div

        for div in divs:

            ps = div.find_all("p")

            try:  # 捕获异常,因为页面中有些数据没有被填写完整,或者被插入了一条广告,则会没有相应的标签,所以会报错

                for index, p in enumerate(ps):  # 从源码中可以看出,每一条 p 标签都有我们想要的信息,故在此遍历 p 标签,

                    text = p.text.strip()

                    print(text)  # 输出看看是否为我们想要的信息

                print("===================================")

                # 爬取并存进 MongoDB 数据库

                roomMsg = ps[1].text.split("|")

                # rentMsg 这样处理是因为有些信息未填写完整,导致对象报空

                area = roomMsg[2].strip()[:len(roomMsg[2]) - 2]

                rentMsg = self.getRentMsg(

                    ps[0].text.strip(),

                    roomMsg[1].strip(),

                    int(float(area)),

                    int(ps[len(ps) - 1].text.strip()[:len(ps[len(ps) - 1].text.strip()) - 3]),

                    ps[2].text.strip(),

                    ps[3].text.strip(),

                    ps[2].text.strip()[:2],

                    roomMsg[3],

                )

                rent.insert(rentMsg)

            except:

                continue

数据分析:

    # 求一个区的房租单价(平方米/元)

    defgetAvgPrice(self, region):

        areaPinYin = self.getPinyin(region=region)

        collection = self.zfdb[areaPinYin]

        totalPrice = collection.aggregate([{'$group': {'_id': '$region', 'total_price': {'$sum': '$price'}}}])

        totalArea = collection.aggregate([{'$group': {'_id': '$region', 'total_area': {'$sum': '$area'}}}])

        totalPrice2 = list(totalPrice)[0]["total_price"]

        totalArea2 = list(totalArea)[0]["total_area"]

        return totalPrice2 / totalArea2

    # 获取各个区 每个月一平方米需要多少钱

    defgetTotalAvgPrice(self):

        totalAvgPriceList = []

        totalAvgPriceDirList = []

        for index, region in enumerate(self.getAreaList()):

            avgPrice = self.getAvgPrice(region)

            totalAvgPriceList.append(round(avgPrice, 3))

            totalAvgPriceDirList.append({"value": round(avgPrice, 3), "name": region + "  " + str(round(avgPrice, 3))})

        return totalAvgPriceDirList

    # 获取各个区 每一天一平方米需要多少钱

    defgetTotalAvgPricePerDay(self):

        totalAvgPriceList = []

        for index, region in enumerate(self.getAreaList()):

            avgPrice = self.getAvgPrice(region)

            totalAvgPriceList.append(round(avgPrice / 30, 3))

        return (self.getAreaList(), totalAvgPriceList)

    # 获取各区统计样本数量

    defgetAnalycisNum(self):

        analycisList = []

        for index, region in enumerate(self.getAreaList()):

            collection = self.zfdb[self.pinyinDir[region]]

            print(region)

            totalNum = collection.aggregate([{'$group': {'_id': '', 'total_num': {'$sum': 1}}}])

            totalNum2 = list(totalNum)[0]["total_num"]

            analycisList.append(totalNum2)

        return (self.getAreaList(), analycisList)

    # 获取各个区的房源比重

    defgetAreaWeight(self):

        result = self.zfdb.rent.aggregate([{'$group': {'_id': '$region', 'weight': {'$sum': 1}}}])

        areaName = []

        areaWeight = []

        for item in result:

            if item["_id"] in self.getAreaList():

                areaWeight.append(item["weight"])

                areaName.append(item["_id"])

                print(item["_id"])

                print(item["weight"])

                # print(type(item))

        return (areaName, areaWeight)

    # 获取 title 数据,用于构建词云

    defgetTitle(self):

        collection = self.zfdb["rent"]

        queryArgs = {}

        projectionFields = {'_id': False, 'title': True}  # 用字典指定需要的字段

        searchRes = collection.find(queryArgs, projection=projectionFields).limit(1000)

        content = ''

        for result in searchRes:

            print(result["title"])

            content += result["title"]

        return content

    # 获取户型数据(例如:3 室 2 厅)

    defgetRooms(self):

        results = self.zfdb.rent.aggregate([{'$group': {'_id': '$rooms', 'weight': {'$sum': 1}}}])

        roomList = []

        weightList = []

        for result in results:

            roomList.append(result["_id"])

            weightList.append(result["weight"])

        # print(list(result))

        return (roomList, weightList)

    # 获取租房面积

    defgetAcreage(self):

        results0_30 = self.zfdb.rent.aggregate([

            {'$match': {'area': {'$gt': 0, '$lte': 30}}},

            {'$group': {'_id': '', 'count': {'$sum': 1}}}

        ])

        results30_60 = self.zfdb.rent.aggregate([

            {'$match': {'area': {'$gt': 30, '$lte': 60}}},

            {'$group': {'_id': '', 'count': {'$sum': 1}}}

        ])

        results60_90 = self.zfdb.rent.aggregate([

            {'$match': {'area': {'$gt': 60, '$lte': 90}}},

            {'$group': {'_id': '', 'count': {'$sum': 1}}}

        ])

        results90_120 = self.zfdb.rent.aggregate([

            {'$match': {'area': {'$gt': 90, '$lte': 120}}},

            {'$group': {'_id': '', 'count': {'$sum': 1}}}

        ])

        results120_200 = self.zfdb.rent.aggregate([

            {'$match': {'area': {'$gt': 120, '$lte': 200}}},

            {'$group': {'_id': '', 'count': {'$sum': 1}}}

        ])

        results200_300 = self.zfdb.rent.aggregate([

            {'$match': {'area': {'$gt': 200, '$lte': 300}}},

            {'$group': {'_id': '', 'count': {'$sum': 1}}}

        ])

        results300_400 = self.zfdb.rent.aggregate([

            {'$match': {'area': {'$gt': 300, '$lte': 400}}},

            {'$group': {'_id': '', 'count': {'$sum': 1}}}

        ])

        results400_10000 = self.zfdb.rent.aggregate([

            {'$match': {'area': {'$gt': 300, '$lte': 10000}}},

            {'$group': {'_id': '', 'count': {'$sum': 1}}}

        ])

        results0_30_ = list(results0_30)[0]["count"]

        results30_60_ = list(results30_60)[0]["count"]

        results60_90_ = list(results60_90)[0]["count"]

        results90_120_ = list(results90_120)[0]["count"]

        results120_200_ = list(results120_200)[0]["count"]

        results200_300_ = list(results200_300)[0]["count"]

        results300_400_ = list(results300_400)[0]["count"]

        results400_10000_ = list(results400_10000)[0]["count"]

        attr = ["0-30平方米", "30-60平方米", "60-90平方米", "90-120平方米", "120-200平方米", "200-300平方米", "300-400平方米", "400+平方米"]

        value = [

            results0_30_, results30_60_, results60_90_, results90_120_, results120_200_, results200_300_, results300_400_, results400_10000_

        ]

        return (attr, value)

数据展示:

    # 展示饼图

    defshowPie(self, title, attr, value):

        from pyecharts import Pie

        pie = Pie(title)

        pie.add("aa", attr, value, is_label_show=True)

        pie.render()

    # 展示矩形树图

    defshowTreeMap(self, title, data):

        from pyecharts import TreeMap

        data = data

        treemap = TreeMap(title, width=1200, height=600)

        treemap.add("深圳", data, is_label_show=True, label_pos='inside', label_text_size=19)

        treemap.render()

    # 展示条形图

    defshowLine(self, title, attr, value):

        from pyecharts import Bar

        bar = Bar(title)

        bar.add("深圳", attr, value, is_convert=False, is_label_show=True, label_text_size=18, is_random=True,

                # xaxis_interval=0, xaxis_label_textsize=9,

                legend_text_size=18, label_text_color=["#000"])

        bar.render()

    # 展示词云

    defshowWorkCloud(self, content, image_filename, font_filename, out_filename):

        d = path.dirname(__name__)

        # content = open(path.join(d, filename), 'rb').read()

        # 基于TF-IDF算法的关键字抽取, topK返回频率最高的几项, 默认值为20, withWeight

        # 为是否返回关键字的权重

        tags = jieba.analyse.extract_tags(content, topK=100, withWeight=False)

        text = " ".join(tags)

        # 需要显示的背景图片

        img = imread(path.join(d, image_filename))

        # 指定中文字体, 不然会乱码的

        wc = WordCloud(font_path=font_filename,

                       background_color='black',

                       # 词云形状,

                       mask=img,

                       # 允许最大词汇

                       max_words=400,

                       # 最大号字体,如果不指定则为图像高度

                       max_font_size=100,

                       # 画布宽度和高度,如果设置了msak则不会生效

                       # width=600,

                       # height=400,

                       margin=2,

                       # 词语水平摆放的频率,默认为0.9.即竖直摆放的频率为0.1

                       prefer_horizontal=0.9

                       )

        wc.generate(text)

        img_color = ImageColorGenerator(img)

        plt.imshow(wc.recolor(color_func=img_color))

        plt.axis("off")

        plt.show()

        wc.to_file(path.join(d, out_filename))

    # 展示 pyecharts 的词云

    defshowPyechartsWordCloud(self, attr, value):

        from pyecharts import WordCloud

        wordcloud = WordCloud(width=1300, height=620)

        wordcloud.add("", attr, value, word_size_range=[20, 100])

        wordcloud.render()

不管怎样,最近房租的暴涨真得让人无能为力。应对外界条件的变动,我们还是应该提升自己的硬实力,这样才能提升自己的生存能力。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,651评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,468评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,931评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,218评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,234评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,198评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,084评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,926评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,341评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,563评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,731评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,430评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,036评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,676评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,829评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,743评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,629评论 2 354

推荐阅读更多精彩内容

  • 自己一直是一个工作认真负责的人,不需要领导监督都会用百分百的心去面对工作,出来工作接近7年了,都是领导很放心,信...
    康兰阅读 1,017评论 0 1
  • 话说椰蓉球也是个萌货哦,像阳光一样有着暖黄的金边,椰蓉洋洋洒洒的附在便面上,远远嫩嫩的感觉让人想一口吃掉,香酥可口...
    莱客优购烘培阅读 226评论 0 1
  • 暑假的生活已经过去了一周了,在这一周里,我用了三天的时间把暑假作业完成了一些,语文完成了24页;数学完成了...
    星皓妈妈阅读 302评论 0 3