[Python爬虫实战3]使用高德API检索用户居住地(经纬度表示)周围5千米内的医院名称

一、项目简介

上一次是任务利用高德API把经纬度坐标逆地理编码为地址,这次则是利用高德API求初一个经纬度坐标附近5KM的医院名称,并对这些检索到的医院进行筛选,求出其中三级医院的个数、二级医院的个数、新冠定点医院个数以及总床位数(这些医院的详细信息有提前做成excel表格)


二、分析高德API

周边搜索的URL为https://restapi.amap.com/v3/place/text?parameters
接下来对parameters中的几个需要着重注意的参数进行分析:
1、key值,即请求Web服务API类型需要的密匙key,点击跳转去申请key
2、keywords值,即周边搜索时的关键字,比如keywords=医院按医院为关键字进行周边搜索。还可以输入多个关键字,只需要用“|”分割,比如keywords=医院|门诊|学校
3、types值,即要检索目标的分类(POI类型),这个值一般要按照高德API官方文档中规定的分类代码或汉字填写。
分类代码由六位数字组成,一共分为三个部分,前两个数字代表大类;中间两个数字代表中类;最后两个数字代表小类。若指定了某个大类,则所属的中类、小类都会被显示。
例如types=090000表示医疗保健服务types=090100表示医疗保健服务中的综合医院中类,types=090200表示医疗保健服务中的专科医院中类;types=090201表示专科医院该中类之中的整形美容专科医院小类,types=090202表示专科医院该中类之中的口腔专科医院小类。
即当指定类型为090000时,则090100等中类、090101等小类都会被包含,当指定090100,则090101等小类都会被包含。
4、radius值,即查询半径,取值范围:0-50000。规则:大于50000按默认值,单位为米。例如radius=5000表示查询附近5KM的范围
5、offset值,每一页返回查询结果的个数,强烈建议不超过25,若超过25可能造成访问报错,默认是一页返回20个
6、page值,表示要请求查询结果的第几页,比如搜索一个经纬度坐标附近5KM内的医院时,可能会有123个符合要求的医院门诊,但是每页默认返回20个,因此我们需要不断变化page值从1到7来请求所有的数据


举个例子,例如搜索117.07051,36.6897(先经度,后纬度)附近5KM内的综合医院和专科医院,每页显示20个数据
则url为https://restapi.amap.com/v3/place/around?location=117.07051,36.68971&key=申请的key值&keywords=医院&types=090100|090200&radius=5000&offset=20&page=1

p1.jpg

可以看到,默认返回的格式为JSON数据,当然还可以加上output=XML使得返回的格式为XML。
分析JSON数据可以看到,status为1,表示请求成功,若为0表示请求失败。count比较重要,表示搜索到的结果总数目,上面提到过,一页显示20个数据,则需要通过变化page值来请求所有的数据,那么page最大是多少,需要根据(count/20)+1得到。


三、程序编写

1、读入医院相关信息(excel表)

因为我需要对检索到的医院进行筛选,求出其中三级医院的个数、二级医院的个数、新冠定点医院个数以及总床位数,而这些医院的详细信息有提前做成excel表格,所以我先这些医院的详细信息读入,存到字典hospitals_info中,其中key是医院名,每一个value是一个列表,列表中包含三个数据,医院级别(二三级)、是否是新冠定点医院、床位数量


p3.jpg
# 把医院excel里的信息转到字典中,更方便
def hos_info():
    df = pd.read_excel('济南医院.xlsx', engine='openpyxl', dtype=str)
    rows, cols = df.shape  # 获得行数、列数
    for i in range(0, rows):
        hospital_info = []  # value值
        name = df.iat[i, 0]  # 医院名称,作为key
        grade = df.iat[i, 1]  # 医院级别
        xinguan = df.iat[i, 3]  # 是否是新冠定点医院
        bed_num = df.iat[i, 5]  # 床位数量
        hospital_info.append(grade)
        hospital_info.append(xinguan)
        hospital_info.append(bed_num)
        hospitals_info[name] = hospital_info  # 加入字典

2、读入经纬度数据

数据格式如下


p2.jpg
# 从文件中读取数据
def parse():
    locations = []
    f = open("去重后的graphic.csv", "r", encoding="utf-8")
    # f = open("problem_hospitals.csv", "r", encoding="utf-8")
    content = f.readlines()  # 读取文件的所有数据
    f.close()
    for i in range(0, len(content)):
        # 每行数据格式为  工作地经度,工作地纬度,居住地经度,居住地纬度,区县,街道
        location = []
        work_jingdu = content[i].split(',')[0]  # 工作地经度
        work_weidu = content[i].split(',')[1]  # 工作地纬度
        live_jingdu = content[i].split(',')[2]  # 居住地经度
        live_weidu = content[i].split(',')[3]  # 居住地纬度
        district = content[i].split(',')[4]  # 区县
        street = content[i].split(',')[5]  # 街道
        street = street.rstrip()  # 清除换行符
        location.append(work_jingdu)
        location.append(work_weidu)
        location.append(live_jingdu)
        location.append(live_weidu)
        location.append(district)
        location.append(street)
        locations.append(location)
    return locations

3、requests请求url及JSON数据解析

def geocode(location, page):
    global hospitals, sanjia_num, erjia_num, xinguan_num, bed_num, Flag
    url = ('https://restapi.amap.com/v3/place/around?location='
       + location[2] + ',' + location[3] +
       '&key=' + key[random.randint(0, 3)] +
       '&keywords=医院&radius=5000&offset=20&'
       'page='+str(page)+'&extensions=all')
    try:
        print(url)
        response = requests.get(url=url, timeout=30)
        if response.status_code == 200:
            answer = response.json()
            try:
                if answer['status'] == '1':
                    for i in range(0, len(answer['pois'])):
                        hos_name = answer['pois'][i]['name']
                        # 如果这个医院在给定的医院字典中,并且该医院没被标记,则加入并统计
                        if hos_name in hospitals_info and hos_name not in hospitals:
                            # 根据医院名返回医院相关信息
                            value = hospitals_info[hos_name]
                            if value[0] == '三级':
                                sanjia_num += 1
                            if value[0] == '二级':
                                erjia_num += 1
                            if value[1] == '是':
                                xinguan_num += 1
                            hospitals.append(hos_name)  # 加入医院列表
                            bed_num += int(value[2])    # 加入床位数
                    count = int(answer["count"])    # 搜索到的所有医院总数
                    print("查询到该地点附近有%d家医疗保健机构,每页20条信息,当前是第%d个页面" % (count, page))
                    # 根据高德api文档,每个页面默认显示20条信息,最多可要求显示25条
                    # 如果当前页面小于总的页面数,说明还有下一个页面
                    if page < (count//20):
                        geocode(location, page+1)
                else:   # 若status!=1
                    print('status!=1')
                    Flag = 1
            except TypeError:
                Flag = 1
        else:  # 若response.status_code != 200
            Flag = 1
    except requests.RequestException:
        print('请求url返回错误异常')
        Flag = 1

4、全局变量定义

hospitals_info = {}
hospitals = []
sanjia_num = 0
erjia_num = 0
xinguan_num = 0
bed_num = 0
# Flag=0,说明数据正常,Flag=1,说明数据异常
Flag = 0
# 使用4个高德api中需要的密匙循环爬,防止被封
key = ['key名1',
   'key名2',
   'key名3',
   'key名4']

5、主函数

if __name__ == '__main__':
    # 先得到需要检索出的医院的相关信息
    hos_info()
    df = pd.DataFrame(columns=['工作地经度', '工作地纬度', '居住地经度',
                           '居住地纬度', '区县', '街道',
                           '医院名称列表', '三级医院个数',
                           '二级医院个数', '新冠定点医院个数', '总床位数'])
    # 读取文件
    locations = parse()
    i = 0
    for location in locations:
        # 运行每条数据前先初始化全局变量
        hospitals, sanjia_num, erjia_num, xinguan_num, bed_num, Flag
        hospitals = []
        sanjia_num = 0
        erjia_num = 0
        xinguan_num = 0
        bed_num = 0
        Flag = 0
        district = location[4]
        if location[2] !='' and location[3] != '' and '济南市' in district:
            geocode(location, page=1)
            # 判断居住地经纬度是否为空,若为空,则不用请求url
            # 所在区县不是济南市的也不用请求url
        else:
            print("居住地经纬度为空or非济南市,没必要查询,默认为None")
            hospitals = ['None']
            sanjia_num = 0
            erjia_num = 0
            xinguan_num =0
            bed_num = 0
        if Flag == 1:
            hospitals, sanjia_num, erjia_num, xinguan_num, bed_num = ["返回异常"], 0, 0, 0, 0
        print("医院名称列表为%s,三甲医院数为%d,二甲医院数为%d,新冠定点医院数为%d,总床位数为%d" % (
        str(hospitals), sanjia_num, erjia_num, xinguan_num, bed_num))
        df.loc[i] = [location[0], location[1], location[2], location[3], location[4], location[5], list(hospitals), sanjia_num, erjia_num, xinguan_num, bed_num]
        i = i + 1
        print("第%d条数据已完成" % i)
    df.to_csv('part_hospitals_info.csv', index=False, sep="|")

四、运行过程截图及结果截图

运行过程截图.jpg
运行结果截图.jpg
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,347评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,435评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,509评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,611评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,837评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,987评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,730评论 0 267
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,194评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,525评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,664评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,334评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,944评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,764评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,997评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,389评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,554评论 2 349

推荐阅读更多精彩内容