一、药智网介绍
药智网是全国最大的生物医药、化工在线交易平台,其中的药智数据是中国主流医药数据库之一,拥有药品研发、生产检验、合理用药、市场信息、中药材、医疗器械、食品安全、化妆品等板块100余个数据库。
本文将通过抓取药智数据中的全国医院数据库中的数据,使用Excel的Power Query、Power Pivot、数据透视图等功能进行相关数据分析。
二、数据获取
首先进入药智数据 -市场信息-全国医院数据库,页面底下数据即是我们需要获取的数据源。https://db.yaozh.com/
该数据集共有10页,每页20条记录,故共有200条记录。
我们将使用Power Query选项卡工具下的 从Web 输入页面网址抓取:
选择[Table 0]表格,点击[加载到]
选择[仅创建连接]
然后进入Power Query编辑器,点击右边查询栏[Table 0]可以看见里面详细的数据,即成功抓取了第一页数据。
以此类推,用同样的方法抓取剩余页数数据,生成查询并对查询进行改名。
接着使用PowerQuery开始选项卡中的追加查询,对这些查询中的各页数据进行追加合并,形成一张总表。
这样就得到了一张含全部记录的全国医院数据集了。
该数据集已经清洗得很干净了,就能够直接使用,故可不对其进行任何操作。
点击左上角[关闭并上传至],选择[仅创建连接],打勾[将此数据添加至数据模型],确定。
此时,已经成功将数据导入数据模型了,下面将用Power Pivot作进一步建模分析。
三、数据建模
打开Power Pivot,进入模型,设置以下几个字段:
1)总床位数:=sum([床位数])
2)平均床位数:=AVERAGE([床位数])
3)医院计数:=count('全国医院数据集'[床位数])
设置完成后,点击选项卡中的[数据透视表]和[数据透视图]进行下一步的数据分析。
四、数据分析结果:
1.全国医院床位数总体分布
由全国医院床位数总体分布图可知,哈尔滨医科大学附属第二医院的床位数是全国医院中最多的,共有6012个床位;床位数第二多的医院是沧州市中心医院,共有4700个;床位数最少的医院是同济大学附属口腔医院,只有20个床位;全国医院平均床位数为1307.9个。
2.全国不同医院等级床位数对比
不同医院等级,三级甲等的医院床位数最多,占总数的97.36%;其次是三级乙等,占总数的1.16%;三级未定、二级甲等、二级未定均不足1%,分别占0.93%、0.31%、0.24%。
3.全国不同医院类型床位数量对比
从全国不同医院类型床位数量对比图可知,在所有医院类别中,综合医院的床位数是最多的,共有213039个床位,平均每家综合医院有1578个床位;其次是专科医院,共有28652个床位,平均每家专科医院床位有716个;妇幼保健院的总床位数最少,总共只有680个,平均床位也是最少的,也只有340个。
4.全国各省总床位数和平均床位数对比
对比全国各省总床位数和平均床位数情况,第一是北京市,它的医院的总床位数是最多的,共有70053个床位;其次是河北省和广东省,分别有总26778个、总23341个床位;最少的是云南省,只有总445个床位;在平均床位数上,福建省的平均床位数最多,平均每家医院有床位2500个;云南省最少,平均每家医院只有床位223个。
5.全国省市床位数量对比
从全国省市床位数量对比情况来看,北京市拥有的床位数最多,达到70053个;其次是河北省,河北省中沧州市最多;广东省的广州市最多;辽宁省的鞍山市最多;总床位数最少的是云南省保山市,只有445个,云南省需加大对医疗基础设施的投入。