数据提取之JSON与JsonPATH

大家好，我是Python进阶者。

背景介绍

我们知道再爬虫的过程中我们对于爬取到的网页数据需要进行解析,因为大多数数据是不需要的,所以我们需要进行数据解析,常用的数据解析方式有正则表达式,xpath,bs4,这次我们来介绍一下另一个数据解析库--jsonpath,在此之前我们需要先了解一下什么是json。

一、初识Json

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。

Python 2.7及之后版本,自带了JSON模块，直接import json就可以使用了。

官方文档：
http://docs.python.org/library/json.html

Json在线解析网站：http://www.json.cn/#

二、Json的基本使用

简介

json简单说就是javascript中的对象和数组，所以这两种结构就是对象和数组两种结构，通过这两种结构可以表示各种复杂的结构;

对象：对象在js中表示为{ }括起来的内容，数据结构为 { key：value, key：value, ... }的键值对的结构，在面向对象的语言中，key为对象的属性，value为对应的属性值，所以很容易理解，取值方法为对象.key 获取属性值，这个属性值的类型可以是数字、字符串、数组、对象这几种。
数组：数组在js中是中括号[ ]括起来的内容，数据结构为 ["Python", "javascript", "C++", ...]，取值方式和所有语言中一样，使用索引获取，字段值的类型可以是数字、字符串、数组、对象几种。

使用

json模块提供了四个功能：dumps、dump、loads、load，用于字符串和 python数据类型间进行转换。

把Json格式字符串解码转换成Python对象从json到python的类型转化对照如下：

1.json.loads()

import json

strDict = '{"city": "广州", "name": "小黑"}'

r = json.loads(strDict) # json数据自动按Unicode存储

print(r)

结果如下：

{'city': '广州', 'name': '小黑'}

2. json.load()

读取文件中json形式的字符串元素转化成python类型

import json
s = json.load(open('test.json','r',encoding='utf-8'))
print(s,type(s))

结果如下：

{'city': '广州', 'name': '小黑'} <class 'dict'>

3. json.dumps()

实现python类型转化为json字符串，返回一个str对象把一个Python对象编码转换成Json字符串

import json

listStr = [1, 2, 3, 4]
dictStr = {"city": "北京", "name": "大猫"}

s1 = json.dumps(listStr)
s2 = json.dumps(dictStr,ensure_ascii=False)

print(s1,type(s1))
print(s2)

结果如下：

[1, 2, 3, 4] <class 'str'>{"city": "北京", "name": "大猫"} <class 'str'>

注意：

json.dumps() 序列化时默认使用的ascii编码
添加参数 ensure_ascii=False 禁用ascii编码，按utf-8编码

4. json.dump()

将Python内置类型序列化为json对象后写入文件

import json

json_info = "{'age': '12'}"
file = open('ceshi.json','w',encoding='utf-8')
json.dump(json_info,file)

结果如下：

ceshii,json(目录文件产生)

三、JsonPath

JsonPath 是一种信息抽取类库，是从JSON文档中抽取指定信息的工具，提供多种语言实现版本，包括：Javascript, Python， PHP 和 Java。

JsonPath 对于 JSON 来说，相当于 XPATH 对于 XML。

下载地址：
https://pypi.python.org/pypi/jsonpath

安装方法：点击Download URL链接下载jsonpath，解压之后执行python setup.py install

官方文档：
http://goessner.net/articles/JsonPath

JsonPath与XPath语法对比

Json结构清晰，可读性高，复杂度低，非常容易匹配，下表中对应了XPath的用法。

四、案例测试

我们爬取淘票票官网的城市信息,保存为json文件,进行jsonpath语法测试，获取所有城市名称。

请求

import requests
import time

url = 'https://dianying.taobao.com/cityAction.json?activityId&_ksTS=1632211792156_137&jsoncallback=jsonp138&action=cityAction&n_s=new&event_submit_doGetAllRegion=true'

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36',
} 

res = requests.get(url,headers=headers)

result = res.content.decode('utf-8')

print(result) # xxx省略

注意：

headers里面的键值对最好都加上，还是有反爬的，该网站，这里为了简便省去了；

保存数据

content = result.split('(')[1].split(')')[0] # 由于文件首尾的字符不需要需要剔除掉做字符串切割

with open('tpp.json','w',encoding='utf-8')as fp:
    fp.write(content)

打开json文件如下所示：

解析数据

这里我们获取全部城市名称

import json
import jsonpath

obj = json.load(open('tpp.json','r',encoding='utf-8')) # 注意，这里是文件的形式，不能直接放一个文件名的字符串

city_list = jsonpath.jsonpath(obj,'$..regionName') # 文件对象   jsonpath语法

print(city_list)

结果如下：

五、总结

我们知道json是一种常见的数据传输形式，所以对于爬取数据的数据解析，json的相关操作是比较重要的，能够加快我们的数据提取效率，本文简单介绍了json和jsonpath的相关操作，对于测试网站(淘票票)的json做了简单的数据解析，感兴趣的小伙伴可以把其他数据解析一下。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,454评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,553评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,921评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,648评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,770评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,950评论 1赞 291
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,090评论 3赞 410
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,817评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,275评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,592评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,724评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,409评论 4赞 333
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,052评论 3赞 316
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,815评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,043评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,503评论 2赞 361
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,627评论 2赞 350

数据提取之JSON与JsonPATH

背景介绍

一、初识Json

二、Json的基本使用

1.json.loads()

2. json.load()

3. json.dumps()

4. json.dump()

三、JsonPath

JsonPath与XPath语法对比

四、案例测试

五、总结

推荐阅读更多精彩内容