关于爬虫的一些解析数据的技巧

  1. eval解析适用于Python的数据类型
  • 有些数据你咋眼望去以为他是json,其实不是,用json解析会报错,但是可以用eval方法解析
s = '{"a":None,"b":[1,2,3],2:"jk"}'
eval(s)
image.png
  1. 正则提取文本中所有IP
import re

s = '<a>67.17.12.56sjao22&k89.121.45.200.1s<div>111.0.89.12</div>'
re.findall('\D(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})\D',s)

image.png
  1. 正则提取文本中所有URL
  • 下面这个html是淘宝主页中的一段代码
html = '''
<li data-closeper="" aria-label="查看更多" role="menuitem" aria-haspopup="true" data-groupid="107" class="J_Cat a-all">
<a href="https://www.taobao.com/markets/coolcity/coolcityHome" data-cid="1" data-dataid="222880">运动</a> /
<a href="https://www.taobao.com/markets/coolcity/coolcityHome" data-cid="1" data-dataid="222913">户外</a> /
<a href="https://www.taobao.com/markets/amusement/home" data-cid="1" data-dataid="222910">乐器</a>
</span>
<i aria-hidden="true" class="tb-ifont service-arrow">&#xe62e;</i>
</li>
<li data-closeper="" aria-label="查看更多" role="menuitem" aria-haspopup="true" data-groupid="108" class="J_Cat a-all">
<a href="https://s.taobao.com/search?q=%E6%B8%B8%E6%88%8F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306" data-cid="1" data-dataid="222882">游戏</a> /
<a href="https://s.taobao.com/search?q=%E5%8A%A8%E6%BC%AB&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20181010&ie=utf8" data-cid="1" data-dataid="222883">动漫</a> /
<a href="https://www.taobao.com/markets/acg/yingshi" data-cid="1" data-dataid="222921">影视</a>
</span>
<i aria-hidden="true" class="tb-ifont service-arrow">&#xe62e;</i>
</li>
<li data-closeper="" aria-label="查看更多" role="menuitem" aria-haspopup="true" data-groupid="109" class="J_Cat a-all">
<a href="https://s.taobao.com/search?q=%E7%BE%8E%E9%A3%9F&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20180724&ie=utf8" data-cid="1" data-dataid="222899">美食</a> /
<a href="https://s.taobao.com/search?ie=utf8&initiative_id=staobaoz_20180724&stats_click=search_radio_all%3A1&js=1&imgfile=&q=%E7%94%9F%E9%B2%9C&suggest=history_1&_input_charset=utf-8&wq=%E7%94%9F%E9%B2%9C&suggest_query=%E7%94%9F%E9%B2%9C&source=suggest" data-cid="1" data-dataid="222905">生鲜</a> /
<a href="https://s.taobao.com/search?q=%E9%9B%B6%E9%A3%9F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306" data-cid="1" data-dataid="222881">零食</a>
</span>
<i aria-hidden="true" class="tb-ifont service-arrow">&#xe62e;</i>
</li>
<li data-closeper="" aria-label="查看更多" role="menuitem" aria-haspopup="true" data-groupid="110" class="J_Cat a-all">
<a href="https://s.taobao.com/search?q=%E5%9B%AD%E8%89%BA&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170419" data-cid="1" data-dataid="222911">鲜花</a> /
<a href="https://s.taobao.com/search?ie=utf8&initiative_id=staobaoz_20170419&stats_click=search_radio_all%3A1&js=1&imgfile=&q=%E8%BF%9B%E5%8F%A3%E7%8B%97%E7%B2%AE&suggest=history_3&_input_charset=utf-8&wq=&suggest_query=&source=suggest" data-cid="1" data-dataid="222894">宠物</a> /
<a href="https://s.taobao.com/search?q=%E5%86%9C%E8%B5%84&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170221" data-cid="1" data-dataid="222920">农资</a>
</span>
<i aria-hidden="true" class="tb-ifont service-arrow">&#xe62e;</i>
</li>
<li data-closeper="" aria-label="查看更多" role="menuitem" aria-haspopup="true" data-groupid="111" class="J_Cat a-all">
<a href="https://wujin.taobao.com/?spm=a21bo.2017.201867-links-10.1.5af911d97XswKm" data-cid="1" data-dataid="222914">工具</a> /
<a href="https://s.taobao.com/list?spm=a21bo.50862.201867-links-10.27.iQWRJS&source=youjia&cat=50097129" data-cid="1" data-dataid="222877">装修</a> /
<a href="https://www.jiyoujia.com/markets/youjia/zhuangxiucailiao" data-cid="1" data-dataid="222919">建材</a>
</span>
<i aria-hidden="true" class="tb-ifont service-arrow">&#xe62e;</i>
</li>
<li data-closeper="" aria-label="查看更多" role="menuitem" aria-haspopup="true" data-groupid="112" class="J_Cat a-all">
<a href="https://s.taobao.com/list?spm=a21bo.7932212.202572.1.rtUtMQ&source=youjia&q=%E5%AE%B6%E5%85%B7" data-cid="1" data-dataid="222915">家具</a> /
<a href="https://s.taobao.com/list?source=youjia&cat=50065206%2C50065205" data-cid="1" data-dataid="222922">家饰</a> /
<a href="https://s.taobao.com/list?spm=a21bo.50862.201867-links-11.80.K6jN68&source=youjia&cat=50008163&bcoffset=0&s=240" data-cid="1" data-dataid="222884">家纺</a>
</span>'''

import re
re.findall('https?://[a-zA-Z0-9_\./\?=&%\-]+',html)
  • 以下结果还是比较满意的,因为不可能完全适配所有URL,可以自行调整参数调试,如果你会写算法训练当然也行。


    image.png
  1. 正则提取文本中所有中文字符
s = 'nihao27919&阿尔法狗**【】‘’ssuajk^&*!@@#{}||请你说中文'
re.findall("[\u4e00-\u9fa5]",s)
image.png
  1. 正则匹配文本中非中文字符串
s = 'nihao27919&阿尔法狗**【】‘’ssuajk^&*!@@#{}||请你说中文'
re.findall("[^\u4e00-\u9fa5]",s)
image.png
  1. 多出“\”的unicode字符转换
  • 如果遇到\\u4f60\\u597d\\u5417这种字符,Python是无法直接把\\ 替换为\的。当然你也可以自己试试。
image.png
  • 但是用强大的json库就能轻松解析。
import json

s = '\\u4f60\\u597d\\u5417'
json.loads('"{}"'.format(s))
image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,347评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,435评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,509评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,611评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,837评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,987评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,730评论 0 267
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,194评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,525评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,664评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,334评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,944评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,764评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,997评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,389评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,554评论 2 349