爬取淘宝商品+可视化(中篇)

上篇我们爬到了粽子的商品信息,存储到了csv文件:粽子.csv

这一篇我们就分析这个文件,利用jupter notbook来分析清洗数据,

然后在用pyechats可视化我们分析的结果,信息量可能有点大,看注释慢慢消化吧。

安装jupyter的步骤就省略了,自行查资料安装。

1.整理数据

导入需要的包:

pandas

numpy

re   正则表达式

读取上篇爬取到的数据

pd.read.csv("粽子.csv") 也可以,先不加其他参数的,有问题在加

读取进来再加上列名,显示10 行先看看到底是什么玩意儿。

整体查看下情况:

df.shape, 4357行,5列

df.describe() ,行数、价格的最大最小 平均值  中值等

数据 一般有重复行,去除重复数据在看看:

df.drop_duplicates( )去除重复项,参数inplace = True 是直接替换原数据,默认是不替换

去掉重复项在看看只要1939行了,看来淘宝重复展示的商品也不少呀,一半多都是重复的,都是套路啊!买买买 原来都是你家的!

我们需要从付款人数中提取到商品的销售数量,所以付款人数这里不能有空的行,

对查找是空的行要进行填充成:0人付款

从付款人数中提取数字 单独生成一列作为销售数量num,

发现有的付款人数是用万单位计数的,我们还需要*10000来计算

先把数字取出来,利用正则取数字,发现取出来的是个列表不是个数字,并且像1.0万这样的取出来还是[1,0]这样两个元素的列表,怎么办?我们只需要取列表第一个元素


我们发现像1.0万这样的,取数量是1,是不对的,应该是10000的,怎么办?

我们再加一列unit 把付款人数中带‘万’字的取出来放进去

发现取万字还是个列表,同样的方法在取第一元素行不行呢?试一试?发现报错的

为什么出错了?因为不是每个都带万字,有的列表是空的,取不出来第一个元素的。怎么办?

我们就是想要一个字符串的列,这里有个小技巧,我们用一个空字符''与万字列表join合并,合并的结果就是个字符串类型了。


我们的目的是想把unit是万的行 对应的 num上的数字*10000

只有重新赋值num = num * unit 来实现但是unit是字符,想办法变成数字?

重新改造unit列变成数字列

这样我们就可以用num * unit 来重新赋值生成一个新的列:销量

这样两列相乘,发现不对,因为num从付款人数中取出来后是字符类型的,需要转换成浮点型

df['num']=df['num'].astype('float')

在相乘,销量就没问题了

有了销量这列,我们目的就达到了,num  和 unit 就没有用了,直接干掉吧

axis 是轴的意思,就是列,axis=1 就是按列,默认是axis=0 是按行,inplace 是否改变原表

发货地址里面是:省份+市 组成的,如果我们要分析来自哪个省份的订单,还要把这列分割出来省份。

既然要分割发货地址,那么分货地址这里就不是有空值,怎么办?把发货地址是空的行删除掉。

先来验证一下发货地址是不是有空值的行呢?

df [ df ['发货地址'].isna( )]   

看下有没有地址是空的记录:

还真有?怎么办 干掉

去掉后还有1908行了,说明有31行地址是空的

好了,地址干净了,就开始分割吧

用字符串分割函数split() ,按空格分割,省份与市之间有个空格

顺便在加一列:市  以防有用

x[-1] 是从后面开始取

分割后,发货地址与付款人数这两列都没有用了,直接干掉吧


至此清洗数据告一段落,然后重置一下索引,把成功保存一份到csv里面

df.to_csv(文件名) 生成文件在jupyter的安装目录

以上就是数据清洗,数据分析过程中,数据的清洗要占很大的工作量

下一篇做数据的可视化的展现

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,496评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,407评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,632评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,180评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,198评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,165评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,052评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,910评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,324评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,542评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,711评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,424评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,017评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,668评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,823评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,722评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,611评论 2 353