爬虫小项目之四 发票批量录入

今天,心情不好,晚上什么都不想干,那就写个技术贴娱乐一下吧。爬虫NLP做知识图谱等下期更新,今天搞文字识别。前一段时间接了一个小任务,一个师妹拿着一堆发票在那边吐槽,不想干活了。录发票的确是一件让人抓狂的事。不过如果有ocr来辅助就不一样了。今天就用python的request模块向百度AI发送post请求,批量完成发票录入。

在开始这个项目之前,请准备一个手机,把像素调低,然后给每一张发票拍一张照片,放到一个文件夹。每张照片的大小不要超过2M。

image

接下来,读取所有文件

# encoding:utf-8

import requests
import base64
import os
#递归读取文件夹中所有文件
def get_all(cwd,result):
    get_dir=os.listdir(cwd)
    for i in get_dir:
        sub_dir=os.path.join(cwd,i)
        if os.path.isdir(sub_dir):
            get_all(sub_dir)
        else:
            result.append(i)
#

定义读取函数。这里同样要在百度AI申请账号密码,这里自行百度,不解释。

# 二进制方式打开图片文件
#对文件进行读写并存入
def ReadInvoice(Inputpath,file):
    request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/vat_invoice"
    f = open(Inputpath, 'rb')
    img = base64.b64encode(f.read())

    params = {"image":img}
    access_token = '[24.bafecd7823e46b4888a1aadd65882468.2592000.1602842119.282335-18705450]'
    request_url = request_url + "?access_token=" + access_token
    headers = {'content-type': 'application/x-www-form-urlencoded'}
    response = requests.post(request_url, data=params, headers=headers)
    if response:
        print (response.json())

    data=response.json()['words_result']
    #发票号
    InvoiceNum=data['InvoiceNum']
    #发票总额
    InvoicePrice=data['AmountInFiguers']
    #容量
    #??
    #商品名称
    CommodityName=data['CommodityName']
    #容量单位
    CommodityUnit=data['CommodityUnit']
    #商品数量
    CommodityNum=data['CommodityNum']
    #规格
    CommodityType=data['CommodityType']
    #金额
    CommodityAmount=data['CommodityAmount']
    #税额
    CommodityTax=data['CommodityTax']
    #生产厂家
    #??
    #供货商全称
    SellerName=data['SellerName']
    #供货商电话
    SellerAddress=data['SellerAddress']
    #整理商品名称
    lst=[eval(i['row']) for i in CommodityAmount]
    #写入数据
    try:
        if len(lst)>1:
            lst_=[]
            for _ in range(len(lst)-1):
                lst_.append([lst[_],lst[_+1]])
            lst_.append([lst[-1],eval(CommodityName[-1]['row'])])
            print(lst_)
            Name_list=[]
            for i,j in lst_:
                Name_list.append(''.join([x['word'] for x in CommodityName[(i-1):(j-1)]] ))
            CommodityName_merged=Name_list
            for index in range(len(CommodityName_merged)):
                file.write(
                    InvoiceNum+'\t'+
                    InvoicePrice+'\t'+
                    CommodityName_merged[index]+"\t"+
                    CommodityUnit[index]['word']+'\t'+
                    CommodityNum[index]['word']+'\t'+
                    CommodityType[index]['word']+'\t'+
                    CommodityAmount[index]['word']+'\t'+
                    CommodityTax[index]['word']+'\t'+
                    SellerName+'\t'+
                    SellerAddress+"\n"
                )
            file.flush()
        else:
            file.write(
                    InvoiceNum+'\t'+
                    InvoicePrice+'\t'+
                    CommodityName[0]['word']+"\t"+
                    CommodityUnit[0]['word']+'\t'+
                    CommodityNum[0]['word']+'\t'+
                    CommodityType[0]['word']+'\t'+
                    CommodityAmount[0]['word']+'\t'+
                    CommodityTax[0]['word']+'\t'+
                    SellerName+'\t'+
                    SellerAddress+"\n"
            )
            file.flush()
    except:
        pass

最后循环读取、解析文件。

file=open("invoice.txt",'w')
file.write("发票号"+"\t"+"发票总额"+"\t"+"商品名称"+"\t"+"容量单位"+"\t"+"商品数量"+"t"+"规格"+"\t"+"金额"+"\t"+"税额"+"\t"+"供货商全称"+"\t"+"供货商电话"+"\n")
result=[]
pth=r"C:\Users\Administrator\Desktop\发票录入\JPEG\JPEG"
get_all(pth,result)
for re in result:
    try:
        ReadInvoice(os.path.join(pth,re),file)
    except:
        pass
file.close()

最终将图片中的文字读取到txt文档中

image

总结:道理很简单,批量读取图片地址信息;使用python发送post请求到百度AI服务器,调用服务器中的增值税发票识别服务;最后写入数据到txt文档。当然,有些发票不清晰或者商品名称比较奇葩的会有识别错误。识别的数据还是需要再核实的。如果手上有几千张发票,几个人干一天的活可以一个人几个小时干完,Ok,又有人要失业了~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,968评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,601评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,220评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,416评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,425评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,144评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,432评论 3 401
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,088评论 0 261
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,586评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,028评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,137评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,783评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,343评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,333评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,559评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,595评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,901评论 2 345