文档智能理解相关

文档智能理解:通用文档预训练模型与数据集
附录

[1 ]LayoutLM 论文:https://arxiv.org/abs/1912.13318
[2 ]LayoutLM 代码&模型:https://aka.ms/layoutlm
[3 ]DocBank 论文:https://arxiv.org/abs/2006.01038
[4 ]DocBank 数据集&模型:https://github.com/doc-analysis/DocBank
[5 ]TableBank 论文:https://arxiv.org/abs/1903.01949
[6 ]TableBank 数据集&模型:https://github.com/doc-analysis/TableBank
[7 ]“Injecting Artificial Intelligence into Financial Analysis”:https://medium.com/reimagine-banking/injecting-artificial-intelligence-into-financial-analysis-54718fbd5949
[8 ]“Document Visual Question Answering”:https://medium.com/@anishagunjal7/document-visual-question-answering-e6090f3bddee

Paper 1

LayoutLM: Pre-training of Text and Layout for Document Image Understanding
摘要:

利用pre-training技术,在处理一些通用文档的nlp任务时,不但是考虑到文本级别的信息,同时考虑到文本的位置信息,已经图像信息等.即基于多模态的方式去实现,NLP的处理.创新点在于首次充分考虑的布局信息(Layout)和文本等特征的结合.在这个预训练基础上,在几个下游任务进行的测试验证,包括表单理解(70.72 -> 79.27), 票据理解(94.02->95.24),文档图片的分类(93.07->94.42).


样例图片
主要贡献:

1.将文本信息和文档扫描图的文本布局信息结合到一个框架中,2.使用masked-visual-lanuage model和multi-label document classification做为训练的目标,针对带图像文档分类任务做到sota 3.代码论文公开

具体模型结构:

layoutlm 结构示例

在此需要提前回顾下bert的内容,1. MLM, 2. NSP.
以下开始细说LayoutLM: 模型主体上还是基于Bert实现,关键在于如何融入富文本信息.两种重要的信息需要被加入:
分别是文档布局信息(Document layout information), 视觉信息(visual information).
文档布局信息: 为了表达文档布局信息,就是在原先bert的输入基础之上,加入2-D位置信息,即bbox的左上(x_0, y_0)和右下(x_1, y_1)坐标.即2-D position embedding.
视觉信息: 包括两个,一个是整个图片的特征矩阵,一个是单个box对应的图像特征矩阵.即Image-Embedding.
2-D position Embedding,针对不同的维度,是有不一样的embedding表的,比如x坐标的都对应x轴的embedding向量,y坐标对应的y轴的一个embedding向量表,这样意思就是有些坐标如x_0==y_0,但是这个两个向量是应该不一样的,因为图像的宽高也是不一样的.
Image Embedding,正如bert的序列向量表达是以[CLS]开始,第一个输出的表示的是整个句子向量,后续的输出才是对应的token的信息.这里也采用同样的逻辑,进行image embedding的构建,第一个是整个图片的特征矩阵,后面才是每个bbox所对应的小图像.
预训练的任务: (task1:Masked Visual-Lanuage Model),也是再MLM基础上提出MVLM,整体思路就是能学习到加入的2-d位置信息.随机mask住几个单词,但是保留这些单词的2-D信息,然后模型根据给定的全文来预测这几个mask住单词.这样就不仅仅利用了文本上下文信息,而且融入了2-D信息.(这里有个疑问:就是全文信息的拼接长度过长是否有办法处理,或者按照段落截断?)
(task2: Multi-label Document Classification),使用IIT-CDP数据集,该数据集每个图片文档都有对应的多个分类标签,该task就是在这个训练集上去训练文本分类的能力,来监督pre-train的过程,但是该任务对数据量的需求会比较大.

实验部分

微调的数据集: FUNSD, The SROIE, The RVL-CDIP.
文档的预处理: 通过ocr拿到text和2-D
模型的pre-training: 1) mask的比例设定 2).加入2-D的(x_0, y_0, x_1, y_1),不是真实值,需要规范化处理,即除以宽或者高.
特定任务的微调:
1.表单理解:该任务分成两个子任务, semantic labeling和semantic linking.将单词作为semantic entity,去打标签.linking则是对semantic entity进行二分类的关系预测.这个任务里只关注semantic labeling,即sequence labeling 问题.
2.收据理解:首先有个预先定义好的semantic slots,根据票据内容的抽取指定的信息,去填充这个semantic slots
3.文档图片理解:结合图像信息用于对带图片的文档进行分类.
后续具体实验结果可以看论文中部分.

Paper 2

DocBank: A Benchmark Dataset for Document Layout Analysis
摘要:

创建了一个数据集用于进行文档布局分析的任务评估.


数据样例

https://github.com/johnson7788/DocBank

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,907评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,987评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,298评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,586评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,633评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,488评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,275评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,176评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,619评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,819评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,932评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,655评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,265评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,871评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,994评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,095评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,884评论 2 354

推荐阅读更多精彩内容