Python进行PDF识别

1.

1
主要是文字和表格识别,图片识别相对较少或者没有,针对图片识别,可以使用paddler-ocr或者pytenseract实现,或者自己训练一个卷积神经网络的模型进行识别(lspn+crnn)

2.业务知识

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
NPL: 代表不良
情况说明:
目前仅支持pdf的识别,doc文档不支持. 针对PDF版本,支持受托报告和发行说明书. 受托报告分为不良NPL和正常两种情况.两个代码. ABS+ABN合并识别,只要针对发行说明书.用到了ocr提取图片,不涉及文字提取.




ABS:资产证券化, 分为信贷ABS,企业ABS(格式不统一,正在做),ABN.
ABS受托报告: 分为不良和正常两种,不良的pdf格式相对固定,需要返回的字段也不尽相同


匹配逻辑: 先看能不能匹配到对应的数据,能匹配到再查找想要的结果
存在一些指标已经写好给定值,只需要判断在文档里能不能找到对应的值即可
先匹配表格,没有再匹配文档,部分需要使用ocr去获取图片进行保存

存在需要提取交易结构图的情况,分为两种情况,交易结构本来就是图和本来不是图.针对本来就是图的情况,需要使用坐标定位图片所在的位置(四个坐标位置),然后使用裁剪功能裁剪图片

开发思路: 改bug或者匹配不准,先看规则的正则,然后看代码的正则

新识别的开发思路: 按照某一个版本,重新写
猜想:是否可以结合jieba提词

难点:
1.针对一个pdf文档,我怎么确定哪些是我需要的数据
2.不同pdf格式的差别