Python进行PDF识别 发表于 2023-04-24 | 更新于 2023-04-26 | 阅读次数: 1.1主要是文字和表格识别,图片识别相对较少或者没有,针对图片识别,可以使用paddler-ocr或者pytenseract实现,或者自己训练一个卷积神经网络的模型进行识别(lspn+crnn) 2.业务知识12345678910111213141516171819202122232425NPL: 代表不良情况说明: 目前仅支持pdf的识别,doc文档不支持. 针对PDF版本,支持受托报告和发行说明书. 受托报告分为不良NPL和正常两种情况.两个代码. ABS+ABN合并识别,只要针对发行说明书.用到了ocr提取图片,不涉及文字提取. ABS:资产证券化, 分为信贷ABS,企业ABS(格式不统一,正在做),ABN. ABS受托报告: 分为不良和正常两种,不良的pdf格式相对固定,需要返回的字段也不尽相同匹配逻辑: 先看能不能匹配到对应的数据,能匹配到再查找想要的结果存在一些指标已经写好给定值,只需要判断在文档里能不能找到对应的值即可先匹配表格,没有再匹配文档,部分需要使用ocr去获取图片进行保存存在需要提取交易结构图的情况,分为两种情况,交易结构本来就是图和本来不是图.针对本来就是图的情况,需要使用坐标定位图片所在的位置(四个坐标位置),然后使用裁剪功能裁剪图片开发思路: 改bug或者匹配不准,先看规则的正则,然后看代码的正则新识别的开发思路: 按照某一个版本,重新写猜想:是否可以结合jieba提词难点:1.针对一个pdf文档,我怎么确定哪些是我需要的数据2.不同pdf格式的差别