跳到主要内容

OCR文字识别

OCR识别模板.mp4 (63.05MB)

组件介绍

预处理组件

VIA图像分割

改组件可以将一张图片通过via组件的矩形框分割成多张图片。

PDF转图片

将PDF文件转为图片。

图片整合

多个图片文件夹输入转为单个图片文件夹输出。

去水印(简易版)

去掉图片中的水印。

模型组件

文字角度检测

输入图片,输出每张图片的角度,检测角度有0,90,180,270。输出1为矫正后的图片,输出2为原始图片,输出3为每张图片的角度。

文字定位

输入图片(角度矫正后的图片,如果图片为正向可忽略),输出为定位的文字位置。

文字识别

采用CRNN模型对检测出位置的文字进行识别。输入1为矫正后的图片,输入2为原始图片,输入3为文字定位组件的输出,输出1为原始图片,输出2为识别后的文本信息,输出3为识别出的文字图片集合。

后处理组件

发票识别

将发票中识别出的文字整理为结构化信息。输入1为矫正后图片,输入2为文字识别组件输出2的文本信息,输入3为角度检测的输出3(如果没有可以不连接)。输出1为整理后的文本json,输出2为整理后的csv,输出3为标注后的图片文件。
参数
文字合并间距:ocr模型识别出的信息合并为可理解的文本信息。默认为0.2。
服务名称:正则匹配的发票服务种类,默认为客运服务费 |机票 |住宿费|技术服务|餐费。
发票金额:正则匹配的发票金额的语句格式。默认为(小写)[¥Y一-龥][0-9]{1,5}.[0-9]{1,2}。
开票日期:正则匹配的发票日期的语句。默认为开票日期:[0-9]{1,4}年[0-9]{1,2}月[0-9]{1,2}。**

火车票识别

将火车票中识别出的文字整理为结构化信息。输入1为矫正后图片,输入2为文字识别组件输出2的文本信息,输入3为角度检测的输出3(如果没有可以不连接)。输出1为整理后的文本json,输出2为整理后的csv,输出3为标注后的图片文件。

行程单识别

将滴滴神州专车行程单中识别出的文字整理为结构化信息。输入1为矫正后图片,输入2为文字识别组件输出2的文本信息,输入3为角度检测的输出3(如果没有可以不连接)。输出1为整理后的文本json,输出2为整理后的csv,输出3为标注后的图片文件。

身份证识别

将身份证中识别出的文字整理为结构化信息。输入1为矫正后图片,输入2为文字识别组件输出2的文本信息,输入3为角度检测的输出3(如果没有可以不连接)。输出1为整理后的文本json,输出2为整理后的csv,输出3为标注后的图片文件。

通用识别

将图片中识别出的文字整理为json文本信息。输入1为矫正后图片,输入2为文字识别组件输出2的文本信息,输入3为角度检测的输出3(如果没有可以不连接)。输出1为整理后的文本json,输出2为标注后的图片文件。

用户自定义识别

将图片中识别出的文字整理为json文本信息。输入1为矫正后图片,输入2为文字识别组件输出2的文本信息,输入3为角度检测的输出3(如果没有可以不连接)。输出1为整理后的文本json,输出2为整理后的csv,输出3为标注后的图片文件。

报销信息表

将火车票,行程单,发票信息整理为报销使用的信息单。输入1为火车票识别的输出csv,输入2为发票识别的输入csv,输出3为行程单识别的csv,输出4为参考图片文件。输出1为整理好的csv文件,输出2为参考图片文件(用来比对识别不全或有误的信息)。