OCR文字识别

组件介绍

预处理组件

VIA图像分割

改组件可以将一张图片通过via组件的矩形框分割成多张图片。

PDF转图片

将PDF文件转为图片。

图片整合

多个图片文件夹输入转为单个图片文件夹输出。

去水印（简易版）

去掉图片中的水印。

模型组件

文字角度检测

输入图片，输出每张图片的角度，检测角度有0,90,180,270。输出1为矫正后的图片，输出2为原始图片，输出3为每张图片的角度。

文字定位

输入图片（角度矫正后的图片，如果图片为正向可忽略），输出为定位的文字位置。

文字识别

采用CRNN模型对检测出位置的文字进行识别。输入1为矫正后的图片，输入2为原始图片，输入3为文字定位组件的输出，输出1为原始图片，输出2为识别后的文本信息，输出3为识别出的文字图片集合。

后处理组件

发票识别

将发票中识别出的文字整理为结构化信息。输入1为矫正后图片，输入2为文字识别组件输出2的文本信息，输入3为角度检测的输出3（如果没有可以不连接）。输出1为整理后的文本json，输出2为整理后的csv，输出3为标注后的图片文件。
参数
文字合并间距:ocr模型识别出的信息合并为可理解的文本信息。默认为0.2。
服务名称:正则匹配的发票服务种类，默认为客运服务费 |机票 |住宿费|技术服务|餐费。
发票金额:正则匹配的发票金额的语句格式。默认为(小写)[￥Y一-龥][0-9]{1,5}.[0-9]{1,2}。
开票日期:正则匹配的发票日期的语句。默认为开票日期:[0-9]{1,4}年[0-9]{1,2}月[0-9]{1,2}。**

火车票识别

将火车票中识别出的文字整理为结构化信息。输入1为矫正后图片，输入2为文字识别组件输出2的文本信息，输入3为角度检测的输出3（如果没有可以不连接）。输出1为整理后的文本json，输出2为整理后的csv，输出3为标注后的图片文件。

行程单识别

将滴滴神州专车行程单中识别出的文字整理为结构化信息。输入1为矫正后图片，输入2为文字识别组件输出2的文本信息，输入3为角度检测的输出3（如果没有可以不连接）。输出1为整理后的文本json，输出2为整理后的csv，输出3为标注后的图片文件。

身份证识别

将身份证中识别出的文字整理为结构化信息。输入1为矫正后图片，输入2为文字识别组件输出2的文本信息，输入3为角度检测的输出3（如果没有可以不连接）。输出1为整理后的文本json，输出2为整理后的csv，输出3为标注后的图片文件。

通用识别

将图片中识别出的文字整理为json文本信息。输入1为矫正后图片，输入2为文字识别组件输出2的文本信息，输入3为角度检测的输出3（如果没有可以不连接）。输出1为整理后的文本json，输出2为标注后的图片文件。

用户自定义识别

将图片中识别出的文字整理为json文本信息。输入1为矫正后图片，输入2为文字识别组件输出2的文本信息，输入3为角度检测的输出3（如果没有可以不连接）。输出1为整理后的文本json，输出2为整理后的csv，输出3为标注后的图片文件。

报销信息表

将火车票，行程单，发票信息整理为报销使用的信息单。输入1为火车票识别的输出csv，输入2为发票识别的输入csv，输出3为行程单识别的csv，输出4为参考图片文件。输出1为整理好的csv文件，输出2为参考图片文件（用来比对识别不全或有误的信息）。

组件介绍​

预处理组件​

VIA图像分割​

PDF转图片​

图片整合​

去水印（简易版）​

模型组件​

文字角度检测​

文字定位​

文字识别​

后处理组件​

发票识别​

火车票识别​

行程单识别​

身份证识别​

通用识别​

用户自定义识别​

报销信息表​