OCR文字识别
组件介绍
预处理组件
VIA图像分割
改组件可以将一张图片通过via组件的矩形框分割成多张图片。
PDF转图片
将PDF文件转为图片。
图片整合
多个图片文件夹输入转为单个图片文件夹输出。
去水印(简易版)
去掉图片中的水印。
模型组件
文字角度检测
输入图片,输出每张图片的角度,检测角度有0,90,180,270。输出1为矫正后的图片,输出2为原始图片,输出3为每张图片的角度。
文字定位
输入图片(角度矫正后的图片,如果图片为正向可忽略),输出为定位的文字位置。
文字识别
采用CRNN模型对检测出位置的文字进行识别。输入1为矫正后的图片,输入2为原始图片,输入3为文字定位组件的输出,输出1为原始图片,输出2为识别后的文本信息,输出3为识别出的文字图片集合。
后处理组件
发票识别
将发票中识别出的文字整理为结构化信息。输入1为矫正后图片,输入2为文字识别组件输出2的文本信息,输入3为角度检测的输出3(如果没有可以不连接)。输出1为整理后的文本json,输出2为整理后的csv,输出3为标注后的图片文件。
参数
文字合并间距:ocr模型识别出的信息合并为可理解的文本信息。默认为0.2。
服务名称:正则匹配的发票服务种类,默认为客运服务费 |机票 |住宿费|技术服务|餐费。
发票金额:正则匹配的发票金额的语句格式。默认为(小写)[¥Y一-龥][0-9]{1,5}.[0-9]{1,2}。
开票日期:正则匹配的发票日期的语句。默认为开票日期:[0-9]{1,4}年[0-9]{1,2}月[0-9]{1,2}。**
火车票识别
将火车票中识别出的文字整理为结构化信息。输入1为矫正后图片,输入2为文字识别组件输出2的文本信息,输入3为角度检测的输出3(如果没有可以不连接)。输出1为整理后的文本json,输出2为整理后的csv,输出3为标注后的图片文件。
行程单识别
将滴滴神州专车行程单中识别出的文字整理为结构化信息。输入1为矫正后图片,输入2为文字识别组件输出2的文本信息,输入3为角度检测的输出3(如果没有可以不连接)。输出1为整理后的文本json,输出2为整理后的csv,输出3为标注后的图片文件。
身份证识别
将身份证中识别出的文字整理为结构化信息。输入1为矫正后图片,输入2为文字识别组件输出2的文本信息,输入3为角度检测的输出3(如果没有可以不连接)。输出1为整理后的文本json,输出2为整理后的csv,输出3为标注后的图片文件。
通用识别
将图片中识别出的文字整理为json文本信息。输入1为矫正后图片,输入2为文字识别组件输出2的文本信息,输入3为角度检测的输出3(如果没有可以不连接)。输出1为整理后的文本json,输出2为标注后的图片文件。
用户自定义识别
将图片中识别出的文字整理为json文本信息。输入1为矫正后图片,输入2为文字识别组件输出2的文本信息,输入3为角度检测的输出3(如果没有可以不连接)。输出1为整理后的文本json,输出2为整理后的csv,输出3为标注后的图片文件。
报销信息表
将火车票,行程单,发票信息整理为报销使用的信息单。输入1为火车票识别的输出csv,输入2为发票识别的输入csv,输出3为行程单识别的csv,输出4为参考图片文件。输出1为整理好的csv文件,输出2为参考图片文件(用来比对识别不全或有误的信息)。