tesseract ocr java 识别验证吗

发布网友发布时间：2022-04-23 06:20

共1个回答

热心网友时间：2022-05-01 19:53

按照说明，送入tesseract的图片的质量直接影响识别的效果，因此，简单的预处理是不可或缺的

1.首先灰度化，灰度值=0.3R+0.59G+0.11B：

Java代码

for (int y = minY; y < height; y++) {
for (int x = minX; x < width; x++) {
int rgb = srcImg.getRGB(x, y);
Color color = new Color(rgb); // 根据rgb的int值分别取得r,g,b颜色。
int gray = (int) (0.3 * color.getRed() + 0.59
* color.getGreen() + 0.11 * color.getBlue());
Color newColor = new Color(gray, gray, gray);
srcImg.setRGB(x, y, newColor.getRGB());
}
}

结果如图：

2.其次是灰度反转：

Java代码
for (int y = minY; y < height; y++) {
for (int x = minX; x < width; x++) {
int rgb = buffImg.getRGB(x, y);
Color color = new Color(rgb); // 根据rgb的int值分别取得r,g,b颜色。
Color newColor = new Color(255 - color.getRed(), 255 - color
.getGreen(), 255 - color.getBlue());
buffImg.setRGB(x, y, newColor.getRGB());
}
}

结果如图：

3.再次是二值化，取图片的平均灰度作为阈值，低于该值的全都为0，高于该值的全都为255：

Java代码
for (int y = minY; y < height; y++) {
for (int x = minX; x < width; x++) {
int rgb = buffImg.getRGB(x, y);
Color color = new Color(rgb); // 根据rgb的int值分别取得r,g,b颜色。
int value = 255 - color.getBlue();
if (value > average) {
Color newColor = new Color(0, 0, 0);
buffImg.setRGB(x, y, newColor.getRGB());
} else {
Color newColor = new Color(255, 255, 255);
buffImg.setRGB(x, y, newColor.getRGB());
}
}
}

结果如图：

看看效果还凑合，就省却尺寸调整、中值滤波以及噪点去除等步骤了。

以上完成图片预处理工作；Tesseract没有开放api，纯命令行调用：

Java代码
List<String> cmd = new ArrayList<String>(); // 存放命令行参数的数组
cmd.add(tessPath + "\\tesseract");
cmd.add("");
cmd.add(outputFile.getName()); // 输出文件位置
cmd.add(LANG_OPTION); // 字符类别
cmd.add("eng"); // 英文，找到tessdata里对应的字典文件。
ProcessBuilder pb = new ProcessBuilder();
pb.directory(imageFile.getParentFile());

cmd.set(1, tempImage.getName()); // 把图片文件位置放在第一个位置

pb.command(cmd); // 执行命令行
pb.redirectErrorStream(true); // 通知进程生成器是否合并标准错误和标准输出,把进程错误保存起来。
Process process = pb.start(); // 开始执行进程

int w = process.waitFor(); // 当前进程停止,直到process停止执行，返回执行结果.

结果输出表示一切正常

当然，真正要用好tesseract-ocr，还需用到其强大地训练工具，就是后话了……

全部频道

tesseract ocr java 识别验证吗