文章目录
- Tess4J
- 下载 tessdata
- Java 使用Tess4j 的 demo
Tess4J
Tess4J 是 Tesseract OCR 引擎的 Java 封装库,它让 Java 项目更轻松地实现 OCR(光学字符识别)功能。
下载 tessdata
下载地址:https://github.com/tesseract-ocr/tesseract/releases
看网上教程,要下载相应的语言包,下 chi_sim.traineddata
即可
Java 使用Tess4j 的 demo
在 pom.xml
中加入以下依赖:
<dependency><groupId>net.sourceforge.tess4j</groupId><artifactId>tess4j</artifactId><version>4.5.4</version>
</dependency>
写一个main方法,使用 Tesseract OCR 引擎对图像进行文字识别
public class OcrExample {public static void main(String[] args) {// 设置图片文件路径File imageFile = new File("D:\\1.png");// Tesseract 是 Tess4J 提供的 OCR 引擎类,它封装了对 Tesseract OCR 引擎的调用ITesseract instance = new Tesseract();try {// 设置tessdata路径 最好写绝对路径instance.setDatapath("D:\\app\\tool\\tesseract-ocr\\tessdata");// 选择简体中文 Chinese simplifiedinstance.setLanguage("chi_sim");// 进行OCR识别String result = instance.doOCR(imageFile);System.out.println("识别结果: " + result);} catch (Exception e) {System.out.println("OCR识别失败: " + e.getMessage());}}
}
图片:
结果: