Tesseract-OCR 图片字符(验证码)识别样本训练

关于Tesseract-OCR?样本训练方法,大家可以网上找教程,应该有很多这里只是简单写下过程(其实也是我网上down的),所要用到的工具,会在文末给出链接,至于官方Tesseract-OCR?的下载链接网上都有不过都被墙了.你要不放心我的,可以自己找个代理或者vpn的自己去下.使用jTessBoxEditor需要安装java虚拟机,请自行下载!
1? 合并样本图像。运行jTessBoxEditor工具，在点击菜单栏中Tools—>Merge TIFF。在弹出的对话框中选择样本图像（按Shift选择多张），合并成num.font.exp0.tif文件。

2? 生成Box File文件。打开命令行，执行命令：
tesseract.exe num.font.exp0.tif num.font.exp0 batch.nochop makebox
3? 文字校正。运行jTessBoxEditor工具，打开num.font.exp0.tif文件（必须将上一步生成的.box和.tif样本文件放在同一目录），有些字符识别的不正确，可以通过该工具手动对每张图片中识别错误的字符进行校正。校正完成后保存即可。
4 生成语言文件。在样本图片所在目录下创建一个批处理文件，[生成语言文件.bat]
需确认打印结果中的Offset 1、3、4、5、13这些项不是-1。这样，一个新的语言文件就生成了。
num.traineddata便是最终生成的语言文件，将生成的num.traineddata拷贝到Tesseract-OCR–>tessdata目录下。可以用它来进行字符识别了

参考教程:http://blog.csdn.net/yasi_xi/article/details/8763385

32位java虚拟机下载地址:http://www.xiazaiba.com/html/552.html

Tesseract-OCR及相关文件下载地址:http://pan.baidu.com/s/1mgAND92

Tesseract-OCR 图片字符(验证码)识别样本训练

染卷

发表评论
取消回复

发表评论

染卷

发表评论 取消回复

发表评论

发表评论
取消回复