Tesseract-OCR 图片字符(验证码)识别 样本训练

关于Tesseract-OCR?样本训练方法,大家可以网上找教程,应该有很多这里只是简单写下过程(其实也是我网上down的),所要用到的工具,会在文末给出链接,至于官方Tesseract-OCR?的下载链接网上都有不过都被墙了.你要不放心我的,可以自己找个代理或者vpn的自己去下.使用jTessBoxEditor需要安装java虚拟机,请自行下载!
1? 合并样本图像。运行jTessBoxEditor工具,在点击菜单栏中Tools—>Merge TIFF。在弹出的对话框中选择样本图像(按Shift选择多张),合并成num.font.exp0.tif文件。

2? 生成Box File文件。打开命令行,执行命令:
tesseract.exe num.font.exp0.tif num.font.exp0 batch.nochop makebox
3? 文字校正。运行jTessBoxEditor工具,打开num.font.exp0.tif文件(必须将上一步生成的.box和.tif样本文件放在同一目录),有些字符识别的不正确,可以通过该工具手动对每张图片中识别错误的字符进行校正。校正完成后保存即可。
4 生成语言文件。在样本图片所在目录下创建一个批处理文件,[生成语言文件.bat]
需确认打印结果中的Offset 1、3、4、5、13这些项不是-1。这样,一个新的语言文件就生成了。
num.traineddata便是最终生成的语言文件,将生成的num.traineddata拷贝到Tesseract-OCR–>tessdata目录下。可以用它来进行字符识别了

参考教程:http://blog.csdn.net/yasi_xi/article/details/8763385

32位java虚拟机下载地址:http://www.xiazaiba.com/html/552.html

Tesseract-OCR及相关文件下载地址:http://pan.baidu.com/s/1mgAND92

基于互联网精神,在注明出处的前提下本站文章可自由转载!

本文链接:https://ranjuan.cn/tesseract-ocr-图片字符验证码识别-样本训练/

赞赏

微信赞赏支付宝赞赏

jquery-find-firstdiv
mitmproxy-python-http-methods-use
raid-disk