您的当前位置：首页 [tesseract]用jTessBoxEditor制作训练库

[tesseract]用jTessBoxEditor制作训练库

来源：99网

做课题的时候，用进行字符识别时，有官方提供的字库，但这些字库并不能满足我们所有的需求，例如手写字体以及一些其他的字体。tesseract提供的字库中没有我们相应的字体时，就会出现识别错误的问题，这个时候就需要训练自己的字库进行训练了。

1.准备训练图片，并且制作tif格式

字库的训练最好是png的，注意图片数字周围的空白区域不能太窄，tesseract无法识别空白区域太窄的字符。

选择 Tools -> Merge TIFF，打开对话框，选择训练样本所在文件夹，并选中所有要参与训练的样本图片，注意对话框中“文件类型”的选取，选择所有的图片文件。

选择好了后，点击打开按钮，出现文件保存对话框，输入文件名：num_1.font.exp0.tif

正确进行上述步骤后会出现merge完成的提示

2. 使用tesseract生成.box文件

然后执行命令：tesseract num_1.font.exp0.tif num_1.font.exp0 –l eng batch.nochop makebox

使用jTessBoxEditor调整.box训练文件
.box文件中记录了每个字符在图片上的位置以及识别出的内容，训练之前需要使用jTessBoxEditor调整字符的位置和内容。
打开 jTessBoxEditor ，点击 Box Editor -> Open ，打开步骤2中生成的 “num_1font.exp0.tif” ，会自动关联到 “num_1.font.exp0.box” 文件：

打开完成后，每一个会显示每一张图片的的识别结果

接下来我们对每张图片的识别字符和识别框进行纠正，如果错了，我们就改成正确的，如果识别出现偏差，我们也要进行调整。

这个过程是非常重要的，字符框的好坏取决于方框是否调整的准确。
我们把所有图片的全部纠正完。

点击save按钮，将校正后的box文件保存。

3.使用echo命令创建字体特征文件

在命令符窗口中输入如下命令：echo font 0 0 0 0 0>font_properties

执行完成之后，在当前文件夹下生成font_properties文件
也可以手动在该文件夹下建立一个名为 “font_properties” 的文件，这个文件没有后缀名称，输入内容 “font 0 0 0 0 0” ，表示字体 font 的粗体、倾斜等共计5个属性全都设置为0

4. 使用tesseract生成num_1.font.exp0.tr训练文件

在命令行窗口中输入命令： tesseract num_1.font.exp0.tif num_1.font.exp0 nobatch box.train

生成训练文件成功

5.生成字符集文件

在命令行中执行如下命令： unicharset_extractor num_1.font.exp0.box

6. 生成数据字典

在命令行中先执行如下命令： mftraining -F font_properties -U unicharset -O num_1.unicharset num_1.font.exp0.tr

接着执行另外一个训练命令：cntraining num_1.font.exp0.tr

需要手动修改名称，这里我们修改成num_1.inttemp、num_1.pffmtable、num_1.normproto、num_1.shapetable。

7.合并数据文件，生成字库文件

在命令提示符中执行如下命令：combine_tessdata num_1.

8.验证生成的语言包字库

输入命令：tesseract --list-langs
可以看到语言库中有自己刚添加的字库num_1

打开out文件，发现识别结果与图片完全符合，至此，自己制作的字库就已经成功了，可以识别所有这种数字字体的图片。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文