tesseract-ocr使用教程:
下载完后进行安装,默认情况下安装程序会给你配置系统环境变量,以指向安装目录。
从开始菜单(或者安装目录)的Tesseract-OCR文件夹中,点击Console,启动命令行窗口。键入命令tesseract,会显示相关提示信息,可使用命令“tesseract --help-extra”显示更详细的帮助信息。
基本语法命令
进行文字识别的基本命令语法如下:
tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]
识别图片中的英文字母和数字
将图片保存为文件“D:\temp\abcdef.png”,使用命令
tesseract d:\temp\abcdef.png stdout进行识别
不能识别图片中的简体中文
上述软件安装过程中,并未安装简体中文的训练数据集。
已有的训练数据集可使用命令“tesseract --list-langs”查看,也可直接在目录“D:\Programs\Tesseract-OCR\tessdata”中查看扩展名为traineddata的文件。