1.安装依赖的库
sudo apt-get install g++ # or clang++ (presumably)
sudo apt-get install autoconf automake libtool
sudo apt-get install autoconf-archive
sudo apt-get install pkg-config
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg8-dev
sudo apt-get install libtiff5-dev
sudo apt-get install zlib1g-dev
2.如果需要训练需安装以下库
sudo apt-get install libicu-dev
sudo apt-get install libpango1.0-dev
sudo apt-get install libcairo2-dev
3.安装leptonica
###不安装会有error: Leptonica 1.74 or higher is required. Try to install libleptonica-dev package.错误
cd git
##从git上将leptonica项目克隆到本地
git clone https://github.com/DanBloomberg/leptonica.git
cd leptonica
autoreconf -vi
./autobuild
./configure
make
sudo make install
4.安装tesseract
cd git
git clone https://github.com/tesseract-ocr/tesseract.git
cd tesseract
./autogen.sh
./configure --enable-debug
make
sudo make install
安装结束。
使用 tesseract -v 命令可以查看安装是否完成(显示版本号)
tesseract官网上有已经训练好的字典,可以下载下来使用。
地址:https://github.com/tesseract-ocr/tessdata
添加tessdata文件夹路径到环境变量中:export TESSDATA_PREFIX=/你的路径/tessdata
例如 export TESSDATA_PREFIX=/usr/local/share/tessdata
将下载的字典放到tessdata文件夹里
即放到/usr/local/share/tessdata中去
使用tesseract --list-langs 命令可以知道当前已有的字典,在用tesseract识别文字前必须要加载字典
识别文件的命令:tesseract filename output -l lang
例如:tesseract chi.font.exp3.tif output -l chi_sim