Python OCR安装

Tesseract-OCR图像文字识别技术

ocr环境安装

pip install futures
pip install pytesseract

1.安装leptonica

wget http://www.leptonica.org/source/leptonica-1.74.4.tar.gz
tar -zxvf leptonica-1.74.4.tar.gz
cd leptonica-1.74.4
./configure
make
make install

2.安装tesseract3.05

wget https://github.com/tesseract-ocr/tesseract/archive/3.05.01.tar.gz
tar -zxvf 3.05.01.tar.gz
cd tesseract-3.05/
./autogen.sh
PKG_CONFIG_PATH=/usr/local/lib/pkgconfig LIBLEPT_HEADERSDIR=/usr/local/include ./configure --with-extra-includes=/usr/local/include --with-extra-libraries=/usr/local/lib
LDFLAGS="-L/usr/local/lib" CFLAGS="-I/usr/local/include" make
make install
ldconfig

3.下载语言包

cd /usr/local/share/tessdata/
wget https://github.com/tesseract-ocr/tessdata/raw/3.04.00/chi_sim.traineddata
wget https://github.com/tesseract-ocr/tessdata/raw/3.04.00/eng.traineddata

4.修改源码(或配置PATH) 根据python安装目录来修改,不同环境可能不一样打开 /usr/local/lib/python2.7/site-packages/pytesseract/pytesseract.py

将
tesseract_cmd = 'tesseract' 
改为:
tesseract_cmd = '/usr/local/bin/tesseract'

重启ocr进程

安装异常处理

error:Leptonica 1.74 or higher is required.

Tesseract 4.0 源码编译安装时,会需要 Leptonica 依赖。在安装好最新版本后,编译 Tesseract 时依然会有报错:

configure: error: Leptonica 1.74 or higher is required. Try to install libleptonica-dev package.

这种情况出现,可以查看一下本机 Leptonica 头文件和库的位置,以及pkg-config的配置,并添加到环境变量中。 比如,我的 Leptonica 头文件在 /usr/local/include/ 路径下 leptonica 文件夹中,该文件夹下有很多 .h 结尾的文件。

ls /usr/local/include/leptonica/
《Python OCR安装》

如图:我的 Leptonica 库在 /usr/local/lib 路径下, 以liblept开头。

ls /usr/local/lib
《Python OCR安装》

如图:pkg-config的检查可以在 terminal 中输入

pkg-config 

如果提示 command not found, 那说明本机没有 pkg-config, 通过 yum install pkg-config 或 apt-get install pkg-config 来j进行安装. 安装成功后,确保 /usr/local/lib/pkgconfig/ 文件夹下有 lept.pc 以及 tesseract.pc 文件。若没有,请重新编译安装。 确定好以上内容的路径后,开始添加环境变量。可以通过 vim /etc/profile 来实现,在文件最后加入以下几行文本:

vim /etc/profile
export LD_LIBRARY_PATH=$LD_LIBRARY_PAYT:/usr/local/lib
export LIBLEPT_HEADERSDIR=/usr/local/include
export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig

编辑好后在 terminal中输入

source /etc/profile 

来实现这些路径的添加。 最后,回到 tesseract 源码文件夹下继续执行

./autogen.sh
PKG_CONFIG_PATH=/usr/local/lib/pkgconfig LIBLEPT_HEADERSDIR=/usr/local/include ./configure --with-extra-includes=/usr/local/include --with-extra-libraries=/usr/local/lib
LDFLAGS="-L/usr/local/lib" CFLAGS="-I/usr/local/include" make
make install
ldconfig

这时就不会再提示 leptonica 版本的问题了。

error:Missing autoconf-archive. Check the build requirements

缺少autoconf-archive安装包,安装:

yum install autoconf-archive
./autogen.sh
./configure

error:Unable to find a valid copy of libtoolize or glibtoolize in your PATH!

问题:

./autogen.sh 
./autogen.sh: line 59: bail_out: command not found
Running aclocal
./autogen.sh: line 82: aclocal: command not found
Something went wrong, bailing out!

解决:

yum install automake -y

error:Unable to find a valid copy of libtoolize or glibtoolize in your PATH!

问题

./autogen.sh: line 59: bail_out: command not found
Running aclocal
Running 
./autogen.sh: line 87: -f: command not found
Something went wrong, bailing out!

解决:

yum install libtool -y
点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注