网站首页 美食营养 游戏数码 手工爱好 生活家居 健康养生 运动户外 职场理财 情感交际 母婴教育 时尚美容

python 3 pytesseract 的基本使用方法

时间:2024-10-12 00:04:25

1、本文假设pytesseract已经安装,并且tesseract也已经在系统中。对于含有英文文字的图片,使用如图方式即可获取识别结果。

python 3 pytesseract 的基本使用方法

2、对于包含简体中文的图片,需要设定语言参数为chi_sim,如图所示,即可得到中文识别结果。

python 3 pytesseract 的基本使用方法

3、如果切换中文找不到traineddata文件,那么可能是安装时没有下载中文支持。可以查看如图安装目录查看文件是否存在。

python 3 pytesseract 的基本使用方法

4、image_to_string函数的第一个参数不一定要是Image.open的返回对象,也可以直接是表示图片文件路径的字符串,如图所示。

python 3 pytesseract 的基本使用方法

5、image_to_string函数的第一个参数还可以是一个文本文件,并在文本文件中列出所有要识别的图片文件。

python 3 pytesseract 的基本使用方法

6、如果要获取识别的所有character的边界框,使用image_to_boxes函数,如图所示。

python 3 pytesseract 的基本使用方法

7、如果需要查看更详细的识别结果,可以使用image_to_data函数。会给出字词识别的confidence等。

python 3 pytesseract 的基本使用方法

8、如果希望从图片生成可复制内容的pdf,使用image_to_pdf_or_hocr函数,并设定extension参数为pdf。

python 3 pytesseract 的基本使用方法

9、如果要查看识别的方向(orientation)和 Script Detection,需要使用image_to_osd函数,如图所示。

python 3 pytesseract 的基本使用方法
© 2025 一点资料
信息来自网络 所有数据仅供参考
有疑问请联系站长 site.kefu@gmail.com