Tag: tesseract

通过OCR从T恤照片中提取代码

我最近看到一个背上有一些Perl代码的T恤衫。 我拍了一张照片,把代码剪掉了: 接下来,我试图通过OCR从图像中提取代码,所以我安装了Tesseract OCR和Python绑定pytesser 。 Pytesser只能在TIFF图像上工作,所以我把图像转换成GIMP并input下面的代码(Ubuntu 9.10): >>> from pytesser import * >>> image = Image.open('code.tif') >>> print image_to_string(image) Traceback (most recent call last): File "<stdin>", line 1, in <module> File "pytesser.py", line 30, in image_to_string util.image_to_scratch(im, scratch_image_name) File "util.py", line 7, in image_to_scratch im.save(scratch_image_name, dpi=(200,200)) File "/usr/lib/python2.6/dist-packages/PIL/Image.py", line 1406, in save save_handler(self, fp, filename) […]

如何使tesseract只识别数字,当他们混合字母?

我想用tesseract只识别数字。 问题是我有混合 数字和字母,当我使用SetVariable(“tessedit_char_whitelist”,“0123456789”) 对于每个符号tesseract返回错误的数字。 我可以设置一个阈值,以便tesseract省略相似度较低的符号吗? 注:我设置tesseract只识别数字,所以没有0和0之间的混淆。

限制字符tesseract正在寻找

是否可以限制tesseract正在寻找的字符集(例如只search字母az)? 这将大大改善我的结果。

如何selectTesseract和OpenCV?

我最近遇到了Tesseract和OpenCV 。 它看起来像Tesseract是一个成熟的OCR引擎,OpenCV可以用作创buildOCR应用程序/服务的框架。 我尝试在我的一些图像上使用Tesseract,其准确性似乎不错。 后来,我遇到了一个非常简单的使用OpenCV来使用Python进行OCR的教程 ,给我留下了深刻的印象。 几分钟后,我完成了系统的训练,其准确性很好。 但是,当然,采取这种方法意味着我需要使用大型训练集广泛地训练我的系统。 我的具体问题如下: 如何selectTesseract和使用OpenCVbuild立一个自定义的OCR应用程序? 有针对不同语言的Tesseract可用的培训数据集。 OpenCV是否有类似的东西,所以我不必为了实现OCR而着手开展工作? 哪一个更适合想要成为商业应用? 有什么build议么? 注 :我在计算机视觉领域有24个小时的工作经验,但愿意花时间和精力学习先决条件。

带有Tesseract接口的OCR

你如何使用Tesseract在c#中的接口OCR一个tiff文件? 目前我只知道如何使用可执行文件。

Android中最好的OCR(光学字符识别)例子

我想要一个运行在Android的OCR的例子,我已经做了一些研究,并find一个在Android中实现OCR的例子。 https://github.com/rmtheis/tess-two和它有三个项目文件… 眼睛二 苔丝二 苔丝个testing 我通过导入三个项目文件来执行“tess-two-test”项目,但是“tess-two-test”不包含任何活动,所以它不会运行。 有人可以提出一个更好的例子吗?

image processing,以提高tesseract OCR的准确性

我一直在使用tesseract将文档转换为文本。 文档的质量范围很广,我正在寻找什么样的image processing可以改善结果的提示。 我注意到,高度像素化的文本(例如由传真机生成的文本)对于处理来说特别困难 – 大概所有那些锯齿状的边缘与字符混淆了形状识别algorithm。 什么样的image processing技术可以提高准确度? 我一直在使用高斯模糊平滑像素化的图像,并看到一些小的改进,但我希望有一个更具体的技术,会产生更好的结果。 说一个filter,调整为黑白图像,这将平滑不规则的边缘,其次是一个filter,这将增加对比度,使字符更清晰。 对于在image processing方面是新手的人来说,任何一般的提示?