带有Tesseract接口的OCR

你如何使用Tesseract在c#中的接口OCR一个tiff文件?
目前我只知道如何使用可执行文件。

源代码似乎适合于一个可执行文件,你可能需要重新连线东西,所以它会build立一个DLL而不是。 我对Visual C ++没有太多的经验,但是我认为对于一些研究来说不应该太难。 我的猜测是,有人可能已经build立了一个图书馆的版本,你应该尝试谷歌。

一旦在DLL文件中有tesseract-ocr代码,就可以通过Visual Studio将该文件导入到C#项目中,并创build包装类,并为您完成所有的编组工作。 如果你不能导入,那么DllImport会让你从C#代码调用DLL中的函数。

然后,你可以看看原始的可执行文件,以find哪些函数调用适当的OCR TIFF图像的线索。

看看tessnet

C#程序启动tesseract.exe,然后读取tesseract.exe的输出文件。

Process process = Process.Start("tesseract.exe", "out"); process.WaitForExit(); if (process.ExitCode == 0) { string content = File.ReadAllText("out.txt"); } 

我今天发现EMGU现在包括一个Tesseract包装。 虽然opencv lib的非托pipedll的数量可能看起来有点令人生畏,但是到您的输出目录的快速复制不会治愈。 从那里,实际的OCR过程就像三条线一样简单:

 Tesseract ocr = new Tesseract(Path.Combine(Environment.CurrentDirectory, "tessdata"), "eng", Tesseract.OcrEngineMode.OEM_TESSERACT_ONLY); this.ocr.Recognize(clip); optOCR.Text = this.ocr.GetText(); 

“robomatics”汇集了一个非常好的YouTubevideo ,演示一个简单而有效的解决scheme。

免责声明:我为Atalasoft工作

我们的OCR模块支持Tesseract ,如果certificate不够好,您可以升级到更好的引擎,只需更改一行代码(我们为多个OCR引擎提供通用接口)。