在Objective C中提取pdf文本

到目前为止,我还没有find一个解决scheme,可以很好地从Objective C的pdf文件中提取文本,以便在iPhone上使用。 我发现了一些标准的C代码,并修改它的工作原理,并认为我会在这里提供它,因为到目前为止,我已经使用了stackoverflow很多,但从来没有回报。 你可以在这里: https : //github.com/zachron/pdfiphone

它将pdf文件的path作为input,并返回pdf中文本的nsstring。 我没有写大部分,但我修改了它,所以它可以与iPhone和Objective C一起工作。如果有人拿这个,你需要在你的项目中包含Zlib库(在iPhone上的libz.dylib)它更令人敬畏,那就是美好的时光。

请记住,这只适用于提取在PDF中存储的文本。 它不会被OCR扫描的PDF文件。 如果你想这样做,可以select使用Tesseract ,谷歌强大的和FOSS OCR引擎。 它在iPhone上进行编译 :请参阅Nolan Brown的Tesseract-iPhone-Demo以获取一个工作示例。 ImageMagic的图像库也可以在iPhone上编译 ,它可以让你将PDF转换为Tse,Tesseract接受这个input。