Tag: 文本提取

如何从.doc&.docx文件中提取纯文本? (unix)

任何人都知道他们可以推荐的任何东西,只是从.doc或.docx中提取纯文本? 我发现这个最好的方式来从Word文档中提取文本,而不使用COM /自动化? – 想知道有没有其他build议? 速度并不重要,我们甚至可以使用一个有一些API的网站来上传和提取文件,但我一直无法find一个。 谢谢

如何从一系列文本条目中提取常见/重要的短语

我有一系列文本项目 – 来自MYSQL数据库的原始HTML。 我想在这些条目中find最常用的词组(不是最常用的词组,也不是最好的单词之间的匹配)。 我的例子是在Yelp.com上的任何评论,显示从给定的餐厅数百评论3片段,格式为: “尝试汉堡包”(共44条评论) 例如本页面的“评论重点”部分: http://www.yelp.com/biz/sushi-gen-los-angeles/ 我有NLTK安装,我已经玩了一下,但老实说,select压倒。 这似乎是一个相当普遍的问题,我一直没有find一个简单的解决scheme,在这里search。 在此先感谢您的帮助。

如何在GREP,REGEX或PERL模式下提取string

我有一个这样的文件: <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="content_analyzer2" primary-key="id"> <type="global" /> </table> <table name="content_analyzer_items" primary-key="id"> <type="global" /> </table> 我需要提取“name =”后面的引号,即content_analyzer,content_analyzer2和content_analyzer_items。 我在一个Linux机器上这样做,所以使用sed,perl,grep或bash的解决scheme是好的。

高级PDFparsing使用Python(提取文本没有表等):什么是最好的图书馆?

我正在寻找一个PDF库,这将允许我从PDF文档中提取文本。 我已经看了PyPDF,这可以很好地从PDF文档中提取文本。 问题在于,如果文档中有表格,则表格中的文本将与文档的其余部分一起提取。 这可能是有问题的,因为它会产生无用的文本部分,看起来乱码(例如,大量的数字拼凑在一起)。 我正在寻找一些更先进的东西。 我想从PDF文档中提取文本, 不包括任何表格和特殊的格式。 有没有这样的图书馆? 还是我不得不在输出文本上做一些后处理来摆脱这些部分?

如何从PDF中提取文本?

任何人都可以推荐一个图书馆/ API从PDF提取文本和图像? 我们需要能够获取包含在文档的预知区域中的文本,因此API需要向我们提供页面上每个元素的位置信息。 我们希望这些数据以xml或json格式输出。 我们目前正在寻找似乎相当不错的PdfTextStream ,但希望听到其他人的经验和build议。 有没有替代品(商业或免费)从PDF中提取文本编程?

如何使用正则expression式提取子string

我有一个string,它有两个单引号, '字符。 在单引号之间是我想要的数据。 我如何写一个正则expression式从下面的文本中提取“我想要的数据”? mydata = "some string with 'the data i want' inside";

在PDF中使用PDFMiner从PDF文件中提取文本?

Python版本2.7 我正在寻找关于如何使用PDFMiner和Python从PDF文件中提取文本的文档或示例。 它看起来像PDFMiner更新其API和所有相关的例子,我发现包含过时的代码(类和方法已经改变)。 我发现的库使得从PDF文件中提取文本的任务更容易使用旧的PDFMiner语法,所以我不知道如何做到这一点。 事实上,我只是在看源代码,看看我能否弄清楚。

用于将PDF转换为文本的Python模块

哪个是将PDF文件转换为文本的最佳Python模块?