Tag: 文本提取

如何从.doc＆.docx文件中提取纯文本？（unix）: 任何人都知道他们可以推荐的任何东西，只是从.doc或.docx中提取纯文本？我发现这个最好的方式来从Word文档中提取文本，而不使用COM /自动化？ – 想知道有没有其他build议？速度并不重要，我们甚至可以使用一个有一些API的网站来上传和提取文件，但我一直无法find一个。谢谢

如何从一系列文本条目中提取常见/重要的短语: 我有一系列文本项目 – 来自MYSQL数据库的原始HTML。我想在这些条目中find最常用的词组（不是最常用的词组，也不是最好的单词之间的匹配）。我的例子是在Yelp.com上的任何评论，显示从给定的餐厅数百评论3片段，格式为： “尝试汉堡包”（共44条评论）例如本页面的“评论重点”部分： http://www.yelp.com/biz/sushi-gen-los-angeles/ 我有NLTK安装，我已经玩了一下，但老实说，select压倒。这似乎是一个相当普遍的问题，我一直没有find一个简单的解决scheme，在这里search。在此先感谢您的帮助。

如何在GREP，REGEX或PERL模式下提取string: 我有一个这样的文件： <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="content_analyzer2" primary-key="id"> <type="global" /> </table> <table name="content_analyzer_items" primary-key="id"> <type="global" /> </table> 我需要提取“name =”后面的引号，即content_analyzer，content_analyzer2和content_analyzer_items。我在一个Linux机器上这样做，所以使用sed，perl，grep或bash的解决scheme是好的。

高级PDFparsing使用Python（提取文本没有表等）：什么是最好的图书馆？: 我正在寻找一个PDF库，这将允许我从PDF文档中提取文本。我已经看了PyPDF，这可以很好地从PDF文档中提取文本。问题在于，如果文档中有表格，则表格中的文本将与文档的其余部分一起提取。这可能是有问题的，因为它会产生无用的文本部分，看起来乱码（例如，大量的数字拼凑在一起）。我正在寻找一些更先进的东西。我想从PDF文档中提取文本，不包括任何表格和特殊的格式。有没有这样的图书馆？还是我不得不在输出文本上做一些后处理来摆脱这些部分？

如何从PDF中提取文本？: 任何人都可以推荐一个图书馆/ API从PDF提取文本和图像？我们需要能够获取包含在文档的预知区域中的文本，因此API需要向我们提供页面上每个元素的位置信息。我们希望这些数据以xml或json格式输出。我们目前正在寻找似乎相当不错的PdfTextStream ，但希望听到其他人的经验和build议。有没有替代品（商业或免费）从PDF中提取文本编程？

如何使用正则expression式提取子string: 我有一个string，它有两个单引号， '字符。在单引号之间是我想要的数据。我如何写一个正则expression式从下面的文本中提取“我想要的数据”？ mydata = "some string with 'the data i want' inside";

在PDF中使用PDFMiner从PDF文件中提取文本？: Python版本2.7 我正在寻找关于如何使用PDFMiner和Python从PDF文件中提取文本的文档或示例。它看起来像PDFMiner更新其API和所有相关的例子，我发现包含过时的代码（类和方法已经改变）。我发现的库使得从PDF文件中提取文本的任务更容易使用旧的PDFMiner语法，所以我不知道如何做到这一点。事实上，我只是在看源代码，看看我能否弄清楚。

用于将PDF转换为文本的Python模块: 哪个是将PDF文件转换为文本的最佳Python模块？

Interesting Posts

如何从浏览器读取客户端的机器/计算机名称？

如何通过RSA生成唯一的公钥和私钥

中继器的中继器

在Bashvariables赋值中找不到命令错误

超级骨干

Java Web应用程序configuration模式

问题与Android Hybid应用程序显示远程图像与Ionic框架？

在iOS编程中使用Storyboard而不是xib文件有什么好处？

如何“正确地”在JavaScript中创build一个自定义对象？

Visual Studio 2013 ASP.NET项目中的Antlr包的目的是什么？

非对称encryption中的encryption和签名有什么区别？

如何在opencart中创build自定义pipe理页面？

检查命令的输出是否包含shell脚本中的某个string

Swift – 额外的参数

Java – 将图像转换为Base64