Tag: parsing

高级PDFparsing使用Python(提取文本没有表等):什么是最好的图书馆?

我正在寻找一个PDF库,这将允许我从PDF文档中提取文本。 我已经看了PyPDF,这可以很好地从PDF文档中提取文本。 问题在于,如果文档中有表格,则表格中的文本将与文档的其余部分一起提取。 这可能是有问题的,因为它会产生无用的文本部分,看起来乱码(例如,大量的数字拼凑在一起)。 我正在寻找一些更先进的东西。 我想从PDF文档中提取文本, 不包括任何表格和特殊的格式。 有没有这样的图书馆? 还是我不得不在输出文本上做一些后处理来摆脱这些部分?

什么是上下文无关语法?

有人可以向我解释一个上下文无关的语法是什么? 看过维基百科条目,然后看维基百科的正式语法条目之后,我完全置之不理。 有人会这么好解释这些东西是什么? 我想知道这一点,因为我希望调查parsing,并在一边,正则expression式引擎的限制。 我不确定这些术语是直接编程相关的,还是与语言学有关。 如果是这样的话,我很抱歉,如果是这样的话,也许这可能会被移动?

在URL中有多个问号是否有效?

我今天遇到以下URL: http://www.sfgate.com/cgi-bin/blogs/inmarin/detail??blogid=122&entry_id=64497 注意查询string开头的加号问号: ??blogid=122&entry_id=64497 我的浏览器似乎没有任何问题,并运行一个小书签: javascript:alert(document.location.search); 只是给了我上面显示的查询string。 这是一个有效的url? 我这么迂腐的原因(假设我是)是因为我需要为查询参数parsing这样的URL,并且支持加倍的问号将需要对我的代码进行一些更改。 显然,如果他们在野外,我需要支持他们。 我主要是好奇的,如果这是我的错误不完全遵守的URL标准,或者如果它实际上是一个非标准的URL。

C ++有哪些参数parsing器库?

我想以下列方式将parameter passing给我的C ++程序: ./myprog –setting=value 有什么图书馆能帮我轻松做到吗? 另请参见C和Unix的参数parsing助手

std :: lexical_cast – 有这样的事情吗?

C ++标准库是否定义了这个函数,还是必须求助于Boost? 我search了网页,除了Boost之外找不到任何东西,但我想我最好在这里问一下。

使用Joda Date&Time API分析多种格式

我使用Jodaparsing包含date/时间的第三方日志文件。 date/时间是两种不同格式之一,具体取决于我正在parsing的日志文件的年龄。 目前我有这样的代码: try { return DateTimeFormat.forPattern("yyyy/MM/dd HH:mm:ss").parseDateTime(datePart); } catch (IllegalArgumentException e) { return DateTimeFormat.forPattern("E, MMM dd, yyyy HH:mm").parseDateTime(datePart); } 这是有效的,但是违反了Joshua Bloch对Effective Java 2nd Edition的build议(Item 57:仅在特殊情况下使用exception)。 这也使得很难确定是否由于日志文件中的date/时间错误而导致发生IllegalArgumentException。 你能提出一个更好的方法,不会滥用例外吗?

如何从ArrayList中创build逗号分隔的string?

我将Ids的ArrayList存储在一个处理脚本中,我想将其作为逗号分隔列表吐出,以便输出到debugging日志。 有没有办法,我可以很容易得到这个没有循环的事情? 编辑:感谢Joel指出在.net 2.0及更高版本中可用的列表(T)。 如果你有它可以使事情变得更容易。

MySQL在ORDER BY中获得行位置

用下面的MySQL表格: +—————————–+ + id INT UNSIGNED + + name VARCHAR(100) + +—————————–+ 如何在按name ASCsorting时,如何select单个行及其在表中其他行之间的位置。 所以如果表格数据看起来像这样,按名称sorting: +—————————–+ + id | name + +—————————–+ + 5 | Alpha + + 7 | Beta + + 3 | Delta + + ….. + + 1 | Zed + +—————————–+ 我怎么能select得到该行当前位置的Beta行? 我正在寻找的结果集是这样的: +—————————–+ + id | position | name […]

YAMLparsing和Python?

将YAML文件parsing为Python对象的最佳方法是什么? 例如,这个YAML: Person: name: XYZ 到这个Python类: class Person(yaml.YAMLObject): yaml_tag = 'Person' def __init__(self, name): self.name = name 顺便说一句,我正在使用PyYAML。

如何强制引进新加坡时如何避免警告

我通常更喜欢编码R,所以我不会得到警告,但我不知道如何避免使用as.numeric转换字符向量时发出警告。 例如: x <- as.numeric(c("1", "2", "X")) 会给我一个警告,因为它通过胁迫引入新加坡。 我希望通过强制手段引入新来的人 – 有没有办法告诉它“是这就是我想要做的事”。 或者我应该忍受这个警告? 或者我应该为这个任务使用不同的function?