Tag: parsing

错误:XML内容似乎不是XML | R 3.1.0

我想获得这个XML文件,但我无法。 我检查了同一主题中的其他解决scheme,但我无法理解。 我是一个R新手。 > library(XML) > fileURL <- "https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Frestaurants.xml" > doc <- xmlTreeParse(fileURL,useInternal=TRUE) 错误:XML内容似乎不是XML:' https : //d396qusza40orc.cloudfront.net/getdata%2Fdata%2Frestaurants.xml ' 你能帮忙吗?

在特殊字符之后从string获取值

我如何修剪并获得隐藏字段中特殊字符后的值隐藏字段值是这样的 码 <input type=-"hidden" val="/TEST/Name?3" 我如何得到jquery中的“问号”符号后的值?

你如何parsing一个在Ruby中的URL来获得主域名?

我想能够parsing任何url与ruby获得域的主要部分没有www (只是XXXX.com)

词法分析器和分析器之间的通信

每次我写一个简单的词法分析器,我都会碰到同样的问题:词法分析器和parsing器应该如何交stream? 我看到了四种不同的方法: 词法分析器急切地将整个inputstring转换为一个标记向量。 一旦完成,vector被送到parsing器,parsing器将其转换成树。 这是迄今为止最简单的解决scheme,但是由于所有的令牌都存储在内存中,所以浪费了大量的空间。 词法分析器每次find一个标记时,都会在parsing器上调用一个函数,传递当前的标记。 根据我的经验,这只有在parsing器可以像LALRparsing器那样自然地被实现为状态机时才有效。 相比之下,我认为它不会用于recursion下降parsing器。 每一次parsing器都需要一个标记,它会要求词法分析器进行下一个标记。 由于yield关键字,这在C#中很容易实现,但在C ++中很难实现。 词法分析器和parsing器通过asynchronous队列进行通信。 这在“生产者/消费者”的标题下是众所周知的,它应该简化词法分析器和parsing器之间的通信。 它是否也超越了其他多核解决scheme? 还是太轻松了? 我的分析是否正确? 有没有其他的方法我没有想到? 在实际编译器中使用什么? 如果像Eric Lippert这样的编译器作者能够解释这个问题,这将是非常酷的。

while(true)的独特重载分辨率

当遇到这种奇怪的情况时,我正在实现同步/asynchronous重载: 当我有一个没有参数或返回值的常规lambdaexpression式时,它会通过Action参数进入Run重载,这是可预测的。 但是,当lambda有一段while (true)在它使用Func参数进入重载。 public void Test() { Run(() => { var name = "bar"; }); Run(() => { while (true) ; }); } void Run(Action action) { Console.WriteLine("action"); } void Run(Func<Task> func) // Same behavior with Func<T> of any type. { Console.WriteLine("func"); } 输出: 行动 FUNC 那么,怎么可能呢? 是有原因的吗?

如何加速读取多个文件并将数据放入数据框?

我有一些文本文件,比如50,我需要读入一个巨大的数据框。 目前,我正在使用以下步骤。 阅读每个文件,并检查标签是什么。 我需要的信息通常包含在前几行中。 相同的标签只是为文件的其余部分重复,每次都列出不同types的数据。 用这些标签创build一个数据框。 再次读取文件并填充dataframe。 将该dataframe与主dataframe连接起来。 对于文件大小为100 KB的文件来说,这种方法非常有效 – 几分钟,但在50 MB的文件中,只需要几个小时,而且不实用。 我如何优化我的代码? 尤其是 – 我怎样才能确定哪些function花费最多的时间,我需要优化? 这是文件的阅读吗? 是写入数据框吗? 我的课程在哪里花费时间? 我应该考虑multithreading还是多处理? 我可以改进algorithm吗? 也许读一个列表中的整个文件,而不是一行一行, 以块/整个文件parsing数据,而不是逐行parsing, 将数据以块/一次分配给dataframe,而不是逐行分配。 还有什么我可以做,让我的代码执行更快? 这是一个示例代码。 我自己的代码稍微复杂一些,因为文本文件比较复杂,所以我必须使用大约10个正则expression式和多个while循环来读取数据并将其分配到正确的数组中。 为了保持MWE简单,我还没有在MWE的input文件中使用重复标签,所以它会让我无故读取文件两次。 我希望这是有道理的! import re import pandas as pd df = pd.DataFrame() paths = ["../gitignore/test1.txt", "../gitignore/test2.txt"] reg_ex = re.compile('^(.+) (.+)\n') # read all files to determine what indices […]

Visual Studio C ++编译器怪异的行为

我只是好奇,知道为什么这个小块的代码在Visual Studio中编译正确(没有警告)。 也许GCC和Clang的结果是一样的,但不幸的是我现在无法testing它们。 struct T { int t; T() : t(0) {} }; int main() { T(i_do_not_exist); return 0; }

在R脚本中parsing命令行参数

有没有方便的方法来自动分析传递给R脚本的命令行参数? 就像perl的Getopt::Long ?

对NSManagedObject属性值进行NSNull处理

我为我的NSManagedObject属性设置值,这些值来自NSDictionary正确序列化从JSON文件。 我的问题是,当某些值是[NSNull null] ,我不能直接分配给属性: fight.winnerID = [dict objectForKey:@"winner"]; 这将抛出一个NSInvalidArgumentException "winnerID"; desired type = NSString; given type = NSNull; value = <null>; 我可以很容易地检查[NSNull null]的值,并分配nil : fight.winnerID = [dict objectForKey:@"winner"] == [NSNull null] ? nil : [dict objectForKey:@"winner"]; 但是我认为这不是很高雅,而且有很多属性需要设置。 而且,当处理NSNumber属性时,这变得更加困难: fight.round = [NSNumber numberWithUnsignedInteger:[[dict valueForKey:@"round"] unsignedIntegerValue]] NSInvalidArgumentException现在是: [NSNull unsignedIntegerValue]: unrecognized selector sent to instance 在这种情况下,我必须先处理[dict valueForKey:@"round"]然后再创build它的NSUInteger值。 而一线解决scheme不见了。 […]

如何在窗口上安装python 2.7美丽的汤4

我有Python 2.7的Windows Vista。 我想安装BeautifulSoup 4,但显然我不能通过将文件复制到site-packages目录来安装Beautiful Soup。 我必须安装pip,然后从命令提示符运行一些命令。 你能一步一步引导我吗? 我真的是一个小菜,所以使它非常简单。 提前致谢