Tag: parsing

错误：XML内容似乎不是XML | R 3.1.0: 我想获得这个XML文件，但我无法。我检查了同一主题中的其他解决scheme，但我无法理解。我是一个R新手。 > library(XML) > fileURL <- "https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Frestaurants.xml" > doc <- xmlTreeParse(fileURL,useInternal=TRUE) 错误：XML内容似乎不是XML：' https : //d396qusza40orc.cloudfront.net/getdata%2Fdata%2Frestaurants.xml ' 你能帮忙吗？

在特殊字符之后从string获取值: 我如何修剪并获得隐藏字段中特殊字符后的值隐藏字段值是这样的码 <input type=-"hidden" val="/TEST/Name?3" 我如何得到jquery中的“问号”符号后的值？

你如何parsing一个在Ruby中的URL来获得主域名？: 我想能够parsing任何url与ruby获得域的主要部分没有www （只是XXXX.com）

词法分析器和分析器之间的通信: 每次我写一个简单的词法分析器，我都会碰到同样的问题：词法分析器和parsing器应该如何交stream？我看到了四种不同的方法：词法分析器急切地将整个inputstring转换为一个标记向量。一旦完成，vector被送到parsing器，parsing器将其转换成树。这是迄今为止最简单的解决scheme，但是由于所有的令牌都存储在内存中，所以浪费了大量的空间。词法分析器每次find一个标记时，都会在parsing器上调用一个函数，传递当前的标记。根据我的经验，这只有在parsing器可以像LALRparsing器那样自然地被实现为状态机时才有效。相比之下，我认为它不会用于recursion下降parsing器。每一次parsing器都需要一个标记，它会要求词法分析器进行下一个标记。由于yield关键字，这在C＃中很容易实现，但在C ++中很难实现。词法分析器和parsing器通过asynchronous队列进行通信。这在“生产者/消费者”的标题下是众所周知的，它应该简化词法分析器和parsing器之间的通信。它是否也超越了其他多核解决scheme？还是太轻松了？我的分析是否正确？有没有其他的方法我没有想到？在实际编译器中使用什么？如果像Eric Lippert这样的编译器作者能够解释这个问题，这将是非常酷的。

while（true）的独特重载分辨率: 当遇到这种奇怪的情况时，我正在实现同步/asynchronous重载：当我有一个没有参数或返回值的常规lambdaexpression式时，它会通过Action参数进入Run重载，这是可预测的。但是，当lambda有一段while (true)在它使用Func参数进入重载。 public void Test() { Run(() => { var name = "bar"; }); Run(() => { while (true) ; }); } void Run(Action action) { Console.WriteLine("action"); } void Run(Func<Task> func) // Same behavior with Func<T> of any type. { Console.WriteLine("func"); } 输出：行动 FUNC 那么，怎么可能呢？是有原因的吗？

如何加速读取多个文件并将数据放入数据框？: 我有一些文本文件，比如50，我需要读入一个巨大的数据框。目前，我正在使用以下步骤。阅读每个文件，并检查标签是什么。我需要的信息通常包含在前几行中。相同的标签只是为文件的其余部分重复，每次都列出不同types的数据。用这些标签创build一个数据框。再次读取文件并填充dataframe。将该dataframe与主dataframe连接起来。对于文件大小为100 KB的文件来说，这种方法非常有效 – 几分钟，但在50 MB的文件中，只需要几个小时，而且不实用。我如何优化我的代码？尤其是 – 我怎样才能确定哪些function花费最多的时间，我需要优化？这是文件的阅读吗？是写入数据框吗？我的课程在哪里花费时间？我应该考虑multithreading还是多处理？我可以改进algorithm吗？也许读一个列表中的整个文件，而不是一行一行，以块/整个文件parsing数据，而不是逐行parsing，将数据以块/一次分配给dataframe，而不是逐行分配。还有什么我可以做，让我的代码执行更快？这是一个示例代码。我自己的代码稍微复杂一些，因为文本文件比较复杂，所以我必须使用大约10个正则expression式和多个while循环来读取数据并将其分配到正确的数组中。为了保持MWE简单，我还没有在MWE的input文件中使用重复标签，所以它会让我无故读取文件两次。我希望这是有道理的！ import re import pandas as pd df = pd.DataFrame() paths = ["../gitignore/test1.txt", "../gitignore/test2.txt"] reg_ex = re.compile('^(.+) (.+)\n') # read all files to determine what indices […]

Visual Studio C ++编译器怪异的行为: 我只是好奇，知道为什么这个小块的代码在Visual Studio中编译正确（没有警告）。也许GCC和Clang的结果是一样的，但不幸的是我现在无法testing它们。 struct T { int t; T() : t(0) {} }; int main() { T(i_do_not_exist); return 0; }

在R脚本中parsing命令行参数: 有没有方便的方法来自动分析传递给R脚本的命令行参数？就像perl的Getopt::Long ？

对NSManagedObject属性值进行NSNull处理: 我为我的NSManagedObject属性设置值，这些值来自NSDictionary正确序列化从JSON文件。我的问题是，当某些值是[NSNull null] ，我不能直接分配给属性： fight.winnerID = [dict objectForKey:@"winner"]; 这将抛出一个NSInvalidArgumentException "winnerID"; desired type = NSString; given type = NSNull; value = <null>; 我可以很容易地检查[NSNull null]的值，并分配nil ： fight.winnerID = [dict objectForKey:@"winner"] == [NSNull null] ? nil : [dict objectForKey:@"winner"]; 但是我认为这不是很高雅，而且有很多属性需要设置。而且，当处理NSNumber属性时，这变得更加困难： fight.round = [NSNumber numberWithUnsignedInteger:[[dict valueForKey:@"round"] unsignedIntegerValue]] NSInvalidArgumentException现在是： [NSNull unsignedIntegerValue]: unrecognized selector sent to instance 在这种情况下，我必须先处理[dict valueForKey:@"round"]然后再创build它的NSUInteger值。而一线解决scheme不见了。 […]

如何在窗口上安装python 2.7美丽的汤4: 我有Python 2.7的Windows Vista。我想安装BeautifulSoup 4，但显然我不能通过将文件复制到site-packages目录来安装Beautiful Soup。我必须安装pip，然后从命令提示符运行一些命令。你能一步一步引导我吗？我真的是一个小菜，所以使它非常简单。提前致谢