Tag: 日志文件分析

我怎么知道R中的数据集将会过大？: 我将在R中进行一些日志文件分析（除非我不能在R中完成），并且我知道我的数据需要适合RAM（除非我使用某种types的修补程序，比如keyval存储的接口，也许？）。所以我想知道如何提前告诉我的数据将在RAM中占用多less空间，以及我是否有足够的空间。我知道我有多less内存（不是很多，在XP下是3GB），而且我知道我的日志文件最终会有多less行和多less列，以及列条目应该是什么数据types（这大概需要检查它读取）。我如何将这些结合起来，作为在R中进行分析的go / nogo决定？（据推测，R需要能够有一些RAM来做操作，以及保存数据！）我的直接要求的输出是一堆简单的总结统计，频率，意外事件等，所以我可以写一些parsing器/制表符，这将给我输出我需要的短期，但我也想玩很多不同的方法来作为下一步这个数据，所以我看着使用R的可行性。我已经看到了很多有关R中大数据集的有用build议，我已经阅读并将重读，但是现在我想更好地理解如何去（a）是否应该去（b）去但希望不得不做一些额外的东西，使其易于pipe理，或（c）在太晚之前跑掉，并在其他语言/环境中做某些事情（build议欢迎…！）。谢谢！

在Node.js中parsing巨大的日志文件 – 逐行读取: 我需要在Javascript / Node.js（我正在使用多维数据集）parsing大型（5-10 Gb）日志文件。 logline看起来像这样： 10:00:43.343423 I'm a friendly log message. There are 5 cats, and 7 dogs. We are in state "SUCCESS". 我们需要读取每一行，做一些parsing（例如，删除7和SUCCESS ），然后使用他们的JS客户端将这些数据抽取到Cube（ https://github.com/square/cube ）中。首先，Node中的规范方法是逐行读入文件？这似乎是相当普遍的问题在线： http://www.quora.com/What-is-the-best-way-to-read-a-file-line-by-line-in-node-js 在node.js中一次读取一行文件？很多答案似乎指向了一堆第三方模块： https://github.com/nickewing/line-reader https://github.com/jahewson/node-byline https://github.com/pkrumins/node-lazy https://github.com/Gagle/Node-BufferedReader 但是，这似乎是一个相当基本的任务 – 当然，stdlib中有一个简单的方法来逐行读取文本文件？其次，我需要处理每一行（例如将时间戳转换为Date对象，并提取有用的字段）。什么是最好的方式来做到这一点，最大限度地提高吞吐量？是否有某种方法不会在每行中读取或者将其发送到Cube？第三 – 我猜测使用string拆分，包含（IndexOf！= -1？）的JS等价物将比正则expression式快很多？有没有人在Node.js中parsing大量的文本数据有很多经验？干杯，维克多