Tag: 日志文件分析

我怎么知道R中的数据集将会过大?

我将在R中进行一些日志文件分析(除非我不能在R中完成),并且我知道我的数据需要适合RAM(除非我使用某种types的修补程序,比如keyval存储的接口,也许?)。 所以我想知道如何提前告诉我的数据将在RAM中占用多less空间,以及我是否有足够的空间。 我知道我有多less内存(不是很多,在XP下是3GB),而且我知道我的日志文件最终会有多less行和多less列,以及列条目应该是什么数据types(这大概需要检查它读取)。 我如何将这些结合起来,作为在R中进行分析的go / nogo决定? (据推测,R需要能够有一些RAM来做操作,以及保存数据!)我的直接要求的输出是一堆简单的总结统计,频率,意外事件等,所以我可以写一些parsing器/制表符,这将给我输出我需要的短期,但我也想玩很多不同的方法来作为下一步这个数据,所以我看着使用R的可行性。 我已经看到了很多有关R中大数据集的有用build议,我已经阅读并将重读,但是现在我想更好地理解如何去(a)是否应该去(b)去但希望不得不做一些额外的东西,使其易于pipe理,或(c)在太晚之前跑掉,并在其他语言/环境中做某些事情(build议欢迎…!)。 谢谢!

在Node.js中parsing巨大的日志文件 – 逐行读取

我需要在Javascript / Node.js(我正在使用多维数据集)parsing大型(5-10 Gb)日志文件。 logline看起来像这样: 10:00:43.343423 I'm a friendly log message. There are 5 cats, and 7 dogs. We are in state "SUCCESS". 我们需要读取每一行,做一些parsing(例如,删除7和SUCCESS ),然后使用他们的JS客户端将这些数据抽取到Cube( https://github.com/square/cube )中。 首先,Node中的规范方法是逐行读入文件? 这似乎是相当普遍的问题在线: http://www.quora.com/What-is-the-best-way-to-read-a-file-line-by-line-in-node-js 在node.js中一次读取一行文件? 很多答案似乎指向了一堆第三方模块: https://github.com/nickewing/line-reader https://github.com/jahewson/node-byline https://github.com/pkrumins/node-lazy https://github.com/Gagle/Node-BufferedReader 但是,这似乎是一个相当基本的任务 – 当然,stdlib中有一个简单的方法来逐行读取文本文件? 其次,我需要处理每一行(例如将时间戳转换为Date对象,并提取有用的字段)。 什么是最好的方式来做到这一点,最大限度地提高吞吐量? 是否有某种方法不会在每行中读取或者将其发送到Cube? 第三 – 我猜测使用string拆分,包含(IndexOf!= -1?)的JS等价物将比正则expression式快很多? 有没有人在Node.js中parsing大量的文本数据有很多经验? 干杯,维克多