Tag: 数据处理

如何只读select从一个文件列到R？（`read.table`和`scan`之间的快乐媒介？）: 我有一些非常大的分隔数据文件，我只想处理R中的某些列，而不需要花费时间和内存为整个文件创build一个data.frame 。我所知道的唯一select是read.table ，当我只想要几列或者scan ，这太浪费了。有没有更好的select，无论是纯R或可能呼吁其他shell脚本进行列提取，然后使用扫描或read.table输出？（这导致了如何调用shell脚本并在R中捕获其输出的问题）。

从Github读取一个CSV到R: 我正在尝试从github读取一个CSV到R： latent.growth.data <- read.csv("https://github.com/aronlindberg/latent_growth_classes/blob/master/LGC_data.csv") 但是，这给了我： Error in file(file, "rt") : cannot open the connection In addition: Warning message: In file(file, "rt") : unsupported URL scheme 我试过了?read.csv ， ?download.file ， getURL （它只返回奇怪的HTML），还有数据导入手册，但还是不明白如何使它工作。我究竟做错了什么？

大规模数据处理Hbase vs Cassandra: 在我对大型数据存储解决scheme进行研究后，我几乎登上了Cassandra。但一般来说，Hbase是更好的大规模数据处理和分析解决scheme。虽然两者都是相同的键/值存储，并且都可以运行（Cassandra最近的）Hadoop层，那么当需要在大数据上进行处理/分析时，Hadoop是一个更好的select。我也在http://ria101.wordpress.com/2010/02/24/hbase-vs-cassandra-why-we-moved/上find了关于这两方面的很好的细节。但我仍然在寻找Hbase的具体优势。虽然我对Cassandra更加确信，因为它增加了节点和无缝复制的简单性以及无故障function。而且它也保留了二级索引function，所以它是一个很好的补充。

如何以正确的方式平滑曲线？: 让我们假设我们有一个数据集，可能会给大概 import numpy as np x = np.linspace(0,2*np.pi,100) y = np.sin(x) + np.random.random(100) * 0.2 因此，我们有20％的数据集的变化。我的第一个想法是使用scipy的UnivariateSpline函数，但问题是这并没有考虑到小噪声的好处。如果考虑频率，背景比信号小得多，所以只有截止的样条可能是一个想法，但是这涉及到来回傅里叶变换，这可能导致不良行为。另一种方式是移动平均线，但这也需要正确的延迟select。任何提示/书籍或链接如何解决这个问题？