Tag: 时间系列

将大量的有序时间序列数据存储在bigtable衍生物中: 我试图弄清楚这些新的数据存储如bigtable，hbase和cassandra究竟是什么。我使用大量的股票市场数据，数十亿行价格/报价数据，每天可以增加100亿字节（尽pipe这些文本文件通常压缩至less一个数量级）。这个数据基本上是一些数字，两个或三个短的string和时间戳（通常是毫秒级）。如果必须为每一行select一个唯一的标识符，我将不得不select整行（因为交换可能会在同一个毫秒内为同一个符号生成多个值）。我想将这个数据映射到bigtable的最简单方法是使用符号名称和date（这可能会返回一个非常大的时间序列，超过百万个数据点并不是闻所未闻的）。从阅读他们的描述，看起来像这些系统可以使用多个键。我还假设十进制数不是键的好select。其中一些系统（例如Cassandra）声称能够进行范围查询。在某一天的上午11点到下午1点半之间，我能否有效地查询MSFT的所有值？如果我想要search给定date的所有符号，并请求价格介于10美元和10.25美元之间的所有符号（所以我正在search这些值，并希望返回结果键）？如果我想得到两个系列，从另一个减去一个系列，并返回两个系列及其结果，我是否必须在自己的程序中执行他的逻辑？阅读相关论文似乎表明，这些系统不适合大量的时间序列系统。但是，如果谷歌地图这样的系统是基于他们的，我认为时间序列也应该起作用。例如，将时间视为x轴，将价格视为y轴，将符号视为指定位置 – 突然间，它看起来像bigtable应该是时间序列的理想存储区（如果整个地球可以存储，检索，放大和注释，股市数据应该是微不足道的）。有些专家可以指导我正确的方向，或者澄清任何误解。谢谢

R向量/dataframe中的基本滞后: 很可能会暴露我是R的新手，但在SPSS中，运行时滞很容易。显然这是用户错误，但我失踪了？ x <- sample(c(1:9), 10, replace = T) y <- lag(x, 1) ds <- cbind(x, y) ds 结果是： xy [1,] 4 4 [2,] 6 6 [3,] 3 3 [4,] 4 4 [5,] 3 3 [6,] 5 5 [7,] 8 8 [8,] 9 9 [9,] 3 3 [10,] 7 7 我想我会看到： xy [1,] 4 [2,] […]

如何使用NumPy来计算移动平均线？: 似乎没有任何function简单地计算numpy / scipy上的移动平均值，导致了复杂的解决scheme 。我的问题是双重的：（正确）用numpy实现移动平均线的最简单方法是什么？由于这似乎不平凡和容易出错，是否有一个很好的理由不包括在这种情况下的电池？