Tag: 数据分析

R和SPSS的区别

我将在短期内分析大量的networkingstream量相关数据,并对数据进行预处理以分析。 我发现R和SPSS是最stream行的统计分析工具。 我也会生成相当多的图表和图表。 因此,我想知道这两个软件的基本区别是什么。 我不是问哪一个更好,而只是想知道两者之间的工作stream程有什么不同(除了SPSS有一个GUI)。 无论如何,我将主要使用脚本,所以我想知道其他的区别。

绘制pandas集团的结果

我开始学习pandas,并试图find最艰难的(或pandasthonic?)方式来完成某些任务。 假设我们有一个DataFrame,列A,B和C. 列A包含布尔值:每行的A值为true或false。 B列有一些我们想要绘制的重要值。 我们想要发现的是,将A设置为false的行的B值之间的细微差别与具有A的行的B值是正确的。 换句话说, 我怎样才能根据列A的值(true或false)进行分组,然后在同一个图上绘制两个组的列B的值? 这两个数据集应该有不同的颜色,以便能够区分这些点。 接下来,让我们给这个程序增加一个特性:在绘图之前,我们要为每一行计算另一个值并将其存储在D列中。这个值是logging之前整个五分钟内存储在B中的所有数据的平均值 – 但我们只包含存储在A中的具有相同布尔值的行 换句话说, 如果我有一行,其中A=True , time=t ,我想计算D列的值,它是从时间t-5到t所有logging的B的均值,它们具有相同的A=True 。 在这种情况下,我们怎样才能在A的值上执行groupby,然后将这个计算应用到每个单独的组,然后绘制这两个组的D值?

如何在pythonpandas中将数据框sorting为两列或更多列?

假设我有一个数据框与列ab&c,我想sortingdataframe列b按升序和列c降序,我该怎么做?

实时时间序列数据中的峰值信号检测

更新: 到目前为止performance最好的algorithm就是这个 。 这个问题探讨了用于检测实时时间序列数据中突发峰值的强大algorithm。 考虑以下数据集: p = [1 1 1.1 1 0.9 1 1 1.1 1 0.9 1 1.1 1 1 0.9 1 1 1.1 1 1 1 1 1.1 0.9 1 1.1 1 1 0.9 1, … 1.1 1 1 1.1 1 0.8 0.9 1 1.2 0.9 1 1 1.1 1.2 1 1.5 1 […]

为什么一个热门编码可以提高机器学习性能?

我注意到,当一个热门编码被用在一个特定的数据集(一个matrix)上,并用作学习algorithm的训练数据时,与使用原始matrix本身作为训练数据相比,它在预测准确性方面显示了更好的结果。 这种性能如何增长?

我如何滞后MySQL的列?

考虑下表: SELECT id, value FROM table ORDER BY id ASC; +—–+———+ | id | value | +—–+———+ | 12 | 158 | | 15 | 346 | | 27 | 334 | | 84 | 378 | | 85 | 546 | +—–+———+ id列是自动递增的,但包含间隙。 value列是数字。 我想通过设置与上面两行的value有关的value来看看随着时间的推移value的增加。 这是为行id=85我想设置行id=85 (546)的value对于行id=27 (334)的值。 行id=85计算值是546/334 = 1.63473。 这是我想要达到的结果: SELECT id, […]

将多项式模型拟合到R中的数据

我已经阅读了这个问题的答案,他们相当有帮助,但是我特别需要R的帮助。 我在R中有一个示例数据集,如下所示: x <- c(32,64,96,118,126,144,152.5,158) y <- c(99.5,104.8,108.5,100,86,64,35.3,15) 我想为这些数据拟合一个模型,使得y = f(x) 。 我希望它是一个三阶多项式模型。 我怎样才能在R? 另外,R可以帮我find最合适的模型吗?