Tag: 数据分析

R和SPSS的区别: 我将在短期内分析大量的networkingstream量相关数据，并对数据进行预处理以分析。我发现R和SPSS是最stream行的统计分析工具。我也会生成相当多的图表和图表。因此，我想知道这两个软件的基本区别是什么。我不是问哪一个更好，而只是想知道两者之间的工作stream程有什么不同（除了SPSS有一个GUI）。无论如何，我将主要使用脚本，所以我想知道其他的区别。

绘制pandas集团的结果: 我开始学习pandas，并试图find最艰难的（或pandasthonic？）方式来完成某些任务。假设我们有一个DataFrame，列A，B和C. 列A包含布尔值：每行的A值为true或false。 B列有一些我们想要绘制的重要值。我们想要发现的是，将A设置为false的行的B值之间的细微差别与具有A的行的B值是正确的。换句话说，我怎样才能根据列A的值（true或false）进行分组，然后在同一个图上绘制两个组的列B的值？这两个数据集应该有不同的颜色，以便能够区分这些点。接下来，让我们给这个程序增加一个特性：在绘图之前，我们要为每一行计算另一个值并将其存储在D列中。这个值是logging之前整个五分钟内存储在B中的所有数据的平均值 – 但我们只包含存储在A中的具有相同布尔值的行换句话说，如果我有一行，其中A=True ， time=t ，我想计算D列的值，它是从时间t-5到t所有logging的B的均值，它们具有相同的A=True 。在这种情况下，我们怎样才能在A的值上执行groupby，然后将这个计算应用到每个单独的组，然后绘制这两个组的D值？

如何在pythonpandas中将数据框sorting为两列或更多列？: 假设我有一个数据框与列ab＆c，我想sortingdataframe列b按升序和列c降序，我该怎么做？

实时时间序列数据中的峰值信号检测: 更新：到目前为止performance最好的algorithm就是这个。这个问题探讨了用于检测实时时间序列数据中突发峰值的强大algorithm。考虑以下数据集： p = [1 1 1.1 1 0.9 1 1 1.1 1 0.9 1 1.1 1 1 0.9 1 1 1.1 1 1 1 1 1.1 0.9 1 1.1 1 1 0.9 1, … 1.1 1 1 1.1 1 0.8 0.9 1 1.2 0.9 1 1 1.1 1.2 1 1.5 1 […]

为什么一个热门编码可以提高机器学习性能？: 我注意到，当一个热门编码被用在一个特定的数据集（一个matrix）上，并用作学习algorithm的训练数据时，与使用原始matrix本身作为训练数据相比，它在预测准确性方面显示了更好的结果。这种性能如何增长？

我如何滞后MySQL的列？: 考虑下表： SELECT id, value FROM table ORDER BY id ASC; +—–+———+ | id | value | +—–+———+ | 12 | 158 | | 15 | 346 | | 27 | 334 | | 84 | 378 | | 85 | 546 | +—–+———+ id列是自动递增的，但包含间隙。 value列是数字。我想通过设置与上面两行的value有关的value来看看随着时间的推移value的增加。这是为行id=85我想设置行id=85 （546）的value对于行id=27 （334）的值。行id=85计算值是546/334 = 1.63473。这是我想要达到的结果： SELECT id, […]

将多项式模型拟合到R中的数据: 我已经阅读了这个问题的答案，他们相当有帮助，但是我特别需要R的帮助。我在R中有一个示例数据集，如下所示： x <- c(32,64,96,118,126,144,152.5,158) y <- c(99.5,104.8,108.5,100,86,64,35.3,15) 我想为这些数据拟合一个模型，使得y = f(x) 。我希望它是一个三阶多项式模型。我怎样才能在R？另外，R可以帮我find最合适的模型吗？