Tag: 统计

matplotlib箱形图：标记和exception值: 我有一些关于matplotlib中的boxlot的问题：问题A 我在Q1 ， Q2和Q3中突出显示的标记是什么？我相信Q1是最大的， Q3是exception值，但Q2是什么？问题B ：matplotlib如何识别exception值？（即它是如何知道它们不是真正的max和min ？）

R和SPSS的区别: 我将在短期内分析大量的networkingstream量相关数据，并对数据进行预处理以分析。我发现R和SPSS是最stream行的统计分析工具。我也会生成相当多的图表和图表。因此，我想知道这两个软件的基本区别是什么。我不是问哪一个更好，而只是想知道两者之间的工作stream程有什么不同（除了SPSS有一个GUI）。无论如何，我将主要使用脚本，所以我想知道其他的区别。

Pandas中的T-testing（Python）: 如果我想计算pandas的两个类别的平均值，我可以这样做： data = {'Category': ['cat2','cat1','cat2','cat1','cat2','cat1','cat2','cat1','cat1','cat1','cat2'], 'values': [1,2,3,1,2,3,1,2,3,5,1]} my_data = DataFrame(data) my_data.groupby('Category').mean() Category: values: cat1 2.666667 cat2 1.600000 我有很多这样格式化的数据，现在我需要做一个T -test来看看cat1和cat2的平均值是否有统计学差异。我怎样才能做到这一点？

计算所有值的总和超过双倍限制的平均值是一个很好的解决scheme？: 我有一个要求来计算一个非常大的双打（10 ^ 9值）的平均值。这些值的总和超过了双倍的上限，所以有人知道计算平均值的任何巧妙的小技巧，也不需要计算总和？我正在使用Java 1.5。

单variables最小二乘回归中多重R平方和调整R平方有什么区别？: 难道有人可以向统计学家解释Multiple R-squared和Adjusted R-squared之间的区别是什么？我正在做一个单variables回归分析如下： v.lm <- lm(epm ~ n_days, data=v) print(summary(v.lm)) 结果： Call: lm(formula = epm ~ n_days, data = v) Residuals: Min 1Q Median 3Q Max -693.59 -325.79 53.34 302.46 964.95 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2550.39 92.15 27.677 <2e-16 *** n_days -13.12 5.39 -2.433 0.0216 * — Signif. codes: 0 […]

如何获得GitHub克隆统计信息？: 在GitHub的“Stats＆Graphs”选项卡中，曾经有一个“克隆”子选项卡（例如https://github.com/TeamMentor/TeamMentor-Documentation/graphs/impact ），但是没有了。有没有另外一种方法来获得这些统计数据？如果我们能让Gauges显示Git clone，push，pull，GitHub的页面浏览量，那将是非常好的。

在Python Scipy中的双样本Kolmogorov-Smirnovtesting: 我无法弄清楚如何在Scipy中进行双样本KStesting。在阅读文档scipy kstest之后我可以看到如何testing分布与标准正态分布相同的情况 from scipy.stats import kstest import numpy as np x = np.random.normal(0,1,1000) test_stat = kstest(x, 'norm') #>>> test_stat #(0.021080234718821145, 0.76584491300591395) 这意味着在p值为0.76时，我们不能拒绝两个分布相同的零假设。然而，我想比较两个分布，看看我是否可以拒绝零假设，他们是相同的，如： from scipy.stats import kstest import numpy as np x = np.random.normal(0,1,1000) z = np.random.normal(1.1,0.9, 1000) 并testingx和z是否相同我试过这个天真的人： test_stat = kstest(x, z) 并得到以下错误： TypeError: 'numpy.ndarray' object is not callable 有没有办法在Python中做两样本KStesting？如果是的话，我该怎么做呢？ […]

最简单的工具来衡量C程序caching命中/未命中和CPU时间在Linux？: 我正在用C编写一个小程序，我想测量它的性能。我想看看它在处理器中运行了多less时间，以及有多lesscaching命中+未命中。有关上下文切换和内存使用情况的信息也不错。该程序不到一秒钟执行。我喜欢/ proc / [pid] / stat的信息，但是在程序死亡/死亡后我不知道如何看到它。有任何想法吗？编辑：我认为Valgrind增加了很多开销。这就是为什么我想要一个简单的工具，像/ proc / [pid] / stat，总是在那里。

一维观测数据中exception值检测的Pythonic方法: 对于给定的数据，我想设置离群值（由95％confidense级别或95％分位数函数或任何需要的东西）定义为nan值。以下是我现在使用的数据和代码。如果有人能够进一步解释我，我会很高兴。 import numpy as np, matplotlib.pyplot as plt data = np.random.rand(1000)+5.0 plt.plot(data) plt.xlabel('observation number') plt.ylabel('recorded value') plt.show()