Tag: 统计

N组合

有一种直接的方法来获得nCr所有组合的有序集合的第N个组合吗? 例如:我有四个元素:[6,4,2,1]。 所有可能的组合,一次取三个:[[6,4,2],[6,4,1],[6,2,1],[4,2,1]]。 有没有一个algorithm,可以给我例如第三个答案,[6,2,1],在有序的结果集,没有列举所有以前的答案?

将多项式拟合到数据

给定一组值(x,f(x))是否有办法find最适合数据的给定度的多项式? 我知道多项式插值法 ,它用于在给定n+1数据点的情况下find度为n的多项式,但这里有大量的值,我们想要find一个低阶多项式(find最佳线性拟合,最好二次,最好立方等)。 这可能与最小二乘有关 更一般地说,当我们有一个多元函数 – 像(x,y,f(x,y))这样的点,并且想要find最好的多项式( p(x,y) )在variables中给定的程度。 (具体来说是一个多项式,而不是样条或傅立叶级数。) 理论和代码/库(最好在Python中,但任何语言都可以)将是有用的。

如何从数据集中删除exception值

我有一些美丽与年龄的多元数据。 年龄在20-40之间,间隔为2(20,22,24 …. 40),并且对于每个logging的数据,给予1-5岁的年龄和美容等级。 当我做这些数据(年龄横跨X轴,Y轴上的美女等级)的箱型图时,每个盒子的胡须外面都绘制了一些exception值。 我想从数据框本身中删除这些exception值,但是我不确定R如何计算它的盒子图中的exception值。 以下是我的数据可能看起来像的一个例子。

如何让执行暂停,睡觉,等待R秒X秒?

如何暂停R脚本达到指定的秒数或毫秒数? 在很多语言中,都有一个sleep函数,但?sleep引用一个数据集。 而?pause和?wait不存在。 预期的目的是用于自定时animation。 所需的解决scheme工作,而不要求用户input。

scipy.stats中的所有可用分布是什么样的?

可视化scipy.stats分布 直方图可以由scipy.stats正态随机variables组成 ,看看分布是什么样的。 % matplotlib inline import pandas as pd import scipy.stats as stats d = stats.norm() rv = d.rvs(100000) pd.Series(rv).hist(bins=32, normed=True) 其他分布是什么样的?

估计统计中位数,模式,偏度,峰度的“在线”(迭代器)algorithm?

是否有algorithm来估计一组值的中位数,模式,偏度和/或峰度,但不要求将所有的值一次存储在内存中? 我想计算一下基本的统计数据: 意思是:算术平均值 方差:平均偏差的平均值 标准偏差:方差的平方根 中值:将较大一半的数字与较小的一半分开的值 模式:在集合中find的最频繁的值 偏度:tl; 博士 峰度:tl; 博士 计算任何这些的基本公式是小学算术,我知道他们。 有很多统计库也可以实现它们。 我的问题是我正在处理的集合中有大量数值(数十亿):使用Python,我不能仅仅制作一个包含数十亿个元素的列表或哈希值。 即使我用C语言写这个,十亿个元素的数组也不太实际。 数据没有sorting。 它是由其他进程随机,随机产生的。 每一套的大小是非常可变的,大小不会事先知道。 我已经知道如何很好地处理均值和方差,以任何顺序遍历集合中的每个值。 (实际上,就我而言,我将它们按照生成顺序排列)。下面是我正在使用的algorithm, http : //en.wikipedia.org/wiki/Algorithms_for_calculating_variance#On-line_algorithm : 初始化三个variables:count,sum和sum_of_squares 对于每个值: 增量计数。 将该值添加到总和。 将值的平方加到sum_of_squares。 除数和存储为variables的意思。 按count计算sum_of_squares,作为variablesmean_of_squares存储。 正方形的意思是,存储为square_of_mean。 从mean_of_squares减去square_of_mean,作为方差存储。 产出均值和方差。 这种“在线”algorithm存在缺陷(例如,由于sum_of_squares快速增长大于整数范围或浮点精度),但基本上给了我所需要的,而不必在每个集合中存储每个值。 但我不知道是否有类似的技术来估计额外的统计数据(中位数,模式,偏度,峰度)。 只要处理N值所需的内存大大小于O(N),我就可以忍受一个有偏差的估计器,甚至是一个在一定程度上降低精度的方法。 如果图书馆具有计算一个或多个“联机”操作的function,指向现有的统计图书馆也将有所帮助。

在geom_boxplot中更改胡须定义

我试图用ggplot2 / geom_boxplot来产生一个boxplot,其中晶须被定义为第5和第95百分位数,而不是0.25 – 1.5 IQR / 0.75 + IQR,并且像往常一样绘制这些新晶须的exception值。 我可以看到,geom_boxplot美学包括ymax / ymin,但我不清楚我是如何把价值在这里。 这好像是: stat_quantile(quantiles = c(0.05, 0.25, 0.5, 0.75, 0.95)) 应该能够提供帮助,但是我不知道如何将这个统计的结果关联起来以设置合适的geom_boxplot()美学: geom_boxplot(aes(ymin, lower, middle, upper, ymax)) 我曾经看过其他的post,其中提到的人物本质上是手工build造一个类似箱子的物体,但是我宁愿保留整个箱体的形态,只是修改其中两个variables的含义。

添加误差线以在R中的图上显示标准偏差

对于每个X值,我计算了每个Y值的平均Y值和标准偏差( sd ) x = 1:5 y = c(1.1, 1.5, 2.9, 3.8, 5.2) sd = c(0.1, 0.3, 0.2, 0.2, 0.4) plot (x, y) 我如何使用标准偏差来为我的图的每个数据点添加误差线?

C中的滚动中值algorithm

我目前正在研究一种algorithm来实现C中滚动中值滤波器(类似于滚动平均滤波器)。从我的文献search中,似乎有两种合理有效的方法来实现它。 首先是对初始值窗口进行sorting,然后执行二进制search以插入新值,并在每次迭代中删除现有值。 第二个(来自Hardle和Steiger,1995,JRSS-C,algorithm296)构build了一个双头堆结构,一头是maxheap,另一头是minheap,中间是中间的。 这产生一个线性时间algorithm,而不是O(n log n)。 这是我的问题:执行前者是可行的,但是我需要在数百万个时间序列上运行这个,所以效率非常重要。 后者certificate很难实施。 我在R的stats包的代码的Trunmed.c文件中发现了代码,但这是相当难以理解的。 有没有人知道线性时间滚动中值algorithm的一个精心编写的C实现? 编辑:链接到Trunmed.c代码http://google.com/codesearch/p?hl=zh-CN&sa=N&cd=1&ct=rc#mYw3h_Lb_e0/R-2.2.0/src/library/stats/src/Trunmed.c

宇宙射线:他们将会影响一个节目的概率是多less?

我又一次在devise审查中,遇到了一个主张,即一个特定情景的概率是“低于宇宙射线的风险”,影响到了这个节目,而且我想到我并没有最清楚的想法是什么概率是。 “由于2 -128是340282366920938463463374607431768211456中的1,所以我认为我们有机会在这里抓住我们的机会,即使这些计算结果是几十亿的因数……我们对于宇宙射线的风险更大把我们搞砸了,我相信。 这个程序员是正确的吗? 宇宙射线撞击电脑并影响程序执行的可能性是什么?