Tag: 统计

Python中的多重线性回归

我似乎无法find任何执行多重回归的Python库。 我发现的唯一的事情只做简单的回归。 我需要将我的因variables(y)与几个独立variables(x1,x2,x3等)进行比较。 例如,用这个数据: print 'y x1 x2 x3 x4 x5 x6 x7' for t in texts: print "{:>7.1f}{:>10.2f}{:>9.2f}{:>9.2f}{:>10.2f}{:>7.2f}{:>7.2f}{:>9.2f}" / .format(ty,t.x1,t.x2,t.x3,t.x4,t.x5,t.x6,t.x7) (输出以上:) y x1 x2 x3 x4 x5 x6 x7 -6.0 -4.95 -5.87 -0.76 14.73 4.02 0.20 0.45 -5.0 -4.55 -4.52 -0.71 13.74 4.47 0.16 0.50 -10.0 -10.96 -11.64 -0.98 15.49 4.18 0.19 0.53 -5.0 […]

PHPalgorithm从一个集合中生成一个特定大小的所有组合

我试图推导出一种algorithm,它可以生成特定大小的所有可能的组合,就像接受一个字符和大小数组作为参数的函数,并返回一个组合数组。 例子:假设我们有一组字符:Set A = {A,B,C} a)大小2的所有可能的组合:(3 ^ 2 = 9) AA, AB, AC BA, BB, BC CA, CB, CC b)尺寸3的所有可能的组合:(3 ^ 3 = 27) AAA, AAB, AAC, ABA, ABB, ACC, CAA, BAA, BAC, …. ad so on total combinations = 27 请注意,这一对尺寸可能会大于整体的尺寸。 防爆。 如果设置包含3个字符,那么我们也可以创build尺寸4的组合。 编辑 :另请注意,这是从排列不同。 在置换中,我们不能有重复的字符,例如,如果我们使用置换algorithm,AA不能来。 在统计中,它被称为抽样。

用Scipy(Python)拟合经验分布与理论分布?

简介:我有一个从0到47多于30 000个值的列表,例如[0,0,0,0,…,1,1,1,1,…,2,2,2,2, …,47等],这是连续分布。 问题:根据我的分布,我想计算任何给定值的p值(看到更大值的概率)。 例如,你可以看到0的p值接近1,较高的数值的p值趋于0。 我不知道我是否正确,但要确定概率,我认为我需要将我的数据拟合成最适合描述我的数据的理论分布。 我认为需要某种合适的testing来确定最佳的模型。 有没有办法在Python(Scipy或Numpy)中实现这样的分析? 你能介绍一下吗? 谢谢!

JavaScript禁用浏览器统计信息

我很难收集关于停用JavaScript的浏览网页的用户百分比的公开统计数据。 雅虎已经发布了2010年的数据 , R. Reid公布了2009年的数据 (从他曾经访问过的一个网站中挑选出来)。 雅虎的调查结果相当有趣: 我们将访问日志和信标数据(以前包含在页面中)组合在一起,过滤掉了所有的自动请求,给我们留下了一些我们可以确认的请求是由实际用户发送的。 这些完全匿名的数据为我们提供了几个国家stream量模式的良好指示。 在对这些数据进行分析之后,我们发现一个一致的JavaScript禁用请求徘徊在实际访问者stream量的1%左右,最高的比例在美国是大约2%,最低的是巴西的0.25%。 所有其他testing的国家的数字都非常接近1.3%。 这是关于我到目前为止所能find的。 但是,由于这个数据正在变老,我想知道今天的百分比是多less。 我还看了Statcounter ,这是似乎是唯一仍然公开发布浏览器统计信息的公司。 但是他们不发布关于JavaScript的数据。 我知道W3schools也发布统计信息 ,但是由于这个目标是针对开发者的,所以这个数据是非常有偏见的,因此对我来说并不有趣。 (它必须是普通用户的代表)。 因此,我要求你提供: 链接到任何公开的,免费提供的统计数据 您自己的统计信息,最好来自大型网站,而不针对开发人员

用于统计分析和报告撰写的工作stream程

有没有人有任何关于自定义报告写作相关的数据分析的工作stream程的智慧? 用例基本上是这样的: 客户委托使用数据分析的报告,例如水域的人口估计和相关地图。 分析人员下载一些数据,调用数据并保存结果(例如,为每个单位的人口数量添加一列,或者根据地区边界对数据进行子集)。 分析师分析(2)中创build的数据,接近她的目标,但是看到需要更多数据,因此回到(1)。 冲洗重复,直到表和graphics符合质量保证/质量控制,并满足客户。 写报告合并表和graphics。 明年,快乐的客户回来,想要更新。 这应该与通过新下载更新上游数据一样简单(例如获得去年的build筑许可证),并按下“RECALCULATE”button,除非规范发生变化。 目前,我只是开始一个目录,并尽我所能特设。 我想要一个更系统化的方法,所以我希望有人解决这个问题……我使用了电子表格,SQL,ARCGIS,R和Unix工具的组合。 谢谢! PS: 下面是一个基本的Makefile,它检查各种中间数据集(w / .RData后缀)和脚本( .R后缀)的依赖关系。 Make使用时间戳来检查依赖关系,所以如果你touch ss07por.csv ,它会看到这个文件比依赖它的所有文件/目标更新,并执行给定的脚本以便相应地更新它们。 这仍然是一个正在进行的工作,其中包括一个步入SQL数据库的步骤,还有一个像sweave这样的模板语言的步骤。 请注意,Make在语法上依赖于选项卡,因此请在剪切和粘贴之前阅读该手册。 享受并提供反馈! http://www.gnu.org/software/make/manual/html_node/index.html#Top R = /家庭/ wsprague / R-2.9.2 /斌/ R persondata.RData:ImportData.R ../../DATA/ss07por.csv Functions.R $ R –slave -f ImportData.R persondata.Munged.RData:MungeData.R persondata.RData Functions.R $ R –slave -f MungeData.R report.txt:TabulateAndGraph.R persondata.Munged.RData Functions.R $ R –slave -f […]

从元素有权重的列表中selectk个随机元素

没有任何权重(等概率)的select在这里被精美地描述。 我想知道是否有办法将这种方法转换为加权方法。 我也对其他方法感兴趣。 更新:取样而不更换

是否有一个内置的function来查找模式?

在R中, mean()和median()是符合你期望的标准函数。 mode()告诉你对象的内部存储模式,而不是在其参数中出现最多的值。 但是是否有一个标准的库函数来实现向量(或列表)的统计模式?