Tag: 统计

几何平均值:是否有内置?

我试图find一个内置的几何意义,但不能。 (很显然,在shell中工作时,内置函数不会节省我的时间,也不会怀疑精度有任何差别;对于脚本,我尽可能经常使用内置函数,性能增益往往是显而易见的。 如果没有一个(我怀疑是这种情况),这是我的。 gm_mean = function(a){prod(a)^(1/length(a))}

哪些Git提交统计很容易拉动

以前我很享受TortoiseSvn为给定的SVN仓库生成简单的提交统计信息的能力。 我想知道Git中有什么可用的,特别感兴趣的是: 每个用户的提交数量 每个用户更改的行数 随着时间的推移(例如每周更改的总量) 有任何想法吗?

纯function地图和集合的统计performance

给定一个数据结构规范,如具有已知复杂性界限的纯函数映射,必须在几个实现之间进行select。 有一些关于如何挑选合适的民间传说,例如红黑树通常被认为是更快的,但AVL树在工作量方面有更好的performance,并且有很多的查找。 是否有这种知识的系统介绍(出版论文)(与集合/地图有关)? 理想情况下,我希望看到在实际软件上进行统计分析。 例如,可以得出结论:有N种典型的地图使用情况,并列出每种地图的input概率分布。 是否有系统的基准testing图,并设置不同分布的input性能? 是否有实现使用自适应algorithm来改变表示取决于实际使用情况?

斯卡拉有一个好的math/统计库吗?

我正在寻找一个好的math和统计数据的scala开源库。 希望像Apache Math或Colt一样,但在Scala中实现。 任何人都可以指向正确的方向吗?

Python中Pearson相关性及其意义的计算

我正在寻找一个以input两个列表为参数的函数,并返回Pearson相关性和相关性的显着性。

从Git仓库生成统计信息

我正在寻找一些好的工具/脚本,可以让我从git仓库中生成一些统计数据。 我已经看到了一些代码托pipe网站上的这个function,他们包含的信息,如… 每个作者提交 提交每天/周/年/等。 随着时间的推移的代码行 图 … 多得多 基本上我只是想知道我的项目随着时间的推移增长了多less,哪个开发人员提交了大部分的代码,等等。

如何统计Git仓库中特定作者更改的总行数?

有一个命令,我可以调用这将计算由Git存储库中的特定作者更改的行? 我知道必须有方法来计算Github为其影响图所做的提交次数。

程序员(或计算机科学家)应该知道什么统计数据?

我是一名程序员,在math和计算机科学方面有着不错的背景。 我研究了可计算性,图论,线性代数,抽象代数,algorithm,以及在本科水平上的一些概率和统计(通过几个CS类)。 不过,我觉得我对统计数据不够了解。 统计学在计算中越来越有用,统计自然语言处理有助于为search和机器翻译中的一些Googlealgorithm提供帮助,对硬件,软件和networking的性能分析需要适当的统计基础,这些都是可信的,而生物信息学每天更普遍。 我已经阅读了关于“Google如何使用if语句使用贝叶斯过滤的方式” ,并且我知道Paul Graham的“垃圾邮件和更好的贝叶斯过滤 计划”中的问题,甚至是相当天真的,简单的统计方法,但我知道,我想超越这个。 我试图研究更多的统计数据,但是我已经有点失落了。 维基百科的文章有一长串的相关话题,但我不确定我应该看看。 我觉得从我所看到的情况来看,很多统计数字都假设一切都是线性组合的因素,加上一些高斯分布的随机噪声, 我想知道除了线性回归还有什么我应该学习的东西,或者我应该花时间去真正理解,然后再转向其他技术。 我发现了几本很长的书, 我应该从哪里开始? 所以我想知道从哪里去。 学什么,在哪里学习。 特别是,我想知道: 编程,软件工程和计算机科学中的哪些问题是非常适合的统计方法? 我将在哪里获得最大的回报? 我应该花些时间学习什么样的统计方法? 我应该使用什么资源来学习? 书籍,报纸,网站。 我希望能够讨论每本书(或其他资源)是什么,以及为什么它是相关的。 为了澄清我在寻找什么,我感兴趣的是程序员通常需要处理哪些问题可以从统计方法中受益,以及哪种统计工具是有用的。 例如: 程序员经常需要处理大型的自然语言文本数据库,并帮助分类,分类,search和处理。 什么统计技术在这里有用? 更一般地说,人工智能已经从分散的,符号的方法转向统计技术。 什么样的统计人工智能方法现在最能提供给工作程序员(而不是正在进行的研究,可能会也可能不会提供具体的结果)? 程序员经常被要求生产高性能的系统,在负载下可以很好地扩展。 但是除非你能测量,否则你不能谈论性能。 你需要用什么样的实验devise和统计工具来自信地说出结果是有意义的? 物理系统(如计算机graphics学)的模拟通常涉及随机方法。 程序员经常遇到的其他问题是否会受益于统计方法?

读取R中的数据集时出错

在R中读取我的数据时,如下所示: Dataset.df <- read.table("C:\\dataset.txt", header=T) 我收到以下错误信息: Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, : line 1 did not have 145 elements 这是什么意思,有人可以告诉我如何解决?

从样本数据计算置信区间

我有样本数据,我想计算一个置信区间,假设一个正态分布。 我发现并安装了numpy和scipy软件包,并得到numpy返回一个平均值和标准偏差(numpy.mean(数据)与数据列表)。 获得样本置信区间的任何build议将不胜感激。