Tag: r

从命令行运行R脚本

我有一个名为ar的文件,它有一个755的chmod , sayHello <- function(){ print('hello') } sayHello() 我怎样才能通过命令行来运行?

如何使用Roxygen2正确loggingS4类插槽?

为了用roxygen(2)logging类,指定标题和描述/细节看起来与函数,方法,数据等相同。然而,插槽和inheritance是它们自己的一种动物。 目前或计划的最佳做法是如何loggingroxygen2中的S4课程? 尽职调查: 我在早期的roxygen描述中发现了一个@slot标签。 2008 R-forge邮件列表post似乎表明这已经死了,并且在@slot中不支持@slot: roxygen2是真的吗? 前面提到的postbuild议用户应该用LaTeX标记制作自己的分项列表。 例如,扩展"character"类的新的S4类将被编码和logging如下: #' The title for my S4 class that extends \code{"character"} class. #' #' Some details about this class and my plans for it in the body. #' #' \describe{ #' \item{myslot1}{A logical keeping track of something.} #' #' \item{myslot2}{An integer specifying something else.} #' #' \item{myslot3}{A […]

如何在不重新启动R的情况下卸载软件包?

我想卸载一个软件包,而不必重新启动R(主要是因为重新启动R,因为我尝试了不同的冲突软件包令人沮丧,但可以想象,这可以在程序中使用一个函数,然后再使用另一个函数 – 尽pipe命名空间引用可能是更好的主意)。 ?library不显示任何将卸载程序包的选项。 有一个build议 , detach可以卸载软件包,但以下都失败了: detach(vegan) detach(vegan)错误:无效的name参数 detach("vegan") detach("vegan")错误:无效的name参数 那么如何卸载一个软件包呢?

R函数用于testing向量是否包含给定元素

在R中,你如何testing一个向量,看它是否包含给定的元素?

require()和library()有什么区别?

require()和library()什么区别?

程序员(或计算机科学家)应该知道什么统计数据?

我是一名程序员,在math和计算机科学方面有着不错的背景。 我研究了可计算性,图论,线性代数,抽象代数,algorithm,以及在本科水平上的一些概率和统计(通过几个CS类)。 不过,我觉得我对统计数据不够了解。 统计学在计算中越来越有用,统计自然语言处理有助于为search和机器翻译中的一些Googlealgorithm提供帮助,对硬件,软件和networking的性能分析需要适当的统计基础,这些都是可信的,而生物信息学每天更普遍。 我已经阅读了关于“Google如何使用if语句使用贝叶斯过滤的方式” ,并且我知道Paul Graham的“垃圾邮件和更好的贝叶斯过滤 计划”中的问题,甚至是相当天真的,简单的统计方法,但我知道,我想超越这个。 我试图研究更多的统计数据,但是我已经有点失落了。 维基百科的文章有一长串的相关话题,但我不确定我应该看看。 我觉得从我所看到的情况来看,很多统计数字都假设一切都是线性组合的因素,加上一些高斯分布的随机噪声, 我想知道除了线性回归还有什么我应该学习的东西,或者我应该花时间去真正理解,然后再转向其他技术。 我发现了几本很长的书, 我应该从哪里开始? 所以我想知道从哪里去。 学什么,在哪里学习。 特别是,我想知道: 编程,软件工程和计算机科学中的哪些问题是非常适合的统计方法? 我将在哪里获得最大的回报? 我应该花些时间学习什么样的统计方法? 我应该使用什么资源来学习? 书籍,报纸,网站。 我希望能够讨论每本书(或其他资源)是什么,以及为什么它是相关的。 为了澄清我在寻找什么,我感兴趣的是程序员通常需要处理哪些问题可以从统计方法中受益,以及哪种统计工具是有用的。 例如: 程序员经常需要处理大型的自然语言文本数据库,并帮助分类,分类,search和处理。 什么统计技术在这里有用? 更一般地说,人工智能已经从分散的,符号的方法转向统计技术。 什么样的统计人工智能方法现在最能提供给工作程序员(而不是正在进行的研究,可能会也可能不会提供具体的结果)? 程序员经常被要求生产高性能的系统,在负载下可以很好地扩展。 但是除非你能测量,否则你不能谈论性能。 你需要用什么样的实验devise和统计工具来自信地说出结果是有意义的? 物理系统(如计算机graphics学)的模拟通常涉及随机方法。 程序员经常遇到的其他问题是否会受益于统计方法?

我们如何制作xkcd风格的图表?

显然,民间已经想出了如何在Mathematica和LaTeX中制作xkcd风格的图表。 我们可以在R吗? GGPLOT2-ERS? geom_xkcd和/或theme_xkcd? 我猜在基础graphics,par(xkcd = TRUE)? 我该怎么做? 作为ggplot2中的第一个刺(如下图所示),将jitter参数添加到一行中会使手绘效果更好。 所以 – ggplot(mapping=aes(x=seq(1,10,.1), y=seq(1,10,.1))) + geom_line(position="jitter", color="red", size=2) + theme_bw() 这是一个很好的例子 – 但轴和字体显得更加棘手。 虽然,字体似乎解决(下)。 是唯一的方法来处理斧头把它们弄出来并用手画出来? 有没有更优雅的解决scheme? 特别是在ggplot2中,新的主题系统中的element_line可以修改成抖动状参数吗?

计算R中string的字数?

有没有函数来计算string中的字数? 例如 str1 <- "How many words are in this sentence" 返回7的结果 谢谢。

使用bigmemory将40 GB csv文件读入R

标题在这里很自我解释,但我会详细说明如下。 我目前攻击这个问题的一些技巧是基于这个问题中提出的解决scheme。 然而,我面临着一些挑战和制约因素,所以我想知道是否有人可能试图对这个问题进行攻击。 我试图找出使用bigmemory软件包的问题,​​但我一直在遇到困难。 目前的限制: 使用16 GB的RAM的Linux服务器 40 GB CSV的大小 行数:67,194,126,114 挑战 需要能够从big.matrix或等同的数据结构中随机抽样更小的数据集(5-10万行)。 需要能够在parsing成big.matrix或等同的数据结构时,删除具有NULL的单个实例的任何行。 到目前为止,结果并不好。 很明显,我在某些方面失败了,也许我只是不太了解大内存文档 。 所以,我想我会问在这里看看有没有人用过 任何提示,build议在这一行的攻击等? 或者我应该改变为别的东西? 我很抱歉,如果这个问题是非常相似的,但我认为按比例的数据比以前的问题大约20倍。 谢谢 !

为数据框添加一个“等级”列

我在不同的年份有不同项目的数据框: df <- data.frame(item = rep(c('a','b','c'), 3), year = rep(c('2010','2011','2012'), each=3), count = c(1,4,6,3,8,3,5,7,9)) 我想添加一个“year.rank”列,这个列给出了某一年内某个项目的排名,这个排名越高,排名就越高。 有了以上,它会看起来像: item year count year.rank 1 a 2010 1 3 2 b 2010 4 2 3 c 2010 6 1 4 a 2011 3 2 5 b 2011 8 1 6 c 2011 3 3 7 a 2012 5 3 […]