Tag: r

从命令行运行R脚本: 我有一个名为ar的文件，它有一个755的chmod ， sayHello <- function(){ print('hello') } sayHello() 我怎样才能通过命令行来运行？

如何使用Roxygen2正确loggingS4类插槽？: 为了用roxygen（2）logging类，指定标题和描述/细节看起来与函数，方法，数据等相同。然而，插槽和inheritance是它们自己的一种动物。目前或计划的最佳做法是如何loggingroxygen2中的S4课程？尽职调查：我在早期的roxygen描述中发现了一个@slot标签。 2008 R-forge邮件列表post似乎表明这已经死了，并且在@slot中不支持@slot： roxygen2是真的吗？前面提到的postbuild议用户应该用LaTeX标记制作自己的分项列表。例如，扩展"character"类的新的S4类将被编码和logging如下： #' The title for my S4 class that extends \code{"character"} class. #' #' Some details about this class and my plans for it in the body. #' #' \describe{ #' \item{myslot1}{A logical keeping track of something.} #' #' \item{myslot2}{An integer specifying something else.} #' #' \item{myslot3}{A […]

如何在不重新启动R的情况下卸载软件包？: 我想卸载一个软件包，而不必重新启动R（主要是因为重新启动R，因为我尝试了不同的冲突软件包令人沮丧，但可以想象，这可以在程序中使用一个函数，然后再使用另一个函数 – 尽pipe命名空间引用可能是更好的主意）。 ?library不显示任何将卸载程序包的选项。有一个build议， detach可以卸载软件包，但以下都失败了： detach(vegan) detach(vegan)错误：无效的name参数 detach("vegan") detach("vegan")错误：无效的name参数那么如何卸载一个软件包呢？

R函数用于testing向量是否包含给定元素: 在R中，你如何testing一个向量，看它是否包含给定的元素？

require（）和library（）有什么区别？: require()和library()什么区别？

程序员（或计算机科学家）应该知道什么统计数据？: 我是一名程序员，在math和计算机科学方面有着不错的背景。我研究了可计算性，图论，线性代数，抽象代数，algorithm，以及在本科水平上的一些概率和统计（通过几个CS类）。不过，我觉得我对统计数据不够了解。统计学在计算中越来越有用，统计自然语言处理有助于为search和机器翻译中的一些Googlealgorithm提供帮助，对硬件，软件和networking的性能分析需要适当的统计基础，这些都是可信的，而生物信息学每天更普遍。我已经阅读了关于“Google如何使用if语句使用贝叶斯过滤的方式” ，并且我知道Paul Graham的“垃圾邮件和更好的贝叶斯过滤计划”中的问题，甚至是相当天真的，简单的统计方法，但我知道，我想超越这个。我试图研究更多的统计数据，但是我已经有点失落了。维基百科的文章有一长串的相关话题，但我不确定我应该看看。我觉得从我所看到的情况来看，很多统计数字都假设一切都是线性组合的因素，加上一些高斯分布的随机噪声，我想知道除了线性回归还有什么我应该学习的东西，或者我应该花时间去真正理解，然后再转向其他技术。我发现了几本很长的书，我应该从哪里开始？所以我想知道从哪里去。学什么，在哪里学习。特别是，我想知道：编程，软件工程和计算机科学中的哪些问题是非常适合的统计方法？我将在哪里获得最大的回报？我应该花些时间学习什么样的统计方法？我应该使用什么资源来学习？书籍，报纸，网站。我希望能够讨论每本书（或其他资源）是什么，以及为什么它是相关的。为了澄清我在寻找什么，我感兴趣的是程序员通常需要处理哪些问题可以从统计方法中受益，以及哪种统计工具是有用的。例如：程序员经常需要处理大型的自然语言文本数据库，并帮助分类，分类，search和处理。什么统计技术在这里有用？更一般地说，人工智能已经从分散的，符号的方法转向统计技术。什么样的统计人工智能方法现在最能提供给工作程序员（而不是正在进行的研究，可能会也可能不会提供具体的结果）？程序员经常被要求生产高性能的系统，在负载下可以很好地扩展。但是除非你能测量，否则你不能谈论性能。你需要用什么样的实验devise和统计工具来自信地说出结果是有意义的？物理系统（如计算机graphics学）的模拟通常涉及随机方法。程序员经常遇到的其他问题是否会受益于统计方法？

我们如何制作xkcd风格的图表？: 显然，民间已经想出了如何在Mathematica和LaTeX中制作xkcd风格的图表。我们可以在R吗？ GGPLOT2-ERS？ geom_xkcd和/或theme_xkcd？我猜在基础graphics，par（xkcd = TRUE）？我该怎么做？作为ggplot2中的第一个刺（如下图所示），将jitter参数添加到一行中会使手绘效果更好。所以 – ggplot(mapping=aes(x=seq(1,10,.1), y=seq(1,10,.1))) + geom_line(position="jitter", color="red", size=2) + theme_bw() 这是一个很好的例子 – 但轴和字体显得更加棘手。虽然，字体似乎解决（下）。是唯一的方法来处理斧头把它们弄出来并用手画出来？有没有更优雅的解决scheme？特别是在ggplot2中，新的主题系统中的element_line可以修改成抖动状参数吗？

计算R中string的字数？: 有没有函数来计算string中的字数？例如 str1 <- "How many words are in this sentence" 返回7的结果谢谢。

使用bigmemory将40 GB csv文件读入R: 标题在这里很自我解释，但我会详细说明如下。我目前攻击这个问题的一些技巧是基于这个问题中提出的解决scheme。然而，我面临着一些挑战和制约因素，所以我想知道是否有人可能试图对这个问题进行攻击。我试图找出使用bigmemory软件包的问题，但我一直在遇到困难。目前的限制：使用16 GB的RAM的Linux服务器 40 GB CSV的大小行数：67,194,126,114 挑战需要能够从big.matrix或等同的数据结构中随机抽样更小的数据集（5-10万行）。需要能够在parsing成big.matrix或等同的数据结构时，删除具有NULL的单个实例的任何行。到目前为止，结果并不好。很明显，我在某些方面失败了，也许我只是不太了解大内存文档。所以，我想我会问在这里看看有没有人用过任何提示，build议在这一行的攻击等？或者我应该改变为别的东西？我很抱歉，如果这个问题是非常相似的，但我认为按比例的数据比以前的问题大约20倍。谢谢！

为数据框添加一个“等级”列: 我在不同的年份有不同项目的数据框： df <- data.frame(item = rep(c('a','b','c'), 3), year = rep(c('2010','2011','2012'), each=3), count = c(1,4,6,3,8,3,5,7,9)) 我想添加一个“year.rank”列，这个列给出了某一年内某个项目的排名，这个排名越高，排名就越高。有了以上，它会看起来像： item year count year.rank 1 a 2010 1 3 2 b 2010 4 2 3 c 2010 6 1 4 a 2011 3 2 5 b 2011 8 1 6 c 2011 3 3 7 a 2012 5 3 […]