对进行统计分析的数据集

在互联网上我可以运行统计分析的数据集是什么?

datasets软件包包含在base R中。运行以下命令查看完整列表:

 library(help="datasets") 

除此之外,还有很多可以提取数据的包,还有许多包含重要数据的包。 其中,您可能首先需要查看HistData软件包,该软件包提供了一组在统计和数据可视化历史中很有意义且重要的小数据集。

对于财务数据, quantmod软件包提供了一个通用的界面,用于从谷歌,雅虎,FRED等公司提取时间序列数据:

 library(quantmod) getSymbols("YHOO",src="google") # from google finance getSymbols("GOOG",src="yahoo") # from yahoo finance getSymbols("DEXUSJP",src="FRED") # FX rates from FRED 

FRED( 圣路易斯联邦储备银行 )确实是自由经济数据的地雷。

许多R软件包都捆绑了特定于其目标的数据。 所以如果你对遗传学,多级模型感兴趣的话,相关的软件包通常会有这个分析的典型例子。 另外,书籍包通常附带重现所有示例所需的数据。

以下是相关软件包的一些例子:

  • alr3 :包括伴随应用线性回归的数据( http://www.stat.umn.edu/alr
  • arm :包括来自Gelman的“使用回归和多级/分层模型进行数据分析”的一些数据(其余数据和代码在本书的网站上 )
  • BaM :包括来自“贝叶斯方法:社会和行为科学方法”的数据
  • BayesDA :包含来自Gelman的“贝叶斯数据分析”
  • cat :包含用于分类variables数据集分析的数据
  • cimis :从加州灌溉pipe理信息系统CIMIS检索数据
  • cshapes :包含GIS数据边界和数据
  • ecdat :计量经济学的数据集
  • ElemStatLearn :包含“统计学习,数据挖掘,推理和预测的要素”
  • emdbook :来自“生态模型和数据”的数据
  • Fahrmeir :“基于广义线性模型的多元统计build模”
  • fEcoFin : RMEtrics的 “经济和金融数据集”
  • fds :function数据集
  • fma :“Forecasting:methods and applications”中的数据集
  • gamair :“广义添加剂模型:R介绍”的数据
  • geomapdata :地形图和地质图的数据
  • 简而言之 :包含来自“R in a Nutshell”一书中的所有数据
  • nytR :通过纽约时报API提供对国会投票数据的访问
  • openintro :书中的数据
  • 引物 :包含“生态学入门与R”
  • qtlbook :包含R / qtl书籍的数据
  • RGraphics :包含来自“R Graphics”书籍的数据
  • Read.isi :获取旧世界生育率调查数据

networking上的广泛select。 例如,这里有一个庞大的体育数据库目录(全部免费提供数据,至less这是我的经验)。 在那个目录中是databaseBaseball.com,其中包含了自1915年以来每个玩过职业棒球的玩家的完整数据集 。

StatLib是另一个优秀的资源 – 非常方便。 这个单一的网页列出了超过一百个数据库的4-5行汇总,只要点击每个数据集汇总开始处的“表格”链接,所有这些都可以以平面文件格式提供。

R的基本发行版预先打包了大量不同的数据集(R 2.10中的122)。 要获得它们的列表(以及单行描述):

 data(package="datasets") 

同样,大多数软件包都带有几个数据集(有时还有很多)。 你可以用同样的方式看到这些:

 data(package="latticeExtra") data(package="vcd") 

这些数据集是指定软件包的软件包手册和插图中提到的数据集,用于说明软件包的function。

几个包含大量数据集的R包(它们也很容易扫描,以便您可以select有趣的内容):AER,DAAG和vcd。

另外一个我觉得R令人印象深刻的就是它的I / O。 假设您想通过雅虎财经API获取一些非常具体的财务数据。 假设从2001年到2009年每个月closures标准普尔500的开盘价和收盘价,只需要这样做:

 tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?", "s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv")) 

在这一行代码中,R已经获取了tick数据,将其整形为一个dataframe并将其绑定到“tick_data”。 (这里有一个方便的备忘单 ,上面有用于构buildURL的Yahoo Finance API符号)

你有没有考虑堆栈溢出数据转储 ?

您已经熟悉数据表示的内容,即它跟踪的业务逻辑

http://www.data.gov.uk/data

最近由Tim Berners-Lee设置

显然是基于英国的数据,但这应该不重要。 涵盖了从废弃汽车到学校缺勤到农产品价格指数的所有事情

寻找经济数据的好的开始总是以下三个地址:

  • 世界银行 – 研究数据集
  • 基金组织 – 数据和统计
  • 国家经济研究局

发展经济学家的数据集链接的一个很好的总结可以在:

  • Devecondata

编辑:

世界银行上周决定开放很多以前的非免费数据集,并在其修订的主页上在线发布。 新的互联网外观看起来相当不错。

  • 世界银行 – 开放数据

http://www.data.gov/可能有你可以使用的东西。;

在他们的原始数据目录中,您可以为数据设置标准并find您要查找的内容http://www.data.gov/catalog/raw

在R Book的同伴网站上可以find268个小文本文件 ( "The R Book"的工作示例)。

你可以在FlowingData上看这篇文章

另一个好地方是联合国数据 。

经济和社会事务部(经社部)的联合国统计司(UNSD)为全球用户社区启动了一个新的基于互联网的数据服务。 它通过一个入口点( http://data.un.org/ )将联合国统计数据库带到用户的方便范围之内。 用户现在可以search和下载联合国系统的各种统计资源。

由Weka和其他数据分析软件包收集的超过800个ARFF格式的数据集收集在TunedIT.org Repository中。

查看Hadley Wickham为ASA统计计算和统计graphics部分数据博览会设立的数据竞赛。 竞争已经结束, 数据依然存在。

加州大学欧文分校的机器学习库目前有190个数据集。

UCI机器学习库是由机器学习社区用来对机器学习algorithm进行实证分析的数据库,领域理论和数据生成器的集合。

我在其他问题上看到,您显然对数据可视化感兴趣。 然后看看多个项目(构成IBM)和样本数据集 。

与data.gov类似,但欧洲的中心是eurostat

http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/search_database

而且还有一个中国的统计部门,正如马厩提到的那样

http://www.stats.gov.cn/english/statisticaldata/monthlydata/index.htm

然后有一些“社交数据服务”,提供数据集的下载,如旋转,许多,时间,ckan,infochimps ..

粮农组织提供的aquastat数据库中包含各国水资源相关指标的数据。

海军海洋学门户提供,例如, 照明月亮的分数 。

博客“弯曲正常”有一个有趣的数据源列表 。

另一个数据集合 。

这里有一个R包,里面有几本书和论文的农业数据集。 示例分析包括: agridat