免费使用大数据集来实验Hadoop

你知道任何大型的数据集来试验免费/低成本的Hadoop吗? 任何指针/链接相关的赞赏。

Prefernce:

  • 至less有1 GB的数据。

  • Web服务器的生产日志数据。

目前我发现的其中很less:

  1. 维基百科转储

  2. http://wiki.freebase.com/wiki/Data_dumps

  3. http://aws.amazon.com/publicdatasets/

我们也可以运行我们自己的抓取工具来从网站上收集数据,例如维基百科? 任何关于如何做到这一点的指针也是赞赏。

关于你的问题关于爬行和维基百科的几点。

您已链接到维基百科数据转储 ,您可以使用UMD的Cloud9项目在Hadoop中处理这些数据。

他们有一个页面: 使用维基百科

另一个添加到列表中的数据源是:

  • ClueWeb09 – 09年1月至2月收集10亿个网页。5TB压缩。

使用一个爬虫生成数据应该在一个单独的问题上发布到一个关于Hadoop / MapReduce的我会说。

一个明显的来源: 堆栈溢出三部曲数据转储 。 这些可以在Creative Commons许可下免费获得。

这是一个用于机器学习(这是hadoop g最好的应用程序之一)的189个数据集的集合: http : //archive.ics.uci.edu/ml/datasets.html

这不是日志文件,但也许你可以使用来自OpenStreetMap的星球文件: http : //wiki.openstreetmap.org/wiki/Planet.osm

CC许可证,大约160 GB(未包装)

每个大陆也有较小的文件: http : //wiki.openstreetmap.org/wiki/World