Tag: mapreduce

Fork / Join和Map / Reduce之间的区别

Fork / Join和Map / Reduce之间的主要区别是什么? 它们在分解和分布(数据还是计算)方面有所不同?

Mapreduce初学者程序实例

我是mapreduce程序的初学者,如果问题不重要,请原谅我。 我想了解更多关于mapreduce程序。 为了理解编程方法,我想练习除wordcount程序以外的其他程序。 任何人都可以build议好的和简单的mapreduce例子除了wordcount.I使用eclipse juno和cdh4 请帮帮我

如何写'只有地图'hadoop工作?

我是hadoop的新手,我对map-reduce编程的风格很熟悉,但是现在我遇到了一个问题:有时我只需要映射一个工作,而我只需要map结果直接作为输出,这意味着减less阶段在这里是不需要的,我怎样才能达到目的呢?

MongoDB:可怕的MapReduce性能

我在关系型数据库方面有很长的历史,但是我是MongoDB和MapReduce的新手,所以我几乎是积极的,我一定是做错了。 我会直接回答这个问题。 对不起,如果它很长。 我在MySQL中有一个数据库表,它跟踪每天的成员configuration文件视图的数量。 为了testing它有10,000,000行。 CREATE TABLE `profile_views` ( `id` int(10) unsigned NOT NULL auto_increment, `username` varchar(20) NOT NULL, `day` date NOT NULL, `views` int(10) unsigned default '0', PRIMARY KEY (`id`), UNIQUE KEY `username` (`username`,`day`), KEY `day` (`day`) ) ENGINE=InnoDB; 典型的数据可能是这样的。 +——–+———-+————+——+ | id | username | day | hits | +——–+———-+————+——+ | 650001 | […]

通过关键字段查找MongoDB集合中的所有重复文档

假设我有一套文件集合。 像这样的东西。 { "_id" : ObjectId("4f127fa55e7242718200002d"), "id":1, "name" : "foo"} { "_id" : ObjectId("4f127fa55e7242718200002d"), "id":2, "name" : "bar"} { "_id" : ObjectId("4f127fa55e7242718200002d"), "id":3, "name" : "baz"} { "_id" : ObjectId("4f127fa55e7242718200002d"), "id":4, "name" : "foo"} { "_id" : ObjectId("4f127fa55e7242718200002d"), "id":5, "name" : "bar"} { "_id" : ObjectId("4f127fa55e7242718200002d"), "id":6, "name" : "bar"} 我想通过“名称”字段查找此集合中所有重复的条目。 例如“foo”出现两次,“bar”出现三次。

MongoDB存储过程等效

我有一个包含商店列表的大型CSV文件,其中一个字段是ZipCode。 我有一个名为ZipCodes的单独的MongoDB数据库,它存储任何给定的邮政编码的经度和纬度。 在SQL Server中,我将执行一个名为InsertStore的存储过程,它将在ZipCodes表上查找对应的经度和纬度,并将数据插入到Stores表中。 MongoDB中的存储过程的概念是否与此类似? 基本上,对于每一个插入,我需要查看该商店的经度和纬度,并保存。 我对Map / Reduce的概念不太熟悉,但是在这里呢? 谢谢!

hadoop mapreduce框架在哪里发送我的System.out.print()语句? (标准输出)

我想debugging一个mapreduce脚本,而且不用费太大力气把一些打印语句放到我的程序中。 但我似乎无法在任何日志中find他们。

什么是Hive:从org.apache.hadoop.hive.ql.exec.MapRedTask返回代码2

我正进入(状态: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask 在尝试使用hive控制台中的命令复制分区表时: CREATE TABLE copy_table_name LIKE table_name; INSERT OVERWRITE TABLE copy_table_name PARTITION(day) SELECT * FROM table_name; 我最初得到了一些语义分析错误,必须设置: set hive.exec.dynamic.partition=true set hive.exec.dynamic.partition.mode=nonstrict 虽然我不确定上述属性是干什么的? 从蜂房控制台完全输出: Total MapReduce jobs = 1 Launching Job 1 out of 1 Number of reduce tasks determined at compile time: 1 In order to change […]

在大文件中计数行

我通常使用大小为20 Gb的文本文件,而且我发现自己经常计算给定文件中的行数。 我现在这样做只是cat fname | wc -l cat fname | wc -l ,需要很长时间。 有什么解决scheme会更快? 我在安装了Hadoop的高性能集群中工作。 我想知道如果减less地图的方法可以帮助。 我希望解决scheme像一条线一样简单,就像wc -l解决scheme一样,但不知道它是多么的可行。 有任何想法吗?

简单的Java Map / Reduce框架

任何人都可以指向我一个简单的,开源的Map / Reduce框架/ API的Java? 似乎没有太多证据表明这种事情存在,但其他人可能会有所不同。 当然,我能find的最好的就是Hadoop MapReduce,但是没有通过“简单”的标准。 我不需要运行分布式作业的能力,只需要让我使用标准的Java5风格的并发在单个JVM上在多核机器上运行map / reduce-style作业。 写自己并不难,但我宁愿不必这样做。