Tag: 哈托普

Apache Pig：FLATTEN和并行执行的reducer: 我已经实现了一个Apache Pig脚本。当我执行脚本时，会导致许多映射器执行特定步骤，但是该步骤只有一个缩减器。由于这种情况（许多映射器，一个reducer），Hadoop集群在单个reducer执行时几乎空闲。为了更好地使用集群的资源，我希望还有许多并行运行的减速器。即使我使用SET DEFAULT_PARALLEL命令在Pig脚本中设置了并行性，我仍然导致只有一个reducer。发出问题的代码部分如下： SET DEFAULT_PARALLEL 5; inputData = LOAD 'input_data.txt' AS (group_name:chararray, item:int); inputDataGrouped = GROUP inputData BY (group_name); — The GeneratePairsUDF generates a bag containing pairs of integers, eg {(1, 5), (1, 8), …, (8, 5)} pairs = FOREACH inputDataGrouped GENERATE GeneratePairsUDF(inputData.item) AS pairs_bag; pairsFlat = FOREACH pairs GENERATE […]

PIG如何计算别名中的行数: 我做了这样的事情来计算PIG别名中的行数： logs = LOAD 'log' logs_w_one = foreach logs generate 1 as one; logs_group = group logs_w_one all; logs_count = foreach logs_group generate SUM(logs_w_one.one); dump logs_count; 这似乎太低效了。请赐教，如果有更好的办法！

Apache Spark：核心数量与执行者数量: 我试图了解在YARN上运行Spark作业时核心数量和执行者数量之间的关系。 testing环境如下：数据节点数量：3 数据节点机器规格： CPU：Core i7-4790（内核数量：4，线程数量：8）内存：32GB（8GB x 4） HDD：8TB（2TB x 4） networking：1Gb Spark版本：1.0.0 Hadoop版本：2.4.0（Hortonworks HDP 2.1） Spark工作stream程：sc.textFile – > filter – > map – > filter – > mapToPair – > reduceByKey – > map – > saveAsTextFile input数据 types：单个文本文件大小：165GB 行数：454,568,833 产量第二次过滤后的行数：310,640,717 结果文件的行数：99848268 结果文件的大小：41GB 该作业运行以下configuration： –master yarn-client –executor-memory 19G –executor-cores 7 –num-executors […]