Tag: 哈托普

Apache Pig:FLATTEN和并行执行的reducer

我已经实现了一个Apache Pig脚本。 当我执行脚本时,会导致许多映射器执行特定步骤,但是该步骤只有一个缩减器。 由于这种情况(许多映射器,一个reducer),Hadoop集群在单个reducer执行时几乎空闲。 为了更好地使用集群的资源,我希望还有许多并行运行的减速器。 即使我使用SET DEFAULT_PARALLEL命令在Pig脚本中设置了并行性,我仍然导致只有一个reducer。 发出问题的代码部分如下: SET DEFAULT_PARALLEL 5; inputData = LOAD 'input_data.txt' AS (group_name:chararray, item:int); inputDataGrouped = GROUP inputData BY (group_name); — The GeneratePairsUDF generates a bag containing pairs of integers, eg {(1, 5), (1, 8), …, (8, 5)} pairs = FOREACH inputDataGrouped GENERATE GeneratePairsUDF(inputData.item) AS pairs_bag; pairsFlat = FOREACH pairs GENERATE […]

PIG如何计算别名中的行数

我做了这样的事情来计算PIG别名中的行数: logs = LOAD 'log' logs_w_one = foreach logs generate 1 as one; logs_group = group logs_w_one all; logs_count = foreach logs_group generate SUM(logs_w_one.one); dump logs_count; 这似乎太低效了。 请赐教,如果有更好的办法!

Apache Spark:核心数量与执行者数量

我试图了解在YARN上运行Spark作业时核心数量和执行者数量之间的关系。 testing环境如下: 数据节点数量:3 数据节点机器规格: CPU:Core i7-4790(内核数量:4,线程数量:8) 内存:32GB(8GB x 4) HDD:8TB(2TB x 4) networking:1Gb Spark版本:1.0.0 Hadoop版本:2.4.0(Hortonworks HDP 2.1) Spark工作stream程:sc.textFile – > filter – > map – > filter – > mapToPair – > reduceByKey – > map – > saveAsTextFile input数据 types:单个文本文件 大小:165GB 行数:454,568,833 产量 第二次过滤后的行数:310,640,717 结果文件的行数:99848268 结果文件的大小:41GB 该作业运行以下configuration: –master yarn-client –executor-memory 19G –executor-cores 7 –num-executors […]