Tag:

Apache Spark:核心数量与执行者数量

我试图了解在YARN上运行Spark作业时核心数量和执行者数量之间的关系。 testing环境如下: 数据节点数量:3 数据节点机器规格: CPU:Core i7-4790(内核数量:4,线程数量:8) 内存:32GB(8GB x 4) HDD:8TB(2TB x 4) networking:1Gb Spark版本:1.0.0 Hadoop版本:2.4.0(Hortonworks HDP 2.1) Spark工作stream程:sc.textFile – > filter – > map – > filter – > mapToPair – > reduceByKey – > map – > saveAsTextFile input数据 types:单个文本文件 大小:165GB 行数:454,568,833 产量 第二次过滤后的行数:310,640,717 结果文件的行数:99848268 结果文件的大小:41GB 该作业运行以下configuration: –master yarn-client –executor-memory 19G –executor-cores 7 –num-executors […]

如何closuresPySpark中的INFO日志logging?

我使用AWS EC2指南安装了Spark,并且可以使用bin/pyspark脚本启动程序,以获得火花提示,还可以成功执行Quick Start查询。 但是,我不能在我的生活中弄清楚如何在每个命令之后停止所有冗长的INFO日志logging。 我在下面的代码中尝试了几乎所有可能的场景(注释掉,设置为OFF),在我从启动应用程序的位置以及每个节点的conf文件夹的log4j.properties文件中,什么都不做。 执行完每条语句后,仍然会打印日志INFO语句。 我很困惑这是如何工作的。 #Set everything to be logged to the console log4j.rootCategory=INFO, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs that are too verbose log4j.logger.org.eclipse.jetty=WARN log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO 当我使用SPARK_PRINT_LAUNCH_COMMAND时,这是我完整的类path: Spark命令:/Library/Java/JavaVirtualMachines/jdk1.8.0_05.jdk/Contents/Home/bin/java -cp:/root/spark-1.0.1-bin-hadoop2/conf:/root/spark-1.0.1 -bin-hadoop2 / CONF:/root/spark-1.0.1-bin-hadoop2/lib/spark-assembly-1.0.1-hadoop2.2.0.jar:/root/spark-1.0.1-bin-hadoop2/lib /datanucleus-api-jdo-3.2.1.jar:/root/spark-1.0.1-bin-hadoop2/lib/datanucleus-core-3.2.2.jar:/root/spark-1.0.1-bin-hadoop2 /lib/datanucleus-rdbms-3.2.1.jar -XX:MaxPermSize = 128m -Djava.library.path = -Xms512m -Xmx512m org.apache.spark.deploy.SparkSubmit […]

为什么我的终端输出在运行纱线脚本时与其bash相同时不相同?

**注意:我已经添加更新,只要继续阅读,谢谢。 🙂 ** 我一直很好奇这个 – 请看看我的这个截图运行: ls -lah build ,和 yarn run assets ,运行ls -lah build 。 首先让我说这是一个在webpack中的WIP构建,所以不需要告诉我一个31M的bundle不是最优的。 🙂 但是为什么我会用本地命令获得颜色和更详细的字体,而不是在yarn执行命令的时候? 这可能是相关的:这个屏幕截图是: – Windows 10 – Webstorm终端 – 登录到运行Ubuntu 14.4的docker容器 谢谢! 🙂 **更新:–color =总是恢复颜色**作为@Charles Duffy建议,添加–color=always在纱线脚本中保存格式: 如果有人有一些专业知识来分享这里发生的事情,我在市场上听到它! 谢谢!