如何运行2个函数在单个RDD上使用pyspark并行执行完全独立的转换？

我试图运行2个函数在单个RDD上使用pyspark并行执行完全独立的转换。有什么办法可以做同样的事情？

def doXTransforms(sampleRDD): (X transforms) def doYTransforms(sampleRDD): (Y Transforms) if __name__ == "__main__": sc = SparkContext(appName="parallelTransforms") sqlContext = SQLContext(sc) hive_context = HiveContext(sc) rows_rdd = hive_context.sql("select * from tables.X_table") p1 = Process(target=doXTransforms , args=(rows_rdd,)) p1.start() p2 = Process(target=doYTransforms, args=(rows_rdd,)) p2.start() p1.join() p2.join() sc.stop()

这不起作用，我现在明白这是行不通的。但是有没有其他方法可以使这项工作？具体是否有任何python-spark特定的解决scheme？

只要使用线程，并确保群集有足够的资源来同时处理这两个任务。

 from threading import Thread import time def process(rdd, f): def delay(x): time.sleep(1) return f(x) return rdd.map(delay).sum() rdd = sc.parallelize(range(100), int(sc.defaultParallelism / 2)) t1 = Thread(target=process, args=(rdd, lambda x: x * 2)) t2 = Thread(target=process, args=(rdd, lambda x: x + 1)) t1.start(); t2.start()

可以说，这在实践中并不常见，但否则应该可以正常工作。

您可以在 FAIR调度程序和调度程序池中进一步使用应用程序内调度，以更好地控制执行策略。

如何运行2个函数在单个RDD上使用pyspark并行执行完全独立的转换？

如何恢复传递给multiprocessing.Process的函数的返回值？

了解多重处理：Python中的共享内存pipe理，locking和队列

使用多处理模块的脚本不会终止