Apache Spark:如何在Python中使用pyspark 3

我从GH开发大师那里构build了Spark 1.4,构build得很好。 但是当我做一个bin/pyspark我得到了Python 2.7.9版本。 我怎样才能改变这个?

只需设置环境variables:

export PYSPARK_PYTHON=python3

如果你想这是一个永久性的变化添加此行到pyspark脚本。

 PYSPARK_PYTHON=python3 ./bin/pyspark 

如果你想在IPython Notebook中运行,写:

 PYSPARK_PYTHON=python3 PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" ./bin/pyspark 

如果python3不可访问,则需要将path传递给它。

请记住, 目前的文档(从1.4.1开始)有过时的说明。 幸运的是, 它已经修补 。

1,编辑configuration文件: vim ~/.profile

2,将代码添加到文件中: export PYSPARK_PYTHON=python3

3,执行命令: source ~/.profile

4,./ ./bin/pyspark

看看文件。 shebang行可能是指向search第一个兼容的可执行文件的path的“env”二进制文件。

你可以改变python到python3。 改变env直接使用硬编码的python3二进制文件。 或者直接用python3执行二进制文件,并省略shebang行。