参考教程:http://www.bijishequ.com/detail/384683?p=58
配置原因:在pyspark命令行 练习比较麻烦,不能自动补全,浪费时间。Jupyter notebook 是最理想的,但是还没配置成功。
1.打开pycharm,新建一个工程
2.点击 run --Edit Configuration..
3.配置
3.1 新建 Python ,起个名
3.2 配置script,指向你要引用 spark 的那个文件
3.3 Enviroment variables:
PYSPARK_PYTHON; 指向 你本机 的 python 路径
PYTHONPATH:指向 spark 安装目录的 Python 文件夹
SPARK_HOME :指向 spark 安装目录
4.安装 py4j
sudo pip3 install py4j
5.看到网上很多教程,一般都只执行到第四步即可,但是我仍然无法导入 pyspark 包,还需要下面的步骤:
选择 File--->setting--->你的project--->project structure
右上角Add content root添加:py4j-some-version.zip和pyspark.zip的路径(这两个文件都在Spark中的python文件夹下)
6.测试程序
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("myApp").setMaster("local")
sc = SparkContext(conf=conf)
print(sc.parallelize([1, 3, 4]).count())