在使用python进行spark进行开发时,本地调试总是很麻烦的一件事。如果有办法直接在服务器进行调试的话,那将非常方便我们的开发。那有没有呢?还真别说,借助pycharm 强大的开发能力,是完全可以实现的。那么我们就一步一步来进行配置:
1、pycharm 连接ssh 将代码同步到服务器:
1)点击tool->Deployment->Configuration
2)点击+进行新增
填写mapping
点击ok后进行保存。保存成功后,就可以将文件同步到服务器对应的位置。
2、配置环境变量
1)点击 run->edit Configurations
2)点击+进行新增
环境变量值有:以下根据自己实际的情况进行填写
PYSPARK_HOME=/usr/loacl/bin/python3.7
PYSPARK_DRIVER_HOME=/usr/loacl/bin/python3.7
HADOOP_HOME=/opt/cloudera/parcels/CDH-6.3.0-1.cdh6.3.0.p0.1279813/lib/hadoop/
JAVA_HOME=/usr/java/jdk1.8.0_181-cloudera/
SPARK_HOME=/opt/cloudera/parcels/CDH-6.3.0-1.cdh6.3.0.p0.1279813/lib/spark/
3、配置python_interpreter
点击settling ->project interpreter->设置-》新增
选择ssh interpretev
点击finish保存
完成以上三步 即可以完成对远端服务器spark进行调试。