1,CDH的搭建可以参考
https://blog.csdn.net/q1370992706/article/details/79578444
2,在CDH安装spark
没有在CDH集成环境安装spark
1)新建spark虚拟主机 :安装spark环境,
1.1参考://blog.csdn.net/red_stone1/article/details/71330101
1.2 ping 各个CDH节点
2)拷贝cdh下hive-site.xml 到spark主机conf下
3)启动spark-sql查看是否链接成功。
HIVE默认一个default库,可先用HUE创建一个表
show databases;
use default;
show tables;
slelect * from xxTable;
3,ubuntu16.04 python2/3,pip安装
https://blog.csdn.net/qq_31307013/article/details/79668453
4,安装py4j,pyspark
换源:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ pyspark