0x70【引言】人生苦短,快用Spark
0x71【二稿】PySpark之门,强者联盟
◦ 01 全栈框架
◦ 02 环境搭建
◦ 03 分布式部署
◦ 04 示例分析
◦ 05 两类算子
◦ 06 map与reduce
◦ 07 AMPlab的野心
0x72【二稿】RDD算子,计算之魂
◦ 01 算子之道
◦ 02 获取数据
◦ 03 过滤与排序
◦ 04 groupBy
◦ 05 Join连接
◦ 06 Union与Zip
◦ 07 读写文件
◦ 08 结语
0x73【二稿】分布式SQL,蝶恋飞舞
◦ 01 SQL工具
◦ 02 命令行CLI
◦ 03 读Hive数据
◦ 04 结果写入Hive
◦ 05 读写MySQL数据
◦ 06 读写三种文件
0x74【二稿】DataFrame,三角之恋
◦ 01 DataFrame
◦ 02 生成数据框
◦ 03 合并与join
◦ 04 select操作
◦ 05 SQL操作
◦ 06 自定义UDF
◦ 07 三角之恋
0x75【二稿】神器之父,Scala入世
◦ 01 Spark与Scala
◦ 02 Scala REPL
◦ 03 编译Scala
◦ 04 sbt编译
◦ 05 示例分析
◦ 06 编译提交
0x76【二稿】机器之心,ML套路
◦ 01 城市套路深
◦ 02 算法与特征工程
◦ 03 管道工作流
◦ 04 OneHotEncoder示例
◦ 05 ML回归实战
◦ 06 特征处理与算法
◦ 07 拟合与评估
如果有任何的想法,请留言或者回复公众号告知。
另外,目前部分文章也进入了协同审稿的阶段,使用在线的git平台进行协同改进,如果有兴趣参与审稿,请在公众号中留言,对于合适的用户,会沟通下一步的流程。