1.1
学习spark join机制 √
简书spark 概况 √
梳理项目业务SQL,并补充到博客中,把项目机器学习的部分重新看一遍 ×(未完成)
https://www.jianshu.com/p/25cc15436f85
1.2
把博客中spark优化部分复述一下,并画图帮助理解 √
hbase部分rowkey设计案例
titan 61课 用户活跃主题spark实现 √
交互主题
思考:数据分析中一对多 一对一 多对多 多对多使用,SQL中一对多??
java设计模式中的适配器模式
咆哮位图java代码实现..... √
一条SQL是如何执行的? -- 过往记忆
并行和串行GC
向量化执行引擎--hive √
1.3-1.4
一条SQL的执行 √
java设计模式-适配器模式 (1.4) ×
数仓项目中的交互主题 √
学习阿里大数据之路 (学习二章) 1.5(早上学习)
项目中机器学习部分要掌握大概的流程 √
强调最后一遍默写建表语法和开窗语法 √
1.5
kylin中bitmap的实践(bitmap的解决方案)
bitmap(按人来划分 或者按照天数来划分)
bitmap的误判率的公式
1.6
自定义漏斗的实现 √
kylin中的bitmap √
学习堆和堆排序
hbase中rowkey的设计的示例 √
1.7
学习java设计模式: -- 桥接模式 √
完善项目: √
堆的学习 (改天在学)
1.8
复习rdd算子底层shuffleRDD 和mappartitionRDD √
spark on yarn 的执行流程 √
spark commit的初始化的分析 √
Flume 自定义拦截器
1.9
计划做一个spark复习纲要 √
学习kafka √
sparkstreaming 博客二 √
1.10
信息企业cdh的搭建
spark 执行流程简单分析回顾
sparkstreaming 脑图的复述 √
复习Linux中yum的命令
1.11
flink学习 √
spark执行流程分析 √
1.12 1.13
sparkstreaming的hbase部分未写完(补充一下)
Redis的学习(学习Redis的事务)
sparkstreaming知识的整理,以及偏移量源码的回顾
画图分析spark执行流程分析 √
美团技术博客中hive join的执行流程 √
json的学习 √
数据倾斜的答题步骤:
对于0/null的情况,提前使用hive etl来避免
对于原始数据的解决方案:过滤出key值数据少的分组数据
shuffle中的方法方案:
使用map join 来代替reduce join
sample的随机采样
分拆join,分俩个部分来执行
1.14
在寝室的学习效果不行啊???
学习flink昨天的内容 √
1.15
完了?在教室学习效果也不行了,问题是有心事,要想方法解决一下
1.16
把flink中的sink学习一下
1.17
把窗口函数学习一下
1.18
学习flink中水位线
join相关
1.19
1.20
1.21
讲几个你工作中常用的spark 或者hive 的参数,以及这些参数做什么用的
spark 程序里面的count distinct 具体是如何执行的
1.22
心不静
1.23
反思一下,我已经浪费了不少时间了
我得重新梳理一下我的事项了
1.26
把flink的内容重新学习一下,我裂开了
还有我要把项目给复习一下了...好像快忘了
1.27
陷入困境,无法冷静 自如的学习
1.28
flink的学习
水位线的学习(补充)
1.29
ttl
flink的实时数据采集架构
1.30
93,把flink实现sink精确一次性给重新看一遍
1.31
学习完flink的shuffle原理(补充笔记内容)
bitmap的压缩算法
正则表达式的学习
美团技术博客中的hive 执行流程分析