Gilegamesh - 简书

IP属地：上海

如何解决spark多表非对等join导致cross join？
一般的join如果两边的join条件是一一对应是性能比较好的情况，但是当遇到join条件两边存在多行对应一行或者多行对应多行的情况。就会出现M行...

689 0 0
spark last first函数的坑
某天一个需求需要用上spark sql的内置function, first跟last。心想只要把数据按某个字段提前排序，再分组取出first跟l...

1387 0 0

小算法-如何递归实现String的reverse
需求： Array(H, e, l, l, o) ==》Array[Char] = Array(o, l, l, e, H) 递归实现。看似很...

514 0 0
ElasticSearch: java transportClient
连接： private staticSettingssettings= Settings .builder() .put("cluster.na...

899 0 0
spark结构化流--kafka
我们的场景是通过spark-streaming读取kafka数据，实时持久化到hdfs上。并按day和hour分区。就像这种格式： kafka：...

0.1 1366 0 1
迭代器模式
java集合类遍历有个常见的问题就是想在Iterator里面去判断删除某个符合条件的元素的时候，如果使用List.remove()的方法就会会报...

320 0 0
FP-函数式编程
近些年在大数据分布式计算的急速发展下，催生出各种大型软件的工业需求。而这种大型软件要容易理解和维护，OOP繁琐的语法及指令式编程肯定是力不从心的...

1375 0 0

spark 2.1 sort-based shuffle
spark的shuffle从最开始的basic HashShuffle的M*R个中间文件，到优化的consalidate方式的C*R个...

401 0 0
scala： map与flatmap的区别
1) 虽然看过不少FP的东西，但是有一天碰到一个操作，还是没有搞清楚用map与flatmap的区别何在。举一个浅显的栗子： map出来的结果很显...

6201 0 0