业务背景 Spark读取文件时,对于可切分的文件,会将文件切分为一系列 Split ,每个Split对应一个Task。一般而言,Split的大小...
前言 今日翻看项目之前某模块的代码时,看到grouping_id的sql语句。一时忘记了这个函数的用法,遂赶紧写下这篇以防日后在用到时能快速想起...
前言 前两章我们已经了解了scalikejdbc操作数据库的基础和项目中实际需要的一些注意点,本章我们就直接搞上完整的实例代码,实例是以操作my...
前言 在(一)我们已经能通过配置文件来创建了数据库的连接池,本章我们将来接着通过连接池来进行数据库的增删改查。 只操作一个数据库的curd 对于...
JDBC简介 JDBC是由SUN公司开发的一套开放标准的跨编程语言、跨数据库类型编程API。各数据库厂商根据这套规范开发自己数据库的驱动,通过驱...
hbase是我们大数据经常使用的一个数据库,我们经常需要根据某些条件去hbase获取需要的数据,本文主要聊一下我在项目中用到的过滤查询(基于sc...
我们在执行sparkStreaming程序时,可能有shuffle的情况,shuffle除了常见的会出现数据不均衡的情况,还有可能会出现shuf...
如果spark在读取hbase的时候感觉速度达不到需求,可以直接读取hfile进行操作,看代码 为了保证读取的hfile在处理期间不会变化,需要...
sparkstreaming写入kafka优化 项目中我们实时程序写入kafka可能是这样写 这样的方式是是每一个分区都拿一个KafkaProd...