在数据仓库建设,处理日常业务需求的过程中,经常会遇到各种各样的问题。在处理更新操作数据时,遇到数据重复问题。前期因为没考虑到关系型数据库upda...
最近,有位朋友问我,distinct去重原理是怎么实现的? “在面试时,面试官问他了解distinct算子吗?” “了解啊,Spark的rdd,...
最近在建设数据仓库,处理数据的过程中,经常反复使用hive的HQL语句,尽管HQL和SQL语言有很多相同之处,但也并不是说HQL就能通用SQL的...
无规矩,不方圆。每个人都有自己的编码风格,每个公司也有自己的代码规范。规范的代码,无论是自己日常维护,还是以后接盘者来接盘,都能快速定位上手,大...
hive 常用日期格式转换 把固定日期转换成时间戳 把 29/May/2020:11:30:03 +0800 转成正常格式(yyyy-MM-dd...
一、RDD的特性 Spark之所以成为目前比较主流的大数据处理技术,其中RDD的特性和机制占到很大比重,没有RDD的这些机制,Spark性能会大...
一、RDD为什么出现? 在实际开发应用中,存在许多迭代式计算,这些应用场景的共同之处是,不同计算阶段之间会重用中间结果,即一个阶段的输出结果会作...
大数据开发听着挺玄乎的,其实很多公司就是写写SQL,分析分析数据,这也被称作大数据开发。对很多公司的大数据开发而言,平时工作写SQL,使用Hiv...
大数据时代,面对海量化数据,传统文件存储系统已经难以支撑。随着大数据技术的发展、越来越多存储和处理数据的组件被开发出来,诸如分布式文件系统HDF...
文集作者