hive中UDF和UDAF使用说明 - 心如大海 - ITeye技术网站
http://p-x1984.iteye.com/blog/1156392
一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:
a)文件格式:Text File,Sequence File
b)内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text
c)用户提供的 map/reduce 脚本:不管什么语言,利用 stdin/stdout 传输数据
d)用户自定义函数: Substr, Trim, 1 – 1
e)用户自定义聚合函数: Sum, Average…… n – 1
2、定义:UDF(User-Defined-Function),用户自定义函数对数据进行处理。
(二)、UDAF
1、Hive查询数据时,有些聚类函数在HQL没有自带,需要用户自定义实现。
2、用户自定义聚合函数: Sum, Average…… n – 1
UDAF(User- Defined Aggregation Funcation)
五、总结
1、重载evaluate函数。
2、UDF函数中参数类型可以为Writable,也可为java中的基本数据对象。
3、UDF支持变长的参数。
4、Hive支持隐式类型转换。
5、客户端退出时,创建的临时函数自动销毁。
6、evaluate函数必须要返回类型值,空的话返回null,不能为void类型。
7、UDF是基于单条记录的列进行的计算操作,而UDFA则是用户自定义的聚类函数,是基于表的所有记录进行的计算操作。
8、UDF和UDAF都可以重载。
9、查看函数
SHOW FUNCTIONS; DESCRIBE FUNCTION <function_name>;