Hive中UDF编程

UDF介绍及编程要点

Hive中自带了许多函数,方便数据的处理分析。但是有时候没有内部的函数来提供想要的功能,需要自定义函数(UDF)来实现想要的功能。

编写UDF需要下面两个步骤

  1. 继承org.apache.hadoop.hive.ql.UDF
  2. 实现evaluate函数,这个函数必须要有返回值,不能设置为void。同时建议使用mapreduce编程模型中的数据类型(Text,IntWritable等),因为hive语句会被转换为mapreduce任务。

针对具体问题实现UDF步骤

  1. 首先配置eclipse环境。创建maven项目后,在pom.xml中添加依赖。
  <properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <hadoop.version>2.5.0</hadoop.version>
  </properties>

  <dependencies>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>2.5.0</version>
    </dependency>
  
    <dependency>
        <groupId>org.apache.hive</groupId>
        <artifactId>hive-jdbc</artifactId>
        <version>0.13.1</version>
    </dependency>

    <dependency>
        <groupId>org.apache.hive</groupId>
        <artifactId>hive-exec</artifactId>
        <version>0.13.1</version>
    </dependency>
    
    <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>3.8.1</version>
      <scope>test</scope>
    </dependency>
  </dependencies>
  1. 针对实际问题分析需求
    需求: 去除下列数据字段中的双引号


    hive1.png
  2. 编写UDF代码及本地测试
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;
/*
 * 去除字符串中的双引号
 */
public class signUDF extends UDF {
    public Text evaluate(Text string) {
        // 过滤
        if (null == string) {
            return null;
        }
        // 用来保存最后结果
        Text result;
        // 替换字符串的双引号为空
        String s = string.toString().replaceAll("\"", "");
        // 用中间结果生成返回值
        result = new Text(s);
        return result;
    }
}

测试如下
输入:"wulei" "www"
输出:wulei www


hive2.png
  1. 打成jar包在hive中测试
  • 打成jar包上穿至Linux中


    hive3.png
  • 关联jar包

hive (default)> add jar /opt/datas/signuUDF.jar;
Added /opt/datas/signuUDF.jar to class path
Added resource: /opt/datas/signuUDF.jar

  • 创建方法(退出hive shell后将失效)

hive (default)> create temporary function my_udf as "hiveUDF.hiveUDF.signUDF";
OK
Time taken: 0.039 seconds

  • 永久添加UDF的方法:配置hive-site.xml文件中的hive.aux.jars.path(辅助jar路径)属性,属性值为jar包的绝对路径
  • 验证自定义函数

hive (test_db)> select * from test1;
OK
test1.ip test1.source
"192.168.200.5" "/wulei/in"
"192.168.200.4" "/wulei/out"
hive (test_db)> select my_udf(ip) from test1;
MapReduce Jobs Launched:
Job 0: Map: 1 Cumulative CPU: 1.7 sec HDFS Read: 276 HDFS Write: 28 SUCCESS
Total MapReduce CPU Time Spent: 1 seconds 700 msec
OK
_c0
192.168.200.5
192.168.200.4
Time taken: 41.616 seconds, Fetched: 2 row(s)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容