Hive GenericUDF函数DateDiff源码解析

前言

前面已经介绍过Hive UDF有两种实现方式,其中GenericUDF的方式是比较复杂的一种,为了加深对这种方式的理解,尝试去看了下Hive原生函数的源码,记录如下。新人入门,水平不足,如有错误,欢迎指正。

源码解析

public class GenericUDFDateDiff extends GenericUDF{
    //import java.text.SimpleDateFormat; 声明一个日期格式变量
    private transient SimpleDateFormat formatter=new SimpleDateFormat("yyyy-MM-dd");
    //import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorConverters.Converter;
    //声明两个参数的转换变量,用来判断入参的类型
    private transient Converter inputConverter1;
    private transient Converter inputConverter2;
    //import org.apache.hadoop.io.IntWritable; 声明返回值的类型,IntWritable是Hadoop中实现的用于封装Java数据类型的类
    private IntWritable output=new IntWritable();
    //import org.apache.hadoop.hive.serde2.objectinspector.PrimitiveObjectInspector.PrimitiveCategory;
    //声明两个入参的类型是Hive支持的原始数据类型
    private transient PrimitiveCategory inputType1;
    private transient PrimitiveCategory inputType2;
    private IntWritable result=new IntWritable();

    public GenericUDFDateDiff(){
        //import java.util.TimeZone;
        this.formatter.setTimeZone(TimeZone.getTimeZone("UTC"));
    }
} 

上述代码首先继承了GenericUDF,并且定义了多个接下来会用到的变量。接下来就是重写initialize的代码:

    //import org.apache.hadoop.hive.ql.exec.UDFArgumentException
    public ObjectInspector initialize(ObjectInspector[] arguments) throws UDFArgumentException{
        //import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;
        //进行参数个数检查,如果不是两个参数则抛出异常
        if(arguments.length!=2){
            throw new UDFArgumentLengthException("datediff() requires 2 argument,got "+arguments.length);
        }else{
            //
            this.inputConverter1=this.checkArguments(arguments,0);
            this.inputConverter2=this.checkArguments(arguments,1);
            //import org.apache.hadoop.hive.serde2.objectinspector.PrimitiveObjectInspector;
            //import org.apache.hadoop.hive.serde2.objectinspector.PrimitiveObjectInspector.PrimitiveCategory;
            //获取两个入参的数据类型
            this.inputType1=((PrimitiveObjectInspector)arguments[0].getPrimitiveCategory();
            this.inputType2=((PrimitiveObjectInspector)arguments[1].getPrimitiveCategory();
            ObjectInspector outputOI=PrimitiveObjectInspectorFactory.writableIntObjectInspector;
            return outputOI;
        }
    }
    

在重写的initialize的代码中,首先做了参数个数的检查,当参数个数不是两个时抛出异常。然后初始化了前面声明的参数类型和参数类型转换变量。

    private Converter checkArguments(ObjectInspector[] arguments,int i) throws UDFArgumentException{
        //import org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException
        //检查入参的类型
        if(arguments[i].getCategory()!=Category.PRIMITIVE){
            throw new UDFArgumentTypeException(0,"Only primitive type arguments are accepted but "+arguments[i].getTypeName()+" is passed. as first arguments");
        }else {
            //获取入参数据类型
            PrimitiveCategory inputType=((PrimitiveObjectInspector)arguments[i]).getPrimitiveCategory();
            Object converter;
            //判断入参的具体数据类型,赋值相应的converter
            switch(inputType){
            case STRING;
            case VARCHAR;
            case CHAR;
                converter=ObjectInspectorConverters.getConverter((PrimitiveObjectInspector)arguments[i],PrimitiveObjectInspectorFactory.writableStringObjectInspector);
                break;
            case TIMESTAMP;
                converter=new TimestampConverter((PrimitiveObjectInspector)arguments[i],PrimitiveObjectInspectorFactory.writableTimestampObjectInspector);
                break;
            case DATE;
                converter=ObjectInspectorConverter.getConverter((PrimitiveObjectInspector)arguments[i],PrimitiveObjectInspectorFactory.writableDateObjectInspector);
                break;
            default;
                throw new UDFArgumentException("DATEDIFF() only take STRING/TIMESTAMP/DATEWRITABLE types as "+ (i+1) +"-th argument,got " inputType);
            }
            return (Converter)converter;
        }
    }

checkArguments方法首先做了入参的类型检查,要求必须是Hive的原生数据类型,否则会抛出异常。然后再分别根据具体的实际数据类型,赋值相应的converter,最后对于非Sting timestamp date 的数据类型,同样抛出异常。

    private Date convertToDate(PrimitiveCategory inputType,Converter converter,DeferredObject argument) throws HiveException{
        assert converter!=null;
        assert argument!=null;
    
        if(argument.get()==null){
            return null;
        }else {
            Date date=new Date();
            switch(inputType){
            case STRING;
            case VARCHAR;
            case CHAR;
                String dateString=converter.convert(argument.get()).toString;
                try{
                    date=this.formatter.parse(dateString);
                    break;
                }catch(ParseException var8){
                    return null;
                }
            case TIMESTAMP;
                Timestamp ts=((TimestampWritable)converter.convert(argument.get()).getTimestamp();
                ((Date)date).setTime(ts.getTime());
                break;
            case DATE;
                DateWritable dw=(DateWritable)converter.convert(argument.get());
                date=dw.get();
                break;
            default;
                throw new UDFArgumentException("TO_DATE() only takes STRING/TIMESTAMP/DATEWRITABLE types,got "+ inputType);
            }
            return (Date)date;
        }
    }

convertToDate方法根据传入的参数类型,相应的converter及参数值,返回'yyyy-MM-dd'格式的Date数据
接下来是重写evaluate方法,如下:

    public String getDisplayString(String[] children) {
        return this.getStandardDisplayString("datediff", children);
    }
    private IntWritable evaluate(Date date,Date date2){
        if(date!=null && date2!=null){
            long diffInMilliSeconds=date.getTime()-date2.getTime();
            this.result.set((int)(diffInMilliSeconds/86400000L));
            return this.result;
        }else{
            return null;
        }
    }
    public IntWritable evaluate(DeferredObject[] arguments) throws HiveException{
        this.output=this.evaluate(this.convertToDate(this.inputType1,this.inputConverter1,argument[0],this.convertToDate(this.inputType2,this.inputConvertert2,arguments[1]));
        return this.output;
    }

先是定义了一个私有的evaluate方法,用来计算两个日期之间的天数差,之后重写了public evaluate方法。

总结

源码阅读下来,感觉源码中对数据类型的定义转换检查做的十分严格,值得再之后的自己开发过程中学习。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容