hivejobsql优化之CPU占有过高

最近有个SQL运行时长超过两个小时，所以准备优化下

成都创新互联公司专注于成都做网站、成都网站设计、网页设计、网站制作、网站开发。公司秉持“客户至上,用心服务”的宗旨,从客户的利益和观点出发,让客户在网络营销中找到自己的驻足之地。尊重和关怀每一位客户，用严谨的态度对待客户，用专业的服务创造价值，成为客户值得信赖的朋友，为客户解除后顾之忧。

首先查看hive sql 产生job的counter数据发现

总的CPU time spent过高估计100.4319973小时

hive job sql 优化之CPU占有过高

每个map的CPU time spent

hive job sql 优化之CPU占有过高

排第一的耗了2.0540889小时

建议设置如下参数：

1、mapreduce.input.fileinputformat.split.maxsize现在是256000000 往下调增加map数（此招立竿见影，我设为32000000产生了500+的map，最后任务由原先的2小时提速到47分钟就完成）

2、优化UDF getPageID getSiteId getPageValue （这几个方法用了很多正则表达式的文本匹配）

2.1 正则表达式处理优化可以参考

http://www.fasterj.com/articles/regex1.shtml

http://www.fasterj.com/articles/regex2.shtml

2.2 UDF优化见

1 Also you should use class level privatete members to save on object
 incantation and garbage collection.

2 You also get benefits by matching the args with what you would normally
 expect from upstream. Hive converts text to string when needed, but if the
 data normally coming into the method is text you could try and match the
 argument and see if it is any faster.
 Exapmle：
 优化前：
 >>>> import org.apache.hadoop.hive.ql.exec.UDF;
>>>> import java.net.URLDecoder;
>>>>
>>>> public final class urldecode extends UDF {
>>>>
>>>>    public String evaluate(final String s) {
>>>>        if (s == null) { return null; }
>>>>        return getString(s);
>>>>    }
>>>>
>>>>    public static String getString(String s) {
>>>>        String a;
>>>>        try {
>>>>            a = URLDecoder.decode(s);
>>>>        } catch ( Exception e) {
>>>>            a = "";
>>>>        }
>>>>        return a;
>>>>    }
>>>>
>>>>    public static void main(String args[]) {
>>>>        String t = "%E5%A4%AA%E5%8E%9F-%E4%B8%89%E4%BA%9A";
>>>>        System.out.println( getString(t) );
>>>>    }
>>>> }

优化后：

import java.net.URLDecoder;

public final class urldecode extends UDF {

    private Text t = new Text();

    public Text evaluate(Text s) {
        if (s == null) { return null; }
        try {
            t.set( URLDecoder.decode( s.toString(), "UTF-8" ));
            return t;
        } catch ( Exception e) {
            return null;
        }
    }

    //public static void main(String args[]) {
        //String t = "%E5%A4%AA%E5%8E%9F-%E4%B8%89%E4%BA%9A";
        //System.out.println( getString(t) );
    //}
}

3  继承实现GenericUDF

3、如果是Hive 0.14 + 可以开启hive.cache.expr.evaluation UDF Cache功能

网页名称：hivejobsql优化之CPU占有过高
文章地址：http://chengdu.cdxwcx.cn/article/gigpgo.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

hivejobsql优化之CPU占有过高

其他资讯

php数据加密 php 数据加密

帝国cms下拉式导航帝国cms专题

linux连接zk命令 linux怎么连接

php导出数据 PHP导出数据库

路由器两个传两个路由器如何串

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

hivejobsql优化之CPU占有过高

其他资讯

php数据加密 php 数据加密

帝国cms下拉式导航 帝国cms专题

linux连接zk命令 linux怎么连接

php导出数据 PHP导出数据库

路由器两个传 两个路由器如何串

成都网站建设设计将想法与焦点和您一起共享

帝国cms下拉式导航帝国cms专题

路由器两个传两个路由器如何串