Hadoop计数器怎么用

这篇文章主要为大家展示了“Hadoop计数器怎么用”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“Hadoop计数器怎么用”这篇文章吧。

成都创新互联专业为企业提供泰州网站建设、泰州做网站、泰州网站设计、泰州网站制作等企业网站建设、网页设计与制作、泰州企业网站模板建站服务，10多年泰州做网站经验，不只是建网站，更提供有价值的思路和整体网络服务。

Hadoop计数器怎么用

数据清洗（ETL）

在运行核心业务MapReduce程序之前，往往要先对数据进行清洗，清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序，不需要运行Reduce程序。

1．需求

去除日志中字段长度小于等于11的日志。

（1）输入数据

web.log

（2）期望输出数据

每行字段长度都大于11

2．需求分析

需要在Map阶段对输入的数据根据规则进行过滤清洗。

3．实现代码

（1）编写LogMapper类

package com.atguigu.mapreduce.weblog;
import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
public class LogMapper extends Mapper{
  Text k = new Text();
  @Override
  protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
   // 1 获取1行数据
   String line = value.toString();
   // 2 解析日志
   boolean result = parseLog(line,context);
   // 3 日志不合法退出
   if (!result) {
     return;
   }
   // 4 设置key
   k.set(line);
   // 5 写出数据
   context.write(k, NullWritable.get());
  }
  // 2 解析日志
  private boolean parseLog(String line, Context context) {
   // 1 截取
   String[] fields = line.split(" ");
   // 2 日志长度大于11的为合法
    if (fields.length > 11) {
     // 系统计数器
     context.getCounter("map", "true").increment(1);
     return true;
   }else {
     context.getCounter("map", "false").increment(1);
     return false;
   }
  }
}

（2）编写LogDriver类

package com.atguigu.mapreduce.weblog;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class LogDriver {
  public static void main(String[] args) throws Exception {
// 输入输出路径需要根据自己电脑上实际的输入输出路径设置
    args = new String[] { "e:/input/inputlog", "e:/output1" };
   // 1 获取job信息
   Configuration conf = new Configuration();
   Job job = Job.getInstance(conf);
   // 2 加载jar包
   job.setJarByClass(LogDriver.class);
   // 3 关联map
   job.setMapperClass(LogMapper.class);
   // 4 设置最终输出类型
   job.setOutputKeyClass(Text.class);
   job.setOutputValueClass(NullWritable.class);
   // 设置reducetask个数为0
   job.setNumReduceTasks(0);
   // 5 设置输入和输出路径
   FileInputFormat.setInputPaths(job, new Path(args[0]));
   FileOutputFormat.setOutputPath(job, new Path(args[1]));
   // 6 提交
   job.waitForCompletion(true);
  }
}

以上是“Hadoop计数器怎么用”这篇文章的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注创新互联行业资讯频道！

文章名称：Hadoop计数器怎么用
网站网址：http://chengdu.cdxwcx.cn/article/ieohid.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

Hadoop计数器怎么用

其他资讯

域名怎么赚钱的域名投资赚钱

关于sap系统操作员工作总结的信息

帝国cms栏目创建帝国cms界面

帝国cms能加多少字段帝国cms相关文章调用

sap系统怎么暂存凭证的简单介绍

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

Hadoop计数器怎么用

其他资讯

域名怎么赚钱的 域名投资赚钱

关于sap系统操作员工作总结的信息

帝国cms栏目创建 帝国cms界面

帝国cms能加多少字段 帝国cms相关文章调用

sap系统怎么暂存凭证的简单介绍

成都网站建设设计将想法与焦点和您一起共享

域名怎么赚钱的域名投资赚钱

帝国cms栏目创建帝国cms界面

帝国cms能加多少字段帝国cms相关文章调用