sparkstreaming窗口聚合操作后怎么管理offset

这篇文章主要介绍“spark streaming窗口聚合操作后怎么管理offset”，在日常操作中，相信很多人在spark streaming窗口聚合操作后怎么管理offset问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”spark streaming窗口聚合操作后怎么管理offset”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

闻喜网站制作公司哪家好，找创新互联！从网页设计、网站建设、微信开发、APP开发、成都响应式网站建设公司等网站项目制作，到程序开发，运营维护。创新互联从2013年开始到现在10年的时间，我们拥有了丰富的建站经验和运维经验，来保证我们的工作的顺利进行。专注于网站建设就选创新互联。

对于spark streaming来说窗口操作之后，是无法管理offset的，因为offset的存储于HasOffsetRanges。只有kafkaRDD继承了他，所以假如我们对KafkaRDD进行了转化之后就无法再获取offset了。

还有窗口之后的offset的管理，也是很麻烦的，主要原因就是窗口操作会包含若干批次的RDD数据，那么提交offset我们只需要提交最近的那个批次的kafkaRDD的offset即可。如何获取呢？

对于spark 来说代码执行位置分为driver和executor，我们希望再driver端获取到offset，在处理完结果提交offset，或者直接与结果一起管理offset。

说到driver端执行，其实我们只需要使用transform获取到offset信息，然后在输出操作foreachrdd里面使用提交即可。

package bigdata.spark.SparkStreaming.kafka010
import java.util.Properties
import org.apache.kafka.clients.consumer.{Consumer, ConsumerRecord, KafkaConsumer}import org.apache.kafka.common.TopicPartitionimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.rdd.RDDimport org.apache.spark.streaming.kafka010._import org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.{SparkConf, TaskContext}
import scala.collection.JavaConverters._import scala.collection.mutable
object kafka010NamedRDD {   def main(args: Array[String]) {      //    创建一个批处理时间是2s的context 要增加环境变量      val sparkConf = new SparkConf().setAppName("DirectKafkaWordCount").setMaster("local[*]")      val ssc = new StreamingContext(sparkConf, Seconds(5))
     ssc.checkpoint("/opt/checkpoint")
      //    使用broker和topic创建DirectStream      val topicsSet = "test".split(",").toSet      val kafkaParams = Map[String, Object]("bootstrap.servers" -> "mt-mdh.local:9093",        "key.deserializer"->classOf[StringDeserializer],        "value.deserializer"-> classOf[StringDeserializer],        "group.id"->"test4",        "auto.offset.reset" -> "latest",        "enable.auto.commit"->(false: java.lang.Boolean))
     // 没有接口提供 offset      val messages = KafkaUtils.createDirectStream[String, String](        ssc,        LocationStrategies.PreferConsistent,        ConsumerStrategies.Subscribe[String, String](topicsSet, kafkaParams,getLastOffsets(kafkaParams ,topicsSet)))//     var A:mutable.HashMap[String,Array[OffsetRange]] = new mutable.HashMap()
     val trans = messages.transform(r =>{       val offsetRanges = r.asInstanceOf[HasOffsetRanges].offsetRanges       A += ("rdd1"->offsetRanges)       r     }).countByWindow(Seconds(10), Seconds(5))     trans.foreachRDD(rdd=>{
       if(!rdd.isEmpty()){         val offsetRanges = A.get("rdd1").get//.asInstanceOf[HasOffsetRanges].offsetRanges
         rdd.foreachPartition { iter =>           val o: OffsetRange = offsetRanges(TaskContext.get.partitionId)           println(s"${o.topic} ${o.partition} ${o.fromOffset} ${o.untilOffset}")         }
         println(rdd.count())         println(offsetRanges)         // 手动提交offset ，前提是禁止自动提交         messages.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
       }//       A.-("rdd1")     })      //    启动流      ssc.start()      ssc.awaitTermination()    }  def getLastOffsets(kafkaParams : Map[String, Object],topics:Set[String]): Map[TopicPartition, Long] ={    val props = new Properties()    props.putAll(kafkaParams.asJava)    val consumer = new KafkaConsumer[String, String](props)    consumer.subscribe(topics.asJavaCollection)    paranoidPoll(consumer)    val map = consumer.assignment().asScala.map { tp =>      println(tp+"---" +consumer.position(tp))      tp -> (consumer.position(tp))    }.toMap    println(map)    consumer.close()    map  }  def paranoidPoll(c: Consumer[String, String]): Unit = {    val msgs = c.poll(0)    if (!msgs.isEmpty) {      // position should be minimum offset per topicpartition      msgs.asScala.foldLeft(Map[TopicPartition, Long]()) { (acc, m) =>        val tp = new TopicPartition(m.topic, m.partition)        val off = acc.get(tp).map(o => Math.min(o, m.offset)).getOrElse(m.offset)        acc + (tp -> off)      }.foreach { case (tp, off) =>        c.seek(tp, off)      }    }  }}

到此，关于“spark streaming窗口聚合操作后怎么管理offset”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注创新互联网站，小编会继续努力为大家带来更多实用的文章！

分享名称：sparkstreaming窗口聚合操作后怎么管理offset
本文网址：http://chengdu.cdxwcx.cn/article/jhepej.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

sparkstreaming窗口聚合操作后怎么管理offset

其他资讯

vb.net关闭进程 vbs关闭窗口代码

wordpress谷歌慢谷歌速度很慢

mysql命令行怎么连接 mysql命令行连接命令

linux全命令大全 linux 命令全称

gis技术什么时候产生 gis的发展历程

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

sparkstreaming窗口聚合操作后怎么管理offset

其他资讯

vb.net关闭进程 vbs关闭窗口代码

wordpress谷歌慢 谷歌速度很慢

mysql命令行怎么连接 mysql命令行连接命令

linux全命令大全 linux 命令全称

gis技术什么时候产生 gis的发展历程

成都网站建设设计将想法与焦点和您一起共享

wordpress谷歌慢谷歌速度很慢