kafka的多分区watermark机制是怎么样的

今天就跟大家聊聊有关kafka的多分区watermark机制是怎么样的，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

创新互联于2013年开始，先为海勃湾等服务建站，海勃湾等地企业，进行企业商务咨询服务。为海勃湾企业网站制作PC+手机+微官网三网同步一站式服务解决您的所有建站问题。

watermark依赖的背景，可以是：

事件时间，必须要在事件时间这个概念之上理解watermark。
watermark更形象的理解可以理解为时间序列心跳吧，驱动流进行，而不是延迟时间，比如6s，这个不是watermark。

watermark就像心跳一样，驱动着流程序基于事件时间进行处理，watermark之所以说类似于序列心跳，是因为它携带了时间戳 t。Watermark(t)意味着算子当前的事件时间已经到达了时间 t，任何时间戳小于t的事件都不会再发过来，也即是时间戳小于t的事件就应该丢弃了。

kafka的多分区watermark机制是怎么样的

上面的可以说是针对单并行度的流，只有一个流水线，怎么着也玩不出彩来。watermark会在每个并行度的source处或者其他算子内部添加，然后继续向前流动，假如流程序不存在shuffle那就没啥好说的了，每个单独的实例单独进行，这个要想理解要结合前面的一篇文章：

结合Spark讲一下Flink的runtime

存在shuffle的话，就是一个算子会存在多个输入的话，当前事件时间就采用最小的事件时间。

kafka的多分区watermark机制是怎么样的

kafkasource

kafka作为数据源的时候，假如消费的是多个topic或者多分区，那么由于分区消费是并行进行的，会打破数据在每个分区的数据性，这个是客户端性质决定的，除非你是一个消费者对应于一个分区。这种情况下，可以使用

Kafka-partition-aware watermark生成器，该生成器会在每个kafka消费者内部，为每个分区生成watermark，最后每个分区的watermark会想Stream shuffle watermark的合并机制一样合并。

kafka的多分区watermark机制是怎么样的

代码示例

FlinkKafkaConsumer09 kafkaSource = new FlinkKafkaConsumer09<>("myTopic", schema, props);
kafkaSource.assignTimestampsAndWatermarks(new AscendingTimestampExtractor() {

   @Override
   public long extractAscendingTimestamp(MyType element) {
       return element.eventTimestamp();
   }
});

DataStream stream = env.addSource(kafkaSource);

看完上述内容，你们对kafka的多分区watermark机制是怎么样的有进一步的了解吗？如果还想了解更多知识或者相关内容，请关注创新互联行业资讯频道，感谢大家的支持。

名称栏目：kafka的多分区watermark机制是怎么样的
文章地址：http://chengdu.cdxwcx.cn/article/ijsppj.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

kafka的多分区watermark机制是怎么样的

其他资讯

天翼云打造国云安全品牌铸牢企业云上安全防线

菜单大全的制作

创新互联JAVA教程：HTMLDOM改变HTML内容

带锁的视频如何播放？服务器视频可以播放

欧洲虚拟主机租用多少钱

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

kafka的多分区watermark机制是怎么样的

其他资讯

天翼云打造国云安全品牌 铸牢企业云上安全防线

菜单大全的制作

创新互联JAVA教程：HTMLDOM改变HTML内容

带锁的视频如何播放？服务器视频可以播放

欧洲虚拟主机租用多少钱

成都网站建设设计将想法与焦点和您一起共享

天翼云打造国云安全品牌铸牢企业云上安全防线