这篇文章给大家分享的是有关如何使用Apache Pulsar和Apache Flink进行批流一体的弹性数据处理的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。
成都创新互联公司是一家专业提供武川企业网站建设,专注与做网站、网站设计、H5技术、小程序制作等业务。10年已为武川众多企业、政府机构等服务。创新互联专业的建站公司优惠进行中。
使用Apache Pulsar和Apache Flink进行批流一体的弹性数据处理
越来越多的应用采用流计算来提供低延时的数据处理。流计算具有一个特别有吸引力的特征,就是它在概念上统一了批处理(有边界的静态历史数据)和连续的近实时数据处理(无边界的流、事件数据)。
Flink在计算框架和编程逻辑上实现了批流统一;然而,在实践中,实现一个真正意义上批流统一的数据架构并不容易。因为近实时的流、事件数据通常使用消息队列、日志存储系统进行存储,而批处理需要的静态数据,通常使用文件系统、对象存储进行存储。这就意味着,数据科学家还是需要编写两套不同的计算逻辑来访问存储在不同存储系统中的数据。
Apache Pulsar是Yahoo开源的下一代分布式消息系统,在今年9月从Apache软件基金会毕业成为顶级项目。Pulsar特有的分层分片的架构,在保证大数据消息流系统的性能和吞吐量的同时,也提供了高可用性、高可扩展性和易维护性。分片架构将消息流数据的存储粒度从分区拉低到了分片,以及相应的层级化存储,使Pulsar成为unbounded streaming data storage的不二之选。这使得Pulsar可以更完美地匹配和适配Flink的批流一体的计算模式。
我们将会简单介绍一下什么是Pulsar,Pulsar的分层和分片架构,以及为什么Pulsar的这种架构可以更好地适配Flink的批流一体计算框架,并介绍Pulsar怎么跟Flink进行结合进行批流一体的计算。
下一代大数据处理引擎王者 -- Apache Flink
Apache Flink被公认为最有可能成为下一代大数据计算引擎的翘楚与王者,一经问世,就被定义为“颠覆者”、“黑马”、“未来”。
十五年前,Google的“三驾马车”初登舞台,一时间风头无两,随后出现的Hadoop拉开了开源大数据发展的序幕,如今伴随着数据时效性要求越来越高,以及人工智能的兴起, Apache Flink(以下简称Flink),在大数据领域异军突起。
Flink犹如大数据领域的一股“清流”,一经出现即展现出了惊人的潜力:它既能保证数据一致性“Exactly Once",又能实时快速的处理海量数据。与生俱来的Watermark功能让它能对复杂数据乱序场景应对自如,它充分体现了“批”、“流”一体的完美结合同时又代表着“流”、“表”二象性的和谐统一。
面对海量数据处理的痛点,它能够帮助企业和开发者轻松在以流为基础的各种计算中获得洞察的价值; 它不仅可以真正实现实时数据分析,还可以分析海量历史数据,并极大地简化数据处理流程。不仅如此,Flink还拥有完备的语义和强大的性能,这使得应用程序的开发变得简单, 其架构也使得应用程序的维护变得异常容易。
感谢各位的阅读!关于“如何使用Apache Pulsar和Apache Flink进行批流一体的弹性数据处理”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!