ApacheHudi异步Compaction部署方式有哪些

本篇文章为大家展示了Apache Hudi 异步Compaction部署方式有哪些，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。

成都创新互联公司坚持“要么做到，要么别承诺”的工作理念，服务领域包括：网站制作、成都网站设计、企业官网、英文网站、手机端网站、网站推广等服务，满足客户于互联网时代的五台网站设计、移动媒体设计的需求，帮助企业找到有效的互联网解决方案。努力成为您成熟可靠的网络建设合作伙伴！

对执行异步Compaction的不同部署模型全面汇总。

1. Compaction

对于Merge-On-Read表，数据使用列式Parquet文件和行式Avro文件存储，更新被记录到增量文件，然后进行同步/异步compaction生成新版本的列式文件。Merge-On-Read表可减少数据摄入延迟，因而进行不阻塞摄入的异步Compaction很有意义。

2. 异步Compaction

异步Compaction会进行如下两个步骤

调度Compaction：由摄取作业完成，在这一步，Hudi扫描分区并选出待进行compaction的FileSlice，最后CompactionPlan会写入Hudi的Timeline。
执行Compaction：一个单独的进程/线程将读取CompactionPlan并对FileSlice执行Compaction操作。

3. 部署模型

几种执行异步Compaction的方法如下

3.1 Spark Structured Streaming

在0.6.0版本，Hudi支持在Spark Structured Streming作业中支持异步Compaction，Compactions在streaming作业内被异步调度和执行，Spark Structured作业在Merge-On-Read表中会默认开启异步Compaction。

Java代码示例如下

import org.apache.hudi.DataSourceWriteOptions;import org.apache.hudi.HoodieDataSourceHelpers;import org.apache.hudi.config.HoodieCompactionConfig;import org.apache.hudi.config.HoodieWriteConfig;
import org.apache.spark.sql.streaming.OutputMode;import org.apache.spark.sql.streaming.ProcessingTime;

 DataStreamWriter writer = streamingInput.writeStream().format("org.apache.hudi")        .option(DataSourceWriteOptions.OPERATION_OPT_KEY(), operationType)        .option(DataSourceWriteOptions.TABLE_TYPE_OPT_KEY(), tableType)        .option(DataSourceWriteOptions.RECORDKEY_FIELD_OPT_KEY(), "_row_key")        .option(DataSourceWriteOptions.PARTITIONPATH_FIELD_OPT_KEY(), "partition")        .option(DataSourceWriteOptions.PRECOMBINE_FIELD_OPT_KEY(), "timestamp")        .option(HoodieCompactionConfig.INLINE_COMPACT_NUM_DELTA_COMMITS_PROP, "10")        .option(DataSourceWriteOptions.ASYNC_COMPACT_ENABLE_OPT_KEY(), "true")        .option(HoodieWriteConfig.TABLE_NAME, tableName)   			.option("checkpointLocation", checkpointLocation)        .outputMode(OutputMode.Append()); writer.trigger(new ProcessingTime(30000)).start(tablePath);

3.2 DeltaStreamer Continuous模式

Hudi DeltaStreamer提供连续摄入模式，Spark作业可以持续从上游消费数据写入Hudi，在该模式下，Hudi也支持异步Compaction，下面是在连续模式下进行异步Compaction示例

spark-submit --packages org.apache.hudi:hudi-utilities-bundle_2.11:0.6.0 \--class org.apache.hudi.utilities.deltastreamer.HoodieDeltaStreamer \--table-type MERGE_ON_READ \--target-base-path  \--target-table  \--source-class org.apache.hudi.utilities.sources.JsonDFSSource \--source-ordering-field ts \--schemaprovider-class org.apache.hudi.utilities.schema.FilebasedSchemaProvider \--props /path/to/source.properties \--continous

3.3 Hudi CLI

Hudi CLI 是另一种异步执行指定Compaction的方式，示例如下

hudi:trips->compaction run --tableName  --parallelism  --compactionInstant ...

3.4 Hudi Compactor脚本

Hudi还提供了独立工具来异步执行指定Compaction，示例如下

spark-submit --packages org.apache.hudi:hudi-utilities-bundle_2.11:0.6.0 \--class org.apache.hudi.utilities.HoodieCompactor \--base-path  \--table-name  \--instant-time  \--schema-file

Hudi提供了不同的Compaction方式，可根据不同应用场景部署不同Compaction方式。

上述内容就是Apache Hudi 异步Compaction部署方式有哪些，你们学到知识或技能了吗？如果还想学到更多技能或者丰富自己的知识储备，欢迎关注创新互联行业资讯频道。

新闻名称：ApacheHudi异步Compaction部署方式有哪些
URL标题：http://chengdu.cdxwcx.cn/article/peegji.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

ApacheHudi异步Compaction部署方式有哪些

1. Compaction

2. 异步Compaction

3. 部署模型

3.1 Spark Structured Streaming

3.2 DeltaStreamer Continuous模式

3.3 Hudi CLI

3.4 Hudi Compactor脚本

其他资讯

如何进行logo设计,AI设计的LOGO如何导出

fast路由设置，FAST路由器怎样设置

怎么设置电脑锁屏壁纸，电脑锁屏壁纸怎么换

h5页面域名,如何轻松打造一个很酷微信h5页面?

织梦列表页分页修改

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

ApacheHudi异步Compaction部署方式有哪些

1. Compaction

2. 异步Compaction

3. 部署模型

3.1 Spark Structured Streaming

3.2 DeltaStreamer Continuous模式

3.3 Hudi CLI

3.4 Hudi Compactor脚本

其他资讯

如何进行logo设计,AI设计的LOGO如何导出

fast路由设置，FAST路由器怎样设置

怎么设置电脑锁屏壁纸，电脑锁屏壁纸怎么换

h5页面域名,如何轻松打造一个很酷微信h5页面?

织梦列表页分页修改

成都网站建设设计将想法与焦点和您一起共享