Hadoop中HDFS小文件产生场景及其处理方案

影响：
    1、文件的元数据存储在namenode中，每个文件的元数据都差不多大，小文件过多会极大的占用namonode
的内存，制约集群的扩展。（主要影响）
    2、在对小文件进行处理的时候，一个小文件对应一个maptask，一个maptask会起一个jvm进程，进程的
开启销毁会严重性能。（jvm复用）

产生场景：
    1、实时处理：比如我们使用 Spark Streaming 从外部数据源接收数据，然后经过 ETL 处理之后存储
       到 HDFS 中。这种情况下在每个 Job 中会产生大量的小文件。
    2、hive中对表执行insert操作，每次插入都在表目录下形成一个小文件。
       创建表结构相同的表，create table t_new as select * from t_old;
       老表根据实际情况可以删除就删除。
    3、hive中执行简单过滤操作，符合过滤条件的数据存在很多block块中，只走map，map输出有很多小文    
       件。 
        开启map端的聚合。       
    4、mapreduce正常执行产生小文件。
        将mapreduce输出不直接写hdfs，而是写入到hbase中。
        设置map端文件合并及reduce端文件合并。
    5、输入数据文件为小文件。
        小文件合并后再计算。
        CombineFileInputFormat： 它是一种新的inputformat，用于将多个文件合并成一个单独的    
                            split，另外，它会考虑数据的存储位置。

通用处理方案：
1、Hadoop Archive
    Hadoop Archive或者HAR，是一个高效地将小文件放入HDFS块中的文件存档工具，它能够将多个小文件
打包成一个HAR文件，这样在减少namenode内存使用的同时，仍然允许对文件进行透明的访问。

2、Sequence file
    sequence file由一系列的二进制key/value组成，如果为key小文件名，value为文件内容，则可以将
大批小文件合并成一个大文件。

底层处理方案：
HDFS-8998:
    DataNode划分小文件区，专门存储小文件。一个block块满了开始使用下一个block。
HDFS-8286：
    将元数据从namenode从内存移到第三方k-v存储系统中。
 HDFS-7240：
    Apache Hadoop Ozone,hadoop子项目，为扩展hdfs而生。

网站题目：Hadoop中HDFS小文件产生场景及其处理方案
地址分享：http://chengdu.cdxwcx.cn/article/ppgisg.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

Hadoop中HDFS小文件产生场景及其处理方案

其他资讯

jquery翻转插件 jquery翻页特效

jquery子集 jquery集合

包含linux启动ftp命令的词条

CSS样式美甲图片 css样式模版

mysql怎么自增序列 mysql有自增序列的表怎么增加一条数据

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

Hadoop中HDFS小文件产生场景及其处理方案

其他资讯

jquery翻转插件 jquery翻页特效

jquery子集 jquery集合

包含linux启动ftp命令的词条

CSS样式美甲图片 css样式模版

mysql怎么自增序列 mysql有自增序列的表怎么增加一条数据

成都网站建设设计将想法与焦点和您一起共享