hive原生和复合型数据的示例分析

这篇文章主要介绍hive原生和复合型数据的示例分析，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！

成都做网站、网站制作、成都外贸网站建设,成都做网站公司-成都创新互联已向千余家企业提供了,网站设计,网站制作,网络营销等服务!设计与技术结合,多年网站推广经验,合理的价格为您打造企业品质网站。

原生类型

原生类型包括TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY (Hive 0.8.0以上才可用),TIMESTAMP (Hive 0.8.0以上才可用)，这些数据加载很容易，只要设置好列分隔符，按照列分隔符输出到文件就可以了。

假设有这么一张用户登陆表

CREATE TABLE login (  
  uid  BIGINT,  
  ip  STRING  
)  
ROW FORMAT DELIMITED  
FIELDS TERMINATED BY ','  
STORED AS TEXTFILE;

这表示登陆表ip字段和uid字段以分隔符','隔开。

输出hive表对应的数据

# printf "%s,%s\n" 3105007001 192.168.1.1 >> login.txt  
# printf "%s,%s\n" 3105007002 192.168.1.2 >> login.txt

#cat login.txt                                                                                                                        
3105007001,192.168.1.1
3105007002,192.168.1.2

加载数据到hive表

LOAD DATA LOCAL INPATH '/home/hadoop/login.txt' OVERWRITE INTO TABLE login PARTITION (dt='20130101');

查看数据

select uid,ip from login where dt='20130101';
3105007001    192.168.1.1
3105007002    192.168.1.2

array

假设登陆表是

CREATE TABLE login_array (
  ip  STRING,
  uid  array
)
PARTITIONED BY (dt STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
COLLECTION ITEMS TERMINATED BY '|'
STORED AS TEXTFILE;

这表示登陆表每个ip有多个用户登陆，ip和uid字段之间使用','隔开，而uid数组之间的元素以'|'隔开。

输出hive表对应的数据

# printf "%s,%s|%s|%s\n" 192.168.1.1 3105007010 3105007011 3105007012 >> login_array.txt
# printf "%s,%s|%s|%s\n" 192.168.1.2  3105007020 3105007021 3105007022 >> login_array.txt

login_array.txt的内容:

cat login_array.txt                                                                                                                   
192.168.1.1,3105007010|3105007011|3105007012
192.168.1.2,3105007020|3105007021|3105007022

加载数据到hive表

LOAD DATA LOCAL INPATH '/home/hadoop/login_array.txt' OVERWRITE INTO TABLE login_array PARTITION (dt='20130101');

查看数据

select ip,uid from login_array where dt='20130101';
192.168.1.1    [3105007010,3105007011,3105007012]
192.168.1.2    [3105007020,3105007021,3105007022]

使用数组

select ip,uid[0] from login_array where dt='20130101'; --使用下标访问数组
select ip,size(uid) from login_array where dt='20130101'; #查看数组长度
select ip from login_array where dt='20130101'  where array_contains(uid,'3105007011');#数组查找

更多操作参考 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-CollectionFunctions

map

假设登陆表是

CREATE TABLE login_map (
  ip  STRING,
  uid  STRING,
  gameinfo map
)
PARTITIONED BY (dt STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
COLLECTION ITEMS TERMINATED BY '|'
MAP KEYS TERMINATED BY ':'
STORED AS TEXTFILE;

这表示登陆表每个用户都会有游戏信息，而用户的游戏信息有多个，key是游戏名，value是游戏的积分。map中的key和value以'':"分隔，map的元素以'|'分隔。

输出hive表对应的数据

# printf "%s,%s,%s:%s|%s:%s|%s:%s\n" 192.168.1.1  3105007010 wow 10 cf 1 qqgame 2  >> login_map.txt
# printf "%s,%s,%s:%s|%s:%s|%s:%s\n" 192.168.1.2  3105007012 wow 20 cf 21 qqgame 22  >> login_map.txt

login_map.txt的内容:

# cat login_map.txt
192.168.1.1,3105007010,wow:10|cf:1|qqgame:2
192.168.1.2,3105007012,wow:20|cf:21|qqgame:22

加载数据到hive表

LOAD DATA LOCAL INPATH '/home/hadoop/login_map.txt' OVERWRITE INTO TABLE login_map PARTITION (dt='20130101');

查看数据

select ip,uid,gameinfo from login_map where dt='20130101';
192.168.1.1    3105007010    {"wow":10,"cf":1,"qqgame":2}
192.168.1.2    3105007012    {"wow":20,"cf":21,"qqgame":22}

使用map

select ip,uid,gameinfo['wow'] from login_map where dt='20130101'; --使用下标访问map
select ip,uid,size(gameinfo) from login_map where dt='20130101'; #查看map长度
select ip,uid from login_map where dt='20130101'  where array_contains(map_keys(gameinfo),'wow');#查看map的key，找出有玩wow游戏的记录

更多操作参考 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-CollectionFunctions

struct

假设登陆表是

CREATE TABLE login_struct (
  ip  STRING,
  user  struct
)
PARTITIONED BY (dt STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
COLLECTION ITEMS TERMINATED BY '|'
MAP KEYS TERMINATED BY ':'
STORED AS TEXTFILE;

user是一个struct,分别包含用户uid和用户名。

输出hive表对应的数据

printf "%s,%s|%s|\n" 192.168.1.1  3105007010 blue  >> login_struct.txt
printf "%s,%s|%s|\n" 192.168.1.2  3105007012 ggjucheng  >> login_struct.txt

login_struct.txt的内容:

# cat login_struct.txt
192.168.1.1,3105007010|blue
192.168.1.2,3105007012|ggjucheng

加载数据到hive表

LOAD DATA LOCAL INPATH '/home/hadoop/login_struct.txt' OVERWRITE INTO TABLE login_struct PARTITION (dt='20130101');

查看数据

select ip,user from login_struct where dt='20130101';
192.168.1.1    {"uid":3105007010,"name":"blue"}
192.168.1.2    {"uid":3105007012,"name":"ggjucheng"}

使用struct

select ip,user.uid,user.name from login_map where dt='20130101';

union

用的比较少，暂时不讲

以上是“hive原生和复合型数据的示例分析”这篇文章的所有内容，感谢各位的阅读！希望分享的内容对大家有帮助，更多相关知识，欢迎关注创新互联行业资讯频道！

网站栏目：hive原生和复合型数据的示例分析
标题URL：http://chengdu.cdxwcx.cn/article/giephd.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

hive原生和复合型数据的示例分析

array

map

struct

union

其他资讯

redis怎么获取所有的键值

香港虚拟空间需要备案吗

smtp服务器具体配置？smtp服务器怎么用

激活电脑windows10软件下载?（电脑激活windows10激活软件)

FlinkCDC里有没有谁帮忙看下这个问题吗？

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

hive原生和复合型数据的示例分析

array

map

struct

union

其他资讯

redis怎么获取所有的键值

香港虚拟空间需要备案吗

smtp服务器具体配置？smtp服务器怎么用

激活电脑windows10软件下载?（电脑激活windows10激活软件)

FlinkCDC里有没有谁帮忙看下这个问题吗？

成都网站建设设计将想法与焦点和您一起共享