如何进行spark2.0.1安装部署及使用jdbc连接基于hive的sparksql

如何进行spark2.0.1安装部署及使用jdbc连接基于hive的sparksql，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。

创新互联公司是一家集网站建设,和平企业网站建设,和平品牌网站建设,网站定制,和平网站建设报价,网络营销,网络优化,和平网站推广为一体的创新建站企业，帮助传统企业提升企业形象加强企业竞争力。可充分满足这一群体相比中小企业更为丰富、高端、多元的互联网需求。同时我们时刻保持专业、时尚、前沿，时刻以成就客户成长自我，坚持不断学习、思考、沉淀、净化自己，让我们为更多的企业打造出实用型网站。

1、安装

如下配置，除了配置spark还配置了spark history服务

#先到http://spark.apache.org/根据自己的环境选择编译好的包，然后获取下载连接
cd /opt
mkdir spark
wget http://d3kbcqa49mib13.cloudfront.net/spark-2.0.1-bin-hadoop2.6.tgz
tar -xvzf spark-2.0.1-bin-hadoop2.6.tgz
cd spark-2.0.1-bin-hadoop2.6/conf

复制一份spark-env.sh.template，改名为spark-env.sh。然后编辑spark-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_111
export SPARK_MASTER_HOST=hadoop-n

复制一份spark-defaults.conf.template，改成为spark-defaults.conf，然后编辑spark-defaults.conf

#指定master地址，以便在启动的时候不用再添加--master参数来启动集群
spark.master                     			        spark://hadoop-n:7077
#对sql查询进行字节码编译，小数据量查询建议关闭
spark.sql.codegen                			        true
#开启任务预测执行机制，当出现比较慢的任务时，尝试在其他节点执行该任务的一个副本，帮助减少大规模集群中个别慢任务的影响
spark.speculation		 			                true
#默认序列化比较慢，这个是官方推荐的
spark.serializer		 			                org.apache.spark.serializer.KryoSerializer
#自动对内存中的列式存储进行压缩
spark.sql.inMemoryColumnarStorage.compressed		true
#是否开启event日志
spark.eventLog.enabled				            	true
#event日志记录目录，必须是全局可见的目录，如果在hdfs需要先建立文件夹
spark.eventLog.dir				                	hdfs://hadoop-n:9000/spark_history_log/spark-events
#是否启动压缩
spark.eventLog.compress					true

复制一份slaves.template，改成为slaves，然后编辑slaves

hadoop-d1
hadoop-d2

从$HIVE_HOME/conf下拷贝一份hive-site.xml到当前目录下。

编辑/etc/下的profile，在末尾处添加

export SPARK_HOME=/opt/spark/spark-2.0.1-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://hadoop-n:9000/spark_history_log/spark-events"

为了保证绝对生效，/etc/bashrc也做同样设置，然后刷新设置

source /etc/profile
source /etc/bashrc

2、启动

a）首先启动hadoop；

cd $HADOOP_HOME/sbin
./start-dfs.sh

访问http://ip:port：50070查看是否启动成功

b）然后启动hive

cd $HIVE_HOME/bin
./hive --service metastore

执行beeline或者hive命令查看是否启动成功，默认hive日志在/tmp/${username}/hive.log

c）最后启动spark

cd $SPARK_HOME/sbin
./start-all.sh

sprark ui ：http://hadoop-n:8080

如何进行spark2.0.1安装部署及使用jdbc连接基于hive的sparksql

spark客户端

cd $SPARK_HOME/bin
./spark-shell

sparksql客户端

cd $SPARK_HOME/bin
./spark-sql

注意执行命令后提示的webui的端口号，通过webui可以查询对应监控信息。

启动thriftserver

cd $SPARK_HOME/sbin
./start-thriftserver.sh

spark thriftserver ui：http://hadoop-n:4040

如何进行spark2.0.1安装部署及使用jdbc连接基于hive的sparksql

启动historyserver

cd $SPARK_HOME/sbin
./start-history-server.sh

spark histroy ui：http://hadoop-n:18080

如何进行spark2.0.1安装部署及使用jdbc连接基于hive的sparksql

3、使用jdbc连接基于hive的sparksql

a）如果hive启动了hiveserver2，关闭

b）执行如下命令启动服务

cd $SPARK_HOME/sbin
./start-thriftserver.sh

执行如下命令测试是否启动成功

cd $SPARK_HOME/bin
./beeline -u jdbc:hive2://ip:10000
#如下是实际输出
[root@hadoop-n bin]# ./beeline -u jdbc:hive2://hadoop-n:10000
Connecting to jdbc:hive2://hadoop-n:10000
16/11/08 21:03:05 INFO jdbc.Utils: Supplied authorities: hadoop-n:10000
16/11/08 21:03:05 INFO jdbc.Utils: Resolved authority: hadoop-n:10000
16/11/08 21:03:05 INFO jdbc.HiveConnection: Will try to open client transport with JDBC Uri: jdbc:hive2://hadoop-n:10000
Connected to: Spark SQL (version 2.0.1)
Driver: Hive JDBC (version 1.2.1.spark2)
Transaction isolation: TRANSACTION_REPEATABLE_READ
Beeline version 1.2.1.spark2 by Apache Hive
0: jdbc:hive2://hadoop-n:10000> show databases;
+---------------+--+
| databaseName  |
+---------------+--+
| default       |
| test          |
+---------------+--+
2 rows selected (0.829 seconds)
0: jdbc:hive2://hadoop-n:10000>

编写代码连接sparksql

按照自己的环境添加依赖


		
			jdk.tools
			jdk.tools
			1.6
			system
			${JAVA_HOME}/lib/tools.jar
		
		
			org.apache.hive
			hive-jdbc
			1.2.1
		

		
			org.apache.hadoop
			hadoop-common
			2.6.0

然后编写类

/**   
 *
 * @Title: HiveJdbcTest.java 
 * @Package com.scc.hive 
 * @Description: TODO(用一句话描述该文件做什么) 
 * @author scc
 * @date 2016年11月9日 上午10:16:32   
 */
package com.scc.hive;

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;

/**
 *
 * @ClassName: HiveJdbcTest
 * @Description: TODO(这里用一句话描述这个类的作用)
 * @author scc
 * @date 2016年11月9日 上午10:16:32
 * 
 */
public class HiveJdbcTest {
    private static String driverName = "org.apache.hive.jdbc.HiveDriver";

    public static void main(String[] args) throws SQLException {
        try {
            Class.forName(driverName);
        } catch (ClassNotFoundException e) {
            e.printStackTrace();
            System.exit(1);
        }

        Connection con = DriverManager.getConnection("jdbc:hive2://10.5.3.100:10000", "", "");
        Statement stmt = con.createStatement();
        String tableName = "l_access";
        String sql = "";
        ResultSet res = null;
        sql = "describe " + tableName;
        res = stmt.executeQuery(sql);
        while (res.next()) {
            System.out.println(res.getString(1) + "\t" + res.getString(2));
        }

        sql = "select * from " + tableName + " limit 10;";
        res = stmt.executeQuery(sql);
        while (res.next()) {
            System.out.println(res.getObject("id"));
        }

        sql = "select count(1) from " + tableName;
        res = stmt.executeQuery(sql);
        while (res.next()) {
            System.out.println("count:" + res.getString(1));
        }
    }
}

下面是控制台输出

log4j:WARN No appenders could be found for logger (org.apache.hive.jdbc.Utils).
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.
id	int
req_name	string
req_version	string
req_param	string
req_no	string
req_status	string
req_desc	string
ret	string
excute_time	int
req_time	date
create_time	date
212
213
214
215
216
217
218
219
220
221
count:932

4、注意事项

集群要配置ssh免密码登录
不要忘记拷贝hive的配置文件，不然spark会在本地创建物理数据库文件
hive启动时提示ls: cannot access /opt/spark/spark-2.0.1-bin-hadoop2.6/lib/spark-assembly-*.jar: No such file or directory，不影响程序运行。

看完上述内容，你们掌握如何进行spark2.0.1安装部署及使用jdbc连接基于hive的sparksql的方法了吗？如果还想学到更多技能或想了解更多相关内容，欢迎关注创新互联行业资讯频道，感谢各位的阅读！

当前名称：如何进行spark2.0.1安装部署及使用jdbc连接基于hive的sparksql
文章路径：http://chengdu.cdxwcx.cn/article/jgeihs.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

如何进行spark2.0.1安装部署及使用jdbc连接基于hive的sparksql

1、安装

2、启动

3、使用jdbc连接基于hive的sparksql

4、注意事项

其他资讯

微信小程序怎么买域名微信小程序购买流程

智能聊天操作流程的简单介绍

php创建sql数据库 phpstudy创建数据库

美国官网chatGpT 美国官网amazonapp

wordpress崩溃 wordpress报错

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

如何进行spark2.0.1安装部署及使用jdbc连接基于hive的sparksql

1、安装

2、启动

3、使用jdbc连接基于hive的sparksql

4、注意事项

其他资讯

微信小程序怎么买域名 微信小程序购买流程

智能聊天操作流程的简单介绍

php创建sql数据库 phpstudy创建数据库

美国官网chatGpT 美国官网amazonapp

wordpress崩溃 wordpress报错

成都网站建设设计将想法与焦点和您一起共享

微信小程序怎么买域名微信小程序购买流程