如何使用Spark SQL的JDBC服务器

运行时环境

集群环境:CDH5.3.0

具体的JAR版本如下:

Spark版本:1.2.0-cdh5.3.0

蜂巢版本:0.13.1-cdh5.3.0

Hadoop版本:2.5.0-cdh5.3.0

启动JDBC服务器

cd /etc/spark/conf

ln-s/etc/hive/conf/hive-site . XML hive-site . XML

CD/opt/cloud era/parcels/CDH/lib/spark/

chmod- -R 777日志/

CD/opt/cloud era/parcels/CDH/lib/spark/sbin

。/start-thrift server . sh-master yarn-hive conf hive . server 2 . thrift . port = 10008

用直线连接到JDBC服务器

CD/opt/cloud era/parcels/CDH/lib/spark/bin

beeline-u JDBC:hive 2://Hadoop 04:10000

[root @ Hadoop 04 bin]# beeline-u JDBC:hive 2://Hadoop 04:10000

扫描在2毫秒内完成

连接到JDBC:hive 2://Hadoop 04:10000

连接到:Spark SQL(版本1.2.0)

驱动程序:Hive JDBC(版本0.13.1-cdh5.3.0)

事务隔离:事务可重复读取

Apache Hive的Beeline版本0.13.1-cdh5.3.0

0:JDBC:hive 2://Hadoop 04:10000 & gt;

使用直线

在Beeline客户端中,您可以使用标准的HiveQL命令来创建、列出和查询表格。你可以在HiveQL语言手册中找到Hive QL的全部细节,但是在这里,我们展示一些常见的操作。

如果不存在,则创建表mytable (key INT,value STRING)

以“,”结尾的行格式分隔字段。

创建表mytable(名称字符串、地址字符串、状态字符串)行格式以“#”结尾的分隔字段

#加载本地文件

将数据本地路径'/external/tmp/data.txt '加载到表mytable中

#加载hdfs文件

将路径“HDFS://ju 51nn/external/tmp/data . txt”中的数据加载到表mytable中;

描述我的表;

解释select * from my table where name = '张三'

select * from my table where name = ' Zhang San '

缓存表mytable

select count(*) total,count(distinct addr) num1,count(distinct status)num 2 from my table其中addr = ' gz

取消缓存表mytable

使用数据示例

张三#广州#学生

李四#贵州#老师

王武#武汉#讲师

刘钊#成都#学生

丽莎#广州#学生

莉莉# gz #斯图丁

独立Spark SQL Shell

Spark SQL还支持一个简单的shell,可以作为一个进程使用:spark-sql

它主要用于本地开发环境。请在* * *集群环境中使用JDBC服务器。

CD/opt/cloud era/parcels/CDH/lib/spark/bin

。/spark-sql