如何使用Spark SQL的JDBC服务器
集群环境:CDH5.3.0
具体的JAR版本如下:
Spark版本:1.2.0-cdh5.3.0
蜂巢版本:0.13.1-cdh5.3.0
Hadoop版本:2.5.0-cdh5.3.0
启动JDBC服务器
cd /etc/spark/conf
ln-s/etc/hive/conf/hive-site . XML hive-site . XML
CD/opt/cloud era/parcels/CDH/lib/spark/
chmod- -R 777日志/
CD/opt/cloud era/parcels/CDH/lib/spark/sbin
。/start-thrift server . sh-master yarn-hive conf hive . server 2 . thrift . port = 10008
用直线连接到JDBC服务器
CD/opt/cloud era/parcels/CDH/lib/spark/bin
beeline-u JDBC:hive 2://Hadoop 04:10000
[root @ Hadoop 04 bin]# beeline-u JDBC:hive 2://Hadoop 04:10000
扫描在2毫秒内完成
连接到JDBC:hive 2://Hadoop 04:10000
连接到:Spark SQL(版本1.2.0)
驱动程序:Hive JDBC(版本0.13.1-cdh5.3.0)
事务隔离:事务可重复读取
Apache Hive的Beeline版本0.13.1-cdh5.3.0
0:JDBC:hive 2://Hadoop 04:10000 & gt;
使用直线
在Beeline客户端中,您可以使用标准的HiveQL命令来创建、列出和查询表格。你可以在HiveQL语言手册中找到Hive QL的全部细节,但是在这里,我们展示一些常见的操作。
如果不存在,则创建表mytable (key INT,value STRING)
以“,”结尾的行格式分隔字段。
创建表mytable(名称字符串、地址字符串、状态字符串)行格式以“#”结尾的分隔字段
#加载本地文件
将数据本地路径'/external/tmp/data.txt '加载到表mytable中
#加载hdfs文件
将路径“HDFS://ju 51nn/external/tmp/data . txt”中的数据加载到表mytable中;
描述我的表;
解释select * from my table where name = '张三'
select * from my table where name = ' Zhang San '
缓存表mytable
select count(*) total,count(distinct addr) num1,count(distinct status)num 2 from my table其中addr = ' gz
取消缓存表mytable
使用数据示例
张三#广州#学生
李四#贵州#老师
王武#武汉#讲师
刘钊#成都#学生
丽莎#广州#学生
莉莉# gz #斯图丁
独立Spark SQL Shell
Spark SQL还支持一个简单的shell,可以作为一个进程使用:spark-sql
它主要用于本地开发环境。请在* * *集群环境中使用JDBC服务器。
CD/opt/cloud era/parcels/CDH/lib/spark/bin
。/spark-sql