执行步骤:
1. 设置环境变量
vi tpch-env.sh
- 数据量
- 环境变量
2. 生成测试数据
cd dbgen
make clean
make
cd ../..
./gen-data.sh
3. 创建hdfs数据目录
./hdfs-mkdirs.sh
4. 上传数据到hdfs
./upload-data.sh
5. 创建外部表
create-external-tables.sh
6. 创建对应的分区表、并对事实表进行格式化、压缩
create-parquet-partition-tables.sh
7. Spark Sql 方式执行测试
./spark-query-tpch.sh
8. Beeline方式执行测试
./spark-query-tpch-beeline.sh
注意需要先启动对应的thrift server