/tpch-for-spark

TPC-H Test kit for Spark

Primary LanguageC

执行步骤:

1. 设置环境变量

vi tpch-env.sh
  • 数据量
  • 环境变量

2. 生成测试数据

cd dbgen
make clean
make
cd ../..
./gen-data.sh

3. 创建hdfs数据目录

./hdfs-mkdirs.sh

4. 上传数据到hdfs

./upload-data.sh

5. 创建外部表

create-external-tables.sh

6. 创建对应的分区表、并对事实表进行格式化、压缩

create-parquet-partition-tables.sh

7. Spark Sql 方式执行测试

./spark-query-tpch.sh

8. Beeline方式执行测试

./spark-query-tpch-beeline.sh

注意需要先启动对应的thrift server