東莞網(wǎng)站設(shè)計(jì)報(bào)價(jià)天津百度網(wǎng)站排名優(yōu)化
目前,在Hive/Spark上運(yùn)行TPC-DS Benchmark主要是通過早期由Hortonworks維護(hù)的一個(gè)項(xiàng)目:hive-testbench 來完成的。本文我們以該項(xiàng)目為基礎(chǔ)介紹一下具體的操作步驟。不過,該項(xiàng)目僅支持生成ORC和TEXT格式的數(shù)據(jù),如果需要Parquet格式,請(qǐng)參考此文《在Hive/Spark上執(zhí)行TPC-DS基準(zhǔn)測試 (Parquet格式)》。
備注:本文使用的Hive/Spark環(huán)境為AWS EMR,版本:6.11。本文操作須在EMR Master節(jié)點(diǎn)上執(zhí)行!因?yàn)槟_本中會(huì)使用到hdfs、beeline等命令行工具。
1. 前置條件
hive-testbench是在TPC-DS的官方工具包基礎(chǔ)上開發(fā)的,所以它的編譯和安裝與TPC-DS官方工具包的編譯和安裝類似,在build前需要安裝gcc
和maven
,安裝后執(zhí)行如下命令進(jìn)行build:
sudo yum -y install git
git clone https://github.com/hortonworks/hive-testbench.g