2020_09_19_spark-datasource

과제1 : apache arrow 간단하게 정리

우분투 홈에서 다음과 같은 명령어로 하둡 namenode, datanode, yarn, secondary name node 를 할성화 해줍니다.

hadoop/sbin/start-all.sh

$HOME/hive/bin/hive --service metastore &

$HADOOP_HOME/bin/hdfs namenode -format

cd $HOME/hive
./bin/schematool -initSchema -dbType derby
cp $HOME/hive/conf/hive-site.xml $HOME/spark/conf/
./bin/hive --service metastore &

인스턴스가 정상적으로 작동하면

 git clone (git repo 주소)

를 통해 과제에 필요한 파일을 가져옵니다.

bash downlaod.sh

data 폴더 안에 exhibitions.csv 와 nations.csv가 다운받아집니다.

pip install pyarrow

를 통해 과제에서 사용하게 될 apache arrow를 다운 받아줍니다