본 레포는 Google Natural Questions(NQ) 데이터셋에서 Question 과 Long Answer 을 편하게 추출하기 위해서 만들어졌습니다.
git clone https://github.com/hijigoo/nq-data-loader.git
AWS의 Cloud9 에서 환경을 구성하는 경우 필요합니다.
cd ~/environment/nq-data-loader
bash resize.sh 50
데이터를 S3 에서 다운받는 경우 필요합니다.
cd ~/environment/nq-data-loader
aws s3 cp <S3 URI> ./data/v1.0-simplified-nq-train.jsonl.gz
ex)
cd ~/environment/nq-data-loader
aws s3 cp s3://my-nq-data-0410/v1.0-simplified-nq-train.jsonl.gz ./data/v1.0-simplified-nq-train.jsonl.gz
압축을 해제하는데 시간이 다소 걸립니다.
cd ~/environment/nq-data-loader/data
gzip -d v1.0-simplified-nq-train.jsonl.gz
ls -alh
옵션 값들은 파일에서 직접 수정하거나 파라미터로 넘길 수 있습니다.
cd ~/environment/nq-data-loader
python nq_loader.py
- filepath: v1.0-simplified-nq-train.jsonl 파일 경로입니다
- output_dir: 결과물이 저장될 디렉토리 입니다.
- start: 시작 라인입니다
- end: 멈출 라인입니다. (전체 라인수를 넘어서면, 최대 라인까지만 정제합니다.)
- is_print: 출력내용물이 보일지 여부입니다. (True 로 하는 경우 많은 라인을 정제할 때 속도가 느려집니다)
- is_skip_no_answer: long answer 이 비어있는 파일은 제외할지 여부입니다.
cd ~/environment/nq-data-loader
python nq_loader.py --filepath ./data/v1.0-simplified-nq-train.jsonl --output_dir ./data/ --start 0 --end 10 --is_print True --is_skip_no_answer False