[idea] Pg2Arrowの並列化
Closed this issue · 2 comments
kaigai commented
PostgreSQL --> Arrowの変換は、並列化できる。
複数セッションを同時に張って、ctidスキャン。
kaigai commented
pg2arrowに以下のオプションを付加
-n|--num-workers=N_WORKERS
このオプションを付加すると、-c
で付加するクエリの中に$(N_WORKERS)
および$(WORKER_ID)
というマクロを
使う事ができ、各ワーカーがスキャンするテーブルで重複が生じないようにすれば、並列でダンプできる。
-t|--table
の場合はWHERE hashtid(ctid) % $(N_WORKERS) = $(WORKER_ID)
が勝手に付加される。