heterodb/pg-strom

[idea] Pg2Arrowの並列化

Closed this issue · 2 comments

PostgreSQL --> Arrowの変換は、並列化できる。
複数セッションを同時に張って、ctidスキャン。

pg2arrowに以下のオプションを付加

-n|--num-workers=N_WORKERS

このオプションを付加すると、-cで付加するクエリの中に$(N_WORKERS)および$(WORKER_ID)というマクロを
使う事ができ、各ワーカーがスキャンするテーブルで重複が生じないようにすれば、並列でダンプできる。

-t|--table の場合はWHERE hashtid(ctid) % $(N_WORKERS) = $(WORKER_ID)が勝手に付加される。

関連コミット
6d0033a
dbbafc2
24b79b6