Attend-and-Exciteのlossを改造し、バウンディングボックスを用いた画像構図の操作を可能にします。
BBox内のAttention map平均値を高め、BBox外のAttention map最大値を低めるように潜在空間を調整するだけのアイデアです。
Example 1:
python run_abag.py --prompt "a mouse and a red car" --seeds [0] --token_indices [2,6] --bbox_txt_file ./bboxes/bbox1.txt --lr 0.6
bbox1.txt means | generated image |
---|---|
Example 2:
python run_abag.py --prompt "a girl is eating pizza on desk" --seeds [0] --token_indices [2,5,7] --bbox_txt_file ./bboxes/bbox2.txt
bbox2.txt means | generated image |
---|---|
- lossが落ちてくれないときがある
lrをいじると落ちるときがあります。
- lossが落ちてるのに構図がbbox通りにならないことがある
原因不明。Attention mapを見る限りBBox内の値が高く出てるんですが…