code
โฃ LDM
โ โ README.md
โ โ ...
โฃ SimSwap
โ โ README.md
โ โ ...
โฃ pytorch_template
โ โ ...
โฃ sf2f
โ โ README.md
โ โ ...
โ wcgan-gp
โ README.md
โ ...
โ README.md
โ requirements.txt
โ train.sh
โ voxceleb_download.sh
...
- ๊ฐ ํด๋ ๋ด๋ถ์ README ํ์ผ์ ์ถ๊ฐ ์ค๋ช ์ด ์์ต๋๋ค.
- LDM: README.md
- SimSwap: README.md
- sf2f: README.md
- wcgan-gp: README.md
- Latent Diffusion: paper | github
- Low-Rank Adaptation: paper | github
- ๊ธฐ์กด Speech Fusion to Face ๋ชจ๋ธ์ voice encoder๋ฅผ ํ์ฉํ์ฌ ๊ฒฐ๊ณผ ์ด๋ฏธ์ง์ ํ์ง ํฅ์์ ์ํด Latent Diffusion model์ ๊ตฌํํ ํด๋์ ๋๋ค.
- ๋ํ, Diffusion model์ ์ํํ ํ์ต์ ์ํด LoRA ๊ตฌ์กฐ๋ฅผ ์ถ๊ฐํ์๊ณ , ์ด๋ฅผ ํตํด ํ์ต ์๊ฐ ๋ฐ ์ฑ๋ฅ์ ๊ฐ์ ํ์์ต๋๋ค.
- SimSwap: paper | github
- ์์ฑ ๋ฐ์ดํฐ๋ก ๋ถํฐ ์์ฑ๋ ์ผ๊ตด์ ๊ธฐ์กด ์์์ ํฉ์ฑํ๊ธฐ ์ํด ์ฌ์ฉ๋ ๋ชจ๋ธ์ ๋๋ค.
- ์์ฑ๋ ์ ๋ฉด ์ผ๊ตด์ ์์ ์ ๋ค์ํ ๊ฐ๋์ ๋ง๊ฒ ํฉ์ฑํ๊ธฐ ์ํด ํฉ์ฑ ์๋๋ณด๋ค ์ ํ๋์ ํ์ง์ด ๋ณด๋ค ๋์ ๋ชจ๋ธ์ ์ ํํ์์ต๋๋ค.
- ํฉ์ฑ์ด ์๋ฃ๋ ์์์ gif ํน์ mp4 ํํ๋ก ์์ฑํ์ฌ ์ถ๋ ฅํฉ๋๋ค.
- pytorch template: ์ฐธ๊ณ github
- ๋ชจ๋ธ ๊ฐ๋ฐ์ ํจ์จ์ฑ๊ณผ ์ผ๊ด์ฑ์ ์ ์งํ๊ธฐ ์ํด ์ฌ์ฉํ ํ์์ ๋๋ค.
- ๊ฐ๋ฐํ ๋ชจ๋ธ์ ํ์๋ค์ด ์ดํดํ๊ธฐ ์ฝ๋๋ก ์ ๋ฆฌํ์ฌ ๊ณต์ ํ์์ต๋๋ค.
- Speech Fusion to Face: paper | github | page
- ์์ฑ ๋ฐ์ดํฐ (.wav) ํ์ผ์ mel_spectrogram์ผ๋ก ๋ณํํ ํ, ์ด๋ฅผ ํตํด ์ผ๊ตด์ ์ฌ์์ฑํ๋ ๋ชจ๋ธ์ ๋๋ค.
scripts/convert_wav_to_mel.py
: ์์ฑ ๋ฐ์ดํฐ(.wav) ํ์ผ์ ์ผ์ ํ ํฌ๊ธฐ(100x150)์ mel_spectrogram์ผ๋ก ๋ณํํ๋ ์ ์ฒ๋ฆฌ๋ฅผ ์ํํ๊ณ ์ด๋ฅผ pickle ํ์ผ๋ก ์ ์ฅํ๋ ์คํฌ๋ฆฝํธ์ ๋๋ค.options/data_opts
: ๋ฐ์ดํฐ ์ ์ ์์ฑํ ๋ ์ฌ์ฉํ๋ ๋งค๊ฐ ๋ณ์๋ค์ ์ง์ ํ๋ ์คํฌ๋ฆฝํธ๋ค์ ์ ์ฅํด๋ ํด๋๋ก, vox celeb dataset๊ณผ olkavs dataset์ ๋ํ ์คํฌ๋ฆฝํธ๊ฐ ์ฌ์ฉ๋ฉ๋๋ค.options/sf2f
: train๊ณผ inference ์์ ์ฌ์ฉ๋๋ ๋ชจ๋ ๋งค๊ฐ ๋ณ์๋ค์ ์ง์ ํ๋ ์คํฌ๋ฆฝํธ๋ค์ ์ ์ฅํด๋ ํด๋๋ก, sf2f with vox์ sf2f with olkavs๋ก ๋๋์ด์ ธ ์๊ณ , sf2f๋ ๋ชจ๋ธ์ ๋ฐฉ์๊ณผ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ํฌ๊ธฐ์ ๋ฐ๋ผ ๋ถ๋ฅ๋์ด ์์ต๋๋ค.utils/compute_metrics.py
: ๋ชจ๋ธ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ํด ์ฌ์ฉ๋๋ metrics๋ฅผ ์ ์ธํ๊ณ ๊ณ์ฐํ๋ ๊ฒ์ ํตํด ๋ชจ๋ธ ํ์ต์ ํ๊ฐ ์งํ๋ก ์ฌ์ฉํ๊ธฐ ์ํ ์คํฌ๋ฆฝํธ์ ๋๋ค.connect_mlflow.py
: mlflow๋ฅผ ํตํด ๋ชจ๋ธ ํ์ต์ ๋ชจ๋ํฐ๋งํ๊ณ , ์ต์ ์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๋ชจ๋ธ์ weights๋ฅผ ์ฌ์ฉํ๊ธฐ ์ํด mlflow ์๋ฒ์ ์ฐ๊ฒฐํ๋ ์คํฌ๋ฆฝํธ์ ๋๋ค.
- Wasserstein GAN: paper | github
- Wasserstein GAN with Gradient Penalty: paper | github
- Conditional GAN: paper | github
- ๋ณธ ํ๋ก์ ํธ์ ๋ชฉ์๋ฆฌ๋ฅผ ํตํ ์ผ๊ตด ์์ฑ ๊ฒฐ๊ณผ ์ด๋ฏธ์ง์ ์ฌ์ฉ์ ํ๊ฐ๋ฅผ ์ํด ๊ตฌํ๋ ๋น๊ต๊ตฐ(๋ชฉ์๋ฆฌx, ๋์ด/์ฑ๋ณo) ๋ชจ๋ธ์ ๋๋ค.
- Wasserstein GAN์ ํ์ต ์์ ์ฑ์ ๋์ด๊ธฐ ์ํด gradient penalty๋ฅผ ์ถ๊ฐํ์๊ณ , ๋ชจ๋ธ ๊ฒฐ๊ณผ๋ฅผ ์ ๋ํ๊ธฐ ์ํ condition์ ์ถ๊ฐํ์์ต๋๋ค.
- ๋ชจ๋ธ ์์ฒด ์ฑ๋ฅ์ด ๋น๊ต ๋ถ๊ฐ๋ฅํ ์์ค์ผ๋ก ํ์ต๋์ด, celebA dataset์ ํตํด ์ฌ์ ํ์ต์ ์งํํ๊ณ ์ดํ vox celeb dataset์ finetuning์ ์งํํ์์ต๋๋ค.
- Initialize and update the server
su -
source .bashrc
- Create and Activate a virtual environment in the project directory
conda create -n env python=3.8
conda activate env
- To deactivate and exit the virtual environment, simply run:
deactivate
To Install the necessary packages listed in requirements.txt
, run the following command while your virtual environment is activated:
pip install -r requirements.txt