ardha27/AI-Song-Cover-SOVITS

5. Inference

Closed this issue · 11 comments

Mas, ini kenapa ya error bagian display(AUDIO())?

image

Model: https://huggingface.co/spaces/zomehwh/vits-models/blob/main/pretrained_models/alice/alice.pth (Blue Archive: Tendou Arisu)

Error logs:

[18:58:20] INFO     [18:58:20] Version: 3.14.1                    

---------------------------------------------------------------------------

ValueError                                Traceback (most recent call last)

[<ipython-input-20-26778c592e41>](https://localhost:8080/#) in <cell line: 12>()
     10 get_ipython().system('svc infer {AUDIO}.wav -m {MODEL} -na -t {PITCH}')
     11 # Try comment this line below if you got Runtime Error
---> 12 display(Audio(f"/content/{AUDIO}.out.wav", autoplay=True, rate=22050))

2 frames

[/usr/local/lib/python3.10/dist-packages/IPython/lib/display.py](https://localhost:8080/#) in _validate_and_normalize_with_numpy(data, normalize)
    157         waveobj = wave.open(fp,mode='wb')
    158         waveobj.setnchannels(nchan)
--> 159         waveobj.setframerate(rate)
    160         waveobj.setsampwidth(2)
    161         waveobj.setcomptype('NONE','NONE')

ValueError: could not convert string to float: '/content//content/separated/htdemucs/audio/vocals.out.wav'

itu form confignya mana kok ilang

itu form confignya mana kok ilang

Sengaja saya hilangkan soalnya pakai repository model yang berbeda, saya ambil dari https://huggingface.co/spaces/zomehwh/vits-models/tree/main/pretrained_models/alice, nah di repository itu ga ada confignya makanya saya hilangkan takutnya hasilnya ga sesuai.

Apakah pakai model yang berbeda tapi pakai config yg sudah disediakan bisa mas?

harusnya cari model yang sesuai tutorku, bukan malah codenya yang dirubah. Dan itu beda model ya, model yang kupake ditutor itu "so-vits" sedangkan model yang kamu download itu "vits". "so-vits" itu Voice Convertion sedangkan "vits" itu TTS (Text to Speech). kalo mau pake codeku harus model yg sovits, yang ada config.jsonnya

btw itu displaynya error karena ga ada yg didisplay (inferencenya gagal)

harusnya cari model yang sesuai tutorku, bukan malah codenya yang dirubah. Dan itu beda model ya, model yang kupake ditutor itu "so-vits" sedangkan model yang kamu download itu "vits". "so-vits" itu Voice Convertion sedangkan "vits" itu TTS (Text to Speech). kalo mau pake codeku harus model yg sovits, yang ada config.jsonnya

Ohh baru tau saya beda.

Sekarang saya mencoba kembali menggunakan repository yang versi sovits-models tetap error yang sama mas, kira kira salah di mana ya padahal sudah mengikuti tutorialnya?.
Repo: https://huggingface.co/spaces/zomehwh/sovits-models
Model: https://huggingface.co/spaces/zomehwh/sovits-models/blob/main/models/alice/alice.pth
Config: https://huggingface.co/spaces/zomehwh/sovits-models/blob/main/models/alice/config.json
My notebook: https://colab.research.google.com/drive/1IPrayG2xJZuUP6yp9n8s0bFOOmJyZsnH?usp=sharing

image

Itu download pake wget kah? Coba arahin cursormu ke file pth di direktori kiri. Brp size filenya

Itu download pake wget kah? Coba arahin cursormu ke file pth di direktori kiri. Brp size filenya

file path direktori yang mana mas? soalnya banyak

File pth dlm so vits test

File pth dlm so vits test

Ga ada tombol properties buat lihat file sizenya, ini lgsg dari web huggingface, untuk config.jsonnya 1.67 kB

image

Sepertinya sudah solved mas, kayaknya ini saya salah link di wget buat download config sama modelnya, sebelumnya pakai link front-end, sekarang udah solved setelah saya ganti jadi link download dari model dan confignya, makasih banyak mas 🙏

Sudah kuduga