Any hints on successfully deploying to replicate?

Question

Any hints on successfully deploying to replicate?

Closed this issue 24 days ago · 0 comments

Hi, I've been trying to replicate (no pun intended) @chenxwh's excellent https://replicate.com/cjwbw/voicecraft, but with no luck. I'm not modifying anything at this point, just trying to deploy the existing cog.yaml to https://replicate.com/get-robin/voicecraft

The output of running sudo time cog push --progress plain r8.im/get-robin/voicecraft seemed to indicate success:

Building Docker image from environment in cog.yaml as r8.im/get-robin/voicecraft...
#0 building with "default" instance using docker driver

#1 [internal] load build definition from Dockerfile
#1 transferring dockerfile: 1.10kB done
#1 DONE 0.0s

#2 resolve image config for docker-image://docker.io/docker/dockerfile:1.4
#2 DONE 0.1s

#3 docker-image://docker.io/docker/dockerfile:1.4@sha256:9ba7531bd80fb0a858632727cf7a112fbfd19b17e94c4e84ced81e24ef1a0dbc
#3 CACHED

#4 [internal] load .dockerignore
#4 transferring context: 357B done
#4 DONE 0.0s

#5 [auth] cog-base:pull token for r8.im
#5 DONE 0.0s

#6 [internal] load metadata for r8.im/cog-base:cuda12.1-python3.11-torch2.1.0
#6 DONE 0.5s

#7 [stage-0  1/10] FROM r8.im/cog-base:cuda12.1-python3.11-torch2.1.0@sha256:0e09c3ae1e4f20eb83695b31645d788cb5b7b704fed5a6dad2fa3df029cdefac
#7 DONE 0.0s

#8 [internal] load build context
#8 transferring context: 735.67MB 4.6s
#8 transferring context: 1.39GB 9.6s
#8 transferring context: 1.97GB 14.7s
#8 transferring context: 2.50GB 19.8s
#8 transferring context: 3.05GB 24.9s
#8 transferring context: 3.45GB 30.0s
#8 transferring context: 3.71GB 35.0s
#8 transferring context: 4.07GB 40.1s
#8 transferring context: 4.41GB 45.2s
#8 transferring context: 4.76GB 50.3s
#8 transferring context: 5.08GB 55.4s
#8 transferring context: 5.41GB 60.4s
#8 transferring context: 5.72GB 65.5s
#8 transferring context: 6.07GB 70.6s
#8 transferring context: 6.36GB 75.7s
#8 transferring context: 6.73GB 80.9s
#8 transferring context: 7.13GB 86.0s
#8 transferring context: 7.36GB 91.0s
#8 transferring context: 7.74GB 96.1s
#8 transferring context: 8.07GB 101.1s
#8 transferring context: 8.38GB 106.1s
#8 transferring context: 8.78GB 111.2s
#8 transferring context: 9.04GB 116.2s
#8 transferring context: 9.42GB 121.3s
#8 transferring context: 9.72GB 126.4s
#8 transferring context: 10.07GB 131.5s
#8 transferring context: 10.41GB 136.6s
#8 transferring context: 10.73GB 141.6s
#8 transferring context: 11.12GB 146.7s
#8 transferring context: 11.52GB 151.7s
#8 transferring context: 11.74GB 156.7s
#8 transferring context: 12.08GB 161.8s
#8 transferring context: 12.43GB 166.8s
#8 transferring context: 12.84GB 171.9s
#8 transferring context: 13.14GB 177.0s
#8 transferring context: 13.45GB 182.1s
#8 transferring context: 13.85GB 187.1s
#8 transferring context: 14.19GB 192.2s
#8 transferring context: 14.49GB 197.3s
#8 transferring context: 14.75GB 202.4s
#8 transferring context: 15.01GB 207.5s
#8 transferring context: 15.25GB 211.8s done
#8 DONE 211.9s

#9 [stage-0  4/10] RUN --mount=type=cache,target=/root/.cache/pip pip install -r /tmp/requirements.txt
#9 CACHED

#10 [stage-0  6/10] RUN pip install "pydantic<2.0.0"
#10 CACHED

#11 [stage-0  2/10] RUN --mount=type=cache,target=/var/cache/apt,sharing=locked apt-get update -qq && apt-get install -qqy espeak-ng && rm -rf /var/lib/apt/lists/*
#11 CACHED

#12 [stage-0  5/10] RUN git clone https://github.com/facebookresearch/audiocraft && pip install -e ./audiocraft
#12 CACHED

#13 [stage-0  8/10] RUN mkdir -p /root/.cache/torch/hub/checkpoints/ && wget --output-document "/root/.cache/torch/hub/checkpoints/wav2vec2_fairseq_base_ls960_asr_ls960.pth" "https://download.pytorch.org/torchaudio/models/wav2vec2_fairseq_base_ls960_asr_ls960.pth"
#13 CACHED

#14 [stage-0  7/10] RUN curl -o /usr/local/bin/pget -L "https://github.com/replicate/pget/releases/download/v0.6.0/pget_linux_x86_64" && chmod +x /usr/local/bin/pget
#14 CACHED

#15 [stage-0  3/10] COPY .cog/tmp/build20240930190519.266171951251083/requirements.txt /tmp/requirements.txt
#15 CACHED

#16 [stage-0  9/10] WORKDIR /src
#16 CACHED

#17 [stage-0 10/10] COPY . /src
#17 DONE 248.4s

#18 exporting to image
#18 exporting layers
#18 exporting layers 115.9s done
#18 preparing layers for inline cache 0.0s done
#18 writing image sha256:0a9b0ed6534753b08a0aebe94249e408d0ea9ba8e73da835440f0eb7fb909f48 done
#18 naming to r8.im/get-robin/voicecraft done
#18 DONE 116.0s
Validating model schema...
Adding labels to image...
Unable to determine Git tag

Pushing image 'r8.im/get-robin/voicecraft'...
Using default tag: latest
The push refers to repository [r8.im/get-robin/voicecraft]
8c9d992dc263: Pushed
e905cd725679: Pushed
19dd67484a0a: Layer already exists
536197192795: Layer already exists
2af5bd951e8b: Layer already exists
12847e380e9e: Layer already exists
835ef44e6a88: Layer already exists
eb4b45525e52: Layer already exists
c0a79635945d: Layer already exists
4a110f5a7c1c: Layer already exists
73a033727bf3: Layer already exists
990880987c36: Layer already exists
ae866f3796fe: Layer already exists
e2b558ac048d: Layer already exists
64c3b228f0eb: Layer already exists
df3e6c8d7fb2: Layer already exists
829efec66bb7: Layer already exists
6e11a516b4c8: Layer already exists
8db7d5370245: Layer already exists
552b2b859388: Layer already exists
461cf6ba28a4: Layer already exists
ff66b339eab4: Layer already exists
8fe877b592f0: Layer already exists
538b8d249fcb: Layer already exists
3439643961e5: Layer already exists
4ec8ea6bae9d: Layer already exists
5ba64f0247e6: Layer already exists
00915ad78379: Layer already exists
latest: digest: sha256:0c4f5c7e3a21cdfe824844937cd1e7d31d51757eb89899b72485f214ea9d2132 size: 6223
Image 'r8.im/get-robin/voicecraft' pushed

Run your model on Replicate:
    https://replicate.com/get-robin/voicecraft
55.10user 31.97system 18:50.51elapsed 7%CPU (0avgtext+0avgdata 54912maxresident)k
28940336inputs+136outputs (1major+119657minor)pagefaults 0swaps

I ran get-robin/voicecraft with the same parameters I used to successfully run cjwbw/voicecraft, but I get the following message when I try to run it:

Prediction failed.

This version has been disabled because it consistently fails to complete setup.

and no log output.

Are there any versions of cog that are known to deploy voicecraft successfully or unsuccessfully (currently running cog version 0.9.24)? Docker versions? Any other dependencies?

I have tried this from a number of boxes, but currently I'm running ubuntu 24.04, on an EC2 g4dn.xlarge instance, x86_64, CUDA 12.6.