My computer is 7950x+3090+win11. The problem I have encountered so far is that whisper often gets stuck on a certain sentence and only displays that sentence. This is the debug message

Question

My computer is 7950x+3090+win11. The problem I have encountered so far is that whisper often gets stuck on a certain sentence and only displays that sentence. This is the debug message

sayou112 opened this issue 2 years ago · 4 comments

CPU Tasks
LoadModel 1.07181 seconds
RunComplete 183.839 seconds
Run 183.807 seconds
Callbacks 91.5823 milliseconds, 597 calls, 153.404 microseconds average
Spectrogram 2.61882 seconds, 597 calls, 4.38664 milliseconds average
Sample 434.205 milliseconds, 4973 calls, 87.3126 microseconds average
Encode 78.608 seconds, 151 calls, 520.583 milliseconds average
Decode 105.072 seconds, 151 calls, 695.842 milliseconds average
DecodeStep 104.636 seconds, 4973 calls, 21.0409 milliseconds average
GPU Tasks
LoadModel 941.654 milliseconds
Run 183.474 seconds
Encode 79.3006 seconds, 151 calls, 525.17 milliseconds average
EncodeLayer 68.0949 seconds, 4832 calls, 14.0925 milliseconds average
Decode 104.173 seconds, 151 calls, 689.887 milliseconds average
DecodeStep 104.17 seconds, 4973 calls, 20.9472 milliseconds average
DecodeLayer 99.8748 seconds, 159136 calls, 627.607 microseconds average
Compute Shaders
mulMatTiled 86.844 seconds, 106455 calls, 815.782 microseconds average
mulMatByRowTiled 54.1257 seconds, 1856470 calls, 29.1552 microseconds average
norm 6.29587 seconds, 492196 calls, 12.7914 microseconds average
fmaRepeat1 4.67827 seconds, 492196 calls, 9.5049 microseconds average
addRepeatEx 4.30311 seconds, 487072 calls, 8.83466 microseconds average
softMaxFixed 4.26437 seconds, 163968 calls, 26.0073 microseconds average
copyConvert 3.78565 seconds, 337600 calls, 11.2134 microseconds average
copyTranspose 3.04665 seconds, 327936 calls, 9.29038 microseconds average
addRepeatScale 2.6265 seconds, 318272 calls, 8.25237 microseconds average
addRepeatGelu 2.30762 seconds, 164270 calls, 14.0477 microseconds average
scaleInPlace 2.26355 seconds, 163968 calls, 13.8048 microseconds average
softMaxLong 1.95392 seconds, 4973 calls, 392.905 microseconds average
softMax 1.64306 seconds, 159136 calls, 10.3249 microseconds average
addRepeat 1.63932 seconds, 173632 calls, 9.44136 microseconds average
diagMaskInf 1.09114 seconds, 159136 calls, 6.85662 microseconds average
convolutionMain2Fixed 1.07107 seconds, 151 calls, 7.09317 milliseconds average
convolutionMain 726.8 milliseconds, 151 calls, 4.81325 milliseconds average
convolutionPrep1 173.997 milliseconds, 302 calls, 576.149 microseconds average
addRows 39.0447 milliseconds, 4973 calls, 7.85134 microseconds average
convolutionPrep2 32.8619 milliseconds, 302 calls, 108.814 microseconds average
add 9.5922 milliseconds, 151 calls, 63.5245 microseconds average
Memory Usage
Model 892.591 KB RAM, 2.8815 GB VRAM
Context 92.2469 MB RAM, 1.14026 GB VRAM
Total 93.1185 MB RAM, 4.02176 GB VRAM

This is the second paragraph

LoadModel 785.758 milliseconds
RunComplete 183.215 seconds
Run 180.287 seconds
Callbacks 140.159 milliseconds, 565 calls, 248.07 microseconds average
Spectrogram 1.36081 seconds, 325 calls, 4.18712 milliseconds average
Sample 653.93 milliseconds, 7574 calls, 86.3388 microseconds average
Encode 34.552 seconds, 66 calls, 523.515 milliseconds average
Decode 145.592 seconds, 66 calls, 2.20593 seconds average
DecodeStep 144.935 seconds, 7574 calls, 19.1359 milliseconds average
GPU Tasks
LoadModel 674.65 milliseconds
Run 180.189 seconds
Encode 34.8957 seconds, 66 calls, 528.723 milliseconds average
EncodeLayer 29.9278 seconds, 2112 calls, 14.1704 milliseconds average
Decode 145.294 seconds, 66 calls, 2.20142 seconds average
DecodeStep 145.289 seconds, 7574 calls, 19.1826 milliseconds average
DecodeLayer 140.458 seconds, 242368 calls, 579.523 microseconds average
Compute Shaders
mulMatByRowTiled 85.948 seconds, 2890580 calls, 29.7338 microseconds average
mulMatTiled 37.9926 seconds, 46530 calls, 816.519 microseconds average
norm 9.14767 seconds, 738968 calls, 12.379 microseconds average
fmaRepeat1 6.87893 seconds, 738968 calls, 9.30883 microseconds average
addRepeatEx 6.25139 seconds, 731328 calls, 8.548 microseconds average
copyConvert 5.21079 seconds, 493184 calls, 10.5656 microseconds average
copyTranspose 4.30258 seconds, 488960 calls, 8.79944 microseconds average
addRepeatScale 4.136 seconds, 484736 calls, 8.53247 microseconds average
softMaxFixed 3.84693 seconds, 244480 calls, 15.7352 microseconds average
scaleInPlace 3.26339 seconds, 244480 calls, 13.3483 microseconds average
addRepeatGelu 2.97884 seconds, 244612 calls, 12.1778 microseconds average
softMax 2.54541 seconds, 242368 calls, 10.5022 microseconds average
softMaxLong 2.13291 seconds, 7574 calls, 281.61 microseconds average
addRepeat 2.0972 seconds, 248704 calls, 8.4325 microseconds average
diagMaskInf 1.58012 seconds, 242368 calls, 6.51953 microseconds average
convolutionMain2Fixed 506.959 milliseconds, 66 calls, 7.6812 milliseconds average
convolutionMain 346.168 milliseconds, 66 calls, 5.24497 milliseconds average
convolutionPrep1 79.9725 milliseconds, 132 calls, 605.852 microseconds average
addRows 53.2153 milliseconds, 7574 calls, 7.02605 microseconds average
convolutionPrep2 15.3727 milliseconds, 132 calls, 116.46 microseconds average
add 3.9813 milliseconds, 66 calls, 60.3227 microseconds average
Memory Usage
Model 892.591 KB RAM, 2.8815 GB VRAM
Context 96.4966 MB RAM, 1.14026 GB VRAM
Total 97.3683 MB RAM, 4.02176 GB VRAM

This is the scenario I used to recognize Japanese, and the model I used was large

Answer 1 · 2023-03-25T05:13:40.000Z

I found that the 3090 was fully utilized and only 3gb of video memory was used

Answer 2 · 2023-03-25T10:56:34.000Z

Maybe this is because the program use compute shader but not CUDA.
And maybe I should update the library to 1.10.1

Answer 3 · 2023-03-25T12:05:03.000Z

I have updated the library to 1.10.1. If the bug still exists, maybe you could try out the GUI from Const-me/Whisper. If this is a bug of Const-me/Whisper, you could create a new issue there.
I only have a laptop GTX1650 GPU so I couldn't run a large model to test if it works.

Answer 4 · 2023-04-01T03:35:41.000Z

hi，I used your latest version, the repetition is improved, but there is still repetition, mainly on the back end, and I found a new problem