使用large-v2-finetune，高機率出現重複內容…

Question

使用large-v2-finetune，高機率出現重複內容…

zero-zen opened this issue 6 months ago · 2 comments

訓練語句：約17,400 條
以下是我 finetune.py 主要的參數設定

base_model: open/whisper-large-v2
fp16: True
use_8bit: False
timestamps: False
use_compile: False
num_train_epochs: 5
local_files_only: True
per_device_train_batch_size: 8
per_device_eval_batch_size: 8
gradient_accumulation_steps: 1

cer 評比約 0.15（test.json 是從 train.json中隨機扣掉一大半取得）

在後續使用 finetune 的模型推理時，
有很高的機率出現重複句子，如下：

…
[2105.04-2106.44s] 那就是有意義
[2106.44-2108.12s] 那就是有意義
[2108.12-2109.68s] 那就是有意義
[2109.68-2111.08s] 那就是有意義
[2111.08-2112.28s] 那就是有意義
[2112.28-2113.52s] 那就是有意義
[2113.52-2114.72s] 那就是有意義
…
[2426.24-2428.24s] 那就是你的生活
[2428.24-2430.24s] 那就是你的生活
[2430.24-2432.24s] 那就是你的生活
[2432.24-2434.24s] 那就是你的生活
[2434.24-2436.24s] 那就是你的生活
[2436.24-2438.24s] 那就是你的生活
[2438.24-2440.24s] 那就是你的生活
[2440.24-2442.24s] 那就是你的生活
[2442.24-2444.24s] 那就是你的生活

是我的訓練出了什麼問題嗎？
有其它的解決方法嗎？

Answer 1 · 2024-03-26T09:20:53.000Z

我剛剛重新檢查每一個訓練資料，發現有些語句是錯誤的，無法匹配！
也許是這個原因造成的，我再重新整理比對後，再做 finetune。

Answer 2 · 2024-04-03T02:54:34.000Z

我剛剛重新檢查每一個訓練資料，發現有些語句是錯誤的，無法匹配！
也許是這個原因造成的，我再重新整理比對後，再做 finetune。

@zero-zen 嗯嗯，有可能，如果你的数据本身有问题，则会导致微调的效果变差。也有可能是微调过度，导致模型丢失了之前的能力。