yeyupiaoling/Whisper-Finetune

使用large-v2-finetune,高機率出現重複內容…

zero-zen opened this issue · 2 comments

  • 訓練語句:約17,400 條
    以下是我 finetune.py 主要的參數設定
base_model: open/whisper-large-v2
fp16: True
use_8bit: False
timestamps: False
use_compile: False
num_train_epochs: 5
local_files_only: True
per_device_train_batch_size: 8
per_device_eval_batch_size: 8
gradient_accumulation_steps: 1
  • cer 評比約 0.15(test.json 是從 train.json中隨機扣掉一大半取得)

在後續使用 finetune 的模型推理時,
有很高的機率出現重複句子,如下:

…
[2105.04-2106.44s] 那就是有意義
[2106.44-2108.12s] 那就是有意義
[2108.12-2109.68s] 那就是有意義
[2109.68-2111.08s] 那就是有意義
[2111.08-2112.28s] 那就是有意義
[2112.28-2113.52s] 那就是有意義
[2113.52-2114.72s] 那就是有意義
…
[2426.24-2428.24s] 那就是你的生活
[2428.24-2430.24s] 那就是你的生活
[2430.24-2432.24s] 那就是你的生活
[2432.24-2434.24s] 那就是你的生活
[2434.24-2436.24s] 那就是你的生活
[2436.24-2438.24s] 那就是你的生活
[2438.24-2440.24s] 那就是你的生活
[2440.24-2442.24s] 那就是你的生活
[2442.24-2444.24s] 那就是你的生活
  1. 是我的訓練出了什麼問題嗎?
  2. 有其它的解決方法嗎?

我剛剛重新檢查每一個訓練資料,發現有些語句是錯誤的,無法匹配!
也許是這個原因造成的,我再重新整理比對後,再做 finetune。

我剛剛重新檢查每一個訓練資料,發現有些語句是錯誤的,無法匹配!
也許是這個原因造成的,我再重新整理比對後,再做 finetune。

@zero-zen 嗯嗯,有可能,如果你的数据本身有问题,则会导致微调的效果变差。也有可能是微调过度,导致模型丢失了之前的能力。