请问您的seq2seq 迭代epoch多大batchsize多大能取到最佳模型呢?
TsungchengWu opened this issue · 17 comments
char的是第51个epoch,word是第73个epoch
batchsize用的就是代码中的值
请问seq2seq我看用的是交叉熵损失函数,这样计算的时候怎么对齐的啊,怎么不用ctc loss呢
因为加了padding所以所有序列的长度是一样的
谢谢回复,明白了,这样导致就是预测时候序列长度也是固定的了。
请问这个seq2seq word level级别训练之后,你测试了数据集上实际效果还不错,是吗?
还有这个seq2seq 来做cslr,有论文参考吗。
对的,参考文献你看一下readme里的reference吧
好的,看到了,非常感谢。
我在训练集上ACC 90%+, WER 10%几,测试集ACC 40% WER 80%多, 过拟合好严重。请问你当时没有这个现象吗?
我是在原视频序列中均匀采样48帧得到的训练结果,你实验的CSLR seq2seq应该也是48吧
没有诶,你用的是同一个数据集吗
是的,用的CSLR数据集,均匀采样48帧,我这边的gloss词典是我自己利用jieba分词构建的,请问你的词典是怎么获取的啊
我的是直接按照手语单词识别数据集中的dictionary.txt给的
你好,方便提供一下这个词典吗?我下载的CSLR数据集,里面没有提供gloss词典。谢谢了
在手语单词识别数据集的dictionary的基础上加了四个没有的单词
dictionary.txt
谢谢,请问手语单词和连续手语识别的数据集你们申请到的吗?方便共享吗
我看有“的”在词典中,请问这个是你加的吗?
我是从中科大那个网站下载的,对的499后面的我直接加的
好的,看到了,非常感谢。
我在训练集上ACC 90%+, WER 10%几,测试集ACC 40% WER 80%多, 过拟合好严重。请问你当时没有这个现象吗?
我是在原视频序列中均匀采样48帧得到的训练结果,你实验的CSLR seq2seq应该也是48吧
我的也出现了这种情况,训练集的结果好,但是测试集的结果很差,请问你解决了吗?
好的,看到了,非常感谢。
我在训练集上ACC 90%+, WER 10%几,测试集ACC 40% WER 80%多, 过拟合好严重。请问你当时没有这个现象吗?
我是在原视频序列中均匀采样48帧得到的训练结果,你实验的CSLR seq2seq应该也是48吧我的也出现了这种情况,训练集的结果好,但是测试集的结果很差,请问你解决了吗?
你好,请问你找到解决办法了吗?
好的,看到了,非常感谢。
我在训练集上ACC 90%+, WER 10%几,测试集ACC 40% WER 80%多, 过拟合好严重。请问你当时没有这个现象吗?
我是在原视频序列中均匀采样48帧得到的训练结果,你实验的CSLR seq2seq应该也是48吧我的也出现了这种情况,训练集的结果好,但是测试集的结果很差,请问你解决了吗?
你好,请问你找到解决办法了吗?
因为训练时使用了Teacher forcing,所以训练集和测试集的结果相差很多,用Beam Search能缩小大概20%,但还是达不到训练集那么好的效果