CLIP梯度和梯度overflow的影响
tzjtatata opened this issue · 2 comments
tzjtatata commented
你好,非常感谢你们的出色工作。
我有两个疑惑:对于LomoTrainer中额外使用的这两个东西是否非常重要?对性能的影响有多大呢?
KaiLv69 commented
你好,
这两个参数在使用较大的学习率时比较重要,可以调整梯度的大小避免loss跑飞或者出现nan,
tzjtatata commented
好的,多谢您的回复。
我还有一个问题,最近在实际训练时发现学习率和一般LLM的论文里用的adamw可能差别不太大,导致不太好迁移。
你们有一个大概的经验总结吗?
…---原始邮件---
发件人: "Kai ***@***.***>
发送时间: 2023年7月24日(周一) 下午2:41
收件人: ***@***.***>;
抄送: ***@***.******@***.***>;
主题: Re: [OpenLMLab/LOMO] CLIP梯度和梯度overflow的影响 (Issue #48)
你好,
这两个参数在使用较大的学习率时比较重要,可以调整梯度的大小避免loss跑飞或者出现nan,
—
Reply to this email directly, view it on GitHub, or unsubscribe.
You are receiving this because you authored the thread.Message ID: ***@***.***>