Vary复现交流群
StarCycle opened this issue · 23 comments
大家复现的时候遇到问题一起讨论呀,如果作者@Ucas-HaoranWei 有空的话也麻烦在群里直接解答orz
@xudou3 @lucasjinreal @41passerby @Yirzzzz @NNNNAI @luohao123 @samaritan1998 @DongyangLiu @duchenzhuang
我想知道大家想复现vary-tiny的目的,因为这个也开源了,是想scale-up吗(比方说用上sam-l/h)?
代码跑不起来,遇到的问题比较多,作者大大可否帮大家解答一下,例如opt125m 最大长度是2048, 4096怎么训的,SAM权重加载为什么有注释掉的几行,意义是什么?
群还有吗,过期了
想进群
不用怀疑,难道我的weights是手算的吗,我最开始训练work的backbone是resnet50。
给大家提醒下,如果有人想从0训练Vary-tiny:
1.我上周就说huggingface的transformers多ep loss降的不对,需要自己写trainer,不管什么codebase(包括llava那套),只要用huggingface的trainer训练都不要超过一个ep。这一点同组同学在视频理解和生成任务也得到验证
2.如果大家不想自己写codebase或者trainer,耐心等我写完开源,这个项目只有我一个人维护,不要催
transformers库貌似可以通过数据*n遍,来替代多个ep收敛
Ucas-HaoranWei/Vary-toy#30 (comment)
你好,有个疑问,*n 本质上是增大了训练时间,只是在lr策略上保持一个epoch的策略,这是因为cosine 的lr配置的有问题吗?
感觉很有可能,但是*n和n倍不同的数据量应该还是不同,*n除了增大训练时间,还模拟了模型见n遍相同的数据