Ucas-HaoranWei/Vary

Vary复现交流群

StarCycle opened this issue · 23 comments

微信图片编辑_20240326154707

大家复现的时候遇到问题一起讨论呀,如果作者@Ucas-HaoranWei 有空的话也麻烦在群里直接解答orz

@xudou3 @lucasjinreal @41passerby @Yirzzzz @NNNNAI @luohao123 @samaritan1998 @DongyangLiu @duchenzhuang

我想知道大家想复现vary-tiny的目的,因为这个也开源了,是想scale-up吗(比方说用上sam-l/h)?

代码跑不起来,遇到的问题比较多,作者大大可否帮大家解答一下,例如opt125m 最大长度是2048, 4096怎么训的,SAM权重加载为什么有注释掉的几行,意义是什么?

群还有吗,过期了

想进群

Sorry,这个repo里面有人声称能复现Vary,我至今没有看到声称能从0复现Vary的加群或者分享哪怕一丁点失败的经验,这个repo本身毫无疑问是不可能从0复现的。

大家可以扫新码,我尝试了SAM+opt SAM+qwen Convnext+opt Convnext+Qwen 目前这个codebase什么东西都学不到。。

抱团取暖吧,这论文的可疑性越来越重了,作者又不愿意多回答一句大家伙的问题,这当中弄错了什么关键信息完全不知道,这不是一个学术交流应该有的,抱团取暖吧。

image

不用怀疑,难道我的weights是手算的吗,我最开始训练work的backbone是resnet50。
给大家提醒下,如果有人想从0训练Vary-tiny:
1.我上周就说huggingface的transformers多ep loss降的不对,需要自己写trainer,不管什么codebase(包括llava那套),只要用huggingface的trainer训练都不要超过一个ep。这一点同组同学在视频理解和生成任务也得到验证
2.如果大家不想自己写codebase或者trainer,耐心等我写完开源,这个项目只有我一个人维护,不要催

transformers库貌似可以通过数据*n遍,来替代多个ep收敛
Ucas-HaoranWei/Vary-toy#30 (comment)

你好,有个疑问,*n 本质上是增大了训练时间,只是在lr策略上保持一个epoch的策略,这是因为cosine 的lr配置的有问题吗?

感觉很有可能,但是*n和n倍不同的数据量应该还是不同,*n除了增大训练时间,还模拟了模型见n遍相同的数据