bytedance/DiffusionEngine

The detection adapter then utilizes the pyramid feature for predicting the bounding box?

Closed this issue · 5 comments

你好,作者。非常感谢您的开源贡献。在读论文的过程中产生了一个疑问: detection adapter是使用pyramid feature from each U-Net block去产生标签框,为什么不直接使用 diffusion model产生的像素级的图片去产生标签框。

你好,作者,如果想用coco数据集复现论文,应该怎么处理coco数据集,以及训练数据集的放置目录和结构是怎么的,期待能收到你的回信!!!

如果用像素图片产生标注,那和用真实图片产生标签相比,就没什么创新了啊,性能可能还比真实图片更差。另外你能复现原文的性能吗

@illrayy 还没有复现,训练代码和生成代码跑通了。但是我用自己的数据集对SD模型进行了微调(lora),还没有训练DE模型呢。你能复现模型的生成效果吗?

我没复现,就是看三个月了都没放权重,也不更新仓库,回issue,有点skeptical,想看看有没有人能复现原文的效果。期待你的结果!

@illrayy 作者的权重文件估计是不会放出来啦,或者你用coco数据自己训练一个出来看看效果。