The detection adapter then utilizes the pyramid feature for predicting the bounding box？

Question

Closed this issue 9 months ago · 5 comments

你好，作者。非常感谢您的开源贡献。在读论文的过程中产生了一个疑问： detection adapter是使用pyramid feature from each U-Net block去产生标签框，为什么不直接使用 diffusion model产生的像素级的图片去产生标签框。

Answer 1 · 2023-10-13T07:48:39.000Z

你好，作者，如果想用coco数据集复现论文，应该怎么处理coco数据集，以及训练数据集的放置目录和结构是怎么的，期待能收到你的回信!!!

Answer 2 · 2023-12-20T05:03:53.000Z

如果用像素图片产生标注，那和用真实图片产生标签相比，就没什么创新了啊，性能可能还比真实图片更差。另外你能复现原文的性能吗

Answer 3 · 2023-12-20T05:49:54.000Z

@illrayy 还没有复现，训练代码和生成代码跑通了。但是我用自己的数据集对SD模型进行了微调（lora），还没有训练DE模型呢。你能复现模型的生成效果吗？

Answer 4 · 2023-12-20T06:12:41.000Z

我没复现，就是看三个月了都没放权重，也不更新仓库，回issue，有点skeptical，想看看有没有人能复现原文的效果。期待你的结果！

Answer 5 · 2023-12-20T06:38:54.000Z

@illrayy 作者的权重文件估计是不会放出来啦，或者你用coco数据自己训练一个出来看看效果。