The detection adapter then utilizes the pyramid feature for predicting the bounding box?
Closed this issue · 5 comments
Lucy-IM commented
你好,作者。非常感谢您的开源贡献。在读论文的过程中产生了一个疑问: detection adapter是使用pyramid feature from each U-Net block去产生标签框,为什么不直接使用 diffusion model产生的像素级的图片去产生标签框。
Lucy-IM commented
你好,作者,如果想用coco数据集复现论文,应该怎么处理coco数据集,以及训练数据集的放置目录和结构是怎么的,期待能收到你的回信!!!
illrayy commented
如果用像素图片产生标注,那和用真实图片产生标签相比,就没什么创新了啊,性能可能还比真实图片更差。另外你能复现原文的性能吗
illrayy commented
我没复现,就是看三个月了都没放权重,也不更新仓库,回issue,有点skeptical,想看看有没有人能复现原文的效果。期待你的结果!