先个大神点个赞,然后说说我的理解,特别和“终极理想立体视觉”模型之间的距离。
yuedajiong opened this issue · 2 comments
核心其实就一点,太严重的依赖于比较准的P(CameraPose)了。
我理解的,最终那个“终极理想立体视觉”,输入应该没有P,更不应该要求很精确的P。
要达到这种效果,应该是算法具有超级强大的先验,无论是diff-hash, memory-network, diffusion-parameters还是啥,已经有超级多超级强的先验,要重构的那些立体几乎都是存在的。给出的这张输入图片,就是对最接近的那些立体,在shape上做微调整,对应上texture。
即使算法过程中,需要P,那么也应该弱化P,不要那么精确,能够容忍一定程度的不准。
如果能够把P去掉,或者至少做到算法内部有一个estimation的模块,最好不是colmap,或者3d model上给定pose渲染,是个differentiable的pose-esti,还能做到比较好的效果,我觉得算法就更牛逼一些。
Really wired question, doubt that you understand what they are trying to do.
我英语不太好啊,不知道wired question想表达什么,是weird question的意思吗。
我很熟悉3D重构/生成;我也知道这篇文章在干什么;当然我也读了试了太多论文和代码。
无论这些文章,各自在哪一个点上创新,其核心就是: 通过尽量少的要求,产生尽量好的立体表示。
无论你是否同意,我上面想表达的问题就是: 输入包含图像的是否,是否需要camera-pose,是个非常非常非常基本的问题。
当然:有精确的camera pose能够构造好,也非常有价值;但整体这个方向,最终还是希望减弱甚至不需要camera-pose。
我对这篇文章,也仅仅是这个意思:用词是 “更牛逼”。
我是在学习各种算法,其中stereo representation也是很重要的一个点,各种隐式和显式,无论3D还是4D,各有所长;看到这篇很不错,哪怕是有个consistent关键字就值得来看一下;不过对camera pose有要求。
虽然你看起来我的问题很突兀地写在这里; 如果对这个方向理解很深,就知道我在说什么; 如果对这个方向算法的发展理解不到位,就会觉得这个人在这里莫名其妙的自以为是的乱说。其实一点都不weird。
等你对这个方向理解深了,就你知道别人在说什么了。其实把camera pose说的很详细,是你理解深度不够。
如果你有兴趣weird++,那如果我有兴趣,也可以来个camera-pose++,把camera pose这个问题说透,现在的研究的状况说透。
核心一句: camera-pose依赖越少越好。 你自己慢慢下去琢磨吧,在3d recon/gen这个方向,若干关键的技术点上,比如few shot, dynamic, speed, camere-free, ex/implicit representation, interactive, ....,其中camera-pose是非常重要的一个点。
train([image])
infer(image, [origin], [direction])
多任何一个,都是负担。