先个大神点个赞，然后说说我的理解，特别和“终极理想立体视觉”模型之间的距离。

Question

先个大神点个赞，然后说说我的理解，特别和“终极理想立体视觉”模型之间的距离。

yuedajiong opened this issue 8 months ago · 2 comments

核心其实就一点，太严重的依赖于比较准的P(CameraPose)了。

我理解的，最终那个“终极理想立体视觉”，输入应该没有P，更不应该要求很精确的P。

要达到这种效果，应该是算法具有超级强大的先验，无论是diff-hash, memory-network, diffusion-parameters还是啥，已经有超级多超级强的先验，要重构的那些立体几乎都是存在的。给出的这张输入图片，就是对最接近的那些立体，在shape上做微调整，对应上texture。

即使算法过程中，需要P，那么也应该弱化P，不要那么精确，能够容忍一定程度的不准。
如果能够把P去掉，或者至少做到算法内部有一个estimation的模块，最好不是colmap，或者3d model上给定pose渲染，是个differentiable的pose-esti，还能做到比较好的效果，我觉得算法就更牛逼一些。

Answer 1 · 2024-03-21T07:26:25.000Z

Really wired question, doubt that you understand what they are trying to do.

Answer 2 · 2024-03-22T06:38:09.000Z

我英语不太好啊，不知道wired question想表达什么，是weird question的意思吗。
我很熟悉3D重构/生成；我也知道这篇文章在干什么；当然我也读了试了太多论文和代码。

无论这些文章，各自在哪一个点上创新，其核心就是：通过尽量少的要求，产生尽量好的立体表示。

无论你是否同意，我上面想表达的问题就是：输入包含图像的是否，是否需要camera-pose，是个非常非常非常基本的问题。
当然：有精确的camera pose能够构造好，也非常有价值；但整体这个方向，最终还是希望减弱甚至不需要camera-pose。

我对这篇文章，也仅仅是这个意思：用词是 “更牛逼”。

我是在学习各种算法，其中stereo representation也是很重要的一个点，各种隐式和显式，无论3D还是4D，各有所长；看到这篇很不错，哪怕是有个consistent关键字就值得来看一下；不过对camera pose有要求。

虽然你看起来我的问题很突兀地写在这里；如果对这个方向理解很深，就知道我在说什么；如果对这个方向算法的发展理解不到位，就会觉得这个人在这里莫名其妙的自以为是的乱说。其实一点都不weird。
等你对这个方向理解深了，就你知道别人在说什么了。其实把camera pose说的很详细，是你理解深度不够。
如果你有兴趣weird++，那如果我有兴趣，也可以来个camera-pose++，把camera pose这个问题说透，现在的研究的状况说透。

核心一句： camera-pose依赖越少越好。你自己慢慢下去琢磨吧，在3d recon/gen这个方向，若干关键的技术点上，比如few shot, dynamic, speed, camere-free, ex/implicit representation, interactive, ....，其中camera-pose是非常重要的一个点。

train([image])
infer(image, [origin], [direction])
多任何一个，都是负担。