Awesome-BEV-Papers

curated list of BEV related papers. I also organized DETR related papers here, as they are also closely related to most recent papers.

I am intensely reading BEV related papers these days, so this list is expected to be updated very frequently.

Survey

Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe.
Hongyang Li, Chonghao Sima, Jifeng Dai, Wenhai Wang, Lewei Lu, Huijie Wang, Enze Xie, Zhiqi Li, Hanming Deng, Hao Tian, Xizhou Zhu, Li Chen, Yulu Gao, Xiangwei Geng, Jia Zeng, Yang Li, Jiazhi Yang, Xiaosong Jia, Bohan Yu, Yu Qiao, Dahua Lin, Si Liu, Junchi Yan, Jianping Shi, Ping Luo.
In . [2209.05324] [OpenPerceptionX/BEVPerception-Survey-Recipe]
Vision-Centric BEV Perception: A Survey
Yuexin Ma, Tai Wang, Xuyang Bai, Huitong Yang, Yuenan Hou, Yaming Wang, Yu Qiao, Ruigang Yang, Dinesh Manocha, Xinge Zhu.
In . [2208.02797] [4DVLab/Vision-Centric-BEV-Perception]
3D Object Detection for Autonomous Driving: A Review and New Outlooks
Jiageng Mao, Shaoshuai Shi, Xiaogang Wang, Hongsheng Li.
In . [2206.09474] [PointsCoder/Awesome-3D-Object-Detection-for-Autonomous-Driving]

BEV 3D Object Detection related

(mainly camera and camera+lidar based)

[HMFI] Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object Detection
Xin Li, Botian Shi, Yuenan Hou, Xingjiao Wu, Tianlong Ma, Yikang Li, Liang He.
In ECCV 2022. [2210.09615]
[SOLOFusion] Time Will Tell: New Outlooks and A Baseline for Temporal Multi-View 3D Object Detection
Jinhyung Park, Chenfeng Xu, Shijia Yang, Kurt Keutzer, Kris Kitani, Masayoshi Tomizuka, Wei Zhan.
In . [2210.02443] [Divadi/SOLOFusion]
[BEVDistill] BEVDistill: Cross-modal BEV Distillation For Multi-view 3D Object Detection.
Anonymous.
In ICLR 2023 (submission). [paper]
[SpatialDETR] SpatialDETR: Robust Scalable Transformer-Based 3D Object Detection from Multi-View Camera Images with Global Cross-Sensor Attention.
Simon Doll, Richard Schulz, Lukas Schneider, Viviane Benzin, Markus Enzweiler, Hendrik P.A. Lensch.
In ECCV 2022. [paper] [cgtuebingen/SpatialDETR]
[CrossDTR] CrossDTR: Cross-view and Depth-guided Transformers for 3D Object Detection
Ching-Yu Tseng, Yi-Rong Chen, Hsin-Ying Lee, Tsung-Han Wu, Wen-Chin Chen, Winston Hsu.
In . [2209.13507] [sty61010/CrossDTR]
[CFF] Center Feature Fusion: Selective Multi-Sensor Fusion of Center-based Objects
Philip Jacobson, Yiyang Zhou, Wei Zhan, Masayoshi Tomizuka, Ming C. Wu.
In . [2209.12880]
[DeepFusion] DeepFusion: A Robust and Modular 3D Object Detector for Lidars, Cameras and Radars
Florian Drews, Di Feng, Florian Faion, Lars Rosenbaum, Michael Ulrich, Claudius Gläser.
In . [2209.12729]
[BEVStereo] BEVStereo: Enhancing Depth Estimation in Multi-view 3D Object Detection with Dynamic Temporal Stereo
Yinhao Li, Han Bao, Zheng Ge, Jinrong Yang, Jianjian Sun, Zeming Li.
In . [2209.10248] [Megvii-BaseDetection/BEVStereo]
[MSMDFusion] MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth Seeds for 3D Object Detection
Yang Jiao, Zequn Jie, Shaoxiang Chen, Jingjing Chen, Xiaolin Wei, Lin Ma, Yu-Gang Jiang.
In . [2209.03102]
[DeepInteraction] DeepInteraction: 3D Object Detection via Modality Interaction
Zeyu Yang, Jiaqi Chen, Zhenwei Miao, Wei Li, Xiatian Zhu, Li Zhang.
In . [2208.11112]
[STS] STS: Surround-view Temporal Stereo for Multi-view 3D Detection
Zengran Wang, Chen Min, Zheng Ge, Yinhao Li, Zeming Li, Hongyu Yang, Di Huang.
In . [2208.10145]
[SimMOD] A Simple Baseline for Multi-Camera 3D Object Detection
Yunpeng Zhang, Wenzhao Zheng, Zheng Zhu, Guan Huang, Jie Zhou, Jiwen Lu.
In . [2208.10035] [zhangyp15/SimMOD]
[PersDet] PersDet: Monocular 3D Detection in Perspective Bird's-Eye-View
Hongyu Zhou, Zheng Ge, Weixin Mao, Zeming Li.
In . [2208.09394]
[DfM] Monocular 3D Object Detection with Depth from Motion
Tai Wang, Jiangmiao Pang, Dahua Lin.
In ECCV 2022. [2207.12988] [Tai-Wang/Depth-from-Motion]
[MV-FCOS3D++] MV-FCOS3D++: Multi-View Camera-Only 4D Object Detection with Pretrained Monocular Backbones
Tai Wang, Qing Lian, Chenming Zhu, Xinge Zhu, Wenwei Zhang.
In . [2207.12716] [Tai-Wang/Depth-from-Motion]
[DEVIANT] DEVIANT: Depth EquiVarIAnt NeTwork for Monocular 3D Object Detection
Abhinav Kumar, Garrick Brazil, Enrique Corona, Armin Parchami, Xiaoming Liu.
In . [2207.10758] [abhi1kumar/DEVIANT]
[DCD] Densely Constrained Depth Estimator for Monocular 3D Object Detection
Yingyan Li, Yuntao Chen, Jiawei He, Zhaoxiang Zhang.
In ECCV 2022. [2207.10047] [BraveGroup/DCD]
[AutoAlignV2] AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D Object Detection.
Zehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinhong Jiang, Feng Zhao.
In . [2207.10316] [zehuichen123/AutoAlignV2]
[ORA3D] ORA3D: Overlap Region Aware Multi-view 3D Object Detection.
Wonseok Roh, Gyusam Chang, Seokha Moon, Giljoo Nam, Chanyoung Kim, Younghyun Kim, Sangpil Kim, Jinkyu Kim.
In . [2207.00865]
[PolarFormer] PolarFormer: Multi-camera 3D Object Detection with Polar Transformers.
Yanqin Jiang, Li Zhang, Zhenwei Miao, Xiatian Zhu, Jin Gao, Weiming Hu, Yu-Gang Jiang.
In . [2206.15398]
[SRCN3D] SRCN3D: Sparse R-CNN 3D Surround-View Camera Object Detection and Tracking for Autonomous Driving.
Yining Shi, Jingyan Shen, Yifan Sun, Yunlong Wang, Jiaxin Li, Shiqi Sun, Kun Jiang, Diange Yang.
In . [2206.14451] [synsin0/SRCN3D]
[PolarDETR] Polar Parametrization for Vision-based Surround-View 3D Detection.
Shaoyu Chen, Xinggang Wang, Tianheng Cheng, Qian Zhang, Chang Huang, Wenyu Liu.
In . [2206.10965] [hustvl/PolarDETR]
[BEVDepth] BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection.
Yinhao Li, Zheng Ge, Guanyi Yu, Jinrong Yang, Zengran Wang, Yukang Shi, Jianjian Sun, Zeming Li.
In . [2206.10092] [Megvii-BaseDetection/BEVDepth]
[Ego3RT] Learning Ego 3D Representation as Ray Tracing.
Jiachen Lu, Zheyuan Zhou, Xiatian Zhu, Hang Xu, Li Zhang.
In . [2206.04042] [fudan-zvg/Ego3RT]
[PETRv2] PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images.
Yingfei Liu, Junjie Yan, Fan Jia, Shuailin Li, Qi Gao, Tiancai Wang, Xiangyu Zhang, Jian Sun.
In . [2206.01256] [megvii-research/PETR]
[UVTR] Unifying Voxel-based Representation with Transformer for 3D Object Detection
Yanwei Li, Yilun Chen, Xiaojuan Qi, Zeming Li, Jian Sun, Jiaya Jia.
In . [2206.00630] [dvlab-research/UVTR]
[BEVFusion2] BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework
Tingting Liang, Hongwei Xie, Kaicheng Yu, Zhongyu Xia, Zhiwei Lin, Yongtao Wang, Tao Tang, Bing Wang, Zhi Tang.
In . [2205.13790] [ADLab-AutoDrive/BEVFusion]
[BEVFusion1] BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation
Zhijian Liu, Haotian Tang, Alexander Amini, Xinyu Yang, Huizi Mao, Daniela Rus, Song Han.
In . [2205.13542] [mit-han-lab/bevfusion]
[BEVerse] BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving.
Yunpeng Zhang, Zheng Zhu, Wenzhao Zheng, Junjie Huang, Guan Huang, Jie Zhou, Jiwen Lu.
In . [2205.09743] [zhangyp15/BEVerse]
[MUTR3D] MUTR3D: A Multi-camera Tracking Framework via 3D-to-2D Queries.
Tianyuan Zhang, Xuanyao Chen, Yue Wang, Yilun Wang, Hang Zhao.
In CVPRW 2022. [2205.00613] [a1600012888/MUTR3D]
[Graph-DETR3D] Graph-DETR3D: Rethinking Overlapping Regions for Multi-View 3D Object Detection
Zehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinhong Jiang, Feng Zhao.
In . [2204.11582]
[M2BEV] M2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified Birds-Eye View Representation
Enze Xie, Zhiding Yu, Daquan Zhou, Jonah Philion, Anima Anandkumar, Sanja Fidler, Ping Luo, Jose M. Alvarez.
In . [2204.05088] [NVlabs/M2BEV]
[BEVFormer] BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers
Zhiqi Li, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu, Qiao Yu, Jifeng Dai.
In . [2203.17270] [zhiqi-li/BEVFormer]
[BEVDet4D] BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection.
Junjie Huang, Guan Huang.
In . [2203.17054] [HuangJunJie2017/BEVDet]
[PETR] PETR: Position Embedding Transformation for Multi-View 3D Object Detection
Yingfei Liu, Tiancai Wang, Xiangyu Zhang, Jian Sun.
In . [2203.05625] [megvii-research/PETR]
[BEVDet] BEVDet: High-performance Multi-camera 3D Object Detection in Bird-Eye-View.
Junjie Huang, Guan Huang, Zheng Zhu, Dalong Du.
In . [2112.11790] [HuangJunJie2017/BEVDet]
[DETR3D] DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries.
Yue Wang, Vitor Guizilini, Tianyuan Zhang, Yilun Wang, Hang Zhao, Justin Solomon.
In CoRL 2021. [2110.06922] [wangyueft/detr3d]

BEV Segmentation related

[UniFormer] Unified Multi-view Fusion Transformer for Spatial-Temporal Representation in Bird's-Eye-View.
Zequn Qin, Jingyu Chen, Chao Chen, Xiaozhi Chen, Xi Li.
In . [2207.08536]
[CoBEVT] CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse Transformers.
Runsheng Xu, Zhengzhong Tu, Hao Xiang, Wei Shao, Bolei Zhou, Jiaqi Ma.
In . [2207.02202]
[Simple Baseline] A Simple Baseline for BEV Perception Without LiDAR.
Adam W. Harley, Zhaoyuan Fang, Jie Li, Rares Ambrus, Katerina Fragkiadaki.
In . [2206.07959]
[GKT] Efficient and Robust 2D-to-BEV Representation Learning via Geometry-guided Kernel Transformer
Shaoyu Chen, Tianheng Cheng, Xinggang Wang, Wenming Meng, Qian Zhang, Wenyu Liu.
In . [2206.04584] [hustvl/GKT]
[ViT-BEVSeg] ViT-BEVSeg: A Hierarchical Transformer Network for Monocular Birds-Eye-View Segmentation.
Pramit Dutta, Ganesh Sistu, Senthil Yogamani, Edgar Galván, John McDonald.
In WCCI 2022. [2205.15667]
[Cross-view Transformers] Cross-view Transformers for real-time Map-view Semantic Segmentation.
Brady Zhou, Philipp Krähenbühl.
In CVPR 2022. [2205.02833] [bradyz/cross_view_transformers]
[GitNet] GitNet: Geometric Prior-based Transformation for Birds-Eye-View Segmentation.
Shi Gong, Xiaoqing Ye, Xiao Tan, Jingdong Wang, Errui Ding, Yu Zhou, Xiang Bai.
In . [2204.07733]
[HFT] HFT: Lifting Perspective Representations via Hybrid Feature Transformation.
Jiayu Zou, Junrui Xiao, Zheng Zhu, Junjie Huang, Guan Huang, Dalong Du, Xingang Wang.
In . [2204.05068] [JiayuZou2020/HFT]
[PersFormer] PersFormer: 3D Lane Detection via Perspective Transformer and the OpenLane Benchmark.
Li Chen, Chonghao Sima, Yang Li, Zehan Zheng, Jiajie Xu, Xiangwei Geng, Hongyang Li, Conghui He, Jianping Shi, Yu Qiao, Junchi Yan.
In . [2203.11089] [OpenPerceptionX/PersFormer_3DLane]
[BEVSegFormer] BEVSegFormer: Bird's Eye View Semantic Segmentation From Arbitrary Camera Rigs.
Lang Peng, Zhirong Chen, Zhangjie Fu, Pengpeng Liang, Erkang Cheng.
In . [2203.04050]
[STSU] Structured Bird's-Eye-View Traffic Scene Understanding from Onboard Images.
Yigit Baran Can, Alexander Liniger, Danda Pani Paudel, Luc Van Gool
In ICCV 2021. [2110.01997] [ybarancan/STSU]
[TIM] Translating Images into Maps.
Avishkar Saha, Oscar Mendez Maldonado, Chris Russell, Richard Bowden
In ICRA 2022. [2110.00966] [avishkarsaha/translating-images-into-maps]
[NEAT] NEAT: Neural Attention Fields for End-to-End Autonomous Driving.
Kashyap Chitta, Aditya Prakash, Andreas Geiger.
In ICCV 2021. [2109.04456]
[BEV Panoptic] Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View Images
Nikhil Gosala, Abhinav Valada.
In RA-L 2021. [2108.03227] [code]
[Disentangling and Vectorization] Disentangling and Vectorization: A 3D Visual Perception Approach for Autonomous Driving Based on Surround-View Fisheye Cameras.
Zizhang Wu, Wenkai Zhang, Jizheng Wang, Man Wang, Yuanzhu Gan, Xinchao Gou, Muqing Fang, Jing Song.
In IROS 2021. [2107.08862]
[HDMapNet] HDMapNet: An Online HD Map Construction and Evaluation Framework
Qi Li, Yue Wang, Yilun Wang, Hang Zhao.
In ICRA 2022. [2107.06307] [Tsinghua-MARS-Lab/HDMapNet]
[FIERY] FIERY: Future Instance Prediction in Bird's-Eye View from Surround Monocular Cameras
Anthony Hu, Zak Murez, Nikhil Mohan, Sofia Dudas, Jeffrey Hawke, Vijay Badrinarayanan, Roberto Cipolla, Alex Kendall.
In ICCV 2021. [2104.10490] [wayveai/fiery]
[STA] Enabling spatio-temporal aggregation in Birds-Eye-View Vehicle Estimation
Avishkar Saha, Oscar Mendez, Chris Russell, Richard Bowden. In ICRA 2021. [paper]
[EPOSH] Bird’s Eye View Segmentation Using Lifted 2D Semantic Features.
Isht Dwivedi, Srikanth Malla, Yi-Ting Chen, Behzad Dariush.
In BMVC 2021. [paper]
[PYVA] Projecting Your View Attentively: Monocular Road Scene Layout Estimation via Cross-view Transformation.
Weixiang Yang, Qi Li, Wenxi Liu, Yuanlong Yu, Yuexin Ma, Shengfeng He, Jia Pan.
In CVPR 2021. [paper] [JonDoe-297/cross-view]
[BEV feat stitch] Understanding Bird's-Eye View of Road Semantics using an Onboard Camera
Yigit Baran Can, Alexander Liniger, Ozan Unal, Danda Paudel, Luc Van Gool.
In RA-L 2021. [2012.03040] [ybarancan/BEV_feat_stitch]
[LSS] Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by Implicitly Unprojecting to 3D.
Jonah Philion, Sanja Fidler.
In ECCV 2020. [2008.05711] [nv-tlabs/lift-splat-shoot]
[BEV-Seg] BEV-Seg: Bird's Eye View Semantic Segmentation Using Geometry and Semantic Point Cloud
Mong H. Ng, Kaahan Radia, Jianfei Chen, Dequan Wang, Ionel Gog, Joseph E. Gonzalez.
In CVPRW 2020. [2006.11436]
[Cam2BEV] A Sim2Real Deep Learning Approach for the Transformation of Images from Multiple Vehicle-Mounted Cameras to a Semantically Segmented Image in Bird's Eye View.
Lennart Reiher, Bastian Lampe, Lutz Eckstein.
In ITSC 2020. [2005.04078] [ika-rwth-aachen/Cam2BEV]
[PyrOccNet] Predicting Semantic Map Representations from Images using Pyramid Occupancy Networks
Thomas Roddick, Roberto Cipolla.
In . [2003.13402] [tom-roddick/mono-semantic-maps]
[MonoLayout] MonoLayout: Amodal scene layout from a single image
Kaustubh Mani, Swapnil Daga, Shubhika Garg, N. Sai Shankar, Krishna Murthy Jatavallabhula, K. Madhava Krishna.
In WACV 2020. [2002.08394] [hbutsuak95/monolayout]
[VPN] Cross-view Semantic Segmentation for Sensing Surroundings
Bowen Pan, Jiankai Sun, Ho Yin Tiga Leung, Alex Andonian, Bolei Zhou.
In RA-L 2020. [1906.03560] [pbw-Berwin/View-Parsing-Network]
[OFT] Orthographic Feature Transform for Monocular 3D Object Detection
Thomas Roddick, Alex Kendall, Roberto Cipolla.
In BMVC 2019. [1811.08188] [tom-roddick/oft]
[VED] Monocular Semantic Occupancy Grid Mapping with Convolutional Variational Encoder-Decoder Networks.
Chenyang Lu, Marinus Jacobus Gerardus van de Molengraft, Gijs Dubbelman.
In RA-L 2019. [1804.02176]
Learning to Look around Objects for Top-View Representations of Outdoor Scenes
Samuel Schulter, Menghua Zhai, Nathan Jacobs, Manmohan Chandraker.
In ECCV 2018. [1803.10870]
[MapNet] MapNet: An Allocentric Spatial Memory for Mapping Environments.
Joao F. Henriques Andrea Vedaldi.
In CVPR 2018. [paper]
[Mapping] Automatic Dense Visual Semantic Mapping from Street-Level Imagery.
Sunando Sengupta, Paul Sturgess, L’ubor Ladický, Philip H. S. Torr.
In IROS 2012. [paper]

LiDAR

[Backbone] PointPillars Backbone Type Selection For Fast and Accurate LiDAR Object Detection
Konrad Lis, Tomasz Kryjak.
In ICCVG 2022. [2209.15252]
[SPSConv] Spatial Pruned Sparse Convolution for Efficient 3D Object Detection
Jianhui Liu, Yukang Chen, Xiaoqing Ye, Zhuotao Tian, Xiao Tan, Xiaojuan Qi.
In NeurIPS 2022. [2209.14201]
[MDRNet] Rethinking Dimensionality Reduction in Grid-based 3D Object Detection.
Dihe Huang, Ying Chen, Yikang Ding, Jinli Liao, Jianlin Liu, Kai Wu, Qiang Nie, Yong Liu, Chengjie Wang.
In . [2209.09464]
[LidarMultiNet] LidarMultiNet: Towards a Unified Multi-task Network for LiDAR Perception.
Dongqiangzi Ye, Zixiang Zhou, Weijia Chen, Yufei Xie, Yu Wang, Panqu Wang, Hassan Foroosh.
In . [2209.09385]
[CenterFormer] CenterFormer: Center-based Transformer for 3D Object Detection.
Zixiang Zhou, Xiangchen Zhao, Yu Wang, Panqu Wang, Hassan Foroosh.
In ECCV 2022. [2209.05588] [TuSimple/centerformer]
[Graph R-CNN] Graph R-CNN: Towards Accurate 3D Object Detection with Semantic-Decorated Local Graph.
Honghui Yang, Zili Liu, Xiaopei Wu, Wenxiao Wang, Wei Qian, Xiaofei He, Deng Cai.
In ECCV 2022. [2208.03624] [Nightmare-n/GraphRCNN]
[LG3D] Label-Guided Auxiliary Training Improves 3D Object Detector.
Yaomin Huang, Xinmei Liu, Yichen Zhu, Zhiyuan Xu, Chaomin Shen, Zhengping Che, Guixu Zhang, Yaxin Peng, Feifei Feng, Jian Tang.
In ECCV 2022. [2207.11753]
[DeMF] Boosting 3D Object Detection via Object-Focused Image Fusion.
Hao Yang, Chen Shi, Yihong Chen, Liwei Wang.
In . [2207.10589] [haoy945/DeMF]
[FSD] Fully Sparse 3D Object Detection.
Lue Fan, Feng Wang, Naiyan Wang, Zhaoxiang Zhang.
In . [2207.10035] [TuSimple/SST]
[RDIoU] Rethinking IoU-based Optimization for Single-stage 3D Object Detection.
Hualian Sheng, Sijia Cai, Na Zhao, Bing Deng, Jianqiang Huang, Xian-Sheng Hua, Min-Jian Zhao, Gim Hee Lee.
In . [2207.09332] [hlsheng1/RDIoU]
[LargeKernel3D] Scaling up Kernels in 3D CNNs.
Yukang Chen, Jianhui Liu, Xiaojuan Qi, Xiangyu Zhang, Jian Sun, Jiaya Jia.
IN . [2206.10555] [dvlab-research/LargeKernel3D]
[Occam Laser] OccAM’s Laser: Occlusion-based Attribution Maps for 3D Object Detectors on LiDAR Data.
David Schinagl, Georg Krispel, Horst Possegger, Peter M. Roth, Horst Bischof.
In CVPR 2022. [paper] [dschinagl/occam]
[PillarNet] PillarNet: Real-Time and High-Performance Pillar-based 3D Object Detection.
Guangsheng Shi, Ruifeng Li, Chao Ma.
In . [2205.07403] [agent-sgs/PillarNet]
[MPPNet] MPPNet: Multi-Frame Feature Intertwining with Proxy Points for 3D Temporal Object Detection.
Xuesong Chen, Shaoshuai Shi, Benjin Zhu, Ka Chun Cheung, Hang Xu, Hongsheng Li.
In . [2205.05979] [open-mmlab/OpenPCDet]
[FocalsConv] Focal Sparse Convolutional Networks for 3D Object Detection.
Yukang Chen, Yanwei Li, Xiangyu Zhang, Jian Sun, Jiaya Jia.
In CVPR 2022. [2204.12463] [dvlab-research/FocalsConv]
[MODEST] Learning to Detect Mobile Objects from LiDAR Scans Without Labels.
Yurong You, Katie Z Luo, Cheng Perng Phoo, Wei-Lun Chao, Wen Sun, Bharath Hariharan, Mark Campbell, Kilian Q. Weinberger.
In CVPR 2022. [2203.15882] [YurongYou/MODEST]
[AziNorm] AziNorm: Exploiting the Radial Symmetry of Point Cloud for Azimuth-Normalized 3D Perception.
Shaoyu Chen, Xinggang Wang, Tianheng Cheng, Wenqiang Zhang, Qian Zhang, Chang Huang, Wenyu Liu.
In CVPR 2022. [2203.13090] [hustvl/AziNorm]
[IA-SSD] Not All Points Are Equal: Learning Highly Efficient Point-based Detectors for 3D LiDAR Point Clouds.
Yifan Zhang, Qingyong Hu, Guoquan Xu, Yanxin Ma, Jianwei Wan, Yulan Guo.
In CVPR 2022. [2203.11139] [yifanzhang713/IA-SSD]
[PDV] Point Density-Aware Voxels for LiDAR 3D Object Detection
Jordan S. K. Hu, Tianshu Kuai, Steven L. Waslander.
In CVPR 2022. [2203.05662] [TRAILab/PDV]
[PiFeNet] Accurate and Real-time 3D Pedestrian Detection Using an Efficient Attentive Pillar Network
Duy-Tho Le, Hengcan Shi, Hamid Rezatofighi, Jianfei Cai.
In . [2112.15458] [ldtho/PiFeNet]
[SST] Embracing Single Stride 3D Object Detector with Sparse Transformer.
Lue Fan, Ziqi Pang, Tianyuan Zhang, Yu-Xiong Wang, Hang Zhao, Feng Wang, Naiyan Wang, Zhaoxiang Zhang.
In . [2112.06375] [TuSimple/SST]
[Pyramid R-CNN] Pyramid R-CNN: Towards Better Performance and Adaptability for 3D Object Detection.
Jiageng Mao, Minzhe Niu, Haoyue Bai, Xiaodan Liang, Hang Xu, Chunjing Xu.
In ICCV 2021. [2109.02499]
[Object DGCNN] Object DGCNN: 3D Object Detection using Dynamic Graphs.
Yue Wang, Justin Solomon.
In NeurIPS 2021. [2110.06923] [wangyueft/detr3d]
[3DETR] An End-to-End Transformer Model for 3D Object Detection.
Ishan Misra, Rohit Girdhar, Armand Joulin.
In ICCV 2021. [2109.08141] [facebookresearch/3detr]
[VoTr] Voxel Transformer for 3D Object Detection.
Jiageng Mao, Yujing Xue, Minzhe Niu, Haoyue Bai, Jiashi Feng, Xiaodan Liang, Hang Xu, Chunjing Xu.
In ICCV 2021. [2109.02497]
[RangeIoUDet] RangeIoUDet: Range Image based Real-Time 3D Object Detector
Optimized by Intersection over Union.
Zhidong Liang, Zehan Zhang, Ming Zhang, Xian Zhao, Shiliang Pu. In CVPR 2021. [paper]
[RSN] RSN: Range Sparse Net for Efficient, Accurate LiDAR 3D Object Detection
Pei Sun, Weiyue Wang, Yuning Chai, Gamaleldin Elsayed, Alex Bewley, Xiao Zhang, Cristian Sminchisescu, Dragomir Anguelov.
In . [2106.13365]
[M3DeTR] M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object Detection with Transformers.
Tianrui Guan, Jun Wang, Shiyi Lan, Rohan Chandra, Zuxuan Wu, Larry Davis, Dinesh Manocha.
In WACV 2022. [2104.11896] [rayguan97/M3DETR]
[SE-SSD] SE-SSD: Self-Ensembling Single-Stage Object Detector From Point Cloud.
Wu Zheng, Weiliang Tang, Li Jiang, Chi-Wing Fu.
In CVPR 2021. [2104.09804] [Vegeta2020/SE-SSD]
[LiDAR RCNN] LiDAR R-CNN: An Efficient and Universal 3D Object Detector
Zhichao Li, Feng Wang, Naiyan Wang.
In CVPR 2021. [2103.15297] [tusen-ai/LiDAR_RCNN]
[PV-RCNN++] PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector Representation for 3D Object Detection.
Shaoshuai Shi, Li Jiang, Jiajun Deng, Zhe Wang, Chaoxu Guo, Jianping Shi, Xiaogang Wang, Hongsheng Li.
In . [2102.00463] [open-mmlab/OpenPCDet]
[Voxel R-CNN] Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection.
Jiajun Deng, Shaoshuai Shi, Peiwei Li, Wengang Zhou, Yanyong Zhang, Houqiang Li.
In AAAI 2021. [2012.15712] [djiajunustc/Voxel-R-CNN]
[Pointformer] 3D Object Detection with Pointformer.
Xuran Pan, Zhuofan Xia, Shiji Song, Li Erran Li, Gao Huang.
In CVPR 2020. [2012.11409] [Vladimir2506/Pointformer]
[Deformable PV-RCNN] Deformable PV-RCNN: Improving 3D Object Detection with Learned Deformations.
Prarthana Bhattacharyya, Krzysztof Czarnecki.
In ECCVW 2020. [2008.08766]
[CenterNet3D] CenterNet3D: An Anchor Free Object Detector for Point Cloud.
Guojun Wang, Jian Wu, Bin Tian, Siyu Teng, Long Chen, Dongpu Cao.
In IEEE Transactions on Intelligent Transportation Systems 2021. [2007.07214] [wangguojun2018/CenterNet3d]
[CenterPoint] Center-based 3D Object Detection and Tracking.
Tianwei Yin, Xingyi Zhou, Philipp Krähenbühl.
In CVPR 2021. [2006.11275] [tianweiy/CenterPoint]
[SASSD] Structure Aware Single-stage 3D Object Detection from Point Cloud.
Chenhang He, Hui Zeng, Jianqiang Huang, Xian-Sheng Hua, Lei Zhang.
In CVPR 2020. [paper] [skyhehe123/SA-SSD]
[PV-RCNN] PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection.
Shaoshuai Shi, Chaoxu Guo, Li Jiang, Zhe Wang, Jianping Shi, Xiaogang Wang, Hongsheng Li.
In CVPR 2020. [1912.13192] [open-mmlab/OpenPCDet]
[HotSpotNet] Object as Hotspots: An Anchor-Free 3D Object Detection Approach via Firing of Hotspots.
Qi Chen, Lin Sun, Zhixin Wang, Kui Jia, Alan Yuille.
In . [1912.12791]
[MVF] End-to-End Multi-View Fusion for 3D Object Detection in LiDAR Point Clouds.
Yin Zhou, Pei Sun, Yu Zhang, Dragomir Anguelov, Jiyang Gao, Tom Ouyang, James Guo, Jiquan Ngiam, Vijay Vasudevan.
In CoRL 2019. [1910.06528]
[CBGS] Class-balanced Grouping and Sampling for Point Cloud 3D Object Detection.
Benjin Zhu, Zhengkai Jiang, Xiangxin Zhou, Zeming Li, Gang Yu.
In . [1908.09492]
[VoteNet] Deep Hough Voting for 3D Object Detection in Point Clouds.
Charles R. Qi, Or Litany, Kaiming He, Leonidas J. Guibas.
In ICCV 2019. [1904.09664] [facebookresearch/votenet]
[Frustum ConvNet] Frustum ConvNet: Sliding Frustums to Aggregate Local Point-Wise Features for Amodal 3D Object Detection.
Zhixin Wang, Kui Jia.
In IROS 2019. [1903.01864] [zhixinwang/frustum-convnet]
[PIXOR] PIXOR: Real-time 3D Object Detection from Point Clouds.
Bin Yang, Wenjie Luo, Raquel Urtasun.
In CVPR 2018. [1902.06326]
[PointPillars] PointPillars: Fast Encoders for Object Detection from Point Clouds.
Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom.
In CVPR 2019. [1812.05784]
[PointRCNN] PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud.
Shaoshuai Shi, Xiaogang Wang, Hongsheng Li.
In CVPR 2019. [1812.04244] [sshaoshuai/PointRCNN]
[BirdNet] BirdNet: a 3D Object Detection Framework from LiDAR information.
Jorge Beltran, Carlos Guindel, Francisco Miguel Moreno, Daniel Cruzado, Fernando Garcia, Arturo de la Escalera.
In ITSC 2018. [1805.01195]
[SECOND] SECOND: Sparsely Embedded Convolutional Detection.
Yan Yan, Yuxing Mao, Bo Li.
In Sensors 2018. [paper]
[Frustum PointNet] Frustum PointNets for 3D Object Detection from RGB-D Data.
Charles R. Qi, Wei Liu, Chenxia Wu, Hao Su, Leonidas J. Guibas.
In . [1711.08488]
[VoxelNet] VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection.
Yin Zhou, Oncel Tuzel.
In . [1711.06396]
[PointNet++] PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space.
Charles R. Qi, Li Yi, Hao Su, Leonidas J. Guibas.
In NIPS 2017 . [1706.02413] [charlesq34/pointnet2]
[PointNet] PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
Charles R. Qi, Hao Su, Kaichun Mo, Leonidas J. Guibas.
In CVPR 2017. [1612.00593] [charlesq34/pointnet]
3D Fully Convolutional Network for Vehicle Detection in Point Cloud. Bo Li. In . [1611.08069]
[VeloFCN] Vehicle Detection from 3D Lidar Using Fully Convolutional Network.
Bo Li, Tianlei Zhang, Tian Xia.
In Robotics: Science and Systems, 2016. [1608.07916]

DETR Series

[Group DETR v2] Group DETR v2: Strong Object Detector with Encoder-Decoder Pretraining.
Qiang Chen, Jian Wang, Chuchu Han, Shan Zhang, Zexian Li, Xiaokang Chen, Jiahui Chen, Xiaodi Wang, Shuming Han, Gang Zhang, Haocheng Feng, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang.
In . [2211.03594]
[IMFA-DETR] Towards Efficient Use of Multi-Scale Features in Transformer-Based Object Detectors
Gongjie Zhang, Zhipeng Luo, Yingchen Yu, Zichen Tian, Jingyi Zhang, Shijian Lu.
In . [2208.11356] [ZhangGongjie/IMFA]
[Group DETR] Group DETR: Fast DETR Training with Group-Wise One-to-Many Assignment.
Qiang Chen, Xiaokang Chen, Jian Wang, Haocheng Feng, Junyu Han, Errui Ding, Gang Zeng, Jingdong Wang.
In . [2207.13085]
[H-DETR] DETRs with Hybrid Matching.
Ding Jia, Yuhui Yuan, Haodi He, Xiaopei Wu, Haojun Yu, Weihong Lin, Lei Sun, Chao Zhang, Han Hu.
In . [2207.13080] [HDETR/H-Deformable-DETR]
[DETR++] DETR++: Taming Your Multi-Scale Detection Transformer.
Chi Zhang, Lijuan Liu, Xiaoxue Zang, Frederick Liu, Hao Zhang, Xinying Song, Jindong Chen.
In CVPRW 2022. [2206.02977]
[Mask DINO] Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation.
Feng Li, Hao Zhang, Huaizhe xu, Shilong Liu, Lei Zhang, Lionel M. Ni, Heung-Yeung Shum.
In . [2206.02777] [IDEACVR/MaskDINO]
[DDQ] What Are Expected Queries in End-to-End Object Detection?
Shilong Zhang, Xinjiang Wang, Jiaqi Wang, Jiangmiao Pang, Kai Chen.
In . [2206.01232] [jshilong/DDQ]
[Dynamic Sparse R-CNN] Dynamic Sparse R-CNN.
Qinghang Hong, Fengming Liu, Dong Li, Ji Liu, Lu Tian, Yi Shan.
In CVPR 2022. [2205.02101]
[DINO] DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection
Hao Zhang, Feng Li, Shilong Liu, Lei Zhang, Hang Su, Jun Zhu, Lionel M. Ni, Heung-Yeung Shum.
In . [2203.03605]
[DN-DETR] DN-DETR: Accelerate DETR Training by Introducing Query DeNoising.
Feng Li, Hao Zhang, Shilong Liu, Jian Guo, Lionel M. Ni, Lei Zhang.
In CVPR 2022. [2203.01305] [IDEA-opensource/DN-DETR]
[D^2ETR] D^2ETR: Decoder-Only DETR with Computationally Efficient Cross-Scale Attention.
Junyu Lin, Xiaofeng Mao, Yuefeng Chen, Lei Xu, Yuan He, Hui Xue.
In . [2203.00860]
[DAB-DETR] DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR.
Shilong Liu, Feng Li, Hao Zhang, Xiao Yang, Xianbiao Qi, Hang Su, Jun Zhu, Lei Zhang.
In ICLR 2022. [2201.12329] [IDEA-opensource/DAB-DETR]
[Deformable Attention] Vision Transformer with Deformable Attention.
Zhuofan Xia, Xuran Pan, Shiji Song, Li Erran Li, Gao Huang.
In CVPR 2022. [2201.00520] [LeapLabTHU/DAT]
[Sparse DETR] Sparse DETR: Efficient End-to-End Object Detection with Learnable Sparsity
Byungseok Roh, JaeWoong Shin, Wuhyun Shin, Saehoon Kim.
In ICLR 2022. [2111.14330] [kakaobrain/sparse-detr]
[Anchor DETR] Anchor DETR: Query Design for Transformer-Based Object Detection.
Yingming Wang, Xiangyu Zhang, Tong Yang, Jian Sun.
In AAAI 2022. [2109.07107] [megvii-research/AnchorDETR]
[Dynamic DETR] Dynamic DETR: End-to-End Object Detection With Dynamic Attention.
Xiyang Dai, Yinpeng Chen, Jianwei Yang, Pengchuan Zhang, Lu Yuan, Lei Zhang.
In ICCV 2021. [paper]
[Conditional DETR] Conditional DETR for Fast Training Convergence
Depu Meng, Xiaokang Chen, Zejia Fan, Gang Zeng, Houqiang Li, Yuhui Yuan, Lei Sun, Jingdong Wang.
In ICCV 2021. [2108.06152] [Atten4Vis/ConditionalDETR]
[Efficient DETR] Efficient DETR: Improving End-to-End Object Detector with Dense Prior
Zhuyu Yao, Jiangbo Ai, Boxun Li, Chi Zhang.
In . [2104.01318]
[SMCA] Fast Convergence of DETR with Spatially Modulated Co-Attention
Peng Gao, Minghang Zheng, Xiaogang Wang, Jifeng Dai, Hongsheng Li.
In . [2101.07448] [gaopengcuhk/SMCA-DETR]
[Sparse R-CNN] Sparse R-CNN: End-to-End Object Detection with Learnable Proposals
Peize Sun, Rufeng Zhang, Yi Jiang, Tao Kong, Chenfeng Xu, Wei Zhan, Masayoshi Tomizuka, Lei Li, Zehuan Yuan, Changhu Wang, Ping Luo.
In . [2011.12450] [PeizeSun/SparseR-CNN]
[TSP] Rethinking Transformer-based Set Prediction for Object Detection
Zhiqing Sun, Shengcao Cao, Yiming Yang, Kris Kitani.
In ICCV 2021. [2011.10881]
[Deformable DETR] Deformable DETR: Deformable Transformers for End-to-End Object Detection.
Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, Jifeng Dai.
In ICLR 2021. [2010.04159] [fundamentalvision/Deformable-DETR]
[DETR] End-to-End Object Detection with Transformers.
Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko.
In [2005.12872] [facebookresearch/detr]

lzhbrian/Awesome-BEV-Papers