yyf17/awesome-embodied-intelligent

awesome-embodied-intelligent related

MIT

Paper Title
Author(s)
Conference, Year. [Paper] [Code] [Website]

Text 2 Image

Name	pdf	github
DALLE	Zero-Shot Text-to-Image Generation	github
CogView	CogView: Mastering Text-to-Image Generation via Transformers	github
N"UWA	NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion	github
GLIDE	GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models	github
ERNIE-ViLG	ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation	github
DALL·E 2	Hierarchical Text-Conditional Image Generation with CLIP Latents
CogView2	CogView: Mastering Text-to-Image Generation via Transformers	github
CogVideo	CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers	github
Imagen	Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding	github

Compositional Visual Generation with Composable Diffusion Models
Nan Liu, Shuang Li, Yilun Du, Antonio Torralba, Joshua B. Tenenbaum
ECCV, 2022. [Paper] [Code] [Website]

dalle-mini

李沐读论文

awesome-embodied-intelligent

awesome-embodied-intelligent related

awesome-embodied-vision

awesome-audio-visual

awesome-egocentric-vision

habitat-imitation-baselines

Thanks to Changan, krantiparida , Sid2697 and Ram81 for their hard work！

Others

Awesome-Diffusion-Models

DiffusionCLIP

Awesome-AAAI2022-Low-Level-Vision

Thanks to heejkoo, gwang-kim ,and DarrenPan for their hard work！

Building and Evaluation of a Real Room Impulse Response Dataset

Szöke I, Skácel M, Mošner L, et al.

IEEE Journal of Selected Topics in Signal Processing, 2019. [Paper] [Code] [Website]

StoRIR: Stochastic Room Impulse Response Generation For Audio Data Augmentation

Masztalski P, Matuszewski M, Piaskowski K, et al.

arXiv, 2020. [Paper] [Code] [Website]

IR-GAN: Room Impulse Response Generator for Far-field Speech Recognition

Ratnarajah A, Tang Z, Manocha D.

arXiv, 2020. [Paper] [Code] [Website]

gpuRIR: A Python Library for Room Impulse Response Simulation with GPU Acceleration

Diaz-Guerra D, Miguel A, Beltran J R..

Multimedia Tools and Applications, 2021. [Paper] [Code] [Website]

TS-RIR: Translated synthetic room impulse responses for speech augmentation

Ratnarajah A, Tang Z, Manocha D.

IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), 2021. [Paper] [Code] [Website]

Geometry-Aware Multi-Task Learning for Binaural Audio Generation from Video

Garg R, Gao R, Grauman K.

arXiv, 2021. [Paper] [Code] [Website]

MESH2IR: Neural Acoustic Impulse Response Generator for Complex 3D Scenes

Ratnarajah A, Tang Z, Aralikatti R C, et al.

arXiv, 2022. [Paper] [Code] [Website]

Few-Shot Audio-Visual Learning of Environment Acoustics

Majumder S, Chen C, Al-Halah Z, et al.

arXiv, 2022. [Paper] [Code] [Website]

FAST-RIR: Fast neural diffuse room impulse response generator

Ratnarajah A, Zhang S X, Yu M, et al.

IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2022. [Paper] [Code] [Website]