🤖 Awesome-Embodied-Agent-with-LLMs

This is a curated list of "Embodied AI or agent with Large Language Models" research which is maintained by haonan.

Watch this repository for the latest updates and feel free to raise pull requests if you find some interesting papers!

Table of Contents 🍃

Survey
Advanced Agent Applications
LLMs with RL or World Model
Planning and Manipulation or Pretraining
Multi-Agent Learning and Coordination
Vision and Language Navigation
Detection
3D Grounding
Interactive Embodied Learning
Rearrangement
Benchmark
Simulator
Others

Trend and Imagination of LLM-based Embodied Agent

Figure 1. Trend of Embodied Agent with LLMs.^[1] Figure 2. An envisioned Agent society.^[2]

Methods

Survey

Agent AI: Surveying the Horizons of Multimodal Interaction [arXiv 2024]
Stanford University, Microsoft Research, Redmond, University of California, Los Angeles, University of Washington, Microsoft Gaming
Igniting Language Intelligence: The Hitchhiker’s Guide From Chain-of-Thought Reasoning to Language Agents [arXiv 2023]
Shanghai Jiao Tong University, Amazon Web Services, Yale University
The Rise and Potential of Large Language Model Based Agents: A Survey [arXiv 2023]
Fudan NLP Group, miHoYo Inc
A Survey on LLM-based Autonomous Agents [arXiv 2023]
Gaoling School of Artificial Intelligence, Renmin University of China

Advanced Agent Applications

AppAgent: Multimodal Agents as Smartphone Users [Project page] [Github]
Chi Zhang∗ ZhaoYang∗ JiaxuanLiu∗ YuchengHan XinChen Zebiao Huang BinFu GangYu†
Tencent

LLMs with RL or World Model

Eureka: Human-Level Reward Design via Coding Large Language Models [Project page] [Github]
Jason Ma^1,2, William Liang², Guanzhi Wang^1,3, De-An Huang¹, Osbert Bastani², Dinesh Jayaraman², Yuke Zhu^1,4, Linxi "Jim" Fan¹, Anima Anandkumar¹
¹NVIDIA; ²UPenn; ³Caltech; ⁴UT Austin
RLAdapter: Bridging Large Language Models to Reinforcement Learning in Open Worlds [arXiv 2023]
Can Language Agents Be Alternatives to PPO? A Preliminary Empirical Study on OpenAI Gym [arXiv 2023]
RoboGPT: An intelligent agent of making embodied long-term decisions for daily instruction tasks [arXiv 2023]
Aligning Agents like Large Language Models [arXiv 2023]
AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents [ICLR 2024 spotlight]
STARLING: Self-supervised Training of Text-based Reinforcement Learning Agent with Large Language Models [arXiv 2023]
Text2Reward: Dense Reward Generation with Language Models for Reinforcement Learning [ICLR 2024 spotlight]
Leveraging Large Language Models for Optimised Coordination in Textual Multi-Agent Reinforcement Learning [arXiv 2023]
Online Continual Learning for Interactive Instruction Following Agents [ICLR 2024]
ADAPTER-RL: Adaptation of Any Agent using Reinforcement Learning [arXiv 2023]
Language Reward Modulation for Pretraining Reinforcement Learning [arXiv 2023]
Informing Reinforcement Learning Agents by Grounding Natural Language to Markov Decision Processes [arXiv 2023]
Learning to Model the World with Language [arXiv 2023]
MAMBA: an Effective World Model Approach for Meta-Reinforcement Learning [ICLR 2024]
Language Reward Modulation for Pretraining Reinforcement Learning [arXiv 2023] [Github]
Ademi Adeniji, Amber Xie, Carmelo Sferrazza, Younggyo Seo, Stephen James, Pieter Abbeel
¹UC Berkeley
Guiding Pretraining in Reinforcement Learning with Large Language Models [ICML 2023]
Yuqing Du^1*, Olivia Watkins^1*, Zihan Wang², Cedric Colas ´^3,4, Trevor Darrell¹, Pieter Abbeel¹, Abhishek Gupta², Jacob Andreas³
¹Department of Electrical Engineering and Computer Science, University of California, Berkeley, USA ²University of Washington, Seattle ³Massachusetts Institute of Technology, Computer Science and Artificial Intelligence Laboratory ⁴ Inria, Flowers Laboratory.

Planning and Manipulation or Pretraining

See and Think: Embodied Agent in Virtual Environment [arXiv 2023]
Zhonghan Zhao^1*, Wenhao Chai^2*, Xuan Wang^1*, Li Boyi¹, Shengyu Hao¹, Shidong Cao¹, Tian Ye³, Jenq-Neng Hwang², Gaoang Wang¹
¹Zhejiang University ¹University of Washington ¹Hong Kong University of Science and Technology (GZ)
Agent Instructs Large Language Models to be General Zero-Shot Reasoners [arXiv 2023]
Nicholas Crispino¹, Kyle Montgomery¹, Fankun Zeng¹, Dawn Song², Chenguang Wang¹
¹Washington University in St. Louis, ²UC Berkeley
JARVIS-1: Open-world Multi-task Agents with Memory-Augmented Multimodal Language Models [NeurIPS 2023] [Project Page]
Zihao Wang^1,2 Shaofei Cai^1,2 Anji Liu³ Yonggang Jin⁴ Jinbing Hou⁴ Bowei Zhang⁵ Haowei Lin^1,2 Zhaofeng He⁴ Zilong Zheng⁶ Yaodong Yang¹ Xiaojian Ma^6† Yitao Liang^1†
¹Institute for Artificial Intelligence, Peking University, ²School of Intelligence Science and Technology, Peking University, ³Computer Science Department, University of California, Los Angeles, ⁴Beijing University of Posts and Telecommunications, ⁵School of Electronics Engineering and Computer Science, Peking University, ⁶Beijing Institute for General Artificial Intelligence (BIGAI)
Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents [NeurIPS 2023]
Zihao Wang^1,2 Shaofei Cai^1,2 Guanzhou Chen³ Anji Liu⁴ Xiaojian Ma⁴ Yitao Liang^1,5†
¹Institute for Artificial Intelligence, Peking University, ²School of Intelligence Science and Technology, Peking University, ³School of Computer Science, Beijing University of Posts and Telecommunications, ⁴Computer Science Department, University of California, Los Angeles, ⁵Beijing Institute for General Artificial Intelligence (BIGAI)
CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society [NeurIPS 2023] [Github] [Project page]
Guohao Li, Hasan Abed Al Kader Hammoud, Hani Itani, Dmitrii Khizbullin, Bernard Ghanem
¹King Abdullah University of Science and Technology (KAUST)
Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents [arXiv 2022] [Github] [Project page]
Wenlong Huang¹, Pieter Abbeel¹, Deepak Pathak², Igor Mordatch³
¹UC Berkeley, ²Carnegie Mellon University, ³Google
FILM: Following Instructions in Language with Modular Methods [ICLR 2022] [Github] [Project page]
So Yeon Min¹, Devendra Singh Chaplot², Pradeep Ravikumar¹, Yonatan Bisk¹, Ruslan Salakhutdinov¹
¹Carnegie Mellon University ²Facebook AI Research
Embodied Task Planning with Large Language Models [arXiv 2023] [Github] [Project page] [Demo] [Huggingface Model]
Zhenyu Wu¹, Ziwei Wang^2,3, Xiuwei Xu^2,3, Jiwen Lu^2,3, Haibin Yan^1*
¹School of Automation, Beijing University of Posts and Telecommunications, ²Department of Automation, Tsinghua University, ³Beijing National Research Center for Information Science and Technology
SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and Reasoning [arXiv 2023]
Yue Wu^1,4* , Shrimai Prabhumoye² , So Yeon Min¹ , Yonatan Bisk¹ , Ruslan Salakhutdinov¹ ,Amos Azaria³ , Tom Mitchell¹ , Yuanzhi Li^1,4
¹Carnegie Mellon University, ²NVIDIA, ³Ariel University, ⁴Microsoft Research
PONI: Potential Functions for ObjectGoal Navigation with Interaction-free Learning [CVPR 2022 (Oral)] [Project page] [Github]
Santhosh Kumar Ramakrishnan^1,2, Devendra Singh Chaplot¹, Ziad Al-Halah² Jitendra Malik^1,3, Kristen Grauman^1,2
¹Facebook AI Research, ²UT Austin, ³UC Berkeley
Moving Forward by Moving Backward: Embedding Action Impact over Action Semantics [ICLR 2023] [Project page] [Github]
Kuo-Hao Zeng¹, Luca Weihs², Roozbeh Mottaghi¹, Ali Farhadi¹
¹Paul G. Allen School of Computer Science & Engineering, University of Washington, ²PRIOR @ Allen Institute for AI
Modeling Dynamic Environments with Scene Graph Memory [ICML 2023]
Andrey Kurenkov¹, Michael Lingelbach¹, Tanmay Agarwal¹, Emily Jin¹, Chengshu Li¹, Ruohan Zhang¹, Li Fei-Fei¹, Jiajun Wu¹, Silvio Savarese², Roberto Mart´ın-Mart´ın³
¹Department of Computer Science, Stanford University ²Salesforce AI Research ³Department of Computer Science, University of Texas at Austin.
Reasoning with Language Model is Planning with World Model [arXiv 2023]
Shibo Hao^∗♣, Yi Gu^∗♣, Haodi Ma^♢, Joshua Jiahua Hong^♣, Zhen Wang^{♣ ♠}, Daisy Zhe Wang^♢, Zhiting Hu^♣
^♣UC San Diego, ^♢University of Florida, ^♠Mohamed bin Zayed University of Artificial Intelligence
Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [arXiv 2022]
Robotics at Google, Everyday Robots
Do Embodied Agents Dream of Pixelated Sheep?: Embodied Decision Making using Language Guided World Modelling [ICML 2023]
Kolby Nottingham¹ Prithviraj Ammanabrolu² Alane Suhr² Yejin Choi^3,2 Hannaneh Hajishirzi^3,2 Sameer Singh^1,2 Roy Fox¹
¹Department of Computer Science, University of California Irvine ²Allen Institute for Artificial Intelligence ³Paul G. Allen School of Computer Science
Context-Aware Planning and Environment-Aware Memory for Instruction Following Embodied Agents [ICCV 2023]
Byeonghwi Kim Jinyeon Kim Yuyeong Kim^1,* Cheolhong Min Jonghyun Choi^†
Yonsei University ¹Gwangju Institute of Science and Technology
Inner Monologue: Embodied Reasoning through Planning with Language Models [CoRL 2022] [Project page]
Robotics at Google
Language Models Meet World Models: Embodied Experiences Enhance Language Models [arXiv 2023] [Twitter]
Jiannan Xiang^∗♠, Tianhua Tao^∗♠, Yi Gu^♠, Tianmin Shu^♢, Zirui Wang^♠, Zichao Yang^♡, Zhiting Hu^♠
^♠UC San Diego, ^♣UIUC, ^♢MIT, ^♡Carnegie Mellon University
AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot Manipulation [arXiv 2023] [Video]
Chuhao Jin^1* , Wenhui Tan^1* , Jiange Yang^2* , Bei Liu3^† , Ruihua Song¹ , Limin Wang² , Jianlong Fu^3†
¹Renmin University of China, ²Nanjing University, ³Microsoft Research
A Persistent Spatial Semantic Representation for High-level Natural Language Instruction Execution [CoRL 2021] [Project page] [Poster]
Valts Blukis^1,2, Chris Paxton¹, Dieter Fox^1,3, Animesh Garg^1,4, Yoav Artzi²
¹NVIDIA ²Cornell University ³University of Washington ⁴University of Toronto, Vector Institute
LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models [ICCV 2023] [Project page] [Github]
Chan Hee Song¹, Jiaman Wu¹, Clayton Washington¹, Brian M. Sadler², Wei-Lun Chao¹, Yu Su¹
¹The Ohio State University, ²DEVCOM ARL
Code as Policies: Language Model Programs for Embodied Control [arXiv 2023] [Project page] [Github] [Blog] [Colab]
Jacky Liang, Wenlong Huang, Fei Xia, Peng Xu, Karol Hausman, Brian Ichter, Pete Florence, Andy Zeng
Robotics at Google
3D-LLM: Injecting the 3D World into Large Language Models [arXiv 2023]
¹Yining Hong, ²Haoyu Zhen, ³Peihao Chen, ⁴Shuhong Zheng, ⁵Yilun Du, ⁶Zhenfang Chen, ^6,7Chuang Gan
¹UCLA ² SJTU ³ SCUT ⁴ UIUC ⁵ MIT ⁶MIT-IBM Watson AI Lab ⁷ Umass Amherst
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models [arXiv 2023] [Project page] [Online Demo]
Wenlong Huang¹, Chen Wang¹, Ruohan Zhang¹, Yunzhu Li^1,2, Jiajun Wu¹, Li Fei-Fei¹
¹Stanford University ²University of Illinois Urbana-Champaign
Palm-e: An embodied multimodal language mode [ICML 2023] [Project page]
¹Robotics at Google ²TU Berlin 3Google Research
Large Language Models as Commonsense Knowledge for Large-Scale Task Planning [arXiv 2023]
Zirui Zhao Wee Sun Lee David Hsu
School of Computing National University of Singapore

Multi-Agent Learning and Coordination

War and Peace (WarAgent): Large Language Model-based Multi-Agent Simulation of World Wars [arXiv 2023]
Wenyue Hua^1*, Lizhou Fan^2*, Lingyao Li², Kai Mei¹, Jianchao Ji¹, Yingqiang Ge¹, Libby Hemphill², Yongfeng Zhang¹
¹Rutgers University, ²University of Michigan
MindAgent: Emergent Gaming Interaction* [arXiv 2023]
Ran Gong^*1† Qiuyuan Huang^*2‡ Xiaojian Ma^*1 Hoi Vo³ Zane Durante^†4 Yusuke Noda³ Zilong Zheng⁵ Song-Chun Zhu¹⁵⁶⁷⁸ Demetri Terzopoulos¹ Li Fei-Fei⁴ Jianfeng Gao²
¹UCLA; ²Microsoft Research, Redmond; ³Xbox Team, Microsoft; ⁴Stanford; ⁵BIGAI; ⁶PKU; ⁷THU; ⁸UCLA
Demonstration-free Autonomous Reinforcement Learning via Implicit and Bidirectional Curriculum [ICML 2023]
Jigang Kim^*1,2 Daesol Cho^*1,2 H. Jin Kim^1,3
¹Seoul National University, ²Artificial Intelligence Institute of Seoul National University (AIIS), ³Automation and Systems Research Institute (ASRI).
Note: This paper mainly focuses on reinforcement learning for Embodied AI.
Adaptive Coordination in Social Embodied Rearrangement [ICML 2023]
Andrew Szot^1,2 Unnat Jain¹ Dhruv Batra^1,2 Zsolt Kira² Ruta Desai¹ Akshara Rai¹
¹Meta AI ²Georgia Institute of Technology.

Vision and Language Navigation

IndoorSim-to-OutdoorReal: Learning to Navigate Outdoors without any Outdoor Experience [arXiv 2023]
Joanne Truong^1,2, April Zitkovich¹, Sonia Chernova², Dhruv Batra^2,3, Tingnan Zhang¹, Jie Tan¹, Wenhao Yu¹
¹Robotics at Google ²Georgia Institute of Technology ³Meta AI
ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object Navigation [ICML 2023]
Kaiwen Zhou¹, Kaizhi Zheng¹, Connor Pryor¹, Yilin Shen², Hongxia Jin², Lise Getoor¹, Xin Eric Wang¹
¹University of California, Santa Cruz ²Samsung Research America.
NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models [arXiv 2023]
Gengze Zhou¹ Yicong Hong² Qi Wu¹
¹The University of Adelaide ²The Australian National University
Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model [arXiv 2023] [Github]
Siyuan Huang^1,2 Zhengkai Jiang⁴ Hao Dong³ Yu Qiao² Peng Gao² Hongsheng Li⁵
¹Shanghai Jiao Tong University, ²Shanghai AI Laboratory, ³CFCS, School of CS, PKU, ⁴University of Chinese Academy of Sciences, ⁵The Chinese University of Hong Kong

Detection

DetGPT: Detect What You Need via Reasoning [arXiv 2023]
Renjie Pi^1∗ Jiahui Gao^2* Shizhe Diao^1∗ Rui Pan¹ Hanze Dong¹ Jipeng Zhang¹ Lewei Yao¹ Jianhua Han³ Hang Xu² Lingpeng Kong² Tong Zhang¹
¹The Hong Kong University of Science and Technology ²The University of Hong Kong 3Shanghai Jiao Tong University

3D Grounding

LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent [arXiv 2023]
Jianing Yang^1,, Xuweiyi Chen^1,, Shengyi Qian¹, Nikhil Madaan, Madhavan Iyengar¹, David F. Fouhey^1,2, Joyce Chai¹
¹University of Michigan, ²New York University

Interactive Embodied Learning

Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning [ICML 2023]
Thomas Carta^1*, Clement Romac ´^1,2, Thomas Wolf², Sylvain Lamprier³, Olivier Sigaud⁴, Pierre-Yves Oudeyer¹
¹Inria (Flowers), University of Bordeaux, ²Hugging Face, ³Univ Angers, LERIA, SFR MATHSTIC, F-49000, ⁴Sorbonne University, ISIR
Learning Affordance Landscapes for Interaction Exploration in 3D Environments [NeurIPS 2020] [Project page]
Tushar Nagarajan, Kristen Grauman
UT Austin and Facebook AI Research, UT Austin and Facebook AI Research
Embodied Question Answering in Photorealistic Environments with Point Cloud Perception [CVPR 2019 (oral)] [Slides]
Erik Wijmans^1†, Samyak Datta¹, Oleksandr Maksymets^2†, Abhishek Das¹, Georgia Gkioxari², Stefan Lee¹, Irfan Essa¹, Devi Parikh^1,2, Dhruv Batra^1,2
¹Georgia Institute of Technology, ²Facebook AI Research
Multi-Target Embodied Question Answering [CVPR 2019]
Licheng Yu¹, Xinlei Chen³, Georgia Gkioxari³, Mohit Bansal¹, Tamara L. Berg^1,3, Dhruv Batra^2,3
¹University of North Carolina at Chapel Hill ²Georgia Tech 3Facebook AI
Neural Modular Control for Embodied Question Answering [CoRL 2018 (Spotlight)] [Project page] [Github]
Abhishek Das¹,Georgia Gkioxari², Stefan Lee¹, Devi Parikh^1,2, Dhruv Batra^1,2
¹Georgia Institute of Technology ²Facebook AI Research
Embodied Question Answering [CVPR 2018 (oral)] [Project page] [Github]
Abhishek Das¹, Samyak Datta¹, Georgia Gkioxari2², Stefan Lee¹, Devi Parikh^2,1, Dhruv Batra²
¹Georgia Institute of Technology, ²Facebook AI Research

Rearrangement

A Simple Approach for Visual Room Rearrangement: 3D Mapping and Semantic Search [ICLR 2023]
¹Brandon Trabucco, ²Gunnar A Sigurdsson, ²Robinson Piramuthu, ^2,3Gaurav S. Sukhatme, ¹Ruslan Salakhutdinov
¹CMU, ²Amazon Alexa AI, ³University of Southern California

Benchmark

RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation [arXiv 2023] [Project page] [Github]
Yufei Wang¹, Zhou Xian¹, Feng Chen², Tsun-Hsuan Wang³, Yian Wang⁴, Katerina Fragkiadaki¹, Zackory Erickson¹, David Held¹, Chuang Gan^4,5
¹CMU, ²Tsinghua IIIS, ³MIT CSAIL, ⁴UMass Amherst, ⁵MIT-IBM AI Lab
ALFWorld: Aligning Text and Embodied Environments for Interactive Learning [ICLR 2021] [Project page] [Github]
Mohit Shridhar^† Xingdi Yuan^♡ Marc-Alexandre Côté^♡ Yonatan Bisk^‡ Adam Trischler^♡ Matthew Hausknecht^♣
^‡University of Washington ^♡Microsoft Research, Montréal ^‡Carnegie Mellon University ^♣Microsoft Research
ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks [CVPR 2020] [Project page] [Github]
Mohit Shridhar¹ Jesse Thomason¹ Daniel Gordon¹ Yonatan Bisk^1,2,3 Winson Han³ Roozbeh Mottaghi^1,3 Luke Zettlemoyer¹ Dieter Fox^1,4
¹Paul G. Allen School of Computer Sci. & Eng., Univ. of Washington, ²Language Technologies Institute @ Carnegie Mellon University, ³Allen Institute for AI, ⁴NVIDIA
VIMA: Robot Manipulation with Multimodal Prompts [ICML 2023] [Project page] [Github] [VIMA-Bench]
Yunfan Jiang¹ Agrim Gupta^1† Zichen Zhang^2† Guanzhi Wang^3,4† Yongqiang Dou⁵ Yanjun Chen¹ Li Fei-Fei¹ Anima Anandkumar^3,4 Yuke Zhu^3,6‡ Linxi Fan^3‡
SQA3D: Situated Question Answering in 3D Scenes [ICLR 2023] [Project page] [Slides] [Github]
Xiaojian Ma² Silong Yong^1,3* Zilong Zheng¹ Qing Li¹ Yitao Liang^1,4 Song-Chun Zhu^1,2,3,4 Siyuan Huang¹
¹Beijing Institute for General Artificial Intelligence (BIGAI) ²UCLA ³Tsinghua University ⁴Peking University
IQA: Visual Question Answering in Interactive Environments [CVPR 2018] [Github] [Demo video (YouTube)]
Danie¹ Gordon1 Aniruddha Kembhavi² Mohammad Rastegari^2,4 Joseph Redmon¹ Dieter Fox^1,3 Ali Farhadi^1,2
¹Paul G. Allen School of Computer Science, University of Washington ²Allen Institute for Artificial Intelligence ³Nvidia ⁴Xnor.ai
Env-QA: A Video Question Answering Benchmark for Comprehensive Understanding of Dynamic Environments [ICCV 2021] [Project page] [Github]
Difei Gao^1,2, Ruiping Wang^1,2,3, Ziyi Bai^1,2, Xilin Chen¹,
¹Key Laboratory of Intelligent Information Processing of Chinese Academy of Sciences (CAS), Institute of Computing Technology, CAS, ²University of Chinese Academy of Sciences, ³Beijing Academy of Artificial Intelligence

Simulator

AI2-THOR: An Interactive 3D Environment for Visual AI [arXiv 2022] [Project page] [Github]
Allen Institute for AI, University of Washington, Stanford University, Carnegie Mellon University
iGibson, a Simulation Environment for Interactive Tasks in Large Realistic Scenes [IROS 2021] [Project page] [Github]
Bokui Shen*, Fei Xia* et al.
Habitat: A Platform for Embodied AI Research [ICCV 2019] [Project page] [Habitat-Sim] [Habitat-Lab] [Habitat Challenge]
Facebook AI Research, Facebook Reality Labs, Georgia Institute of Technology, Simon Fraser University, Intel Labs, UC Berkeley
Habitat 2.0: Training Home Assistants to Rearrange their Habitat [NeurIPS 2021] [Project page]
Facebook AI Research, Georgia Tech, Intel Research, Simon Fraser University, UC Berkeley

Others

Least-to-Most Prompting Enables Complex Reasoning in Large Language Models [ICLR 2023]
Google Research, Brain Team
React: Synergizing reasoning and acting in language models [ICLR 2023]
Shunyu Yao^1∗, Jeffrey Zhao², Dian Yu², Nan Du², Izhak Shafran², Karthik Narasimhan¹, Yuan Cao²
¹Department of Computer Science, Princeton University ², Google Research, Brain team
Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models [arXiv 2023]
Virginia Tech, Microsoft
Graph of Thoughts: Solving Elaborate Problems with Large Language Models [arXiv 2023]
ETH Zurich, Cledar, Warsaw University of Technology
Tree of Thoughts: Deliberate Problem Solving with Large Language Models [arXiv 2023]
Shunyu Yao¹, Dian Yu², Jeffrey Zhao², Izhak Shafran², Thomas L. Griffiths¹, Yuan Cao², Karthik Narasimhan¹
¹Princeton University, ²Google DeepMind
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models [NeurIPS 2022]
Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, Denny Zhou
Google Research, Brain Team
MINEDOJO: Building Open-Ended Embodied Agents with Internet-Scale Knowledge [NeurIPS 2022] [Github] [Project page] [Knowledge Base]
Linxi Fan¹ , Guanzhi Wang^2∗ , Yunfan Jiang^3* , Ajay Mandlekar¹ , Yuncong Yang⁴ , Haoyi Zhu⁵ , Andrew Tang⁴ , De-An Huang¹ , Yuke Zhu^1,6† , Anima Anandkumar^1,2†
¹NVIDIA, ²Caltech, ³Stanford, ⁴Columbia, ⁵SJTU, ⁶UT Austin
Distilling Internet-Scale Vision-Language Models into Embodied Agents [ICML 2023]
Theodore Sumers^1∗ Kenneth Marino² Arun Ahuja² Rob Fergus² Ishita Dasgupta²
LISA: Reasoning Segmentation via Large Language Model [arXiv 2023] [Github] [Huggingface Models] [Dataset] [Online Demo]
TXin Lai¹ Zhuotao Tian² Yukang Chen¹ Yanwei Li¹ Yuhui Yuan³ Shu Liu² Jiaya Jia^1,2
¹The Chinese University of Hong Kong ²SmartMore ³MSRA

Acknowledge

[1] Trend pic from this repo.
[2] Figure from this paper: The Rise and Potential of Large Language Model Based Agents: A Survey.

xianhaochun/Awesome-Embodied-Agent-with-LLMs