Awesome LLM Reasoning

Curated collection of papers and resources on how to unlock the reasoning ability of LLMs and MLLMs.

🗂️ Table of Contents

Survey
Analysis
Technique
Other Useful Resources
Other Awesome Lists
Contributing

If you would like to test the symbolic reasoning ability of LLMs, take a look at: LLMSymbolicReasoningBench 😄

Survey

2025

Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey. [code]

Yaoting Wang, Shengqiong Wu, Yuecheng Zhang, William Wang, Ziwei Liu, Jiebo Luo, Hao Fei. Preprint'25

2024

Attention Heads of Large Language Models: A Survey. [code]

Zifan Zheng, Yezhaohui Wang, Yuxin Huang, Shichao Song, Bo Tang, Feiyu Xiong, Zhiyu Li. Preprint'24
Internal Consistency and Self-Feedback in Large Language Models: A Survey. [code]

Xun Liang, Shichao Song, Zifan Zheng, Hanyu Wang, Qingchen Yu, Xunkai Li, Rong-Hua Li, Feiyu Xiong, Zhiyu Li. Preprint'24
Puzzle Solving using Reasoning of Large Language Models: A Survey. [code]

Panagiotis Giadikiaroglou, Maria Lymperaiou, Giorgos Filandrianos, Giorgos Stamou. Preprint'24
Large Language Models for Mathematical Reasoning: Progresses and Challenges.

Janice Ahn, Rishu Verma, Renze Lou, Di Liu, Rui Zhang, Wenpeng Yin. ACL'24

2022

Towards Reasoning in Large Language Models: A Survey. [code]

Jie Huang, Kevin Chen-Chuan Chang. ACL'23 Findings
Reasoning with Language Model Prompting: A Survey. [code]

Shuofei Qiao, Yixin Ou, Ningyu Zhang, Xiang Chen, Yunzhi Yao, Shumin Deng, Chuanqi Tan, Fei Huang, Huajun Chen. ACL'23

↑ Back to Top ↑

Analysis

2025

New Trends for Modern Machine Translation with Large Reasoning Models.

Sinuo Liu, Chenyang Lyu, Minghao Wu, Longyue Wang, Weihua Luo, Kaifu Zhang, Zifu Shang. Preprint'25

2024

Are Your LLMs Capable of Stable Reasoning? [code]

Junnan Liu, Hongwei Liu, Linchen Xiao, Ziyi Wang, Kuikun Liu, Songyang Gao, Wenwei Zhang, Songyang Zhang, Kai Chen. Preprint'24
From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond.

Harsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz. Preprint'24
To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning.

Zayne Sprague, Fangcong Yin, Juan Diego Rodriguez, Dongwei Jiang, Manya Wadhwa, Prasann Singhal, Xinyu Zhao, Xi Ye, Kyle Mahowald, Greg Durrett. Preprint'24
Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers.

Chenglei Si, Diyi Yang, Tatsunori Hashimoto. Preprint'24
A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners. [code]

Bowen Jiang, Yangxinyu Xie, Zhuoqun Hao, Xiaomeng Wang, Tanwi Mallick, Weijie J. Su, Camillo J. Taylor, Dan Roth. EMNLP'24
Iteration Head: A Mechanistic Study of Chain-of-Thought

Vivien Cabannes, Charles Arnal, Wassim Bouaziz, Alice Yang, Francois Charton, Julia Kempe. NeurIPS'24
Do Large Language Models Latently Perform Multi-Hop Reasoning?

Sohee Yang, Elena Gribovskaya, Nora Kassner, Mor Geva, Sebastian Riedel. ACL'24
Premise Order Matters in Reasoning with Large Language Models.

Xinyun Chen, Ryan A. Chi, Xuezhi Wang, Denny Zhou. ICML'24
The Impact of Reasoning Step Length on Large Language Models.

Mingyu Jin, Qinkai Yu, Dong Shu, Haiyan Zhao, Wenyue Hua, Yanda Meng, Yongfeng Zhang, Mengnan Du. ACL'24 Findings
Large Language Models Cannot Self-Correct Reasoning Yet.

Jie Huang, Xinyun Chen, Swaroop Mishra, Huaixiu Steven Zheng, Adams Wei Yu, Xinying Song, Denny Zhou. ICLR'24
At Which Training Stage Does Code Data Help LLM Reasoning?

Yingwei Ma, Yue Liu, Yue Yu, Yuanliang Zhang, Yu Jiang, Changjian Wang, Shanshan Li. ICLR'24

2023

Measuring Faithfulness in Chain-of-Thought Reasoning.

Tamera Lanham, Anna Chen, Ansh Radhakrishnan, Benoit Steiner, Carson Denison, Danny Hernandez, Dustin Li, Esin Durmus, Evan Hubinger, Jackson Kernion, Kamilė Lukošiūtė, Karina Nguyen, Newton Cheng, Nicholas Joseph, Nicholas Schiefer, Oliver Rausch, Robin Larson, Sam McCandlish, Sandipan Kundu, Saurav Kadavath, Shannon Yang, Thomas Henighan, Timothy Maxwell, Timothy Telleen-Lawton, Tristan Hume, Zac Hatfield-Dodds, Jared Kaplan, Jan Brauner, Samuel R. Bowman, Ethan Perez. Preprint'23
Faith and Fate: Limits of Transformers on Compositionality.

Nouha Dziri, Ximing Lu, Melanie Sclar, Xiang Lorraine Li, Liwei Jiang, Bill Yuchen Lin, Peter West, Chandra Bhagavatula, Ronan Le Bras, Jena D. Hwang, Soumya Sanyal, Sean Welleck, Xiang Ren, Allyson Ettinger, Zaid Harchaoui, Yejin Choi. NeurIPS'23
Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting. [code]

Miles Turpin, Julian Michael, Ethan Perez, Samuel R. Bowman. NeurIPS'23
A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity.

Yejin Bang, Samuel Cahyawijaya, Nayeon Lee, Wenliang Dai, Dan Su, Bryan Wilie, Holy Lovenia, Ziwei Ji, Tiezheng Yu, Willy Chung, Quyet V. Do, Yan Xu, Pascale Fung. AACL'23
Large Language Models Can Be Easily Distracted by Irrelevant Context.

Freda Shi, Xinyun Chen, Kanishka Misra, Nathan Scales, David Dohan, Ed Chi, Nathanael Schärli, Denny Zhou. ICML'23
On Second Thought, Let's Not Think Step by Step! Bias and Toxicity in Zero-Shot Reasoning.

Omar Shaikh, Hongxin Zhang, William Held, Michael Bernstein, Diyi Yang. ACL'23
Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters. [code]

Boshi Wang, Sewon Min, Xiang Deng, Jiaming Shen, You Wu, Luke Zettlemoyer, Huan Sun. ACL'23
Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them. [code]

Mirac Suzgun, Nathan Scales, Nathanael Schärli, Sebastian Gehrmann, Yi Tay, Hyung Won Chung, Aakanksha Chowdhery, Quoc V. Le, Ed H. Chi, Denny Zhou, Jason Wei. ACL'23 Findings

2022

Emergent Abilities of Large Language Models. [blog]

Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H. Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean, William Fedus. TMLR'22
Can language models learn from explanations in context?

Andrew K. Lampinen, Ishita Dasgupta, Stephanie C. Y. Chan, Kory Matthewson, Michael Henry Tessler, Antonia Creswell, James L. McClelland, Jane X. Wang, Felix Hill. EMNLP'22

↑ Back to Top ↑

Technique

🔤 Reasoning in Large Language Models - An Emergent Ability

2025

Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching. [code]

Simon A. Aytes, Jinheon Baek, Sung Ju Hwang. Preprint'25
Self-rewarding correction for mathematical reasoning.

Wei Xiong, Hanning Zhang, Chenlu Ye, Lichang Chen, Nan Jiang, Tong Zhang. Preprint'25
Competitive Programming with Large Reasoning Models.

OpenAI: Ahmed El-Kishky, Alexander Wei, Andre Saraiva, Borys Minaiev, Daniel Selsam, David Dohan, Francis Song, Hunter Lightman, Ignasi Clavera, Jakub Pachocki, Jerry Tworek, Lorenz Kuhn, Lukasz Kaiser, Mark Chen, Max Schwarzer, Mostafa Rohaninejad, Nat McAleese, o3 contributors, Oleg Mürk, Rhythm Garg, Rui Shu, Szymon Sidor, Vineet Kosaraju, Wenda Zhou. Preprint'25
s1: Simple test-time scaling.

Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candès, Tatsunori Hashimoto. Preprint'25
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. [project]

Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z.F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, et al. Preprint'25
Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought.

Violet Xiang, Charlie Snell, Kanishk Gandhi, Alon Albalak, Anikait Singh, Chase Blagden, Duy Phung, Rafael Rafailov, Nathan Lile, Dakota Mahan, Louis Castricato, Jan-Philipp Franken, Nick Haber, Chelsea Finn. Preprint'25

2024

HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs [code]

Junying Chen, Zhenyang Cai, Ke Ji, Xidong Wang, Wanlong Liu, Rongsheng Wang, Jianye Hou, Benyou Wang. Preprint'24
DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought. [code]

Jiaan Wang, Fandong Meng, Yunlong Liang, Jie Zhou. Preprint'24
MALT: Improving Reasoning with Multi-Agent LLM Training.

Sumeet Ramesh Motwani, Chandler Smith, Rocktim Jyoti Das, Markian Rybchuk, Philip H. S. Torr, Ivan Laptev, Fabio Pizzati, Ronald Clark, Christian Schroeder de Witt. Preprint'24
SmartAgent: Chain-of-User-Thought for Embodied Personalized Agent in Cyber World.

Jiaqi Zhang, Chen Gao, Liyuan Zhang, Yong Li, Hongzhi Yin. Preprint'24
Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions. [code] [model]

Yu Zhao, Huifeng Yin, Bo Zeng, Hao Wang, Tianqi Shi, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang. Preprint'24
Embedding Self-Correction as an Inherent Ability in Large Language Models for Enhanced Mathematical Reasoning.

Kuofeng Gao, Huanqia Cai, Qingyao Shuai, Dihong Gong, Zhifeng Li. Preprint'24
Deliberate Reasoning for LLMs as Structure-aware Planning with Accurate World Model. [code]

Siheng Xiong, Ali Payani, Yuan Yang, Faramarz Fekri. Preprint'24
Interpretable Contrastive Monte Carlo Tree Search Reasoning.

Zitian Gao, Boye Niu, Xuzheng He, Haotian Xu, Hongzhang Liu, Aiwei Liu, Xuming Hu, Lijie Wen. Preprint'24
Training Language Models to Self-Correct via Reinforcement Learning.

Aviral Kumar, Vincent Zhuang, Rishabh Agarwal, Yi Su, JD Co-Reyes, Avi Singh, Kate Baumli, Shariq Iqbal, Colton Bishop, Rebecca Roelofs, Lei M. Zhang, Kay McKinney, Disha Shrivastava, Cosmin Paduraru, George Tucker, Doina Precup, Feryal Behbahani, Aleksandra Faust. Preprint'24
OpenAI o1.

Open AI Team. Technical Report'24
Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents.

Pranav Putta, Edmund Mills, Naman Garg, Sumeet Motwani, Chelsea Finn, Divyansh Garg, Rafael Rafailov. Preprint'24
DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning. [code]

Chengpeng Li, Guanting Dong, Mingfeng Xue, Ru Peng, Xiang Wang, Dayiheng Liu. Preprint'24
LLM-ARC: Enhancing LLMs with an Automated Reasoning Critic.

Aditya Kalyanpur, Kailash Saravanakumar, Victor Barres, Jennifer Chu-Carroll, David Melville, David Ferrucci. Preprint'24
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning.

Chaojie Wang, Yanchen Deng, Zhiyi Lv, Shuicheng Yan, An Bo. Preprint'24
Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models. [code]

Ling Yang, Zhaochen Yu, Tianjun Zhang, Shiyi Cao, Minkai Xu, Wentao Zhang, Joseph E. Gonzalez, Bin Cui. Preprint'24
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing.

Ye Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu. Preprint'24
Self-playing Adversarial Language Game Enhances LLM Reasoning.

Pengyu Cheng, Tianhao Hu, Han Xu, Zhisong Zhang, Yong Dai, Lei Han, Nan Du. Preprint'24
Evaluating Mathematical Reasoning Beyond Accuracy.

Shijie Xia, Xuefeng Li, Yixin Liu, Tongshuang Wu, Pengfei Liu. Preprint'24
Advancing LLM Reasoning Generalists with Preference Trees.

Lifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Jia Deng, Boji Shan, Huimin Chen, Ruobing Xie, Yankai Lin, Zhenghao Liu, Bowen Zhou, Hao Peng, Zhiyuan Liu, Maosong Sun. Preprint'24
LLM3: Large Language Model-based Task and Motion Planning with Motion Failure Reasoning. [code]

Shu Wang, Muzhi Han, Ziyuan Jiao, Zeyu Zhang, Ying Nian Wu, Song-Chun Zhu, Hangxin Liu. IROS'24
Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking.

Eric Zelikman, Georges Harik, Yijia Shao, Varuna Jayasiri, Nick Haber, Noah D. Goodman. Preprint'24
GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements.

Alex Havrilla, Sharath Raparthy, Christoforus Nalmpantis, Jane Dwivedi-Yu, Maksym Zhuravinskyi, Eric Hambro, Roberta Railneau. ICML'24
Chain-of-Thought Reasoning Without Prompting.

Xuezhi Wang, Denny Zhou. Preprint'24
V-STaR: Training Verifiers for Self-Taught Reasoners.

Arian Hosseini, Xingdi Yuan, Nikolay Malkin, Aaron Courville, Alessandro Sordoni, Rishabh Agarwal. Preprint'24
InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning.

Huaiyuan Ying, Shuo Zhang, Linyang Li, Zhejian Zhou, Yunfan Shao, Zhaoye Fei, Yichuan Ma, Jiawei Hong, Kuikun Liu, Ziyi Wang, Yudong Wang, Zijian Wu, Shuaibin Li, Fengzhe Zhou, Hongwei Liu, Songyang Zhang, Wenwei Zhang, Hang Yan, Xipeng Qiu, Jiayu Wang, Kai Chen, Dahua Lin. Preprint'24
Self-Discover: Large Language Models Self-Compose Reasoning Structures.

Pei Zhou, Jay Pujara, Xiang Ren, Xinyun Chen, Heng-Tze Cheng, Quoc V. Le, Ed H. Chi, Denny Zhou, Swaroop Mishra, Huaixiu Steven Zheng. Preprint'24
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.

Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, Y.K. Li, Y. Wu, Daya Guo. Preprint'24
K-Level Reasoning with Large Language Models.

Yadong Zhang, Shaoguang Mao, Tao Ge, Xun Wang, Yan Xia, Man Lan, Furu Wei. Preprint'24
Efficient Tool Use with Chain-of-Abstraction Reasoning.

Silin Gao, Jane Dwivedi-Yu, Ping Yu, Xiaoqing Ellen Tan, Ramakanth Pasunuru, Olga Golovneva, Koustuv Sinha, Asli Celikyilmaz, Antoine Bosselut, Tianlu Wang. Preprint'24
Teaching Language Models to Self-Improve through Interactive Demonstrations.

Xiao Yu, Baolin Peng, Michel Galley, Jianfeng Gao, Zhou Yu. NAACL'24
Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic. [code]

Xufeng Zhao, Mengdi Li, Wenhao Lu, Cornelius Weber, Jae Hee Lee, Kun Chu, Stefan Wermter. COLING'24
Chain-of-Verification Reduces Hallucination in Large Language Models.

Shehzaad Dhuliawala, Mojtaba Komeili, Jing Xu, Roberta Raileanu, Xian Li, Asli Celikyilmaz, Jason Weston. ACL'24 Findings
Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding.

Xuefei Ning, Zinan Lin, Zixuan Zhou, Huazhong Yang, Yu Wang. ICLR'24
Question Decomposition Improves the Faithfulness of Model-Generated Reasoning. [code]

Ansh Radhakrishnan, Karina Nguyen, Anna Chen, Carol Chen, Carson Denison, Danny Hernandez, Esin Durmus, Evan Hubinger, Jackson Kernion, Kamilė Lukošiūtė, Newton Cheng, Nicholas Joseph, Nicholas Schiefer, Oliver Rausch, Sam McCandlish, Sheer El Showk, Tamera Lanham, Tim Maxwell, Venkatesa Chandrasekaran, Zac Hatfield-Dodds, Jared Kaplan, Jan Brauner, Samuel R. Bowman, Ethan Perez. Preprint'23
Let's Verify Step by Step.

Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe. ICLR'24
REFINER: Reasoning Feedback on Intermediate Representations. [project] [code]

Debjit Paul, Mete Ismayilzada, Maxime Peyrard, Beatriz Borges, Antoine Bosselut, Robert West, Boi Faltings. EACL'24
Active Prompting with Chain-of-Thought for Large Language Models. [code]

Shizhe Diao, Pengcheng Wang, Yong Lin, Tong Zhang. ACL'24
Language Models as Inductive Reasoners.

Zonglin Yang, Li Dong, Xinya Du, Hao Cheng, Erik Cambria, Xiaodong Liu, Jianfeng Gao, Furu Wei. EACL'24

2023

Boosting LLM Reasoning: Push the Limits of Few-shot Learning with Reinforced In-Context Pruning.

Xijie Huang, Li Lyna Zhang, Kwang-Ting Cheng, Mao Yang. Preprint'23
Logic-LM: Empowering Large Language Models with Symbolic Solvers for Faithful Logical Reasoning. [code]

Liangming Pan, Alon Albalak, Xinyi Wang, William Yang Wang. EMNLP'23 Findings
Recursion of Thought: A Divide and Conquer Approach to Multi-Context Reasoning with Language Models. [code] [poster]

Soochan Lee, Gunhee Kim. ACL'23 Findings
Reasoning with Language Model is Planning with World Model.

Shibo Hao, Yi Gu, Haodi Ma, Joshua Jiahua Hong, Zhen Wang, Daisy Zhe Wang, Zhiting Hu. EMNLP'23
Reasoning Implicit Sentiment with Chain-of-Thought Prompting. [code]

Hao Fei, Bobo Li, Qian Liu, Lidong Bing, Fei Li, Tat-Seng Chua. ACL'23
Tree of Thoughts: Deliberate Problem Solving with Large Language Models. [code]

Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, Karthik Narasimhan. NeurIPS'23
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting. [code]

Xi Ye, Qiaochu Chen, Isil Dillig, Greg Durrett. NeurIPS'23
ART: Automatic multi-step reasoning and tool-use for large language models.

Bhargavi Paranjape, Scott Lundberg, Sameer Singh, Hannaneh Hajishirzi, Luke Zettlemoyer, Marco Tulio Ribeiro. Preprint'23
Automatic Prompt Augmentation and Selection with Chain-of-Thought from Labeled Data. [code]

KaShun Shum, Shizhe Diao, Tong Zhang. EMNLP'23 Findings
Synthetic Prompting: Generating Chain-of-Thought Demonstrations for Large Language Models.

Zhihong Shao, Yeyun Gong, Yelong Shen, Minlie Huang, Nan Duan, Weizhu Chen. ICML'23
Faithful Chain-of-Thought Reasoning.

Qing Lyu, Shreya Havaldar, Adam Stein, Li Zhang, Delip Rao, Eric Wong, Marianna Apidianaki, Chris Callison-Burch. IJCNLP-AACL'23
Rethinking with Retrieval: Faithful Large Language Model Inference.

Hangfeng He, Hongming Zhang, Dan Roth. Preprint'23
LAMBADA: Backward Chaining for Automated Reasoning in Natural Language.

Seyed Mehran Kazemi, Najoung Kim, Deepti Bhatia, Xin Xu, Deepak Ramachandran. ACL'23
Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions. [code]

Harsh Trivedi, Niranjan Balasubramanian, Tushar Khot, Ashish Sabharwal. ACL'23
Large Language Models are Reasoners with Self-Verification. [code]

Yixuan Weng, Minjun Zhu, Shizhu He, Kang Liu, Jun Zhao. EMNLP'23 Findings
Can Retriever-Augmented Language Models Reason? The Blame Game Between the Retriever and the Language Model. [code]

Parishad BehnamGhader, Santiago Miret, Siva Reddy. EMNLP'23 Findings
Complementary Explanations for Effective In-Context Learning.

Xi Ye, Srinivasan Iyer, Asli Celikyilmaz, Ves Stoyanov, Greg Durrett, Ramakanth Pasunuru. ACL'23 Findings
Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks. [code]

Wenhu Chen, Xueguang Ma, Xinyi Wang, William W. Cohen. TMLR'23
Unsupervised Explanation Generation via Correct Instantiations.

Sijie Cheng, Zhiyong Wu, Jiangjie Chen, Zhixing Li, Yang Liu, Lingpeng Kong. AAAI'23
PAL: Program-aided Language Models. [project] [code]

Luyu Gao, Aman Madaan, Shuyan Zhou, Uri Alon, Pengfei Liu, Yiming Yang, Jamie Callan, Graham Neubig. ICML'23
Solving Math Word Problems via Cooperative Reasoning induced Language Models. [code]

Xinyu Zhu, Junjie Wang, Lin Zhang, Yuxiang Zhang, Ruyi Gan, Jiaxing Zhang, Yujiu Yang. ACL'23
Large Language Models Can Self-Improve.

Jiaxin Huang, Shixiang Shane Gu, Le Hou, Yuexin Wu, Xuezhi Wang, Hongkun Yu, Jiawei Han. EMNLP'23
Mind's Eye: Grounded language model reasoning through simulation.

Ruibo Liu, Jason Wei, Shixiang Shane Gu, Te-Yen Wu, Soroush Vosoughi, Claire Cui, Denny Zhou, Andrew M. Dai. ICLR'23
Automatic Chain of Thought Prompting in Large Language Models. [code]

Zhuosheng Zhang, Aston Zhang, Mu Li, Alex Smola. ICLR'23
Language Models are Multilingual Chain-of-Thought Reasoners.

Freda Shi, Mirac Suzgun, Markus Freitag, Xuezhi Wang, Suraj Srivats, Soroush Vosoughi, Hyung Won Chung, Yi Tay, Sebastian Ruder, Denny Zhou, Dipanjan Das, Jason Wei. ICLR'23
Ask Me Anything: A simple strategy for prompting language models. [code]

Simran Arora, Avanika Narayan, Mayee F. Chen, Laurel Orr, Neel Guha, Kush Bhatia, Ines Chami, Frederic Sala, Christopher Ré. ICLR'23
Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning. [project] [code]

Pan Lu, Liang Qiu, Kai-Wei Chang, Ying Nian Wu, Song-Chun Zhu, Tanmay Rajpurohit, Peter Clark, Ashwin Kalyan. ICLR'23
Making Large Language Models Better Reasoners with Step-Aware Verifier.

Yifei Li, Zeqi Lin, Shizhuo Zhang, Qiang Fu, Bei Chen, Jian-Guang Lou, Weizhu Chen. ACL'23
Least-to-most prompting enables complex reasoning in large language models.

Denny Zhou, Nathanael Schärli, Le Hou, Jason Wei, Nathan Scales, Xuezhi Wang, Dale Schuurmans, Claire Cui, Olivier Bousquet, Quoc Le, Ed Chi. ICLR'23
Self-consistency improves chain of thought reasoning in language models.

Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, Denny Zhou. ICLR'23

2022

Retrieval Augmentation for Commonsense Reasoning: A Unified Approach. [code]

Wenhao Yu, Chenguang Zhu, Zhihan Zhang, Shuohang Wang, Zhuosheng Zhang, Yuwei Fang, Meng Jiang. EMNLP'22
Language Models of Code are Few-Shot Commonsense Learners. [code]

Aman Madaan, Shuyan Zhou, Uri Alon, Yiming Yang, Graham Neubig. EMNLP'22
Solving Quantitative Reasoning Problems with Language Models. [blog]

Aitor Lewkowycz, Anders Andreassen, David Dohan, Ethan Dyer, Henryk Michalewski, Vinay Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo Gutman-Solo, Yuhuai Wu, Behnam Neyshabur, Guy Gur-Ari, Vedant Misra. NeurIPS'22
Large Language Models Still Can't Plan. [code]

Karthik Valmeekam, Alberto Olmo, Sarath Sreedharan, Subbarao Kambhampati. NeurIPS'22
Large Language Models are Zero-Shot Reasoners.

Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, Yusuke Iwasawa. NeurIPS'22
Iteratively Prompt Pre-trained Language Models for Chain of Thought. [code]

Boshi Wang, Xiang Deng, Huan Sun. EMNLP'22
Chain of Thought Prompting Elicits Reasoning in Large Language Models. [blog]

Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou. NeurIPS'22

↑ Back to Top ↑

🧠 Multimodal Reasoning in Large Language Models

2025

Introducing Visual Perception Token into Multimodal Large Language Model. [code] [model] [dataset]

Runpeng Yu, Xinyin Ma, Xinchao Wang. Preprint'25
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs. [project] [code] [model]

Omkar Thawakar, Dinura Dissanayake, Ketan More, Ritesh Thawkar, Ahmed Heakl, Noor Ahsan, Yuhao Li, Mohammed Zumri, Jean Lahoud, Rao Muhammad Anwer, Hisham Cholakkal, Ivan Laptev, Mubarak Shah, Fahad Shahbaz Khan, Salman Khan. Preprint'25

2024

Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models. [code] [model]

Yuhao Dong, Zuyan Liu, Hai-Long Sun, Jingkang Yang, Winston Hu, Yongming Rao, Ziwei Liu. Preprint'24
LLaVA-CoT: Let Vision Language Models Reason Step-by-Step code model

Guowei Xu, Peng Jin, Hao Li, Yibing Song, Lichao Sun, Li Yuan. Preprint'24
Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models. [project] [code]

Yushi Hu, Weijia Shi, Xingyu Fu, Dan Roth, Mari Ostendorf, Luke Zettlemoyer, Noah A Smith, Ranjay Krishna. Preprint'24
Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs.

Victor Carbune, Hassan Mansoor, Fangyu Liu, Rahul Aralikatte, Gilles Baechler, Jindong Chen, Abhanshu Sharma. NAACL'24 Findings
SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities. [project]

Boyuan Chen, Zhuo Xu, Sean Kirmani, Brian Ichter, Danny Driess, Pete Florence, Dorsa Sadigh, Leonidas Guibas, Fei Xia. CVPR'24
Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding.

Zilong Wang, Hao Zhang, Chun-Liang Li, Julian Martin Eisenschlos, Vincent Perot, Zifeng Wang, Lesly Miculicich, Yasuhisa Fujii, Jingbo Shang, Chen-Yu Lee, Tomas Pfister. ICLR'24
Link-Context Learning for Multimodal LLMs. [code]

Yan Tai, Weichen Fan, Zhao Zhang, Feng Zhu, Rui Zhao, Ziwei Liu. CVPR'24

2023

Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models.

Yuqing Wang, Yun Zhao. Preprint'23
G-LLaVA: Solving Geometric Problems with Multi-Modal Large Language Model.

Jiahui Gao, Renjie Pi, Jipeng Zhang, Jiacheng Ye, Wanjun Zhong, Yufei Wang, Lanqing Hong, Jianhua Han, Hang Xu, Zhenguo Li, Lingpeng Kong. Preprint'23
Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models. [project] [code]

Pan Lu, Baolin Peng, Hao Cheng, Michel Galley, Kai-Wei Chang, Ying Nian Wu, Song-Chun Zhu, Jianfeng Gao. NeurIPS'23
MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action. [project] [code] [demo]

Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Ehsan Azarnasab, Faisal Ahmed, Zicheng Liu, Ce Liu, Michael Zeng, Lijuan Wang. Preprint'23
ViperGPT: Visual Inference via Python Execution for Reasoning. [project] [code]

Dídac Surís, Sachit Menon, Carl Vondrick. ICCV'23
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models. [code]

Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan. Preprint'23
Multimodal Chain-of-Thought Reasoning in Language Models. [code]

Zhuosheng Zhang, Aston Zhang, Mu Li, Hai Zhao, George Karypis, Alex Smola. Preprint'23
Visual Programming: Compositional Visual Reasoning without Training. [project] [code]

Tanmay Gupta, Aniruddha Kembhavi. CPVR'23
Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language. [project] [code]

Andy Zeng, Maria Attarian, Brian Ichter, Krzysztof Choromanski, Adrian Wong, Stefan Welker, Federico Tombari, Aveek Purohit, Michael Ryoo, Vikas Sindhwani, Johnny Lee, Vincent Vanhoucke, Pete Florence. ICLR'23

↑ Back to Top ↑

🤏 Scaling Smaller Language Models to Reason

2025

Learning to Reason from Feedback at Test-Time. [code]

Yanyang Li, Michael Lyu, Liwei Wang. Preprint'25
S²R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning. [code]

Ruotian Ma, Peisong Wang, Cheng Liu, Xingyan Liu, Jiaqi Chen, Bang Zhang, Xin Zhou, Nan Du, Jia Li. Preprint'25
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking. [code]

Xinyu Guan, Li Lyna Zhang, Yifei Liu, Ning Shang, Youran Sun, Yi Zhu, Fan Yang, Mao Yang. Preprint'24

2024

MathScale: Scaling Instruction Tuning for Mathematical Reasoning.

Zhengyang Tang, Xingxing Zhang, Benyou Wang, Furu Wei. Preprint'24

2023

Learning Deductive Reasoning from Synthetic Corpus based on Formal Logic. [code]

Terufumi Morishita, Gaku Morio, Atsuki Yamaguchi, Yasuhiro Sogawa. ICML'23
Symbolic Chain-of-Thought Distillation: Small Models Can Also "Think" Step-by-Step. [code]

Liunian Harold Li, Jack Hessel, Youngjae Yu, Xiang Ren, Kai-Wei Chang, Yejin Choi. ACL'23
Specializing Smaller Language Models towards Multi-Step Reasoning.

Yao Fu, Hao Peng, Litu Ou, Ashish Sabharwal, Tushar Khot. ICML'23
Large Language Models Are Reasoning Teachers. [code]

Namgyu Ho, Laura Schmid, Se-Young Yun. ACL'23
Teaching Small Language Models to Reason.

Lucie Charlotte Magister, Jonathan Mallinson, Jakub Adamek, Eric Malmi, Aliaksei Severyn. ACL'23 Short
Distilling Multi-Step Reasoning Capabilities of Large Language Models into Smaller Models via Semantic Decompositions.

Kumar Shridhar, Alessandro Stolfo, Mrinmaya Sachan. ACL'23 Findings

2022

Scaling Instruction-Finetuned Language Models.

Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Eric Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu, Zhuyun Dai, Mirac Suzgun, Xinyun Chen, Aakanksha Chowdhery, Sharan Narang, Gaurav Mishra, Adams Yu, Vincent Zhao, Yanping Huang, Andrew Dai, Hongkun Yu, Slav Petrov, Ed H. Chi, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V. Le, Jason Wei. JMLR'22

↑ Back to Top ↑

Other Useful Resources

LLM Reasoners A library for advanced large language model reasoning.
Chain-of-Thought Hub Benchmarking LLM reasoning performance with chain-of-thought prompting.
ThoughtSource Central and open resource for data and tools related to chain-of-thought reasoning in large language models.
AgentChain Chain together LLMs for reasoning & orchestrate multiple large models for accomplishing complex tasks.
google/Cascades Python library which enables complex compositions of language models such as scratchpads, chain of thought, tool use, selection-inference, and more.
LogiTorch PyTorch-based library for logical reasoning on natural language.
salesforce/LAVIS One-stop Library for Language-Vision Intelligence.
facebookresearch/RAM A framework to study AI models in Reasoning, Alignment, and use of Memory (RAM).

↑ Back to Top ↑

Other Awesome Lists

Awesome-Controllable-Generation Collection of papers and resources on Controllable Generation using Diffusion Models.
Chain-of-ThoughtsPapers A trend starts from "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models".
LM-reasoning Collection of papers and resources on Reasoning in Large Language Models.
Prompt4ReasoningPapers Repository for the paper "Reasoning with Language Model Prompting: A Survey".
ReasoningNLP Paper list on reasoning in NLP
Awesome-LLM Curated list of Large Language Model.
Awesome LLM Self-Consistency Curated list of Self-consistency in Large Language Models.
Deep-Reasoning-Papers Recent Papers including Neural-Symbolic Reasoning, Logical Reasoning, and Visual Reasoning.

↑ Back to Top ↑

Contributing

Add a new paper or update an existing paper, thinking about which category the work should belong to.
Use the same format as existing entries to describe the work.
Add the abstract link of the paper (/abs/ format if it is an arXiv publication).

Don't worry if you do something wrong, it will be fixed for you!

atfortes/Awesome-LLM-Reasoning

Awesome LLM Reasoning

Survey

2025

2024

2022

Analysis

2025

2024

2023

2022

Technique

🔤 Reasoning in Large Language Models - An Emergent Ability

2025

2024

2023

2022

🧠 Multimodal Reasoning in Large Language Models

2025

2024

2023

🤏 Scaling Smaller Language Models to Reason

2025

2024

2023

2022

Other Useful Resources

Other Awesome Lists

Contributing

Contributors

Star History