Evaluation Papers for ChatGPT

News

2023/03/15: OpenAI released gpt4, which can be accessed on ChatGPT's plus service, we view it as a latest version of ChatGPT.

Introduction

This repository stores Dataset Resources, Evaluation Papers and Detection Tools for ChatGPT.

0. Survey
1. Dataset Resource
2. Evaluation Papers
3. Detection Tools
- 3.1 Metrics
- 3.2 Available Tools

0. Survey

ChatGPT: A Meta-Analysis after 2.5 Months.

Christoph Leiter, Ran Zhang, Yanran Chen, Jonas Belouadi, Daniil Larionov, Vivian Fresen, Steffen Eger. [abs], 2023.2
Summary of ChatGPT/GPT-4 Research and Perspective Towards the Future of Large Language Models.

Yiheng Liu, Tianle Han, Siyuan Ma, Jiayue Zhang, Yuanyuan Yang, Jiaming Tian, Hao He, Antong Li, Mengshen He, Zhengliang Liu, Zihao Wu, Dajiang Zhu, Xiang Li, Ning Qiang, Dingang Shen, Tianming Liu, Bao Ge. [abs], 2023.4

1. Dataset Resource

How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection.

Biyang Guo, Xin Zhang , Ziyuan Wang, Minqi Jiang , Jinran Nie, Yuxuan Ding, Jianwei Yue , Yupeng Wu. [abs],[github], 2023.1
ChatGPT: Jack of all trades, master of none.

Jan Kocoń , Igor Cichecki , Oliwier Kaszyca , Mateusz Kochanek , Dominika Szydło , Joanna Baran, Julita Bielaniewicz, Marcin Gruza, Arkadiusz Janz, Kamil Kanclerz, Anna Kocoń, Bartłomiej Koptyra, Wiktoria Mieleszczenko-Kowszewicz, Piotr Miłkowski, Marcin Oleksy, Maciej Piasecki, Łukasz Radliński, Konrad Wojtasik, Stanisław Woźniak and Przemysław Kazienko. [abs],[github], 2023.2
Can ChatGPT Understand Too? A Comparative Study on ChatGPT and Fine-tuned BERT.

Qihuang Zhong, Liang Ding, Juhua Liu, Bo Du, Dacheng Tao. [abs],[github], 2023.2
Is ChatGPT A Good Translator? A Preliminary Study.

Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Xing Wang, Zhaopeng Tu. [abs],[github], 2023.1
On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective.

Jindong Wang, Xixu Hu, Wenxin Hou, Hao Chen, Runkai Zheng, Yidong Wang, Linyi Yang, Haojun Huang, Wei Ye, Xiubo Geng, Binxin Jiao, Yue Zhang, Xing Xie . [abs],[github], 2023.2
An Independent Evaluation of ChatGPT on Mathematical Word Problems (MWP).

Paulo Shakarian, Abhinav Koyyalamudi, Noel Ngu, Lakshmivihari Mareedu. [abs][github], 2023.2
Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions.

Yiming Tan, Dehai Min, Yu Li, Wenbo Li, Nan Hu, Yongrui Chen, Guilin Qi. [abs][github], 2023.3

Data statistics of these resources:

Paper with Dataset	Task	#Examples
How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection	QA + Dialog	40,000
ChatGPT: Jack of all trades, master of none	25 classification/ QA/reasoning task	38,000
Can ChatGPT Understand Too? A Comparative Study on ChatGPT and Fine-tuned BERT	sentiment analysis / Paraphrase / NLI	475
Is ChatGPT A Good Translator? A Preliminary Study	Translation	5,609
On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective	Robustness	2,237
An Independent Evaluation of ChatGPT on Mathematical Word Problems (MWP).	Reasoning	1,000
Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions.	Complex QA	194,782

2. Evaluation Papers

2.1 Natural Language Understanding

Can ChatGPT Understand Too? A Comparative Study on ChatGPT and Fine-tuned BERT.

Qihuang Zhong, Liang Ding, Juhua Liu, Bo Du, Dacheng Tao. [abs],[github], 2023.2
ChatGPT: Jack of all trades, master of none.

Jan Kocoń , Igor Cichecki , Oliwier Kaszyca , Mateusz Kochanek , Dominika Szydło , Joanna Baran, Julita Bielaniewicz, Marcin Gruza, Arkadiusz Janz, Kamil Kanclerz, Anna Kocoń, Bartłomiej Koptyra, Wiktoria Mieleszczenko-Kowszewicz, Piotr Miłkowski, Marcin Oleksy, Maciej Piasecki, Łukasz Radliński, Konrad Wojtasik, Stanisław Woźniak and Przemysław Kazienko. [abs],[github], 2023.2
How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language Understanding Tasks.

Xuanting Chen, Junjie Ye, Can Zu, Nuo Xu, Rui Zheng, Minlong Peng, Jie Zhou, Tao Gui, Qi Zhang, Xuanjing Huang. [abs], 2023.3
Consistency Analysis of ChatGPT.

Myeongjun Jang, Thomas Lukasiewicz. [abs], 2023.3
Does ChatGPT resemble humans in language use?

Zhenguang G. Cai, David A. Haslett, Xufeng Duan, Shuqi Wang, Martin J. Pickering. [abs], 2023.3
A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models.

Junjie Ye, Xuanting Chen, Nuo Xu, Can Zu, Zekai Shao, Shichun Liu, Yuhan Cui, Zeyang Zhou, Chao Gong, Yang Shen, Jie Zhou, Siming Chen, Tao Gui, Qi Zhang, Xuanjing Huang. [abs], 2023.3
Can we trust the evaluation on ChatGPT?

Rachith Aiyappa, Jisun An, Haewoon Kwak, Yong-Yeol Ahn. [abs], 2023.3
A comprehensive evaluation of ChatGPT's zero-shot Text-to-SQL capability.

Aiwei Liu, Xuming Hu, Lijie Wen, Philip S. Yu. [abs][github], 2023.3
ChatGPT or Grammarly? Evaluating ChatGPT on Grammatical Error Correction Benchmark.

Haoran Wu, Wenxuan Wang, Yuxuan Wan, Wenxiang Jiao, Michael Lyu. [abs], 2023.3
Safety Analysis in the Era of Large Language Models: A Case Study of STPA using ChatGPT.

Tao Fang, Shu Yang, Kaixin Lan, Derek F. Wong, Jinpeng Hu, Lidia S. Chao, Yue Zhang. [abs], 2023.4

2.2 Ethics and Bias

Exploring AI Ethics of ChatGPT: A Diagnostic Analysis.

Terry Yue Zhuo, Yujin Huang , Chunyang Chen , Zhenchang Xing. [abs], 2023.2
Is ChatGPT better than Human Annotators? Potential and Limitations of ChatGPT in Explaining Implicit Hate Speech.

Fan Huang, Haewoon Kwak, Jisun An. [abs], 2023.2
ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks.

Fabrizio Gilardi, Meysam Alizadeh, Maël Kubli. [abs], 2023.3
Chinese Intermediate English Learners outdid ChatGPT in deep cohesion: Evidence from English narrative writing.

Tongquan Zhou, Siyi Cao, Siruo Zhou, Yao Zhang, Aijing He. [abs], 2023.3
A Perspectival Mirror of the Elephant: Investigating Language Bias on Google, ChatGPT, Wikipedia, and YouTube.

Queenie Luo, Michael J. Puett, Michael D. Smith. [abs], 2023.3
Assessing Cross-Cultural Alignment between ChatGPT and Human Societies: An Empirical Study.

Yong Cao, Li Zhou, Seolhwa Lee, Laura Cabello, Min Chen, Daniel Hershcovich. [abs], 2023.3
Safety Analysis in the Era of Large Language Models: A Case Study of STPA using ChatGPT.

Yi Qi, Xingyu Zhao, Xiaowei Huang. [abs], 2023.4

2.3 Long Text Summarization

Exploring the Limits of ChatGPT for Query or Aspect-based Text Summarization.

Xianjun Yang, Yan Li, Xinlu Zhang, Haifeng Chen, Wei Cheng. [abs], 2023.2
Can ChatGPT Write a Good Boolean Query for Systematic Review Literature Search?

Shuai Wang, Harrisen Scells, Bevan Koopman, Guido Zuccon. [abs], 2023.2
ChatGPT Makes Medicine Easy to Swallow: An Exploratory Case Study on Simplified Radiology Reports.

Katharina Jeblick, Balthasar Schachtner, Jakob Dexl, Andreas Mittermeier, Anna Theresa Stüber, Johanna Topalis, Tobias Weber, Philipp Wesp, Bastian Sabel, Jens Ricke, Michael Ingrisch. [abs], 2022.12
Cross-Lingual Summarization via ChatGPT.

Jiaan Wang, Yunlong Liang, Fandong Meng, Zhixu Li, Jianfeng Qu, Jie Zhou. [abs], 2023.2
ChatGPT as a Factual Inconsistency Evaluator for Abstractive Text Summarization.

Zheheng Luo, Qianqian Xie, Sophia Ananiadou. [abs], 2023.3
Assessing Cross-Cultural Alignment between ChatGPT and Human Societies: An Empirical Study.

Yong Cao, Li Zhou, Seolhwa Lee, Laura Cabello, Min Chen, Daniel Hershcovich. [abs], 2023.3
Comparing Abstractive Summaries Generated by ChatGPT to Real Summaries Through Blinded Reviewers and Text Classification Algorithms.

Mayank Soni, Vincent Wade. [abs], 2023.3

2.4 Reasoning

Mathematical Capabilities of ChatGPT.

Simon Frieder, Luca Pinchetti, Ryan-Rhys Griffiths, Tommaso Salvatori, Thomas Lukasiewicz, Philipp Christian Petersen, Alexis Chevalier, Julius Berner. [abs], 2023.1
Is ChatGPT a General-Purpose Natural Language Processing Task Solver?

Chengwei Qin, Aston Zhang, Zhuosheng Zhang, Jiaao Chen, Michihiro Yasunaga, Diyi Yang. [abs], 2023.2
A Categorical Archive of ChatGPT Failures.

Ali Borji. [abs], 2023.2
An Independent Evaluation of ChatGPT on Mathematical Word Problems (MWP).

Paulo Shakarian, Abhinav Koyyalamudi, Noel Ngu, Lakshmivihari Mareedu. [abs][github], 2023.2
Mind meets machine: Unravelling GPT-4's cognitive psychology.

Sifatkaur, Manmeet Singh, Vaisakh SB, Neetiraj Malviya. [abs], 2023.3
Capabilities of GPT-4 on Medical Challenge Problems.

Harsha Nori, Nicholas King, Scott Mayer McKinney, Dean Carignan, Eric Horvitz. [abs], 2023.3
GPT is becoming a Turing machine: Here are some ways to program it.

Ana Jojic, Zhen Wang, Nebojsa Jojic. [abs], 2023.3
ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models.

Ning Bian, Xianpei Han, Le Sun, Hongyu Lin, Yaojie Lu, Ben He. [abs], 2023.3
Humans in Humans Out: On GPT Converging Toward Common Sense in both Success and Failure.

Philipp Koralus, Vincent Wang-Maścianica. [abs], 2023.3
LLMMaps -- A Visual Metaphor for Stratified Evaluation of Large Language Models.

Patrik Puchert, Poonam Poonam, Christian van Onzenoodt, Timo Ropinski. [abs], 2023.4

2.5 Multimodal

A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity.

Yejin Bang, Samuel Cahyawijaya, Nayeon Lee, Wenliang Dai, Dan Su, Bryan Wilie, Holy Lovenia, Ziwei Ji, Tiezheng Yu, Willy Chung, Quyet V. Do, Yan Xu, Pascale Fung. [abs], 2023.2
A Pilot Evaluation of ChatGPT and DALL-E 2 on Decision Making and Spatial Reasoning.

Zhisheng Tang, Mayank Kejriwal. [abs], 2023.2
MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action.

Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Ehsan Azarnasab, Faisal Ahmed, Zicheng Liu, Ce Liu, Michael Zeng, Lijuan Wang. [abs], 2023.3
Sparks of Artificial General Intelligence: Early experiments with GPT-4.

Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg, Harsha Nori, Hamid Palangi, Marco Tulio Ribeiro, Yi Zhang. [abs], 2023.3
GesGPT: Speech Gesture Synthesis With Text Parsing from GPT.

Nan Gao, Zeyu Zhao, Zhi Zeng, Shuwu Zhang, Dongdong Weng. [abs], 2023.3
ChatGPT4PCG Competition: Character-like Level Generation for Science Birds.

Pittawat Taveekitworachai, Febri Abdullah, Mury F. Dewantoro, Ruck Thawonmas, Julian Togelius, Jochen Renz. [abs], 2023.3
HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace.

Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, Yueting Zhuang. [abs], 2023.3
WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research.

Xinhao Mei, Chutong Meng, Haohe Liu, Qiuqiang Kong, Tom Ko, Chengqi Zhao, Mark D. Plumbley, Yuexian Zou, Wenwu Wang. [abs], 2023.3

2.6 Information Extraction

Zero-Shot Information Extraction via Chatting with ChatGPT.

Xiang Wei, Xingyu Cui, Ning Cheng, Xiaobin Wang, Xin Zhang, Shen Huang, Pengjun Xie, Jinan Xu, Yufeng Chen, Meishan Zhang, Yong Jiang, Wenjuan Han. [abs][github][demo], 2023.2
Exploring the Feasibility of ChatGPT for Event Extraction.

Jun Gao, Huan Zhao, Changlong Yu, Ruifeng Xu. [abs], 2023.3
Extracting Accurate Materials Data from Research Papers with Conversational Language Models and Prompt Engineering -- Example of ChatGPT.

Maciej P. Polak, Dane Morgan. [abs], 2023.3
Is ChatGPT A Good Keyphrase Generator? A Preliminary Study.

Mingyang Song, Haiyun Jiang, Shuming Shi, Songfang Yao, Shilong Lu, Yi Feng, Huafeng Liu, Liping Jing. [abs], 2023.3
Yes but.. Can ChatGPT Identify Entities in Historical Documents?

Carlos-Emiliano González-Gallardo, Emanuela Boros, Nancy Girdhar, Ahmed Hamdi, Jose G. Moreno, Antoine Doucet. [abs], 2023.3

2.7 Machine Translation

Is ChatGPT A Good Translator? A Preliminary Study.

Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Xing Wang, Zhaopeng Tu. [abs],[github], 2023.1
Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models: A Case Study on ChatGPT.

Qingyu Lu, Baopu Qiu, Liang Ding, Liping Xie, Dacheng Tao. [abs],[github], 2023.3
Towards Making the Most of ChatGPT for Machine Translation.

Keqin Peng, Liang Ding, Qihuang Zhong, Li Shen, Xuebo Liu, Min Zhang, Yuanxin Ouyang, Dacheng Tao. [abs],[github], 2023.3
Linguistically Informed ChatGPT Prompts to Enhance Japanese-Chinese Machine Translation: A Case Study on Attributive Clauses.

Wenshi Gu. [abs], 2023.3

2.8 Other Domains

Education

ChatGPT: The End of Online Exam Integrity?

Teo Susnjak. [abs], 2022.12
ChatGPT: Bullshit spewer or the end of traditional assessments in higher education?

Jürgen Rudolph, Samson Tan, Shannon Tan. [pdf], 2023.1
Will ChatGPT get you caught? Rethinking of Plagiarism Detection.

Mohammad Khalil, Erkan Er. [abs], 2023.2
Seeing ChatGPT Through Students' Eyes: An Analysis of TikTok Data.

Anna-Carolina Haensch, Sarah Ball, Markus Herklotz, Frauke Kreuter. [abs], 2023.3
ChatGPT Participates in a Computer Science Exam.

Sebastian Bordt, Ulrike von Luxburg. [abs][github], 2023.3
Evaluating GPT-3.5 and GPT-4 Models on Brazilian University Admission Exams.

Desnes Nunes, Ricardo Primi, Ramon Pires, Roberto Lotufo, Rodrigo Nogueira. [abs],[github], 2023.3
Can AI Chatbots Pass the Fundamentals of Engineering (FE) and Principles and Practice of Engineering (PE) Structural Exams?

M.Z. Naser, Brandon Ross, Jennier Ogle, Venkatesh Kodur, Rami Hawileh, Jamal Abdalla, Huu-Tai Thai. [abs], 2023.3

Biology

How Does ChatGPT Perform on the Medical Licensing Exams? The Implications of Large Language Models for Medical Education and Knowledge Assessment.

Aidan Gilson, Conrad Safranek, Thomas Huang, Vimig Socrates, Ling Chi, R. Andrew Taylor, David Chartash. [pdf], 2022.12
Evaluating ChatGPT as an Adjunct for Radiologic Decision-Making.

Arya Rao, John Kim, Meghana Kamineni, Michael Pang, Winston Lie, Marc D. Succi. [pdf], 2023.2
Dr ChatGPT, tell me what I want to hear: How prompt knowledge impacts health answer correctness.

Guido Zuccon, Bevan Koopman. [abs], 2023.2
The utility of ChatGPT for cancer treatment information.

Shan Chen, Benjamin H Kann, Michael B Foote, Hugo JWL Aerts, Guergana K Savova, Raymond H Mak, Danielle S Bitterman. [abs],[github], 2023.3
Translating Radiology Reports into Plain Language using ChatGPT and GPT-4 with Prompt Learning: Promising Results, Limitations, and Potential.

Qing Lyu, Josh Tan, Mike E. Zapadka, Janardhana Ponnatapuram, Chuang Niu, Ge Wang, Christopher T. Whitlow. [abs], 2023.3
Evaluation of ChatGPT for NLP-based Mental Health Applications.

Bishal Lamichhane. [abs], 2023.3
Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations.

Jungo Kasai, Yuhei Kasai, Keisuke Sakaguchi, Yutaro Yamada, Dragomir Radev. [abs],[github], 2023.3
Evaluation of GPT and BERT-based models on identifying protein-protein interactions in biomedical text.

Hasin Rehana, Nur Bengisu Çam, Mert Basmaci, Yongqun He, Arzucan Özgür, Junguk Hur. [abs], 2023.3

Psychology

Is GPT-3 a Psychopath? Evaluating Large Language Models from a Psychological Perspective.

Xingxuan Li, Yutong Li, Linlin Liu, Lidong Bing, Shafiq Joty. [abs], 2022.12
Theory of Mind May Have Spontaneously Emerged in Large Language Models.

Michal Kosinski. [abs], 2023.2
Can ChatGPT Assess Human Personalities? A General Evaluation Framework.

Haocong Rao, Cyril Leung, Chunyan Miao. [abs][github], 2023.3
Will Affective Computing Emerge from Foundation Models and General AI? A First Evaluation on ChatGPT.

Mostafa M. Amin, Erik Cambria, Björn W. Schuller. [abs], 2023.3

Law

Chatgpt goes to law school

Teo Susnjak. [abs], 2023

3. Detection Tools

3.1 Metrics

Metrics Before ChatGPT

DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature.

Eric Mitchell, Yoonho Lee, Alexander Khazatsky, Christopher D. Manning, Chelsea Finn. [abs],[demo], 2023.1
GPTScore: Evaluate as You Desire.

Jinlan Fu, See-Kiong Ng, Zhengbao Jiang, Pengfei Liu. [abs],[github], 2023.2
MAUVE Scores for Generative Models: Theory and Practice.

Krishna Pillutla, Lang Liu, John Thickstun, Sean Welleck, Swabha Swayamdipta, Rowan Zellers, Sewoong Oh, Yejin Choi, Zaid Harchaoui. [abs], 2022.12

Using ChatGPT as evaluation metric

Large Language Models Are State-of-the-Art Evaluators of Translation Quality.

Tom Kocmi, Christian Federmann. [abs],[github], 2023.2
Is ChatGPT a Good NLG Evaluator? A Preliminary Study.

Jiaan Wang, Yunlong Liang, Fandong Meng, Haoxiang Shi, Zhixu Li, Jinan Xu, Jianfeng Qu, Jie Zhou. [abs],[github], 2023.3
Exploring ChatGPT's Ability to Rank Content: A Preliminary Study on Consistency with Human Preferences.

Yunjie Ji, Yan Gong, Yiping Peng, Chao Ni, Peiyan Sun, Dongyu Pan, Baochang Ma, Xiangang Li. [abs], 2023.3
Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models: A Case Study on ChatGPT.

Qingyu Lu, Baopu Qiu, Liang Ding, Liping Xie, Dacheng Tao. [abs],[github], 2023.3
GPTEval: NLG Evaluation using GPT-4 with Better Human Alignment.

Yang Liu, Dan Iter, Yichong Xu, Shuohang Wang, Ruochen Xu, Chenguang Zhu. [abs], 2023.3
Exploring the Use of Large Language Models for Reference-Free Text Quality Evaluation: A Preliminary Empirical Study.

Yi Chen, Rui Wang, Haiyun Jiang, Shuming Shi, Ruifeng Xu. [abs],[github], 2023.4

Metrics for detecting ChatGPT

AI vs. Human -- Differentiation Analysis of Scientific Content Generation.

Yongqiang Ma, Jiawei Liu, Fan Yi, Qikai Cheng, Yong Huang, Wei Lu, Xiaozhong Liu. [abs], 2023.1
ChatGPT or academic scientist? Distinguishing authorship with over 99% accuracy using off-the-shelf machine learning tools.

Heather Desaire, Aleesa E. Chua, Madeline Isom, Romana Jarosova, David Hua. [abs], 2023.3

3.2 Available Tools

Hello-SimpleAI ChatGPT Detector: An open-source detection project consists of three versions of models to detect text generated with ChatGPT, including QA version, Sinlge-text version and Linguistic version.
GPTZero: A demo to detect writings generated by ChatGPT. The creator has seen that the technology was used by students to cheat on assignments, so he came up with a safeguard.
OpenAI Classifier: A classifier fine-tuned on a dataset of pairs of human-written text and AI-written text on the same topic.
Contentatscale AI Content Detector : A tool that allows users to receive the Human or AI Content score in the text to detect. It provides probability for each sentence.
Writers AI Content Detector: A tool similar to Contentatscale. It requires either the URL of the page or text to calculate the “Human-Generated Content” score.

Statistics of these tools:

Tool	Detection Target	Language	Input Range (# characters)
Hello-SimpleAI ChatGPT Detector	ChatGPT	en/zh	(0,~1500] (512tokens)
GPTZero	LLM	en	(250，♾️)
OpenAI Classifier	LLM	en	(0，♾️)
Contentatscale AI Content Detector	AI Content (NLP+SERP)	en	(0，25,000]
Writers AI Content Detector	AI Content	en	(0, 1,500]

GanjinZero/EvaluationPapers4ChatGPT