欢迎来到 llm-paper-daily! 这是一个获取最新研究论文的每日更新和分类的平台。希望为爱好者提供 LLM 研究的前沿资讯,让您更轻松地了解该领域的最新发展。
📚 每日更新: 仓库每天会带来最新的 LLM 研究,并附有arxiv地址、相关 git 仓库和基于 GPT-4 的简单总结
💐 分类摘要: 将每篇论文分类到如推理、代理、检索、应用、预训练与指令微调等不同部分,帮助您能轻松导航并发现相关的研究
🌈 征集贡献: 欢迎大家做出贡献!希望您可以 🙌 将收集的好文和具有里程碑意义的分类文章提交 Pull Requests
查看更新文章 更新时间: 01月05日 13:11
- LLM Augmented LLMs: Expanding Capabilities through Composition
- SPEER: Sentence-Level Planning of Long Clinical Summaries via Embedded Entity Retrieval
- Using LLM to select the right SQL Query from candidates
- ICE-GRT: Instruction Context Enhancement by Generative Reinforcement based Transformers
- Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives
Date | Paper | Links & Summary |
---|---|---|
01-04 | Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives 机构: Zhejiang University, OPPO Research Institute 本文提出了一种名为“自我对比”的新策略,用于改善大型语言模型(LLM)在反思和自我修正过程中存在的固执和不一致问题,通过创建多样化解决方案视角,对比不同解决方案的差异,并将差异总结为检查清单,进而提升了LLM的反思质量,并通过实验验证了该策略的效果和广泛适用性。 |
|
01-04 | ICE-GRT: Instruction Context Enhancement by Generative Reinforcement based Transformers 机构: Bytedance Inc. 本论文提出了针对大型语言模型在特定领域任务中深度与准确性提升的方法——ICE-GRT。通过结合人类反馈的强化学习,ICE-GRT 在不牺牲一般性能的前提下,显著提升了特定领域的能力,并在多项评估任务中达到了最先进的性能。 |
|
01-04 | Using LLM to select the right SQL Query from candidates 机构: Peking University 本文提出了一种借助大型语言模型自动生成text-to-SQL测试用例的方法,并设计了三步重新排序过程,实验显示该方法能显著提高现有text-to-SQL模型的性能。 |
|
01-04 | SPEER: Sentence-Level Planning of Long Clinical Summaries via Embedded Entity Retrieval 机构: Columbia University 本论文针对医院出院总结的长篇文档任务,提出了一个基于嵌入式实体检索的句子级规划方法SPEER,通过引导大型语言模型LLMs更好地覆盖关键实体,生成更完整和可信的临床总结。研究证明了SPEER方法在实际应用中可以提高文档的覆盖度和准确性,减轻临床医生的文档负担。 |
|
01-04 | LLM Augmented LLMs: Expanding Capabilities through Composition 机构: Google Research, Google DeepMind 该论文提出了一个新的模型扩展框架 —— CALM,有效整合了两个大型语言模型以实现新的任务,且在多个实验中证明了其有效性。 |
|
01-03 | MedSumm: A Multimodal Approach to Summarizing Code-Mixed Hindi-English Clinical Queries 机构: Indian Institute of Technology Patna, Stanford University, Amazon GenAI MedSumm是一个新颖的多模态医疗问题总结框架,它能够通过整合文本和视觉信息生成医学细节丰富的总结,有潜力提高医疗决策的质量并加深对患者问题的理解。 |
|
01-03 | Social Media Ready Caption Generation for Brands 机构: Adobe Research India 本论文提出了一个新的框架,旨在帮助品牌在社交媒体上创造与品牌形象和个性相符的吸引人的标题。框架分为两部分,成功应对了生成与品牌相关性强且吸引眼球的社交媒体标题的挑战。 |
|
01-02 | A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models 机构: Islamic University of Technology Bangladesh, University of South Carolina, Stanford University 本文是对LLM幻觉减轻技术的全面综述,提出了分类框架和系统化的反馈和理由方法,并评估了这些技术的有效性和影响。 |
|
01-02 | LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning 这篇论文成功展示了一种无需fine-tuning即可扩展LLMs上下文窗口的方法,这对于在计算资源受限情况下提升大型语言模型处理长文本的能力具有重要意义。 |
|
01-01 | The Earth is Flat? Unveiling Factual Errors in Large Language Models 机构: The Chinese University of Hong Kong, Tencent AI Lab 本文介绍的FactChecker提供了针对大型语言模型的事实错误自动测试新框架,通过构建知识图谱并生成测试问题,揭示并减少了模型的事实错误。 |
|
01-01 | A & B == B & A: Triggering Logical Reasoning Failures in Large Language Models 机构: The Chinese University of Hong Kong, Tencent AI Lab 本论文针对LLMs的逻辑推理能力的评估和改进问题,提出了一个名为LogicAsker的方法,能够全面评估LLMs的推理能力,并通过问题生成和上下文学习有效提升这些能力。 |
Date | Paper | Links & Summary |
---|---|---|
12-31 | BatchEval: Towards Human-like Text Evaluation 机构: Beijing Institute of Technology, Xiaohongshu Inc 论文提出了一种新的LLM评估范式——BATCHEVAL,解决了自动文本评估在鲁棒性和与人类判断一致性方面的问题。通过批量评估和迭代处理,BATCHEVAL在准确性和成本效率方面显著超越了现有方法。 |
|
12-31 | Improving Text Embeddings with Large Language Models 机构: Microsoft Corporation 本文采用最新的大型语言模型和合成数据,提出一种新颖的文本嵌入方法,能够在无需人工标注数据且训练步骤少于1千的情况下,达到与竞争性基准相匹配的性能,为进一步提升文本嵌入技术提供了有力证据。 |
|
12-29 | DB-GPT: Empowering Database Interactions with Private Large Language Models 机构: Alibaba Group 本文提出了名为DB-GPT的创新项目,该项目集成了LLMs及数据库系统,以提升用户体验和无障碍性。DB-GPT展现了层次化设计,有效处理了隐私和安全保护等问题,同时通过多源RAG和自适应ICL提升了系统的整体性能和效率。 |
|
12-29 | Truth Forest: Toward Multi-Scale Truthfulness in Large Language Models through Intervention without Tuning |
|
12-29 | The Right Prompts for the Job: Repair Code-Review Defects with Large Language Model 机构: Ant Group, Nanjing University 研究探讨了LLMs在代码审查缺陷修复中的应用,提出了一个有效的半自动APR范例,分析了9种流行模型的性能,并设计了有效的提示以指导代码修复过程。 |
|
12-29 | Enhancing Quantitative Reasoning Skills of Large Language Models through Dimension Perception 机构: Institution: Shanghai Key Laboratory of Data Science School of Computer Science Fudan University, School of Data Science Fudan University, DataGrand Co. LTD 本文的研究通过建立维度单位知识库和定制化基准测试,显著提升了LLMs的定量推理能力。这为理解文本中重要的量值信息并进行高准确度的推理任务提供了新的途径。 |
|
12-29 | Building Efficient Universal Classifiers with Natural Language Inference 机构: Vrije Universiteit Amsterdam, University of London Royal Holloway, Hugging Face 这篇论文提供了一种利用自然语言推断进行通用文本分类的新方法,并且提供了实现该方法的详细步骤和工具,能够在不牺牲性能的前提下显著提高模型的效率。 |
|
12-28 | Challenge LLMs to Reason About Reasoning: A Benchmark to Unveil Cognitive Depth in LLMs 机构: Chinese University of Hong Kong, Tencent AI Lab 这篇论文提出了一个挑战LLMs进行元推理的新评估范式,并开发了配套的公开基准DiagGSM8K,这为评估LLMs的认知能力增加了一个新维度。 |
|
12-28 | Experiential Co-Learning of Software-Developing Agents 机构: Tsinghua University,Dalian University of Technology,Beijing University of Posts and Telecommunications 本文提出了一种新的框架,称为经验共同学习(Experiential Co-Learning),通过共同追踪、共同记忆和共同推理模块的顺序实现,使得LLM驱动的智能代理能够更有效地从历史轨迹中学习,并利用历史经验来相互推理解决新任务。展示了明显优于现有技术的绩效改进。 |
|
12-28 | Structured Packing in LLM Training Improves Long Context Utilization 机构: University of Warsaw, Google DeepMind, Polish Academy of Sciences 这篇论文通过提出SPLICE方法来改进长距离上下文的利用,验证了其在提高大规模语言模型上下文利用率和改进长上下文任务性能方面的有效性。SPLICE特别适用于在缺乏额外结构化信息的训练数据上构造训练示例。 |
|
12-28 | Grounding-Prompter: Prompting LLM with Multimodal Information for Temporal Sentence Grounding in Long Videos 机构: Tsinghua University 本论文提出了Grounding-Prompter方法,针对长视频中的TSG问题,将LLM与时序推理和多模态信息结合起来,证明了通过多模态提示LLM的有效性,并通过实验验证了其在长视频TSG任务中的优越性。 |
|
12-28 | GitAgent: Facilitating Autonomous Agent with GitHub by Tool Extension 机构: Tsinghua University, Renmin University of China 文章主要介绍了一个名为GITAGENT的自主代理,它可以自主从GitHub扩展工具,以满足用户查询的多种需求。GITAGENT通过解决非标准化挑战,能够自主学习基于GitHub Issues/PRs的人类经验,以解决工具扩展过程中的问题,并且展示了在自主集成工具以完成跨专业领域任务方面的有效性。 |
|
12-28 | Challenge LLMs to Reason About Reasoning: A Benchmark to Unveil Cognitive Depth in LLMs 机构: Chinese University of Hong Kong, Tencent AI Lab 这篇论文提出了一个创新的评估模型,要求LLMs不仅要解决问题,还要进行元推理——即评估推理过程本身。这种方法有望揭示由于以往以结果为导向的评估方法而忽略的模型认知缺陷,为未来LLMs的评估和训练提供了新的方向。 |
|
12-28 | Improving In-context Learning via Bidirectional Alignment 机构: Nanyang Technological University, Princeton University, Salesforce Research USA 本文通过引入新颖的排名损失以及对输出分布的对齐,提出了双向对齐(BiAlign),有效提高了小型模型的 ICL 能力。 |
|
12-27 | Conversational Question Answering with Reformulations over Knowledge Graph 机构: University of Illinois at Urbana-Champaign, Amazon CoRnNet 是一种新型RL模型,用于在知识图谱上进行会话式问题回答并结合LLM生成的改写,展现了比其他先进模型更出色的性能。 |
|
12-27 | Rethinking Tabular Data Understanding with Large Language Models 机构: UC San Diego, USC, UC Davis 这篇论文深入探讨了LLMs对表格数据的理解和推理能力,对表格结构的鲁棒性、文本与符号推理的比较,以及多推理路径聚合对模型性能提升的影响做出了贡献。所提出的表格结构标准化方法和混合自一致性机制对提高LLMs在表格数据推理上的性能具有重要意义。 |
|
12-27 | How Robust are LLMs to In-Context Majority Label Bias? 机构: Amazon 本文对LLMs在面对ICL中多数类标签偏差时的鲁棒性进行了全面研究,通过实验发现某些模型在处理这种偏差时显示出显著的稳定性。 |
|
12-26 | Aligning Large Language Models with Human Preferences through Representation Engineering 机构: Fudan University 本论文提出了一个新颖的方法RAHF,通过表示工程技术操纵内部模型表示来对齐LLMs与人类偏好,这种方法在计算上高效且容易实现,并展示了处理多种人类偏好或价值的潜力。 |
|
12-26 | RecRanker: Instruction Tuning Large Language Model as Ranker for Top-k Recommendation 机构: City University of Hong Kong, The Chinese University of Hong Kong, Hangdian University 该论文提出了RecRanker这一新型框架,它通过指令调整的方式优化了LLMs在top-k推荐任务中的性能,并有效地融合了传统推荐系统的信号,改善了模型在推荐场景中的应用表现。 |
|
12-26 | A Prompt Learning Framework for Source Code Summarization 机构: Nanyang Technological University, Tencent Inc., Nanjing University 本论文提出了一个新颖的PromptCS框架,用于源代码摘要,能够生成高质量的摘要,减少了训练成本,并提供了代码以供他人研究。 |
|
12-26 | Scaling Down, LiTting Up: Efficient Zero-Shot Listwise Reranking with Seq2seq Encoder-Decoder Models 机构: University of Waterloo 这篇论文提出了LiT5-Distill和LiT5-Score两种序列到序列的编码器-解码器模型,用于有效的零样本列表级重新排序。这些方法不仅在模型效果上竞争力强,并且解决了传统依赖于大型LLM和外部相关性标签的问题,展示了在这一领域的优化和进步。 |
|
12-26 | KnowledgeNavigator: Leveraging Large Language Models for Enhanced Reasoning over Knowledge Graph 机构: Northeastern University, Neusoft AI Magic Technology Research, Neusoft Institute of Intelligent Medical Research 这篇论文介绍了一个新型框架KnowledgeNavigator,它通过改善知识图谱上的推理过程,解决了LLM在复杂推理任务上的性能局限问题。实验结果证实了其有效性,并有望在高风险和高敏感领域推广LLM的应用。 |
|
12-26 | Think and Retrieval: A Hypothesis Knowledge Graph Enhanced Medical Large Language Models 机构: Key Laboratory of High Confidence Software Technologies (Peking University), Ministry of Education; School of Computer Science Peking University, Beijing China HyKGE框架有效解决了大型语言模型在面对医疗领域复杂问题时的准确性和解释性挑战,具有在医疗领域中的潜在应用并且在实际场景中展示出了很大的优越性。 |
|
12-26 | Align on the Fly: Adapting Chatbot Behavior to Established Norms 机构: Shanghai Jiao Tong University, Shanghai Artificial Intelligence Laboratory, The Hong Kong Polytechnic University 该工作提出了一个动态的OPO方法,通过收集法律和道德规则作为外部存储器来限制LLMs的行为,无需进一步训练,并通过一个可扩展的评估模块来应对潜在的基准测试泄漏问题及扩大测试规则的范围。尽管该方法在推理效率方面存在局限性并且检索模型仍可进一步优化,但在多个评估数据集上的广泛实验表明了该方法的有效性。 |
|
12-26 | Supervised Knowledge Makes Large Language Models Better In-context Learners 机构: School of Engineering Westlake University, Westlake Institute for Advanced Study, Peking University 论文提出的SuperContext框架通过利用特定任务微调的SLMs的监督知识,显著提高了LLMs在自然语言理解和问答任务中的泛化能力和事实性。它代表了将小型模型的强大功能融入LLMs,以处理分布外数据和最小化幻觉现象的一种创新做法。 |
|
12-25 | ESGReveal: An LLM-based approach for extracting structured data from ESG reports 机构: Alibaba Cloud, Tsinghua University, Sun Yat-Sen University ESGReveal代表了在处理ESG数据中的一大步进,旨在通过大型语言模型和相关技术来提高从公司报告中提取结构化数据的一致性和准确性,并推动了ESG实践和透明度的改进。 |
|
12-25 | Alleviating Hallucinations of Large Language Models through Induced Hallucinations 机构: Soochow University, Tencent AI Lab 论文提出一个新颖的减少LLMs幻觉的方法,通过构建一个事实上较弱的LLM并在生成过程中减去其知识,改进了模型在生成事实性内容方面的表现。 |
|
12-22 | Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning 机构: Huawei Noah's Ark Lab, University College London, University of Oxford 本论文提出了Pangu-Agent框架,目标是解决标准RL方法在多任务环境中所面临的挑战。Pangu-Agent通过内在函数引入结构性推理,并通过监督学习和RL实现智能体的微调,提高了智能体适应多环境交互的能力。 |
|
12-22 | YAYI 2: Multilingual Open-Source Large Language Models 机构: Beijing Wenge Technology Co. Ltd., Institute of Automation Chinese Academy of Sciences 该论文提出了YAYI 2,一个针对多语言场景优化的大型语言模型,通过在大规模语料库上进行预训练,并通过多种方法与人类价值观对齐,显著提升了模型在多种任务中的表现,特别是在中文相关任务上。 |
|
12-22 | NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language Models via Complexity Classes 机构: University of Michigan, Rutgers University 本论文通过NPHardEval基准测试提供了一种新的评估LLMs推理能力的方法。该基准测试广泛涵盖了从多项式时间到NP-Hard复杂性级别的问题,并设计了动态数据更新机制以防止模型过拟合,从而确保了评估结果的可靠性和真实性。这些发现极大地促进了对LLMs当前能力的理解,并为提高这些模型的推理能力铺平了道路。 |
|
12-22 | Large Language Model (LLM) Bias Index -- LLMBI 机构: University of Oxford, University Canada West, Amazon Web Services (AWS) 引入LLMBI是在创建公平可靠的LLMs方面迈出的重要一步。它为系统工程师和研究人员提供了一种定量衡量偏见的工具,引导他们持续改进这些强大的模型,确保它们反映社会的多样性和不断进化的结构。 |
|
12-22 | Plan, Posture and Go: Towards Open-World Text-to-Motion Generation 机构: Tsinghua University, Microsoft Research Asia 研究者们提出了一个名为PRO-Motion的新框架,以克服传统文本到动作生成方法的局限性,并成功在开放世界场景中生成更多样和真实的动作。 |
|
12-22 | Reasons to Reject? Aligning Language Models with Judgments 机构: Tencent AI Lab, The Chinese University of Hong Kong 论文提出了一个新的通过直接利用语言反馈来对齐LLMs的框架Contrastive Unlikelihood Training(CUT),并且证明了其在多种场景下的有效性,包括离线对齐和在线对齐,以及从未对齐的模型(冷启动)和已对齐的模型(热启动)进行进一步优化。研究显示,与奖励相比,评判性反馈在对齐LLMs方面具有更大的潜力,值得进行进一步研究。 |
|
12-22 | Generative AI Beyond LLMs: System Implications of Multi-Modal Generation 该论文是针对跨文本、图像和视频生成模型的系统性能特征化的首次工作,它揭示了不同于传统LLMs的独特系统属性,并提出了对于TTI/TTV模型而言,传统的优化技术需要重新考虑的挑战和机会。 |
|
12-22 | VIEScore: Towards Explainable Metrics for Conditional Image Synthesis Evaluation 机构: University of Waterloo, IN.AI Research 该论文提出了一个名为VIEScore的评估框架,旨在提供对条件图像生成任务的可解释性评价。VIEScore克服了现有自动化度量无法解释评分理由的挑战,并能够适应各种任务需求。 |
|
12-22 | A Survey of Reinforcement Learning from Human Feedback 机构: LMU Munich, Duke Kunshan University 这篇文章是对RLHF的综述,分析了它在人工智能和人机交互交叉点中的应用,并探讨了与LLMs相关的最新研究趋势。 |
|
12-21 | On Task Performance and Model Calibration with Supervised and Self-Ensembled In-Context Learning 机构: Language Technology Lab University of Cambridge 本文提供了在资源有限的情况下不同学习方法的性能和校准的全面分析。这表明虽然提高性能和校准同时达成是困难的,但通过自组装技术能够在不影响性能的前提下增强模型的校准,对于未来LLMs的应用提供了重要的实践指导。 |
|
12-21 | AppAgent: Multimodal Agents as Smartphone Users 机构: Tencent 这项研究提出了一个创新的多模态代理框架,它允许代理像人类用户一样操作任何智能手机应用,并通过自动探索和观察人类演示来学习新应用的使用方法。研究结果证实了该框架在执行多样化高级任务时的效率和适应性。 |
|
12-21 | The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction 机构: MIT, Microsoft Research NYC 该论文提出了LASER,一种在模型训练完成后对Transformer模型的特定层进行裁剪以提升性能的方法。作者表明,这种策略不仅有效,而且是首次发现可以通过精心选择的剪枝来增强Transformer模型的性能。 |
|
12-20 | AgentCoder: Multi-Agent-based Code Generation with Iterative Testing and Optimisation 机构: The University of Hong Kong, Shanghai Jiao Tong University, King’s College London 本论文提出了一个新颖的基于多智能体的代码生成解决方案AgentCoder,通过特定的智能体聚焦于代码生成、测试设计和测试执行,有效地解决了代码生成与测试之间的平衡问题,并实现了优于现有SOTA方法的代码生成质量。 |
|
12-20 | Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy 机构: Ant Group 本论文提出了名为Lookahead的推理加速框架,它通过使用基于Trie树的多分支推理策略,在提高LLMs推理速度的同时,保持了生成准确性。框架通过广泛的实验验证了其性能,并在支付宝的实际使用场景中得到了部署。 |
|
12-20 | Lampr: Boosting the Effectiveness of Language-Generic Program Reduction via Large Language Models 机构: University of Waterloo, The Hong Kong University of Science and Technology, Concordia University Lampr是第一个整合LLMs于程序缩减过程的算法。它通过多层次提示方法和LLMs的辅助,取得了跨语言通用性和特定语言语义意识之间的平衡,并且在实验中证明了其优越性。 |
|
12-20 | Mini-GPTs: Efficient Large Language Models through Contextual Pruning 机构: Massachusetts Institute of Technology 这篇论文展示了通过上下文剪枝开发小型但高效的GPT模型,即Mini-GPTs的过程和结果。通过这种方法,研究人员在不同领域特定的数据集上成功减少了LLMs的尺寸并且保持了性能,展现了剪枝技术不仅理论上可行,而且在开发资源高效的领域特定LLMs中实践上具有实用价值。 |
|
12-20 | AgentCoder: Multi-Agent-based Code Generation with Iterative Testing and Optimisation 机构: The University of Hong Kong, Shanghai Jiao Tong University AgentCoder是一种新型的多代理框架,它在自动代码生成中通过进行迭代测试和优化,明显提高了代码生成的质量和准确性,尤其是在面对挑战性更大的增强型数据集时表现出其优势。 |
|
12-20 | Time is Encoded in the Weights of Finetuned Language Models 这项研究通过时间向量的概念表明了时间变化可以在一定程度上通过语言模型的权重空间来编码,并且权重插值可以帮助定制模型以适应新的时间段。 |
|
12-20 | Generative Multimodal Models are In-Context Learners 机构: Beijing Academy of Artificial Intelligence, Tsinghua University, Peking University 本论文通过扩大模型规模,成功提升了多模态生成模型 Emu2 在上下文学习能力上的表现,并在一系列多模态理解任务中取得了突破性的效果,尤其在基于指令微调后的视觉问答和可控视觉生成方面。 |
|
12-19 | A Revisit of Fake News Dataset with Augmented Fact-checking by ChatGPT 本文提出了首个结合人类核实与ChatGPT辅助的假新闻检测公共基准数据集ChatGPT-FC,并通过定量分析对比了人类记者与LLM进行事实核查的差异。研究发现ChatGPT可以增强新闻事实核查过程的客观性和可靠性。 |
|
12-19 | Text-Conditioned Resampler For Long Form Video Understanding 机构: University of Oxford, Google, Google DeepMind 本论文提出了一个名为TCR的新型架构及预训练方法,能够处理与文本条件相结合的长视频。它有效地桥接了预训练的视觉编码器和LLM,实现了长期视频理解的问题,并在多个评估任务上取得了最佳性能。 |
|
12-19 | Active Preference Inference using Language Models and Probabilistic Reasoning 机构: Cornell University, Cornell Tech 本研究提出了一个实时算法,通过生成信息丰富的问题来加快LLMs对用户偏好的推断,并在网购场景中验证了其减少用户交互并提高任务性能的能力。 |
|
12-19 | Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in ultra low-data regimes 机构: University of Cambridge 本文介绍了CLLM,这是一种结合了大型语言模型的先验知识和强大的数据中心方法来进行数据增强的新方法,旨在为资料匮乏的领域和地区的机器学习提供了新的途径。 |
|
12-18 | From Google Gemini to OpenAI Q-Star: A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape 机构: Cyberstronomy Pty Ltd, Academies Australasia Polytechnic, Massey University 这项综述详尽地分析了生成型AI领域的发展及其对研究景观的重塑效应,尤其关注了MoE多模态学习和AGI的前景。研究涵盖了从AI模型结构和培训技术到应用领域和伦理考虑的全面分类。 |
|
12-18 | Generalized Category Discovery with Large Language Models in the Loop 本论文提出了一个端到端的主动学习框架,该框架通过引入大型语言模型进入训练循环,有效地提升了模型在泛化类别发现任务上的性能,并能自动生成类别名称。 |
|
12-18 | Social Learning: Towards Collaborative Learning with Large Language Models 机构: Google, EPFL 本文提出了在LLMs中实现知识传递的新框架—社交学习,并提供了保护隐私的解决方案。该框架通过自然语言在模型间交换知识,同时避免敏感信息泄露,并通过实验验证了其有效性和隐私保护能力。 |
|
12-18 | G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model 机构: Huawei Noah's Ark Lab, The University of Hong Kong, The Hong Kong University of Science and Technology 这篇论文通过构建 Geo170K 数据集和开发基于它的 G-LLaVA 模型,克服了多模态大型语言模型在解决几何问题上的限制,并实现了比现有最先端模型更好的性能。 |
|
12-18 | NoMIRACL: Knowing When You Don't Know for Robust Multilingual Retrieval-Augmented Generation 机构: University of Waterloo, Huawei Noah’s Ark Lab, FEEC-Unicamp Brazil 这项工作通过引入NoMIRACL数据集,为评估LLM在检索式增强生成中的稳健性提供了一个多语言的评估工具,并通过建立GPT-4基线模型展示了LLM在识别相关与非相关检索结果中存在的挑战,突出了未来研究提高LLM稳健性的必要性。 |
|
12-18 | MAC-SQL: Multi-Agent Collaboration for Text-to-SQL 机构: Beihang University, Tencent Cloud AI 总体而言,MAC-SQL 框架通过联合智能代理,解决了 Text-to-SQL 任务中的一些关键挑战,如处理大型数据库、复杂查询以及SQL验证和修正问题。还发布了一个开源模型SQL-Llama,该模型展示了鼓励性的结果,并具备与收费模型如GPT-4相媲美的潜力。 |
|
12-18 | Retrieval-Augmented Generation for Large Language Models: A Survey 机构: Shanghai Research Institute for Intelligent Autonomous Systems, Tongji University, Fudan University 这篇论文为RAG领域提供了一个全面和系统的技术概览,强调了提升LLMs检索和生成能力的重要性,指出了现有挑战,展望了未来的研究方向。 |
|
12-18 | "Paraphrasing The Original Text" Makes High Accuracy Long-Context QA 机构: Tsinghua University 论文主要通过理论证明和实验验证,提出了一种低成本且高效的方法,通过原文释义任务和有效的指令微调数据扩展现有语言模型处理长文本的能力,显著提高了长文本问答的准确性。 |
|
12-18 | Agent-based Learning of Materials Datasets from Scientific Literature 机构: University of Toronto 本论文展示了一个以大型语言模型为基础的智能代理在自动学习和提取科学文献中材料相关数据集方面的能力。Eunomia展示了在没有任何微调的情况下在提取实体和关系方面的有效性,且可以增强其在处理复杂任务时避免错误的能力。 |
|
12-18 | Designing LLM Chains by Adapting Techniques from Crowdsourcing Workflows 机构: University of Washington, Stanford University, Allen Institute for AI 本文提出了一个设计空间概念框架以及通过转换众包工作流到LLM链的三个案例研究,为未来LLM链的设计和开发提供了实践指导和理论见解。 |
|
12-18 | Towards Better Serialization of Tabular Data for Few-shot Classification with Large Language Models 机构: Carnegie Mellon University 论文成功地展示了在表格数据分类中应用LLMs的创新实践,并以LaTeX序列化框架为特点,提出了有效处理领域特定数据集的新型序列化方法。研究还对LLMs在解读复杂数据关系方面的能力进行了深入的探索。论文的LaTeX序列化方法不仅提升了LLMs在分类任务中的表现,还显著提高了内存的使用效率和计算效率。 |
|
12-17 | Distinguishing Translations by Human, NMT, and ChatGPT: A Linguistic and Statistical Approach 机构: Shanghai Jiao Tong University 本研究为ChatGPT作为NMT之外的另一种翻译工具的可能性提供了初步答案,并展示了ChatGPT与NMT和HT相比的独特特性。这些新认识有助于未来更人性化、更符合语境的翻译系统的开发,并为如何有效使用AI生成的翻译提供洞见。 |
|
12-17 | Mixed Distillation Helps Smaller Language Model Better Reasoning 机构: Zhejiang University, Dalian Medical University Mixed Distillation框架通过整合LLMs中的PoT和CoT能力到更小的模型中,显著改善了它们的高级推理能力,特别是在数学推理任务上的表现。 |
|
12-16 | RIGHT: Retrieval-augmented Generation for Mainstream Hashtag Recommendation 机构: CAS Key Lab of Network Data Science and Technology ICT CAS, University of Chinese Academy of Sciences Beijing China 本文提出了一种新的检索增强型生成主流标签推荐系统(RIGHT),通过结合检索器、选择器和生成器的优势,克服了现有方法在理解新信息和识别主流标签方面的限制,并在实验中取得显著成效。 |
|
12-16 | A Survey on Robotic Manipulation of Deformable Objects: Recent Advances, Open Challenges and New Frontiers 机构: Tongji University, National Natural Science Foundation of China, Shanghai Municipal Science and Technology Major Project 本综述归纳了机器人操作可变形对象(DOM)领域的近期进展、存在的挑战和新前沿。特别强调了大型语言模型(LLMs)在机器人操纵中的初始进展,并指出这一领域值得进一步研究的重要方向。尽管综述了大量的文献并指出了未来研究方向,但实际的部署示例和定量评估是有限的。 |
|
12-16 | ProTIP: Progressive Tool Retrieval Improves Planning 机构: Apple 这篇论文提出了 ProTIP,为大型语言模型在复杂规划任务中的工具检索和使用提供了一种进步的策略。ProTIP 的核心在于渐进式检索、有效利用执行历史和实现子任务与工具功能的对齐。实验结果展示出 ProTIP 明显超过传统方法,降低了工具虚构,并提高了规划效率。 |
|
12-16 | CoAScore: Chain-of-Aspects Prompting for NLG Evaluation 机构: GSAI Renmin University of China CoAScore 是一个新颖的评估指标,它通过“方面链”的方法提升了对于 NLG 任务的评估精度,并且该效果获得了实验的证实。 |
|
12-16 | RecPrompt: A Prompt Tuning Framework for News Recommendation Using Large Language Models 机构: Science Foundation Ireland (SFI), JSPS KAKENHI 这篇论文提出了RecPrompt模型,利用LLM对新闻推荐进行优化。通过手动和LLM自动生成的提示模板的迭代优化过程,显著提高了新闻推荐性能,尤其是在使用GPT-4进行自动生成的提示模板下。然而,这种方法并非总是能超越传统的推荐方法,且推荐效果受到LLM选择的显著影响。 |
|
12-15 | ProCoT: Stimulating Critical Thinking and Writing of Students through Engagement with Large Language Models (LLMs) 机构: Luleå University of Technology Sweden 本文通过引入ProCoT方法,展示了如何利用LLM促进学生批判性思维与写作,同时防止作弊。这种方法有助于教育者更好地利用这些技术工具,并培养学生成为更好的批判性思维者。 |
|
12-15 | Challenges with unsupervised LLM knowledge discovery 机构: Google DeepMind, Google Research 本文通过理论证明和实验验证,挑战了现有无监督方法在探索LLMs中隐性知识的能力,并提出了未来评估知识启发方法时应考虑的理智检查。总体上,作者认为未来的无监督方法很可能会遇到类似的问题,即难以准确区分模型知识和其他特征。 |
|
12-15 | Faithful Persona-based Conversational Dataset Generation with Large Language Models 机构: University of Southern California, Google, Information Sciences Institute 本论文提出了一种基于LLMs的框架,用于生成、扩展和更新大型的个性化对话数据集,并且通过Generator-Critic架构和信实性标准来提高对话的质量,有效地建立了Synthetic-Persona-Chat数据集。 |
|
12-15 | ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent 机构: Google 本论文通过定义一个能够进行推理和外部知识互动的LLM代理,并采用自我改进算法,实现了在合成问答基准测试中小型模型与大型模型相媲美的表现。提出的方法不仅提高了模型的推理能力,也大大减小了模型所需的参数数量。 |
|
12-15 | The Art of Balancing: Revolutionizing Mixture of Experts for Maintaining World Knowledge in Language Model Alignment 机构: NLP Group Fudan University, Hikvision Inc 本论文提出了一个名为LoRAMoE的模型,用于解决大规模微调数据导致的语言模型中的世界知识遗忘问题,并在多任务学习中表现出潜力。 |
|
12-15 | Generative Context-aware Fine-tuning of Self-supervised Speech Models 机构: ASAPP, Carnegie Mellon University, Toyota Technological Institute at Chicago 论文介绍了一种新的自监督语音模型微调方法,它使用大型语言模型生成的文本信息作为上下文,以提高任务执行的表现力,同时在不牺牲性能的情况下减少对额外大型语言模型的依赖和减少推理时的资源消耗。 |
|
12-15 | WEAK-TO-STRONG GENERALIZATION: ELICITING STRONG CAPABILITIES WITH WEAK SUPERVISION 机构: OpenAI |
|
12-15 | No-Skim: Towards Efficiency Robustness Evaluation on Skimming-based Language Models 机构: Fudan University 本论文首次系统地研究了从效率角度出发,基于"错过"的语言模型的脆弱性,并提出了一个有效和通用的效率鲁棒性评估框架No-Skim,以生成增加计算复杂度的对抗性输入。同时,该框架还通过不同的插件模块进行了模块化设计,这些模块在不同的实际情景下工作,评估可以在三种不同的知识水平下进行。 |
|
12-15 | GSVA: Generalized Segmentation via Multimodal Large Language Models 机构: Tsinghua University 论文提出的GSVA方法通过学习预测多个[SEG]标记和创新性地生成[REJ]标记以解决GRES任务中存在的多目标和空目标挑战,相较于现有技术,展现了显著优势。 |
|
12-15 | KGLens: A Parameterized Knowledge Graph Solution to Assess What an LLM Does and Doesn't Know 机构: Apple 本文提出了一种新的名为KGLens的框架,用于评估LLM中的事实知识。KGLens利用KG结构生成自然语言问题并进行评估,OD辅以参数化的KG和图指导的QG策略以提高自然问题的生成质量和评估过程的效率。 |
|
12-14 | Zebra: Extending Context Window with Layerwise Grouped Local-Global Attention 机构: Tencent AI Lab Seattle 本文提出的Zebra模型通过使用分组的局部-全局注意力层,有效地降低了计算和内存需求,并在长短序列处理上展示了卓越的性能。研究团队通过一系列实验验证了模型的效果,证明了Zebra架构的优势。 |
|
12-14 | The Earth is Flat because...: Investigating LLMs' Belief towards Misinformation via Persuasive Conversation 机构: Tsinghua University, Stanford University, Nanyang Technological University 本论文为首次全面研究LLMs面对事实错误信息在劝说性对话设置中的鲁棒性,并揭示了LLMs对劝说性错误信息的易感性。 |
|
12-14 | TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning 机构: National University of Singapore, University of Illinois Urbana-Champaign, Microsoft 本文中提出的TAP4LLM框架通过采样、增强和打包半结构化数据,显著提升了大型语言模型在表格推理任务中的性能,并且可以作为插件提供给不同组件,用于增强LLMs对于结构化数据的理解。 |
|
12-14 | Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft 机构: CUHK-SenseTime Joint Laboratory, Shanghai AI Laboratory, Tsinghua University Auto MC-Reward是一种先进的学习系统,利用LLMs以自动方式设计针对Minecraft任务的密集型奖励,通过LLMs的理解和经验总结能力,有效地提高了代理在复杂环境中学习新行为和完成长期任务的能力。 |
|
12-14 | Math-Shepherd: A Label-Free Step-by-Step Verifier for LLMs in Mathematical Reasoning 机构: Peking University, DeepSeek-AI, The University of Hong Kong MATH-SHEPHERD通过自动生成监督数据训练LLMs,来解决高成本人力标注的问题,并提高了LLMs在复杂数学问题上的准确性。这一成果为LLMs的进步和实际应用开辟了新的可能性。 |
|
12-14 | Modeling Complex Mathematical Reasoning via Large Language Model based MathAgent 机构: Shanghai Jiao Tong University 论文建议通过MathAgent框架,即Planner-Reasoner-Executor-Reflector (PRER),提升LLMs解决复杂数学问题的能力。通过将问题分解为多个阶段并模拟人类解题过程,MathAgent能显著提高对挑战性数学数据集的解决能力,尤其是在估算和综合能力要求较高的领域。 |
|
12-14 | Boosting LLM Reasoning: Push the Limits of Few-shot Learning with Reinforced In-Context Pruning 机构: Hong Kong University of Science and Technology, Microsoft Research 这篇论文提出了CoT-Max,一个通过粗到细的剪枝技术来增强LLMs数学推理能力的方法,有效地提高了少样本学习在数学推理任务中的效果。 |
|
12-14 | Forbidden Facts: An Investigation of Competing Objectives in Llama-2 机构: MIT 这篇论文通过研究模型在禁止事实任务下的行为,解析了Llama-2-chat模型如何处理相互竞争的目标,并对它的分析提出了新的手法。 |
|
12-14 | Towards Verifiable Text Generation with Evolving Memory and Self-Reflection 机构: Peking University, Chinese Academy of Sciences, Baidu Inc VTG通过演化的长短期记忆和自我反思的方法来提升LLMs生成文本时的可靠性和验证性,对复杂的注意力转移问题和文档检索的挑战有着有效的应对策略,并且通过实验获得了验证。 |
|
12-14 | Entity-Augmented Code Generation 机构: JetBrains 论文为解决利用外部实体进行代码生成的任务提出了一个新颖的架构。该架构能在不牺牲性能的前提下扩展,通过将实体检索器注入到解码器而非编码器中,模型可以一次性查看所有实体并直接使用它们。新架构不仅解决了现有模型的限制,还在多个实验场景中展示了其优越性。 |
|
12-14 | StemGen: A music generation model that listens 机构: SAMI, ByteDance Inc. 该论文提出了一个新的非自回归的语言模型方法用于音乐生成,优化了多声道的处理和音乐与上下文信息的一致性,并通过客观和主观评估证明了模型生成的音乐质量和与上下文信息的契合程度。 |
|
12-14 | CogAgent: A Visual Language Model for GUI Agents 机构: Tsinghua University, Zhipu AI CogAgent 打破了纯文本输入方式的局限性,通过结合高低分辨率的影像编码器和视觉语言模型,高效地解决了在图形用户界面(GUI)中理解和导航的挑战,同时在九个视觉问答基准测试中取得国际领先水平,推动了VLM在AI代理研究和应用方面的未来发展。 |
|
12-14 | TinyGSM: achieving >80% on GSM8k with small language models 机构: Carnegie Mellon University, Microsoft Research 这篇论文通过创建一个合成的数学问题数据集TinyGSM及其对应的Python解决方案,成功使小型语言模型在GSM8K数学问题推理基准测试上的准确率超过了80%,展示了通过高质量数据集和验证器策略显著提高了小型模型性能的可行性。 |
|
12-14 | Weight subcloning: direct initialization of transformers using larger pretrained ones 机构: Apple 本论文提出了一种有效的权重子克隆(weight subcloning)技术,用以从较大的预训练模型初始化较小的变换器模型,显著提高了训练速度,并使得全新的模型即使在低计算资源条件下也能得到高效训练。 |
|
12-14 | Self-Evaluation Improves Selective Generation in Large Language Models 机构: Google DeepMind, Google Research 论文提出了一种新的方法,通过指导LLM进行自我评估,以提高其在选择性生成场景中输出内容质量的校准。实验证明,该方法可以提高LLM生成内容的准确性和整体质量。 |
|
12-13 | E&V: Prompting Large Language Models to Perform Static Analysis by Pseudo-code Execution and Verification 机构: UC Riverside, Microsoft Research 本论文通过提出E&V方法,展示了LLMs在执行伪代码静态分析和自我验证中的潜力。该方法不仅提高了静态分析的灵活性和精准度,还减少了编写静态分析工具需要的人力和专业知识。 |
|
12-13 | SwitchHead: Accelerating Transformers with Mixture-of-Experts Attention 机构: The Swiss AI Lab IDSIA USI & SUPSI, AI Initiative KAUST, Center for Brain Science Harvard University SwitchHead是一种新颖的方法,它通过优化多头自注意力结构中的资源使用,实现了资源消耗的降低同时保持了模型性能。该方法具有实际应用潜力,尤其对于资源有限的研究人员和机构而言。 |
|
12-13 | LDM$^2$: A Large Decision Model Imitating Human Cognition with Dynamic Memory Enhancement 机构: University of Chinese Academy of Sciences 该论文提出了LDM2模型,它使用动态内存机制和树探索策略来增强LLMs的决策能力,使其能够适应更复杂和未知的环境,并实现动态学习能力。 |
|
12-13 | Knowledge-Aware Artifact Image Synthesis with LLM-Enhanced Prompting and Multi-Source Supervision 机构: Peking University 本文提出了一个结合LLMs增强提示和多源监督的知识感知古代文物图像合成方法,解决了现有文本到图像合成方法在考古领域应用时缺乏领域知识的问题,并在质量和历史知识对齐方面取得了显著进步。 |
|
12-13 | Efficient Toxic Content Detection by Bootstrapping and Distilling Large Language Models 机构: University of Southern California, Amazon.com Inc. 文章针对现有的网络有害内容自动探测面临的问题,提出了一个称为BD-LLM的新方法,它通过一个新的方法DToT来提升LLMs在有害内容检测任务中的效能和转移性,并将优化模型压缩以便更有效地部署。 |
|
12-12 | diff History for Long-Context Language Agents 机构: New York University 论文提出并验证了使用diff历史来提高对长交互历史的模型处理能力。这一方法显著提升了模型在复杂决策任务中的表现,并能有效扩大模型可处理的历史长度,为长时间序列决策代理的设计提供了新思路。 |
|
12-12 | VILA: On Pre-training for Visual Language Models 机构: NVIDIA, MIT VILA利用改进的预训练策略,在多种视觉语言任务中显示出卓越的性能,为未来视觉语言模型的设计提供了实用指南。 |
|
12-12 | Comparable Demonstrations are Important in In-Context Learning: A Novel Perspective on Demonstration Selection 机构: Shanghai Jiao Tong University 本文从示例间关系的角度研究ICL,提出通过最小化编辑文本以构造Comparable Demonstrations(CDs)来减轻潜在的示例偏倚,实验证明了其在OOD情形下的性能增益,表明了CDs在简化任务中尤其必要,并展示了其相对于示例数的稳健性。 |
|
12-12 | LLMEval: A Preliminary Study on How to Evaluate Large Language Models 机构: Fudan University, Shanghai Jiaotong University 论文针对如何评估大型语言模型(LLMs),对多种评估标准、不同类型的评估者、评分方法和排名系统进行了比较和分析,提出了新的评估数据集LLMEval,对20个LLMs进行了评估,生成了大量的手动和自动评估结果。该研究为未来的LLM评估提供了有益的洞见和结论。 |
|
12-12 | Alignment for Honesty 机构: Shanghai Jiao Tong University, Shanghai Artificial Intelligence Laboratory, Fudan University 论文提出了与人类的诚实性对齐的概念,并在此基础上提出了挑战和解决方法。通过正式定义问题、提出新方法和建立评估框架,论文为大型语言模型中的诚实性对齐提供了全面的解决方案。 |
|
12-12 | Efficient Few-Shot Clinical Task Adaptation with Large Language Models 本文提出了一个在少样本的医学图像分类中通过冷冻一部分网络层进行高效的微调方法,并且引入了大型语言模型来上下文化标签,以提供有效的语义指导。方法在挑战赛中取得了优异的成绩,表明在处理少样本场景下自然图像模型到医学图像任务的适配问题时具有很高的有效性。 |
|
12-12 | LLM in a flash: Efficient Large Language Model Inference with Limited Memory 机构: Apple 这份研究提供了一个创新且实用的解决方案,不仅能有效降低在内存受限设备上运行大型语言模型时的数据负载,还能显著提升推理速度,在实际应用中具有重要意义。 |
|
12-12 | Tell, don't show: Declarative facts influence how LLMs generalize 机构: Apollo Research, University of Oxford 本文研究了培训数据中声明性陈述与统计模式或“程序”示例相冲突时模型的泛化情况。所得结果对于AI风险(关于“背叛转折”)和公平性有重要影响。 |
|
12-11 | Honeybee: Locality-enhanced Projector for Multimodal LLM 机构: Kakao Brain 论文提出了一种新型的局部性增强投影器设计,解决了现有方法在处理视觉特征局部性上的不足,并有效利用了多面向指令数据集,最终使得Honeybee模型在多个MLLM基准测试中取得了显著的性能提升。 |
|
12-11 | Unlocking Anticipatory Text Generation: A Constrained Approach for Faithful Decoding with Large Language Models 机构: Salesforce AI Research 本文提出了一种通过考虑未来约束满足来改善大型语言模型解码方法的新途径。提出的正式方法和评分机制通过与LLMs的基准测试,可以显著提高文本生成的质量和控制。 |
|
12-11 | "What's important here?": Opportunities and Challenges of Using LLMs in Retrieving Information from Web Interfaces 机构: Carnegie Mellon University 本文研究了LLMs在从Web界面检索信息中的应用潜力和面临的挑战。通过一系列实验,揭示了模型性能的关键因素及其限制,并为未来工作指明了方向。 |
|
12-11 | Dense X Retrieval: What Retrieval Granularity Should We Use? 机构: University of Washington, Tencent AI Lab 本文提出命题作为一种新型稠密检索单元,其在减少所检索文本中无关信息的同时,提高了下游问答任务的性能和跨任务泛化能力。 |
|
12-11 | On Meta-Prompting 机构: Microsoft 这篇论文提出了一个基于范畴论的理论框架来概括和描绘自动化提示方法,通过在构想力和创造力这两个领域的实验,展示了meta-prompting比传统固定提示方法更能生成用户偏好的输出。 |
|
12-11 | Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes 机构: Zhejiang University, Alibaba Group 论文提出了一种新颖的联邦全参数微调方法——FedKSeed,通过ZOO与有限组种子结合,显著降低了数十亿大小LLMs全参数微调所需的通信开销,同时实现了较高的模型精确度和计算效率。 |
|
12-11 | Extracting Self-Consistent Causal Insights from Users Feedback with LLMs and In-context Learning 机构: Microsoft, Microsoft Research 该研究提出了一种新框架,使用LLMs和ICL从用户反馈中提取自洽的因果见解,以支持微软Feedback Hub的分析。该框架采用创新的自洽性和提示集合技术以抑制LLMs的幻觉和错误推理,并提出了两种启发式方法来评估反馈的信息丰富度。实验显示,该方法能有效地提取因果见解和新的bug,并有助于微软工程师优先处理信息量丰富的反馈。 |
|
12-11 | Oracle-based Protocol Testing with Eywa 机构: Microsoft Research 本文介绍了基于神谕的测试方法,充分利用LLMs建立了丰富的协议行为模型,并通过符号执行和传统测试生成方法相结合,提升了网络协议测试用例的自动生成和覆盖面。 |
|
12-11 | MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples 机构: Xiamen University, Tencent YouTu Lab 这项工作通过提出MMICT,展示了在大型多模态语言模型上运用上下文学习能力以增强微调性能的新范式。通过设计M-Hub这一多功能模块并通过各种上下文示范实验,研究揭示了上下文学习在改善多模态任务性能中的潜力。 |
|
12-10 | Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs 机构: Microsoft Israel 这项研究的核心贡献在于它对比了细化训练和RAG两种方法对于LLMs知识注入能力的影响,并发现RAG在注入新的和已有的知识方面表现更佳。研究使用了创新的数据集和评估方法,确保了理论发现的实用性和可行性。 |
|
12-09 | Sim-GPT: Text Similarity via GPT Annotated Data 机构: Shannon.AI, Zhejiang University, Bytedance Sim-GPT是一个利用GPT-4生成数据标签来训练STS模型的框架。它在生成数据时仅产生一次性成本,速度较快,模型在多个STS基准上性能优越。 |
|
12-09 | Context Tuning for Retrieval Augmented Generation 机构: Apple 本论文通过引入上下文调优这一新颖组件,提高了基于检索的增强计划(RAG-based planning)的效果,使其能处理不完整或不明确的查询,同时还降低了幻觉性错误的产生。研究对比了不同的检索方法在轻量模型和LLMs中的应用,并展示了新方法在提高上下文理解上的有效性。 |
|
12-09 | Agile-Quant: Activation-Guided Quantization for Faster Inference of LLMs on the Edge 机构: Northeastern University, Oracle 本文提出了一个名为Agile-Quant的激活引导量化框架,以加速大型语言模型的边缘设备推理。Agile-Quant克服了激活值异常的挑战和边缘设备上的硬件实施问题,并实现了与仅权重量化方法相当的任务性能,同时在实际设备上获得了显著的推理速度提升。 |
|
12-09 | Can Large Language Models Serve as Rational Players in Game Theory? A Systematic Analysis 机构: Shanghai Jiao Tong University 本研究系统地探索了LLMs在游戏理论背景下的能力边界,并从三个角度出发,提供了将LLMs在社会科学研究中使用的进一步指导。 |
|
12-09 | NLLG Quarterly arXiv Report 09/23: What are the most influential current AI Papers? 机构: University of Mannheim, University of Bielefeld 该论文通过分析在特定时间内arXiv上引用最多的论文,提供了AI研究领域的最新趋势和影响力分析,特别强调了大型语言模型在其中的重要性。 |
|
12-08 | Using Program Knowledge Graph to Uncover Software Vulnerabilities 论文通过结合程序图和安全数据,提出了程序知识图谱,并利用大型语言模型的提示调整来自动生成检测软件代码中漏洞的查询。该方法旨在克服传统漏洞检测方法的局限性,提高漏洞检测的自动化程度和有效性,尤其是在静态分析中的应用。 |
|
12-08 | PaperQA: Retrieval-Augmented Generative Agent for Scientific Research 机构: RAND Corporation, Carnegie Mellon University, LangChain 该论文提出了PaperQA,一个基于检索的生成型代理,用于科学研究。PaperQA可以准确回答基于最新科学文献的问题,并且与人类专家的回答相当,甚至在某些方面表现更好。论文展示了PaperQA的有效性,并通过与人类专家和其他商业工具的对比,证明了其优越性。 |
|
12-07 | Beyond Surface: Probing LLaMA Across Scales and Layers 机构: Hong Kong University of Science and Technology 本研究的核心贡献在于提出了一系列评估大型语言模型高阶能力的探针任务,这些任务围绕着计算能力、数学推理、逻辑推理和真实性检测。研究揭示了LLM的表现如何随着模型规模和层次结构的变化。 |
|
12-07 | An LLM Compiler for Parallel Function Calling 机构: UC Berkeley, ICSI, LBNL 论文提出了一个名为LLMCompiler的系统,解决了大型语言模型在执行多功能调用时的高延迟成本和效率低下的问题,通过并行化函数调用和优化协调来提高速度,节省成本并提升准确率。 |
|
12-07 | Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use 机构: Gaoling School of Artificial Intelligence, Renmin University of China, Alibaba Group 该论文针对LLMs在工具使用时对上下文认知的不足提出了Attention Buckets方法,通过处理不同的RoPE角度基础来强化对上下文的关注,显著提升了LLMs在工具使用任务的性能。 |
|
12-07 | Chain of Code: Reasoning with a Language Model-Augmented Code Emulator 机构: Google DeepMind, Stanford University, University of California Berkeley Chain of Code (CoC)为语言模型增加了通过编写代码和模拟代码执行来改善推理能力的新维度。它在数字和语义推理任务中均实现了突破性的性能,对LLMs的应用范围进行了扩展,并有潜力应用于更广泛的问题。 |
|
12-07 | A Study on the Calibration of In-context Learning 机构: Harvard University 该论文深入研究了上下文内学习(ICL)在语言模型(LMs)中的校准准确性问题,并提出了评估和分析方法。它揭示了校准误差与模型大小和微调过程中的变化关系,以及校准在推理任务生成中的降低。 |
|
12-07 | CLadder: A Benchmark to Assess Causal Reasoning Capabilities of Language Models 机构: MPI for Intelligent Systems, University of Washington 此研究为测试和分析大型语言模型(LLMs)在正规因果推理上的能力提出了CLADDER数据集和CAUSALCOT思维路径提示策略,通过实验突显了LLMs的局限并为未来研究提出了方向。 |
|
12-07 | Generating Illustrated Instructions 机构: GenAI Meta, Columbia University 本论文介绍了一种名为StackedDiffusion的新方法,用于生成插图说明,这是一种将文本和图像结合起来描述如何实现某一目标的任务。该方法通过结合大型语言模型和文本到图像扩散模型,并引入一些新颖的建模技巧,解决了现有T2I模型无法直接从用户查询中生成视觉效果的问题,并在人类评估中超越了现有技术水平。 |
|
12-07 | Cost-Effective In-Context Learning for Entity Resolution: A Design Space Exploration 机构: Renmin University of China, Beijing Institute of Technology, HKUST (GZ) 这篇论文提供了一个全面的研究,旨在探索如何开发一种成本效益的批量提示方法来进行实体解析。主要贡献是介绍 BATCHER 框架并提出基于覆盖的演示选择策略。 |
|
12-06 | AnimateZero: Video Diffusion Models are Zero-Shot Image Animators 机构: Peking University, Tencent AI Lab, HKUST AnimateZero为T2V生成提供解耦和精确的外观和动作控制,通过空间外观控制和时间一致性控制,实现了从T2I到I2V的步骤式视频生成,同时维护良好的域一致性。 |
|
12-06 | Holmes: Towards Distributed Training Across Clusters with Heterogeneous NIC Environment 机构: Zhejiang Lab 文章成功介绍了一个能在网络接口卡异构环境中进行大型语言模型训练的框架——Holmes。通过实证研究其性能,Holmes被证明可在异构环境中实现与同构RDMA NICs相当的性能水平,从而使LLM训练更加普及并扩大了有效扩展的可能性。 |
|
12-06 | Generative agent-based modeling with actions grounded in physical, social, or digital space using Concordia 机构: Google DeepMind, Google Research 本论文提出了利用生成式大型语言模型增强基于代理的模型的方法,通过Concordia库实现了在社会、物理和数字空间中模拟代理的交互。该模型旨在提供逼真的社会模拟,并探索模型的有效性验证。 |
|
12-06 | OneLLM: One Framework to Align All Modalities with Language 机构: MMLab The Chinese University of Hong Kong, Shanghai Artificial Intelligence Laboratory OneLLM通过其统一的多模态编码框架和渐进式对齐管道,在推理和利用方面展示了强大的多模态理解和处理能力,并成功地处理了扩展多模态LLMs的挑战。 |
|
12-06 | Efficient Large Language Models: A Survey 机构: The Ohio State University, Google Research, Amazon AWS AI 论文综述了大型语言模型中对于稀疏激活方法的最新进展,特别是混合专家系统(MoE)及其在长文本处理方面的应用。它总结了MoE模型优化的各种方法,包括算法级别的改进和系统级别的加速框架。 |
|
12-06 | Controllable Human-Object Interaction Synthesis 机构: Stanford University, FAIR Meta 本文提出了一种新的交互合成方法CHOIS,它能在受语言描述指导的条件下,生成符合三维场景几何约束的人与物体的同步运动。该方法通过集成到一个系统中,展示了其在合成连续、逼真和环境感知的人物互动方面的有效性。 |
|
12-05 | Beyond Isolation: Multi-Agent Synergy for Improving Knowledge Graph Construction 机构: Zhejiang Lab, Ant Group 通过在KGC中引入多智能体合作的方法,cooperKGC框架提升了智能体解决实体、关系和事件提取任务中的精确度,并有望为AI的协作意识化未来奠定了基础。 |
|
12-05 | Inherent limitations of LLMs regarding spatial information 机构: ProtagoLabs, International Monetary Fund, NetMind.ai 论文为GPT-4等大型语言模型在处理空间信息方面的能力提供了新的评估框架和专门设计的数据集,并分析了GPT-4在处理空间信息方面的能力和局限性。 |
|
12-05 | RankZephyr: Effective and Robust Zero-Shot Listwise Reranking is a Breeze! 机构: University of Waterloo RankZephyr是一款新型开源LLM,特别优化了零样本列表重新排序任务。它提供了与大型专有模型相当或更优的重新排序效果,同时强调了数据增强对于提升模型鲁棒性的重要性,并通过实验证明了其有效性和在现实场景中的应用潜力。 |
|
12-05 | Rank-without-GPT: Building GPT-Independent Listwise Rerankers on Open-Source Large Language Models 机构: University of Waterloo, 2Cohere, Comcast Applied AI 本文的核心成果是演示了如何构建一种不依赖GPT模型的有效列表重排序器,能显著超越现有基于GPT的重排序器,并呼吁研究社区开发更高质量的列表排序训练数据,以提升模型的表现。 |
|
12-05 | Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation 机构: Sea AI Lab, Sun Yat-sen University, Harvard University 本论文提出了一种旨在提升大型语言模型创造性思维能力的Creative Leap-of-Thought (CLoT)范式,并验证了其在多种任务中的有效性和概括能力。 |
|
12-05 | A Comparative Study of AI-Generated (GPT-4) and Human-crafted MCQs in Programming Education 机构: Carnegie Mellon University 本文的主要贡献是开发了一个基于GPT-4的自动化MCQ生成系统,通过专门的弹性构架和精确的LO对齐机制,成功生成与高等教育Python课程LO一致的MCQs。研究结果表明,自动生成的MCQ在大多数情况下与LO保持良好的一致性,质量接近人工设计的MCQ,但在拥有单一正确答案和高质量干扰项方面略显欠缺,未来工作应该集中在减轻这些问题上。 |
|
12-05 | Large Knowledge Model: Perspectives and Challenges 机构: Zhejiang University 本文提出了一种大型知识模型(LKM)的概念,旨在更有效地管理和解读知识表示的多样性。研究指出了从现有的大型语言模型到LKM转变的挑战,强调了结构化知识在预训练中的重要性,并提出了一套LKM的设计原则。 |
|
12-05 | A Hardware Evaluation Framework for Large Language Model Inference 机构: Princeton University LLMCompass 作为一种硬件评估框架,成功地应对了设计LLM推理硬件时面临的挑战。它不仅快速精准,而且具有架构描述性和成本意识,已经在商业硬件上进行了验证且显示出优异的性能。 |
|
12-05 | Prompt Optimization via Adversarial In-Context Learning 机构: National University of Singapore, Hong Kong University of Science and Technology, Institute for Infocomm Research (I2R) A*STAR 论文介绍了一个新颖的Adversarial In-Context Learning(adv-ICL)方法,用于优化大型模型中prompt的选择,以此提高模型性能。它可以实现对抗训练目标,克服数据和计算资源限制,通过优化prompt而不是模型参数来提升性能,且实验结果在多个任务上显著优于现有技术。 |
|
12-05 | How should the advent of large language models affect the practice of science? 机构: Max Planck Institute for Biological Cybernetics, University of Tübingen, University of Washington 本文讨论了LLMs对科学实践的影响,并建议对其使用持审慎态度,同时强调了保护科学的规范和认识论方面的重要性。虽然LLMs可能提升某些科研任务的效率,但作为工具,其使用应该谨慎并确保符合科学规范。 |
|
12-04 | Competition-Level Problems are Effective LLM Evaluators 机构: Microsoft Research Asia, Xiamen University, Microsoft Azure AI 本研究通过评估大型语言模型在处理竞赛级编程问题上的表现,揭示了GPT-4等模型在真实推理能力上的不足,并提出了一些提升表现的方法。这些发现突显了这类问题作为评估LLMs的有效工具的重要性,并促进了对于提高LLMs复杂推理能力的进一步研究。 |
|
12-04 | LLMs Accelerate Annotation for Medical Information Extraction 机构: Google Research 本论文展示了一个利用大型语言模型,特别是Google的PaLM 2,来提升医学信息抽取任务中注释速度的方法。这个基于LLM的注释流程提高了效率且不需要对模型进行复杂的调参,使其成为一个有潜力的工具来加速医疗领域的数据注释工作。 |
|
12-04 | Exchange-of-Thought: Enhancing Large Language Model Capabilities through Cross-Model Communication 机构: Fudan University, National University of Singapore, Shanghai AI Laboratory 本文提出的Exchange-of-Thought(EoT)框架通过模型间交流提升LLMs的推理能力,凭借四种通信范例和信心评估机制,在多个推理任务上取得了显著成效,并证明了外部思维在增强模型性能中的作用。 |
|
12-04 | On the Effectiveness of Large Language Models in Domain-Specific Code Generation 机构: Shanghai Jiao Tong University, Chongqing University, East China Normal University 这项研究表明,通过有效地整合领域知识到代码生成过程中,可以增强LLMs在特定领域内的代码生成能力。DomCoder作为一个新的代码生成方法,利用了不同策略以整合领域知识,并在特定设置下提升了代码生成的实际效果。 |
|
12-04 | ChatGPT as a Math Questioner? Evaluating ChatGPT on Generating Pre-university Math Questions 机构: Nanyang Technological University, National University of Singapore 该研究提出了第一个系统的评估ChatGPT在生成前大学数学问题潜力的研究。通过两种主要场景:给定上下文和未给定上下文的生成问题,并为教育工作者提供实用的洞察。研究的结果有可能促进现代AI技术在教育领域的应用,并提高自动化数学问题生成的实用性和效率。 |
|
12-04 | A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly 机构: Elsevier 这篇论文总结了大型语言模型(LLMs)在安全性和隐私保护中的应用及相关挑战,指出LLMs在这些领域的好处、坏处和丑陋之处,同时强调了其在数据保护方面的潜力。 |
|
12-04 | Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large Language Models 机构: Xiamen University, MBZUAI, Tencent AI Lab 文章通过引入动态自动检索机制和分层抽样方法,成功提升了多模态任务中LLMs的CoT推理能力。提出的方法不仅提高了模型性能,而且通过多样化示例选择进一步细化了推理过程,为多模态推理领域树立了新的性能标杆。 |
|
12-04 | Data Management For Large Language Models: A Survey 机构: Peking University, Huawei Noah’s Ark Lab 这篇综述研究了在LLMs的预训练和监督式微调阶段,数据管理的研究现状以及数据管理策略的设计。 |
|
12-04 | The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning 机构: Allen Institute for Artificial Intelligence, University of Washington 本论文提出了一个通过上下文学习实现LLMs对齐的简单无须调整方法(URIAL),表现出与传统调整对齐方法相匹配甚至更好的效果。这一发现对未来LLMs研究具有重要的启示,说明了在LLMs对齐上更深入的分析和理论理解的重要性。 |
|
12-03 | D-Bot: Database Diagnosis System using Large Language Models 机构: Tsinghua University, Pigsty, ModelBest D-Bot是一个基于大型语言模型的数据库诊断系统,它通过文档中的知识提取和生成有效的诊断报告来提高数据库诊断的效率和准确性,解决了区域专家在数据库诊断中遇到的挑战。 |
|
12-03 | Running cognitive evaluations on large language models: The do's and the don'ts 机构: Massachusetts Institute of Technology 这篇论文为大型语言模型的认知评估研究方法提供了指导性的建议,探讨了在方法论上如何避免在运行认知评估时可能出现的问题。论文的目标是贡献于AI心理学领域最佳实践的更广泛讨论。 |
|
12-03 | TextGenSHAP: Scalable Post-hoc Explanations in Text Generation with Long Documents 机构: University of Southern California, Google Cloud AI TextGenSHAP是一个为大型语言模型设计的高效后验解释性方法,通过改进解释生成的速度,并展示了如何利用这些解释改进长文档问答和文档检索系统。 |
|
12-02 | Just-in-Time Security Patch Detection -- LLM At the Rescue for Data Augmentation 机构: University of Luxembourg, Windows Copilot Microsoft, Singapore Management University 论文提出了一种新颖的安全补丁检测框架 LLMDA,使用大型语言模型进行补丁分析和数据增强,并对多模态输入进行对齐。这使系统能够从补丁和代码的联合上下文中提取更丰富的信息,提升检测准确性。 |
|
12-02 | Exploring and Improving the Spatial Reasoning Abilities of Large Language Models 机构: Stanford University 论文提高了对LLMs在空间推理和序列标注方面能力的理解,提出了一种改进LLMs处理3D轨迹识别任务的方法,具有显著的性能提升。 |
|
12-02 | Large Language Models Are Zero-Shot Text Classifiers 机构: Florida Atlantic University 论文展示了LLMs可以有效作为零样本文本分类器的能力,这对于需要快速部署文本分类器的小团队或小企业来说特别有益。研究结果表明,在所有四个数据集中,GPT-4一致超过了传统ML算法。文章还建议未来的研究方向包括优化提示以获得更高的精度或引入评论代理以评估和提升LLM的结果。 |
|
12-02 | Axiomatic Preference Modeling for Longform Question Answering 本文提出的基于公理的框架为长篇问答偏好模型提供了一种新方法,通过细致审视人类偏好,并优化了偏好打分的准确性与效率。 |
|
12-01 | The Cost of Compression: Investigating the Impact of Compression on Parametric Knowledge in Language Models 机构: University of Wisconsin - Madison 本论文通过对大型语言模型(LLMs)进行压缩技术(剪枝和量化)的全面研究,揭示了这些技术对模型参数知识保留的影响,为实践者提供了关于模型压缩的有价值见解。 |
|
12-01 | Beyond ChatBots: ExploreLLM for Structured Thoughts and Personalized Model Responses 机构: Google 本文介绍了探索LLM系统ExploreLLM,它通过结合基于提示的任务分解方法和全新的类似图式的图形用户界面(UI),在用户和LLM助手之间提供了一种全新的交互模式。该系统通过在结构化和交互式界面中表示生成子任务,旨在减轻用户完成复杂任务时的认知负担,同时提高个性化响应的水平。 |
|
12-01 | On Exploring the Reasoning Capability of Large Language Models with Knowledge Graphs 机构: Singapore Management University, National Sun Yat-sen University 研究结果显示,LLMs能够通过其内部知识图成功处理知识图推理任务,并能从上下文中推断出知识图关系,展示了LLMs在知识图推理中的潜力及应用价值。 |
|
12-01 | Deciphering Digital Detectives: Understanding LLM Behaviors and Capabilities in Multi-Agent Mystery Games 机构: Quebec AI Institute 这篇论文贡献了适应JuBensha游戏复杂性和新挑战的评估方法,并创建了一个能够评估交互式环境中LLM智能体能力的新框架ThinkThrice,推动了AI在多玩家角色扮演游戏中的应用。 |
|
12-01 | Nash Learning from Human Feedback 机构: Google DeepMind 这篇文章提出了一种全新的调节大型语言模型以通过纳什均衡与人类偏好对齐的方法,展示了其在复杂任务中的潜能,并通过实验证明了其效果。 |
|
12-01 | Leveraging Large Language Models to Improve REST API Testing 机构: Georgia Institute of Technology, IBM Research RESTGPT通过利用LLMs,特别是GPT-3.5 Turbo的高效准确性和少量示例学习的精准性,解决了现有方法在提取自然语言描述中规则和生成有效值时的限制,显著提升了REST API测试的质量和准确度。 |
|
12-01 | The Cost of Compression: Investigating the Impact of Compression on Parametric Knowledge in Language Models 机构: University of Wisconsin - Madison 这项研究首次大规模考察了LLMs的压缩技术对模型参数知识的影响,并为实际应用提供了重要见解,特别是在关于修剪和量化技术相关的决策方面。 |
|
12-01 | Instruction-tuning Aligns LLMs to the Human Brain 机构: EPFL 本研究表明,通过指令调整训练的大型语言模型在世界知识表示方面以及与人脑活动的对齐程度上表现更佳。这为未来LLMs的发展提供了将世界知识集成到模型中的重要视角。 |
|
12-01 | RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback RLHF-V是一个通过细粒度校正型人类反馈校正MLLM行为的新框架,通过收集高质量的人类偏好数据为MLLMs提供人类对齐的学习信号,并通过全面的实验验证了该框架的有效性。该研究可能在提高大型多模态语言模型在各种任务中的可靠性和实用性方面取得重要进展。 |
|
12-01 | Learning from One Continuous Video Stream 该论文介绍了一个框架,用于从单一连续视频流中进行在线学习,这一框架侧重于适应性与泛化的评估,并提出了一系列未来预测任务进行预训练。研究显示,在这种学习环境下,优化策略需要调整,通过减少动量和调整权重更新频率可以改善模型的适应性和泛化能力。 |
|
12-01 | Improve Supervised Representation Learning with Masked Image Modeling 机构: Google Research, OpenAI 这篇论文提出了一种融合监督表示学习和MIM的新训练设置,该设置在不增加显著的训练或推理开销的前提下,显著提高了下游任务如分类、图像检索和语义分割的表示学习质量。 |
Date | Paper | Links & Summary |
---|---|---|
11-30 | What Do Llamas Really Think? Revealing Preference Biases in Language Model Representations 机构: Comcast Applied AI, University of Waterloo 作者们提出了一个新型探针来检测LLMs表示中的内隐关联偏见,并通过实验在偏好检测中达到了最新水平。研究还发现了多个指令遵循型和“传统”的LLMs中的显著偏见,这些偏见存在于国籍、政治、宗教和性别等方面,尽管LLMs已经经过明确的安全指导调整。 |
|
11-30 | CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation 机构: UC Berkeley, Microsoft Azure AI, ZOOM CoDi-2是一种具有前沿能力的多模态生成模型,可以处理复杂的多模态输入、在上下文中指导生成、通过多轮交互与用户互动,并实现了优秀的零样本和少样本性能。 |
|
11-30 | TaskBench: Benchmarking Large Language Models for Task Automation 机构: Zhejiang University 该文献提出了TaskBench基准测试和TASKEVAL评估系统,通过数据生成和量化评估系统,有效地解决了在任务自动化领域对LLMs的评估问题。 |
|
11-30 | Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text 机构: The University of Tokyo 研究展示了GPT-4处理混淆文本的强大能力,设置了两项新指标RR和RPG,并通过它们验证了GPT-4在不同混淆场景和比率下的稳定表现。 |
|
11-30 | IAG: Induction-Augmented Generation Framework for Answering Reasoning Questions 机构: Huawei Poisson Lab IAG框架通过归纳提示法加强知识陈述的真实性,并且优化了知识融合机制和学生归纳模型,以解决现有基于检索的方法在隐性推理问答任务上的不足。研究成果表明,IAG在回答涉及隐性推理的问答任务上表现更优。 |
|
11-30 | MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation 机构: University of Science and Technology of China, Microsoft Research Asia MicroCinema以其创新的文本到视频生成两阶段流程和有效的Appearance Injection Network及Appearance Noise Prior机制,在视频生成质量上实现了新的突破,为后续工作提供了可借鉴的范例。 |
|
11-30 | Autonomous Agents in Software Development: A Vision Paper 机构: Tampere University 本论文提出了一个关于利用多个 GPT 代理来自动执行软件工程任务的愿景,并演示了在简单软件任务上所取得的初步成功。这项工作有可能彻底改变软件开发的方式,并缩短开发时间。 |
|
11-30 | PoseGPT: Chatting about 3D Human Pose 机构: Max Planck Institute for Intelligent Systems, Meshcapade PoseGPT是一个新型框架,它通过在LLM中嵌入SMPL姿态标记,使模型可以直接从文本和视觉输入生成三维人体姿态,并在解释三维人体姿态方面实现了一定程度的创新。 |
|
11-30 | Applying Large Language Models and Chain-of-Thought for Automatic Scoring 机构: University of Georgia 本文展示了LLMs在促进自动评分方面的潜力,并强调CoT在配合项茎和评分标准使用时能显著增强评分的准确度。通过结合LLMs和CoT的方法,可以降低自动评分模型构建的复杂性和人力成本,并可能提供更接近人类评分结果的评分。 |
|
11-29 | TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in Large Language Models 机构: Harbin Institute of Technology TIMEBENCH基准的提出是对大型语言模型时间推理能力综合评估的重要步骤,它展示了当前模型与人类在这方面的差距,并为未来的研究提供了指引。 |
|
11-29 | Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering 机构: Sun Yat-Sen University 这项工作通过创新性地结合三个代理来模拟人类认知中的自顶向下推理过程,并引入了多视角知识库的概念,显著提升了VQA模型的表现力和解释能力。 |
|
11-29 | TaskWeaver: A Code-First Agent Framework 机构: Microsoft TaskWeaver是为构建基于LLM的自治代理而设计的代码优先框架,实现了对复杂数据的高效处理以及插件的灵活使用,并将特定域知识成功整合入系统中。 |
|
11-29 | Are Large Language Models Good Fact Checkers: A Preliminary Study 机构: Chinese Academy of Sciences 这篇文章通过系统评估LLMs在整个事实核查流程中的潜力,发现尽管LLMs在某些方面表现出潜力,但依然需要更多研究和尝试来提升它们在事实核查任务上的表现。 |
|
11-29 | Zero-shot Conversational Summarization Evaluations with small Large Language Models 机构: Intel labs 文章以大型语言模型在会话摘要任务中的应用作为焦点,深入探讨了不同指令对模型执行效果的影响,并研究了在有限硬件下使用压缩模型的优化方法。 |
|
11-29 | Understanding and Improving In-Context Learning on Vision-language Models 机构: LMU Munich, University of Oxford 本文提出了一个用于视觉-语言模型在背景学习中选择示范的新方法MMICES,并通过一系列实验展示了其在不同模型和数据集上的良好性能。 |
|
11-29 | How to Build an AI Tutor that Can Adapt to Any Course and Provide Accurate Answers Using Large Language Model and Retrieval-Augmented Generation 机构: The Education University of Hong Kong 这篇论文代表了一次开创性的尝试,构建了一个可以适应任何学科并提供高质量的定制化教育支持的AI导师系统。这不仅能促进AI教育技术的应用,而且为AI教学系统的发展开辟了新路径。 |
|
11-29 | Large Language Models for Networking: Applications, Enabling Techniques, and Challenges 机构: BUPT 该论文提出了一个整合大型语言模型与网络技术的新框架ChatNet,并探究了它在网络规划中的应用。研究表明,ChatNet可以有效提升网络任务的自动化和智能化水平,尽管在部署前仍需解决多模态数据整合和插件开发等挑战。 |
|
11-28 | Prompting in Autoregressive Large Language Models 机构: George Mason University 本论文为自回归大型语言模型的提示技术领域提供了一个紧凑的文献综述,并指出了一些尚未解决的挑战和开放性问题,为未来研究提供了方向。 |
|
11-28 | Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware Direct Preference Optimization 机构: Shanghai AI Laboratory 文章提出了一个新颖的策略来优化LVLMs并减少幻觉现象,同时介绍了一种新的评估方法来更全面地衡量幻觉现象,并通过实验验证了所提方法的有效性。 |
|
11-28 | RankingGPT: Empowering Large Language Models in Text Ranking with Progressive Enhancement 机构: Alibaba Group 本研究提出了一种用于文本排序的二阶段训练模型,结合了弱监督预训练和监督细化训练,通过在不损害预训练益处的基础上增强模型细化训练性能,完成了从预训练到细化训练的平滑过渡,并在实验中显著优于现有技术。 |
|
11-28 | ChatGPT's One-year Anniversary: Are Open-Source Large Language Models Catching up? 机构: Nanyang Technological University 这篇综述文章提供了对开源LLMs在多任务领域相较ChatGPT的性能评估的考察,突出了目前开源LLMs的强项和潜在问题,并为未来的研究和开发提供了启示。此外,文章还总结了众多的最佳实践和挑战,显示出开源领域在一定程度上有望缩小与商业模型之间的差距。 |
|
11-28 | LLaFS: When Large-Language Models Meet Few-Shot Segmentation 机构: Singapore University of Technology and Design, Zhejiang University 本文提出了一个基于大型语言模型(LLM)的小样本图像分割框架,并解决了让LLMs理解和执行视觉任务的核心挑战。通过定制指导和细粒度上下文指导相结合的方法,实现了高质量的小样本分割。 |
|
11-28 | Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine 机构: Microsoft 本文通过系统的提示工程方法探讨了在无需专家监督的情况下,如何指导通用的基础模型在专业任务上发挥专家级别的能力,具体以医学领域为案例研究。所提出的Medprompt策略证明了其在增强基础模型专业能力方面的显著优势,并展示了广泛适用于多个学科的可能性。 |
|
11-28 | Training Chain-of-Thought via Latent-Variable Inference 机构: Google 本论文开发了一种基于MCMC-EM的微调策略,通过平均理由帮助LLMs生成正确的答案,具有潜在的推广应用的潜力。 |
|
11-28 | RELIC: Investigating Large Language Model Responses using Self-Consistency 机构: ETH Zurich RELIC是一个交互式系统,它通过多样本的事实一致性检验,帮助用户验证和指导LLMs生成的文本。 |
|
11-28 | Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation 机构: Alibaba Group 本文提出了一个利用扩散模型进行角色动画的新框架“Animate Anyone”。该框架通过ReferenceNet保持外观一致性,并通过姿态引导器与时间层确保动画的可控性与连续性,取得了先进的角色动画生成结果。 |
|
11-28 | AvatarGPT: All-in-One Framework for Motion Understanding, Planning, Generation and Beyond 研究提出了一个创新的,一体化的框架AvatarGPT,用于处理理解、规划以及生成人类动作相关的高级和低级任务,展现出长时间运动合成的能力和减少手动干预的可能性。 |
|
11-28 | Graph Prompt Learning: A Comprehensive Survey and Beyond 机构: The Chinese University of Hong Kong, Hong Kong University of Science and Technology, Fudan University 论文是关于图提示学习的综合性调研,涵盖了AGI在图数据处理方面面临的挑战以及如何通过图提示学习来实现AGI技术的跨模态、跨域和跨任务适用性。 |
|
11-27 | RoboGPT: an intelligent agent of making embodied long-term decisions for daily instruction tasks 机构: Chinese Academy of Sciences, Peking University 文章提出了一个名为RoboGPT的智能体,该智能体用于制定执行日常指令任务的长期决策。该智能体通过一项新的机器人数据集,结合了LLMs的通用知识和机器人领域的专业知识,并引入了Re-Plan模块和RoboSkill模块以增强任务规划的逻辑性和适应性。在ALFRED基准测试和泛化任务上,RoboGPT优于现有的先进方法。 |
|
11-25 | Faster Minimum Bayes Risk Decoding with Confidence-based Pruning 机构: University of Cambridge 论文提出了一个用于MBR解码的算法,该算法通过在样本估计中逐渐增加样本数量并使用置信度剪枝来减少用户函数调用。在保持准确度的同时,该算法显著降低了计算成本,并通过三种语言对的NMT实验得到了验证。 |
|
11-24 | Data-Efficient Alignment of Large Language Models with Human Feedback Through Natural Language 机构: Amazon 文章提出了一个有效的CnR方法,它能够通过使用自然语言的精细反馈和响应修正,高效地校准LLMs以符合人类预期。通过相对较少的人类反馈数据,此方法可以显著改善即使是顶尖LLMs的响应质量,如ChatGPT。 |
|
11-24 | Calibrated Language Models Must Hallucinate 机构: Microsoft Research 该文章展示了预训练语言模型在充分校准的条件下,必然产生幻觉的统计根源,并介绍了预测性能良好的模型固有的幻觉产生机制。同时,文章还提供了幻觉产生率的下界估算,并探讨了不同类型事实产生幻觉的可能性,指出了未来减轻特定类型幻觉的可能方向。 |
|
11-23 | GAIA: a benchmark for General AI Assistants 机构: FAIR, Meta GAIA 是一项针对通用人工智能助理的基准测试,其目的在于提出真实世界的挑战性问题,并避开传统 LLMs 评价中的许多陷阱。该基准测试强调任务对人类简单而对AI难度较大,以此来评估AI的执行复杂行动序列的准确能力,这些任务在设计上无法简单地通过暴力方法得以解决。GAIA 还考虑了如何扩展基准测试,并探讨了一些最先进的助理的成功与短板,展示了增强 LLMs 的潜力。最终,文章旨在设立一个开发者问题集,为人工智能研究提供一个可扩展的基准测试平台。 |
|
11-23 | LucidDreamer: Domain-free Generation of 3D Gaussian Splatting Scenes 机构: ASRI LucidDreamer是一个能够用于生成逼真而且分辨率更高的3D场景的模型。它优于现有的场景生成模型,因为它不依赖特定的训练数据集,并能够适应多种输入样式。LucidDreamer通过约束点云的移动和使用插值算法,克服了形状扭曲和点云与图像错位的问题,从而在操纵3D空间中的点云时保持了场景的真实感和一致性。在实验中明显展示了其优越性和高泛化能力。 |
|
11-23 | Controlling Large Language Model-based Agents for Large-Scale Decision-Making: An Actor-Critic Approach 机构: Chinese Academy of Sciences LLaMAC框架展示了基于LLM的多智能体系统在长期规划、数学推理、优化问题和空间推理方面的卓越表现,并且减少了大规模多智能体协作的访问成本。随着LLM的进一步提升和更多协作框架的出现,多智能体协作领域将迎来新的发展机遇。 |
|
11-23 | Diffusion Model Alignment Using Direct Preference Optimization 机构: Nikhil Naik, Stanford University 本文提出了一个名为Diffusion-DPO的方法,其通过直接优化基于人类比较数据的模型来实现对扩散模型与人类偏好的对齐。此外,文章也探索了基于AI反馈的训练,取得了与基于人类偏好训练相媲美的成绩。这明显提升了模型在视觉吸引力和文本对齐方面的性能,为利用AI反馈扩展扩散模型对齐方法提供了新的途径。 |
|
11-23 | ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs 机构: Google Research 文章提出了一种名为ZipLoRA的新策略,旨在通过一个优化过程有效地合并独立训练的主题和风格LoRAs,从而能够生成任何用户提供的主题风格的组合。ZipLoRA对生成任何特定主题和风格的图像这一开放性研究问题提供了创新的解决方案,且由于其无需手动超参数调整,使用起来更加简便高效。实验证明该方法在保持主题和风格真实性的同时,相比于现有方法和其他基本方法而言,具有更好的生成质量和鲁棒性。 |
|
11-23 | FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline 机构: Sber AI 总体而言,该论文提出了一个新型两阶段潜在扩散的文本到视频生成架构,解决了关键帧合成和插值帧生成中存在的问题,通过使用独立的时域块和有效的插值架构,减少了计算成本,并在多个质量指标上取得了优于现有技术的表现。此外,论文还针对视频解码器设计了不同的架构选项,进一步优化了视频的一致性和整体质量。 |
|
11-23 | Probabilistic Tree-of-thought Reasoning for Answering Knowledge-intensive Complex Questions 机构: Tsinghua University 文章提出了一种新颖的概率树状推理(ProbTree)方法,通过探索LLM在回答知识密集型复杂问题时的能力,并将不确定性引入推理过程,在统一框架中整合了外部和参数知识。 |
|
11-22 | LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms 机构: Princeton University 本论文的主要贡献包括:在开源模型上微调不同大小和风格的指令数据集,评估微调模型在不同的评估范式下的表现,并且发现较少的样本(特别是当这些样本结合了不同来源和风格时)足以在不同类型的评估中获得良好的性能。这表明在培养LLMs的指令遵从能力时,“少即是多”,且通过精心选择微调样本,可以使模型在执行指令能力上得到显著提升。这一发现对于如何有效地微调LLMs以及如何评估它们的实用性具有重要意义。 |
|
11-22 | Enhancing Summarization Performance through Transformer-Based Prompt Engineering in Automated Medical Reporting 机构: Utrecht University 这项研究验证了在自动化医疗报告中应用基于转换器的提示工程可以提高摘要性能。尽管存在一些局限性,但研究提出的方法证明了在提示制定时加入示例和上下文信息的效用,并且指出了未来工作的方向。 |
|
11-22 | Visual In-Context Prompting 机构: HKUST, Microsoft Research 本论文提出了DINOv,一个新的视觉上下文内提示框架,能够有效处理多样化的视觉提示,使用无标签数据,并在多个任务中达到很好的性能。 |
|
11-22 | XAGen: 3D Expressive Human Avatars Generation 机构: National University of Singapore, ByteDance 研究提出了XAGen模型,它是首个能够生成全面可控3D人类化身的GAN模型。XAGen在细粒度属性控制上具有独立的能力,并通过多尺度和多部分的3D表示与渲染技术提升了面部和手部的生成质量。实验结果证明XAGen在外观质量、控制能力和数据利用率方面都超过了现有最先进的方法,推进了3D虚拟化身生成技术的发展。 |
|
11-21 | Do Smaller Language Models Answer Contextualised Questions Through Memorisation Or Generalisation? 机构: University of Auckland 本论文提出了一种新方法以评价小型语言模型在问答任务中答案的生成是否为记忆或概括能力的结果。通过语义相似度分析,确定了不太可能被模型记住答案的评估样本,并用增加额外训练数据集的方式,针对特定评估子集进行了模型性能的优化。最终,研究结果显示增加了数据集的模型在特定评估数据集上有了显著提升,并推断这种改善与模型的泛化能力有关。 |
|
11-21 | How Capable Can a Transformer Become? A Study on Synthetic, Interpretable Tasks 机构: University of Pennsylvania, MIT 本文通过设计合成数据生成过程和系统性实验,以评估和理解自回归Transformer模型在组合其原始能力方面的潜力。研究结果突显了模型学习组合结构的能力,揭示了训练数据对此能力的影响以及模型内部注意力层在组合学习过程中的重要性。这或许为评估和提高现代神经网络对真实世界数据的理解和应用,特别是在其可能面临前所未见的任务时,提供了新的见解。 |
|
11-21 | A Survey on Multimodal Large Language Models for Autonomous Driving 机构: Purdue University 该论文全面回顾了MLLMs在自动驾驶领域的应用,表明MLLMs具备解析非文本数据和融合多种模态(如视觉、语言)的能力,这些能力对于行为预测和动作规划尤为重要。通过在不同的自动驾驶环节中部署MLLMs(如理解交通场景、规划控制、模式生成),可以改善决策流程,并实现类似人类的驾驶直觉和决策模式,同时提高车辆导航和规划的效率和安全性。此外,模型通过为多个任务的预训练提供了一种新的可能性,这可能会推动把智能系统推向人工普遍智能(AGI)的发展路径。 |
|
11-21 | Oasis: Data Curation and Assessment System for Pretraining of Large Language Models 机构: Chinese Academy of Sciences 本文提出的Oasis系统是针对大型语言模型预训练的数据整理和评估问题的解决方案。Oasis通过其交互式的自定义数据整理模块、针对偏差的模型过滤器和全面的数据评估系统,旨在提高数据集的质量和多样性,同时降低内存需求和资源消耗。系统的实现立足于提升数据处理的灵活性和评估的准确性,填补了现有工作在全面性和多维度评估方面的空白。通过综合使用人类评估、启发式度量和最新的大型语言模型如GPT-4进行质量评估,Oasis展现了对预训练数据集进行全方位优化的能力。 |
|
11-21 | Mechanistically analyzing the effects of fine-tuning on procedurally defined tasks 机构: University of Cambridge 本文针对微调对预定义能力的影响开展了一项全面的分析和评估。通过Tracr编译式的能力设计和基于PCFG的学习式能力设计,文章详细探讨了微调过程中嵌入特征的相关性,提出了reFT来强化分析微调影响的深度。本研究的发现改进了对微调影响机理的理解,并为后续的模型设计和微调策略提供了实证支持。 |
|
11-21 | Latent Lab: Large Language Models for Knowledge Exploration 机构: Department of Electrical Engineering and Computer Science, MIT Latent Lab作为一种探索大型数据集中相互联系关系的创新和强大工具,通过利用LLMs和视觉引人注目的接口,它超越了常规搜索的局限性,提供了一个语义上有意义和情境感知的体验。强调探索的价值和迭代设计,在直观地访问大量相互连接的信息方面实现了信息技术专家的长期追求,并通过AI辅助探索将这一愿景变为现实,为未来人工智能共创系统的发展奠定了基础,并促进了更直观和高效的合作,有能力产生新颖和有影响力的创造物。 |
|
11-21 | Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey 机构: Nanjing University 文章为了解决LLMs在应对长上下文时的挑战,提出了一系列方法和综合分类体系,提高了LLMs在注意力机制、记忆效率和最大长度处理上的性能。通过综合回顾和分类学界最近的进展,本文为未来的LLMs架构设计和优化提供了清晰的指导方向。。 |
|
11-21 | AcademicGPT: Empowering Academic Research 机构: International Digital Economy Academy AcademicGPT针对学术研究的特定需求进行了优化,通过结合针对性强的训练数据和多方面的应用开发,为学术领域提供了实质性的支持和工具。它标志着大型语言模型个性化与专业化发展的一个重要步骤,并有望对学术社区产生深远的影响。 |
|
11-21 | Prompting Frameworks for Large Language Models: A Survey 机构: Zhejiang University 这项研究提供了一个框架,它通过实现新的技术手段来增强与LLMs的交互,包括改善与编程语言的兼容性,使能LLMs使用外部工具,并维护历史交互信息,并以此指导未来的研究方向。 |
|
11-20 | Assessing Prompt Injection Risks in 200+ Custom GPTs 机构: Northwestern University 该论文着重研究了自定义GPT模型中的安全风险,尤其是提示注入攻击。研究者们提出了一个包含扫描、注入敌意提示和提取目标信息三个步骤的攻击方法,并通过实施评估发现自定义GPT模型存在严重的系统提示提取和文件泄露漏洞。这些发现突出了自定义GPT模型中的关键安全缺陷,并指出了提升这些模型安全性结构的必要性。此外,红队评估清楚地显示出,现有防护措施并不足够强大,甚至有时候明确指出不应该分享的信息也能被提取出来,这表明亟需进一步加强对抗提示注入攻击的防御机制。 |
|
11-20 | Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents 机构: Shanghai Jiao Tong University 本文作为首篇系统性探讨CoT基步机制、范式转变,以及CoT与代理间复杂交互的工作,提供了一些关键见解。文章揭示了CoT在特定条件下显示出的有效性,指出了使CoT工作的多个条件,以及理论和实证研究为其成功提供了何种解释。文章还对CoT理论进行了深入分析,提出了CoT对于LLMs在多个领域的优化和革新可能具有重要的贡献,并指出尽管LLMs、CoT推理和语言代理快速发展,但仍存在未解决的挑战,如对未见领域的泛化、提高交互效率、代理定制化、代理扩展及代理安全性等【10†源】。 |
|
11-20 | GPQA: A Graduate-Level Google-Proof Q&A Benchmark 机构: New York University GPQA 数据集提供了一个用于测试 AI 系统在处理需深度理解和推理能力的复杂问题上的能力的基准。通过严格的问题质量控制和专家级别的难度,它可能促进人类专家与 AI 系统合作的方法发展,并推动 AI 系统设计的进步。 |
|
11-20 | Continual Learning: Applications and the Road Forward 机构: KU Leuven 论文综述了当前的持续学习研究现状,指出了其在记忆限制条件下研究较多而忽视计算成本的问题,并提出了四个有前途的研究方向。这些方向包括:1) 真实世界数据处理的挑战,2) 计算成本的考虑,以及其他如何获取数据和理论理解方面的关注点。论文主张未来的CL算法应在减少对完全标记和封闭世界假设的依赖上做出实质性的进展,以使CL成为解决实际机器学习问题的一个有效工具。 |
|
11-19 | TPTU-v2: Boosting Task Planning and Tool Usage of Large Language Model-based Agents in Real-world Systems 机构: SenseTime Researc |
|
11-18 | An Embodied Generalist Agent in 3D World 机构: Beijing Institute for General Artificial Intelligence LEO是一个新型的身体化、多模态、多任务的通用型智能体,专注于在3D世界中的感知、基础、推理、规划和行动。通过对3D视觉-语言对齐和视觉-语言-动作指令调优的训练,LEO能在3D世界中执行一系列任务。文章通过一系列严格实验和消融实验的结果,证实了LEO在一系列任务上的高效性能,并为未来身体化通用型智能体的发展提供了宝贵洞见。 |
|
11-18 | RecExplainer: Aligning Large Language Models for Recommendation Model Interpretability 机构: University of Science and Technology of China 文章针对推荐模型解释性的研究提出了一种新型的方法,即通过大型语言模型进行对齐,以提高解释的质量和准确性。文章介绍了三种不同的对齐方法,并通过一系列任务训练LLM以模仿推荐模型的逻辑。论文采用了多种评估策略和评分体系,包括使用最新的GPT-4模型和人类评分来验证所提出方法的有效性,并在三个不同的数据集上进行了测试,显示出其在提高推荐模型解释性方面的潜力。 |
|
11-18 | Orca 2: Teaching Small Language Models How to Reason 机构: Microsoft Research 文章通过介绍一个新的小型语言模型Orca 2,并展示其在多种推理任务上能够与更大的模型相匹敌或超越它们的性能,对当前小型语言模型在复杂推理任务中表现不佳的问题提出了有效的解决方案。Orca 2的开发依赖于对训练数据和训练策略的精心设计,证明了即使是小型模型,也可以通过改进训练方法来增强其理解和推理能力。文章还提供了Orca 2在各种标准测试中的卓越性能结果,验证了其方法论在实际应用中的有效性。 |
|
11-18 | Adapters: A Unified Library for Parameter-Efficient and Modular Transfer Learning 机构: Technical University of Darmstadt, University of Cambridge 论文提出了一个统一的库——Adapters,它整合并扩展了参数高效和模块化迁移学习方法,实现了与Transformers库的紧密整合,通过多个NLP任务的对比实验,展示了其有效性。 |
|
11-17 | Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2 机构: Allen Institute for AI TÜLU 2通过采用新的基础模型和调整策略,在多个性能指标上实现了突破,对进一步理解和改进预训练语言模型的适配具有重要意义。通过引入新的数据混合物和先进的训练方法(如DPO),TÜLU 2提高了模型在各种推理和知识探测任务上的性能,并在开放式生成指标上取得了显著的提升。此外,研究者们通过公开相关模型、数据和代码,推动了语言模型适配方法的开放研究和发展。 |
|
11-17 | Exploring the Relationship between In-Context Learning and Instruction Tuning 机构: HKUST 论文提供了ICL与IT之间密切相关的实证证据,即使ICL中不更改模型参数,二者所使用的指令和示例都驱动模型朝着收敛的隐藏状态前进。这一发现对于如何设计高效的数据集和任务以推进基础模型在下游应用的发展和对齐具有启示作用。研究结果还可以帮助理解示例在ICL和IT中的作用,以及如何利用这些见解来设计有效的示例任务和数据集,从而提升LLM的性能。论文中申明将会提供实验代码以供复现。 |
|
11-16 | MacGyver: Are Large Language Models Creative Problem Solvers? 机构: University of California, Princeton University 本研究通过创造MACGYVER数据集,探索了LLMs在解决非传统问题上的能力,并通过人类评估员对GPT-4的表现进行了评价。研究结果展示了LLMs在这类任务上的局限性,同时提出了提高其表现的新方法。研究强调了创造性问题解决能力在日常生活中的重要性,并尝试通过LLMs补充人类的创造性思维,以期提高解决问题的能力和效率。 |
|
11-16 | Automatic Engineering of Long Prompts 机构: Google 本文针对语言模型长指令工程中存在的问题,提出了一种新的算法框架,并解决了贪婪算法易陷入局部最优和遗传算法初期收敛慢的问题。通过对指令的每个句子进行语义保持重述,并利用波束搜索来维护和优化候选指令集合,使算法在有限训练数据上表现出良好的性能和较快的收敛速度。 |
|
11-16 | Predictive Minds: LLMs As Atypical Active Inference Agents 机构: Charles University 本论文将活动推断的概念应用于大型语言模型(LLMs),从一个新的视角分析了LLMs的行为和学习机制。论文提出,尽管LLMs在物理上无法直接与环境互动,但它们通过生成文本在虚拟环境中的“行动”间接影响世界,并有可能将这些影响反馈到模型的训练中。研究指出,增强LLMs与用户交互的反馈循环,将有助于提升模型的自我意识,让其更好地适应和响应环境变化,这将带来重大的社会影响和潜在的风险。论文为理解和改进LLMs在实际部署时的行为提供了重要的理论基础,预测了这些系统未来可能的发展方向。 |
|
11-16 | Crafting In-context Examples according to LMs' Parametric Knowledge 机构: The University of Texas at Austin 本文的重点研究是如何根据LM的参数知识有效地创建上下文示例:选择最优的示例(已知与未知的比较)以及在上下文示例中如何排序答案。实验结果支持了半已知示例的有效性以及基于参数知识的答案排序方法,这些发现为提高大型语言模型在多答案生成任务中的性能提供了可行的技术途径。 |
|
11-15 | Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models 机构: Tecent AI Lab 论文提出的CHAIN-OF-NOTE(CON)框架旨在提高RALMs的鲁棒性,主要通过引入结构化的阅读笔记过程来批判性地评估检索到的文档。实验结果表明,该框架提高了模型在噪声数据和未知情况下的健壮性,改善了整体QA性能,并在检索文档失败还是成功时均提高了模型的性能。CON框架通过生成读取笔记和最终回答,提高了模型对噪声的鲁棒性,并在缺乏信息时能够给出“未知”的回答,增强了模型的适应性和可靠性。 |
|
11-15 | Contrastive Chain-of-Thought Prompting 机构: DAMO Academy, Alibaba Group 本论文提出了对比式链式思维方法,以解决传统链式思维中存在的问题,即缺乏对错误避免的指导以及实现推理效果的不确定性。通过提供有效和无效的推理示例,新方法旨在引导模型减少推理错误并一步步推理,同时该方法提供了自动化构建对比示例的技术以便泛化到各种任务。实验结果证实,该方法能够作为一种通用增强手段,显著提升链式思维的性能。 |
|
11-15 | Memory Augmented Language Models through Mixture of Word Experts 机构: Google Research 本论文提出了一个称为MoWE的新型架构,它通过融合稀疏模型的效率和大型语言模型的性能,出色地处理了性能与计算成本之间的平衡。通过采取创新的设计原则,并且在NLP多种任务中验证了其超越传统模型如T5和MoE的性能,MoWE展示了在学术和实际应用领域的潜力,尤其是在处理知识密集型任务时。 |
|
11-15 | Exponentially Faster Language Modelling 机构: ETH Zurich 本文介绍了UltraFastBERT,这是一个大规模语言模型的变种,它显著减少了在推理时需要使用的神经元数量,并通过使用快速前馈网络来提高计算效率。尽管不具备原生的高效实现,但该模型提供了一个能够显著加速推理过程的CPU代码实现,并在标准下游任务中表现良好。这一工作展示了条件神经执行在语言建模领域巨大的潜力。 |
|
11-15 | ToolTalk: Evaluating Tool-Usage in a Conversational Setting 机构: Microsoft Corporation ToolTalk 是一个致力于评估和提高 LLM 在对话环境中使用多步骤外部工具性能的基准。它通过创新的评估方法和真实场景模拟,挑战和扩展了现有 LLMs 的能力边界,并为未来的研究指出了方向。 |
|
11-14 | Instruction-Following Evaluation for Large Language Models 机构: Google, Yale University 本文提出了一种评估大型语言模型的指令遵循能力的新方法——IFEval,它通过合成逻辑一致的指令和计算指令遵循准确性的新准则来解决评估过程中的挑战。此方法为自动化且无偏见,它通过多步骤过程避免指令间的潜在冲突,并引入了严格和宽松的准确性评价标准来减少误判,同时认为未来可以通过增加多样化和使用多模态指令来改进该方法。 |
|
11-14 | KTRL+F: Knowledge-Augmented In-Document Search 机构: KAIST AI, Samsung Research 文章提出了一个新的问题——KTRL+F,以解决文献搜索中的实时、准确性、引入外部知识的需求。通过分析现有基线,文章发现它们存在局限性,在此基础上提出了Knowledge-Augmented Phrase Retrieval模型。该模型有效地在短语检索中整合了外部知识,通过简单的扩展保持了快速响应,无需额外训练。通过用户研究,证明了该模型能够提升用户搜索体验,减少搜索时间和外部信息检索量。作者鼓励研究社区关注KTRL+F这一独特挑战,提高文献信息访问的效率和效果。 |
|
11-14 | Learning to Filter Context for Retrieval-Augmented Generation 机构: Carnegie Mellon University 本文提出的FILCO方法针对开放领域问答和事实验证等知识密集型任务,通过改善提供给生成模型的上下文质量来解决生成输出时面临的问题。通过结合词汇和信息论方法来识别有用上下文,并训练模型以在测试时过滤检索上下文,很好地解决了以前方法的局限性。实验结果显示,相比传统方法,FILCO在多个知识密集型任务上都取得了显著的性能改进,并且在上下文过滤训练上显示出其有效性。 |
|
11-13 | Can LLMs Patch Security Issues? 机构: School of Computer Science Atlanta 本文介绍了一种新型的代码修正方法FDSS,通过与静态代码分析工具Bandit集成,能显著提高LLMs解决代码中安全问题的能力。 |
|
11-11 | In-context Vectors: Making In Context Learning More Effective and Controllable Through Latent Space Steering 机构: Stanford University 本论文提出的ICV方法为大型语言模型的上下文学习提供了一种新颖且更加有效的替代方案。通过将演示示例的关键信息集成到一个可以控制的向量中,ICV方法提高了任务指导的精确度和效果,并显著优于现有的方法。实验结果表明,ICV在多项任务中展现了较高的性能,包括在不同的LLMs上进行语言模型解毒、风格转换和角色扮演。ICV方法的计算开销低,并且易于控制,有助于提升语言模型在实际应用中的适用性和弹性。 |
|
11-10 | Making LLMs Worth Every Penny: Resource-Limited Text Classification in Banking 机构: Helvia.ai 论文首次将多种在资源受限环境下的方法进行了全面评估,包括成本分析、RAG方法和利用GPT-4的数据增强,为金融行业提供了新的方法用以应对数据和预算限制的挑战。 |
|
11-05 | ChaTA: Towards an Intelligent Question-Answer Teaching Assistant using Open-Source LLMs 机构: Cornell University, Microsoft Research 本文提供了一个使用开源LLMs增强在线教育QA平台的新方案,并对其进行了广泛的评估和测试。通过将RAG、SFT和DPO等技术结合应用,确保了回答质量的显著提升和数据隐私的保护,对于开发智能QA助手具有重要的意义。 |
|
11-01 | LLMRec: Large Language Models with Graph Augmentation for Recommendation 机构: University of Hong Kong, Baidu LLMRec作为开创性的工作,它引入LLMs来增强图推荐系统,成功地解决了交互数据的稀疏性和低质量侧信息的问题,并通过强化用户-项目交互边、项目节点属性以及用户画像等手段提升了推荐系统的性能,确保了推荐质量的同时降低了数据噪声的影响。 |
Date | Paper | Links & Summary |
---|---|---|
10-20 | The History and Risks of Reinforcement Learning and Human Feedback 机构: Berkeley |
|
10-17 | Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection 机构: University of Washington 论文推出了SELF-RAG,这是一种新的框架,通过按需检索和自我反思来增加LLMs的质量和事实性。它通过生成反思标记让LM在推理阶段变得可控,可以满足多样化的任务要求。SELF-RAG在多个任务上显著超越了现有LLMs和RAG模型,并通过定制的解码算法和反思标记,为模型自我评估和定制提供了新的方案。 |
|
10-11 | OpsEval: A Comprehensive Task-Oriented AIOps Benchmark for Large Language Models 机构: Tsinghua University, Chinese Academy of Sciences OpsEval 作为一个全面的 AIOps 任务导向型基准测试,不仅评估了大型语言模型的综合性能、推理和实际应用能力,还可能改变未来大规模质量评估中使用的评价指标。它提供了一个用于持续研究和优化AIOps领域大型语言模型的坚实基础。 |
|
10-10 | GPT-4 as an Agronomist Assistant? Answering Agriculture Exams Using Large Language Models 机构: Microsoft Research 本研究展示了在农业领域使用LLMs进行问题回答的新方法,特别是通过Ensemble Refinement策略,大幅提升了LLMs在多选题目上的表现,并显示出在处理专业领域问题时的广泛潜力。 |
Date | Paper | Links & Summary |
---|---|---|
09-04 | Benchmarking Large Language Models in Retrieval-Augmented Generation 机构: Chinese Information Processing Laboratory 本论文提出了一种新的基于实际新闻文章的检索增强生成基准测试,用以彻底评估大型语言模型在复杂信息环境中的多项能力,并通过实验结果展现了现有LLMs在这些方面的局限性。 |
Date | Paper | Links & Summary |
---|---|---|
08-18 | Learning Representations on Logs for AIOps 机构: IBM Research 本文提出的BERTOps模型通过使用LLMs中的通用表示,并结合专门针对AIOps日志数据的预训练,有效地提高了自动化日志分析任务的性能,并展示了显著的改进。BERTOps不仅优于现有模型,在多个下游任务中也表现出卓越的性能,有助于加速AIOps的实践应用。 |
Date | Paper | Links & Summary |
---|---|---|
07-11 | Towards Understanding In-Context Learning with Contrastive Demonstrations and Saliency Maps 机构: UNIVERSITY OF MARYLAND 本研究使用对比示例和显著图分析法来探究大型语言模型中上下文学习的内在机制,揭示了标签翻转、输入变化、和补充性解释对预测的不同影响,并为实践者提供了如何策划示例的洞见。 |
Date | Paper | Links & Summary |
---|---|---|
05-24 | In-Context Demonstration Selection with Cross Entropy Difference 机构: Microsoft Cognitive Service Research 文章提出了一种新的基于交叉熵差异(CED)的上下文示例选择方法,并提供了理论上的解释,实现了对不同大小和类型的大型语言模型性能的提升。 |
|
05-23 | Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning 机构: Lean Wang, Lei Li, Damai Dai, Deli Chen, Hao Zhou, Fandong Meng, Jie Zhou, Xu Sun 本论文通过信息流视角研究了大型语言模型进行上下文学习(ICL)的内部机制,发现了标签词在信息流中作为锚点的现象,提出了新假设,并通过实验验证了其有效性。此外,使用所得洞见提出了提高ICL性能的方法,为未来相关研究提供了理论基础和实践指导。 |
|
05-19 | How to Prompt LLMs for Text-to-SQL: A Study in Zero-shot, Single-domain, and Cross-domain Settings 机构: The Ohio State University 本研究揭示出有效提示构造的关键数据库知识和最优表述,为LLMs在text-to-SQL任务中的应用提供指导,并指出在跨域设置中对于提示长度存在一个“甜蜜点”。本研究的发现可能对于特定数据库不总是适用,特别是如果该数据库与Spider数据库显著不同。 |
Date | Paper | Links & Summary |
---|---|---|
03-31 | A Survey of Large Language Models 机构: Renmin University of China 总的来说,这篇综述文章介绍了LLMs领域的最新进展,特别是OpenAI推出的ChatGPT和GPT-4模型,并强调了这些产品对人工智能研究的重大影响,特别指出了它们在人机交流、多模态理解和生成、以及人工智能对齐和安全性方面的突破。同时,文章认识到尽管取得了巨大的技术进展,但在安全性、生成质量和多模态性功能方面仍面临挑战,并提出了一系列的技术和策略来缓解这些问题。通过这篇文章,我们可以更好地理解LLMs的发展方向以及对未来人工智能应用和研究的潜在影响。 |
Date | Paper | Links & Summary |
---|---|---|
02-08 | A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity 机构: Centre for Artificial Intelligence Research 文章通过更细粒度的方式评估了ChatGPT的推理能力,并且找到了LLMs中的一个关键问题,即在非文本语义理解方面的不足。这一发现对于未来LLMs的改进和推理能力的研究提供了重要的方向。 |
Date | Paper | Links |
---|---|---|
01-02 | A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models Institution: Islamic University of Technology Bangladesh, University of South Carolina, Stanford University |
|
12-22 | A Survey of Reinforcement Learning from Human Feedback Institution: LMU Munich, Duke Kunshan University |
|
12-18 | Retrieval-Augmented Generation for Large Language Models: A Survey Institution: Shanghai Research Institute for Intelligent Autonomous Systems, Tongji University, Fudan University |
|
12-18 | From Google Gemini to OpenAI Q-Star: A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape Institution: Cyberstronomy Pty Ltd, Academies Australasia Polytechnic, Massey University |
|
12-16 | A Survey on Robotic Manipulation of Deformable Objects: Recent Advances, Open Challenges and New Frontiers Institution: Tongji University, National Natural Science Foundation of China, Shanghai Municipal Science and Technology Major Project |
|
12-09 | NLLG Quarterly arXiv Report 09/23: What are the most influential current AI Papers? Institution: University of Mannheim, University of Bielefeld |
|
12-06 | Efficient Large Language Models: A Survey Institution: The Ohio State University, Google Research, Amazon AWS AI |
|
12-04 | Data Management For Large Language Models: A Survey Institution: Peking University, Huawei Noah’s Ark Lab |
|
12-04 | A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly Institution: Elsevier |
|
11-28 | Graph Prompt Learning: A Comprehensive Survey and Beyond Institution: The Chinese University of Hong Kong, Hong Kong University of Science and Technology, Fudan University |
|
11-21 | Prompting Frameworks for Large Language Models: A Survey Institution: Zhejiang University |
|
10-16 | A Survey of Chain of Thought Reasoning: Advances, Frontiers and Future Institution: Harbin Institute of Technology, Huawei |
|
09-03 | Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models Institution: Tencent AI lab |
|
06-01 | Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural Language Generation Institution: Carnegie Mellon University |
|
03-31 | A Survey of Large Language Models Institution: Renmin University of China |
|
03-15 | GPT-4 Technical Report Institution: OpenAI |
|
02-15 | Augmented Language Models: a Survey Institution: Meta AI |
Conference | Paper | Links |
---|---|---|
EMNLP 2023 | 🏆 Best Long Paper - Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning Institution: Peking University, Tencent |
|
EMNLP 2023 | 🏆 Best Short Paper - Faster Minimum Bayes Risk Decoding with Confidence-based Pruning Institution: University of Cambridge |
|
EMNLP 2023 | 🏆 Best Demo Paper - PaperMage: A Unified Toolkit for Processing, Representing, and Manipulating Visually-Rich Scientific Documents Institution: Allen Institute for AI, Massachusetts Institute of Technology, University of California Berkeley |
|
EMNLP 2023 | 🏆 Best Theme Paper - Personalized Dense Retrieval on Global Index for Voice-enabled Conversational Systems Institution: Amazon Alexa AI |