๐: Paper link ๐ง๐ปโ๐ป: Developer blog & Github link ๐๏ธ: News
1st ~ 3rd week
- ๐ [Cohere] Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model
- 119๊ฐ๊ตญ, 3,000์ฌ ๋ช ์ ์ฐ๊ตฌ์๊ฐ ์ฐธ์ฌํ ๋ค๊ตญ์ด ๋ชจ๋ธ ์ฐ๊ตฌ ํ๋ก์ ํธ์ ๊ฒฐ๊ณผ๋ฌผ. ๋ฐ์ดํฐ์ ๋ ์คํ์์ค๋ก ์ ๊ณต (513M ๊ฐ instruction fine-tuning ๋ฐ์ดํฐ์ )
- ๐ OS-Copilot: Towards Generalist Computer Agents with Self-Improvement
- ๐ง๐ปโ๐ป [OpenAI] Memory and new controls for ChatGPT
- ChatGPT๋ฅผ ์ด์ฉํ ๋ ๊ณผ๊ฑฐ์ ์ฑํ ๋ด์ญ์ ํ์ฌ ์ฑํ ์์์ memory๋ก ํ์ฉํ์ฌ ๊ฐ์ธ ๋ง์ถค์ผ๋ก ๋ง๋ค ์ ์๋ค. ์์ง ์ผ๋ถ ์ ์ ๋์์ผ๋ก ํ ์คํธ ์ค์ธ ๊ธฐ๋ฅ.
- ๐ง๐ปโ๐ป [NVIDIA] Say What? Chat With RTX Brings Custom Chatbot to NVIDIA RTX AI PCs
- ๐๏ธ Nvidia briefly beats Amazon and nears Alphabetโs market cap amid AI hype
- ๐ง๐ปโ๐ป [DeepLearning.AI] Serverless LLM apps with Amazon Bedrock
- ๐ On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks
- ๐ [Google DeepMind] Transformers Can Achieve Length Generalization But Not Robustly
- ํธ๋์คํฌ๋จธ๋ ์ ํ์ ์ผ๋ก ์ ๋ ฅ ๊ธธ์ด๋ฅผ ๋๋ฆด(extrapolate) ์ ์๋ค. (์ฝ 2.5๋ฐฐ). ํ์ง๋ง ์ผ๋ฐํ ๊ฐ๋ฅํ ์ธํ ์ ์๋.
- ๐ [Google DeepMind] Chain-of-Thought Reasoning Without Prompting
- ๋ง ๊ทธ๋๋ก ํ๋กฌํํธ ์์ด CoT Reasoning์ ์ ๋ํ ์ ์๋ค. Decoding process๋ฅผ ์กฐ์ ํจ
- ๐ง๐ปโ๐ป [Google] Our next-generation model: Gemini 1.5
- ๋ฌด๋ ค ์ ๋ ฅ์ 1M ํ ํฐ์ผ๋ก ๋ฐ์ ์ ์๋ค๊ณ ์ฃผ์ฅํ๋ Gemini 1.5 ๋ฒ์ ์ด ๋ฑ์ฅ. ๋ฐฐํฌ ์ค๋น๋ ๋์์ผ๋ ์์ง ๋ฐฐํฌํ์ง ์์ ๊ฒ์ผ๋ก ์๋ ค์ง.
- ๐ง๐ปโ๐ป [OpenAI] Sora: Creating video from text
- OpenAI์์ ๋ง๋ ์ต์ด์ Text-to-Video ๋ชจ๋ธ. ์ ์ด ๋ก ๋ฒ์ด์ง ์ ๋์ ์ฑ๋ฅ์ผ๋ก ์ฌ๋ฌ ์ปค๋ฎค๋ํฐ์์ ํ์ ๋ฅผ ๋ถ๋ฌ์ผ์ผํค๋ ์ค.
- ๐ [Apple] Guiding Instruction-based Image Editing via Multimodal Large Language Models
- ์ด๋ฏธ์ง ํธ์ง์ ์์ด์ ์ ๋ฌธ์ ์ธ ์ง์ ์์ด ํ ์คํธ๋ง์ ์ด์ฉํ๋๋ฐ ๊ทธ ๊ฒฐ๊ณผ๋ฌผ์ด ์์ฃผ ๋ฐ์ด๋จ. ICLRโ24 Spotlight ๋ ผ๋ฌธ.
- ๐ Using Counterfactual Tasks to Evaluate the Generality of Analogical Reasoning in Large Language Models
- ๐๏ธ Slack AI is here, letting you catch up on lengthy threads and unread messages
- ์ฝ์ง ์์ ์ค๋ ๋ ์์ฝ ๊ธฐ๋ฅ. ์์ง UK & US์์๋ง ์ด์ฉ ๊ฐ๋ฅ
- ๐ [Google DeepMind & Research] A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts
- [gist memories]์ ์ํผ์๋๋ฅผ ์ ์ฅํ์ฌ ReadAgent๊ฐ task์ ๊ด๋ จ ์๋ ์ ๋ณด๋ฅผ ๋น ๋ฅด๊ฒ ๊ฐ์ ธ์ค๋๋ก ํ๋ ๋ฐฉ์. ์ฌ๋์ด ๊ธด ๊ธ์ ์ฝ๋ ๋ฐฉ์์์ ์ฐฉ์.
- ๐ DoRA: Weight-Decomposed Low-Rank Adaptation
- LoRA์ FT ์ฌ์ด์ gap์ ์ค์ด๊ธฐ ์ํด pre-trained weight๋ฅผ magnitude์ direction์ผ๋ก ๋ถํดํ๋ ๋ฐฉ๋ฒ์ ๋์
- ๐ Can We Verify Step by Step for Incorrect Answer Detection?
- CoT์ ๊ฐ step์ ๋ํด process discernibility score (PDS)๋ฅผ ๊ตฌํ์ฌ answer-checking baseline์ ์ ๊ณต
- ๐ง๐ปโ๐ป minbpe
- Karpathy๊ฐ OpenAI๋ฅผ ํด์ฌํ๋ฉฐ ๊ณต๊ฐํ BPE ์ฝ๋. ๋๋ง์ ํ ํฌ๋์ด์ ๋ฅผ ๋ง๋ค ์ ์๋ค.
- ๐ง๐ปโ๐ป [Meta] V-JEPA
- ์์ฃผ ์ ์ ์์ labeled data๋ก self-superviseํ ๋ชจ๋ธ๋ก, ์์ฑํ์ด ์๋. ์๋ก์ด ์ปจ์ Joint Embedding Predictive Architecture๋ฅผ ์ ์.
4th week
- ๐ Linear Transformers with Learnable Kernel Functions are Better In-Context Models
- Transformer ๊ธฐ๋ฐ์ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ๋ฅ๊ฐํ๋ค๊ณ ์ ์๋์๋ State Space Models์๊ฒ ๋ถ์กฑํ In-Context Learning ๋ฅ๋ ฅ์ ์ฑ์์ฃผ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ ๋์ . Taylor Expansion์ ํ์ฉ.
- ๐ DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows
- LLM ํ์ต์ ํ์ฉ๋๋ ๋ฐ์ดํฐ์ ๊ด๋ จ ์ํฌ ํ๋ก์ฐ๋ฅผ ์ฌํ ๊ฐ๋ฅํ๋๋ก ๋์์ฃผ๋ ํ๋ ์์ํฌ. ํนํ ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ์ด ํฌํจ๋ ๊ฒ์ด ํน์ง.
- ๐ AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling
- ์์ฑ, ํ ์คํธ, ์ด๋ฏธ์ง, ์์ ์ discrete token์ผ๋ก ์ ๋ ฅ ๋ฐ์ autoregressiveํ๊ฒ ์ฒ๋ฆฌํ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ. ๋ฐ์ดํฐ ์์ค์ ์ ์ฒ๋ฆฌ๋ง ํ์.
- ๐ Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs
- Knowledge Graph๋ฅผ ํ์ฉํ์ฌ ์ฌ๋ฐ๋ฅธ ์ถ๋ก ๊ณผ์ ์ ํตํด ์ต์ข ์ ๋ต์ด ๋์ถ๋์๋์ง ๊ฒ์ฆ
- ๐ Boosting of Thoughts: Trial-and-Error Problem Solving with Large Language Models
- Tree of Thoughts๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก trial-and-error ๊ณผ์ ์ ํฌํจ์์ผ ์ต์ข ๊ฒฐ๊ณผ๋ฅผ ๋์ถํด๋ด๋ ๋ฐฉ์
- ๐๏ธ SoftBankโs Masayoshi Son is reportedly seeking $100B to build a new AI chip venture
- ์ํํธ๋ฑ ํฌ ์์ ์ ํ์ฅ์ด ์๋ก์ด AI ์นฉ ๊ฐ๋ฐ์ ์ํด 133์กฐ ๊ท๋ชจ์ ์๊ธ์ ๋ชจ์ง
- ๐ The FinBen: An Holistic Financial Benchmark for Large Language Models
- ๊ธ์ต ๋๋ฉ์ธ ์คํ ์์ค ๋ฒค์น๋งํฌ
- ๐ง๐ปโ๐ป cosmopedia
- Mistral-8x7B-Instruct-v0.1์ ์ํด ์์ฑ๋ textbooks, blogposts, stories, post, WikiHow articles ํฉ์ฑ ๋ฐ์ดํฐ์ . 30M files, 25B tokens
- ๐ง๐ปโ๐ป [Andrej Karphathy] Letโs build the GPT Tokenizer
- ์ต๊ทผ ๊ณต๊ฐํ GPT Tokenizer์ ๊ด๋ จํด์ ์นดํ์๊ฐ ์ง์ ์ดฌ์ํ 2์๊ฐ ๋ถ๋์ ๊ฐ์ ์์
- ๐ [Microsoft] Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models
- human knowledge์ capability์ ๊ดํ taxonomy๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ๊ณ ์ด๋ฅผ decomposition โ recombineํ์ฌ ๋ค์ํ instruction data๋ฅผ ์์ฑ
- ๐ง๐ปโ๐ป [Google DeepMind] Gemma: Introducing new state-of-the-art open models
- 6T ํ ํฐ์ผ๋ก ํ์ตํ์ฌ ์คํ ์์ค๋ก ๊ณต๊ฐํ 2B, 7B ๋ชจ๋ธ. instruction version๋ ์์.
- ๐ง๐ปโ๐ป [Kaggle] Google โ AI Assistants for Data Tasks with Gemma
- data science concepts, Python programming, Kaggle solution ๋ฑ์ ๋ํด ๋ต๋ณํ ์ ์๋ Gemma ๋ ธํธ๋ถ์ ๋ง๋๋ ๊ฒ์ด goal
- ๐ ARL2: Aligning Retrievers for Black-box Large Language Models via Self-guided Adaptive Relevance Labeling
- (1) LLM ์ค์ค๋ก diverse & high-quality training dataset์ ๊ตฌ์ถ โ (2) relevance supervision์ ๋ฐํ์ผ๋ก retriever๋ฅผ ํ์ต โ (3) augmented evidence๋ฅผ ๋ฐํ์ผ๋ก ๋ต๋ณ์ ์์ฑ
- ๐ Making Reasoning Matter: Measuring and Improving Faithfulness of Chain-of-Thought Reasoning
- small-sized LM์ด ์ฌ๋ฐ๋ฅธ reasoning step์ ์์ฑํ ์ ์๋๋ก ํ๋ ํ๋ ์์ํฌ FRODO๋ฅผ ์ ์. ์ด๋ inference module๊ณผ reasoning module๋ก ๊ตฌ์ฑ๋จ
- ๐ง๐ปโ๐ป Aria Everyday Activities Dataset
- 143์ผ ๊ฐ์ ํ๋์ ๋ด์ 3D ์คํ์์ค ๋ฐ์ดํฐ์
- ๐ [Microsoft Research] LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens
- 256k training length๋ก 1k fine-tuning step ์ ์ฉ ๊ฐ๋ฅ โ 2048k ํ ํฐ๊น์ง ์ปค๋ฒ. ๋ ๊ฐ์ง ํํ์ non-uniformities in positional interpolation & second positional interpolation & 8k ๊ธธ์ด์ short context๋ฅผ ์ปค๋ฒํ ์ ์๋๋ก readjust
- ๐ [Yonsei University] KMMLU: Measuring Massive Multitask Language Understanding in Korean
- 45๊ฐ์ ์ฃผ์ ๋ฅผ ์์ฐ๋ฅด๋ 35,030๊ฐ์ expert-level multiple-choice questions. human performance๋ 62.6%๋ก GPT-4, HyperCLOVA X๋ ๊ฐ๊ฐ 59.95%, 53.40%์ ์ฑ๋ฅ์ ๋ณด์
- ๐ OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement
- Code-Feedback (iterative refinement) ํ ํฌ๋ ์ ์ฉ, 68K multi-turn interactions ๋ฐ์ดํฐ์ , GPT-4 ์ธํฐํ๋ฆฌํฐ์ ๊ฐ์ ๋ชจ๋ธ์ ์คํ ์์ค๋ก ๊ณต๊ฐ
- ๐๏ธ Adobe Acrobat adds generative AI to โeasily chat with documentsโ
- AI Assistant in Acrobat (conversational engine)
- ๐ Hint-before-Solving Prompting: Guiding LLMs to Effectively Utilize Encoded Knowledge
- Reasoning tasks์์ ๋ฌธ์ ๋ฅผ ํ๊ธฐ ์ ์ hint๋ฅผ ์ ๊ณตํ๋ prompting ๋ฐฉ์์ผ๋ก ๋ ์ข์ ํผํฌ๋จผ์ค๋ฅผ ์ด๋์ด๋
- ๐ CriticBench: Benchmarking LLMs for Critique-Correct Reasoning
- LLM์ critique and rectify their reasoning ๋ฅ๋ ฅ์ ํ๊ฐํ ์ ์๋ 15๊ฐ์ ๋ฐ์ดํฐ์ ์ผ๋ก ๊ตฌ์ฑ
- ๐ YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
- ๐ง๐ปโ๐ป [Stability.ai] Stable Diffusion 3
5th week
- ๐ [UC Berkely] LoRA+: Efficient Low Rank Adaptation of Large Models
- ๊ธฐ์กด LoRA๊ฐ suboptimalํ๋ค๋ ๋ฌธ์ ์ ์ ์ง์ ํ๋ฉฐ ์ฑ๋ฅ์ 1~2% ๊ฐ์ ํจ๊ณผ ๋์์ ์๋๋ ์ต๋ 2๋ฐฐ๊น์ง ํฅ์์ํจ adaptation ๊ธฐ๋ฒ์ ์ ์
- ๊ธฐ์กด์ LoRA์์ ์ฌ์ฉํ๋ adapater ํ๋ ฌ A์ B๋ ๊ณ ์ ๋ learning rate๋ก ์ ๋ฐ์ดํธ๋๋ค๋ ์ ์ด ๋ฌธ์ ์ โ ๋ ํ๋ ฌ์ learning rate๋ฅผ ์กฐ์ ํจ์ผ๋ก์จ ํผํฌ๋จผ์ค์ ํ์ต ์๋๋ฅผ ํฅ์์ํฌ ์ ์๋ ์๊ณ ๋ฆฌ์ฆ LoRA+ ๋ฅผ ์ ์
- ๐ OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems
- ์ฌ๋ฆผํผ์๋ ์์ค์ ๊ณผํ ๋ฌธ์ ๋ก ๊ตฌ์ฑ๋ ๋ฒค์น๋งํฌ. 8,952๊ฐ์ ์ํ ๋ฐ ๋ฌผ๋ฆฌ ๋ฌธ์ ๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ ์ ๋ฌธ๊ฐ ์์ค์ step-by-step reasoning annotation์ ํฌํจ
- ๐ Large Language Models for Data Annotation: A Survey
- LLM์ annotation์ ํ์ฉํ ํ์ต ๊ธฐ๋ฒ์ด๋ ๋ฐฉ๋ฒ๋ก ์ ๋ํ ์๋ฒ ์ด ํ์ดํผ
- ๐ Purifying Large Language Models by Ensembling a Small Language Model
- ์ธ์ด ๋ชจ๋ธ ํ์ต์ ์ฌ์ฉ๋ ๋ฏผ๊ฐํ ์ ๋ณด๋ค์ด๋ data poisioning ๊ด๋ จ ์ด์ ๋ฑ์ ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ๋ก ์ผ๋ก SLM ensemeble์ ์ ์
- ๐ Distillation Contrastive Decoding: Improving LLMs Reasoning with Contrastive Decoding and Distillation
- expert & amateur ๋ชจ๋ธ์ ํ์๋ก ํ๋ Contrastive Decoding ๋ฐฉ์์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด dropout๊ณผ quantization์ ์ ์ฉ
- ๐ tinyBenchmarks: evaluating LLMs with fewer examples
- ํ์กดํ๋ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ ์ ์ง๋์น๊ฒ ๋ง์ ์ผ์ด์ค๋ฅผ ํฌํจํ๊ณ ์๋ค. ์ด์ ๋์ผํ ์์ค์ ํ๊ฐ๊ฐ ๊ฐ๋ฅํ ์์์ examples๋ฅผ curate.
- ๐ง๐ปโ๐ป [Google DeepMind] ๐ง Genie: Generative Interactive Environments
- single image prompt๋ก ๊ฒ์ ๋ง๋ค๊ธฐ..
- ๐ง๐ปโ๐ป [Mistral AI] Le Chat Mistral
- Mistral์์ ์ ๊ณตํ๋ ์ฑ๋ด ์๋น์ค
- ๐ง๐ปโ๐ป [Mitral AI] Au Large
- Mistral์์ ์ถ์ํ ์๋ก์ด ํ๋๊ทธ์ญ ๋ชจ๋ธ. GPT-4์ ๋ค๋ฅผ ์๋ ์์ค์ ์ฑ๋ฅ์ด๋ฉฐ API๋ฅผ ํตํด ์ด์ฉ ๊ฐ๋ฅ (Le Plateforme, Azure, Self-deployment)
- ๐ [Microsoft Research] ๐ณ Orca-Math: Unlocking the potential of SLMs in Grade School Math
- Mistral-7B ๋ชจ๋ธ์ ๋ฒ ์ด์ค๋ก ํ์ตํ 7B ๋ชจ๋ธ Orca-Math. 200K ๊ฐ์ ๊ณ ํ์ง ํฉ์ฑ ๋ฐ์ดํฐ, feedback์ ํตํฉ์ํค๋ ํ์ต ๋ฐฉ์ ๋ฑ์ด ํ์ฉ๋จ. Llama-2-70B, ChatGPT-3.5 ๋ฑ์ ๋ฅ๊ฐํ๋ ํผํฌ๋จผ์ค
- ๐ง๐ปโ๐ป [Argilla] OpenHermesPreferences - a dataset of 1M AI preferences for RLAIF and DPO
- Mixtral-8x7B-Instruct-v0.1, Nous-Hermes-2-Yi-34B, PairRM ๋ฑ์ผ๋ก๋ถํฐ ํ๋ํ 1M ๊ฐ์ AI preferences ๋ฐ์ดํฐ์ . DPO or RLAIF ์ ํ์ฉ ๊ฐ๋ฅ
- ๐ LLMs with Chain-of-Thought Are Non-Causal Reasoners
- CoT๋ ์ฌ๋ฐ๋ฅด์ง๋ง ์ ๋ต์ ๋์ถํ์ง ๋ชปํ ์ผ์ด์ค, ๊ทธ๋ฆฌ๊ณ ๊ทธ ๋ฐ๋์ ์ผ์ด์ค๋ค์ ๋ํ ๋ถ์
- ๐ Look Before You Leap: Problem Elaboration Prompting Improves Mathematical Reasoning in Large Language Models
- ๋ณต์กํ ์ถ๋ก ํ์คํฌ์ ๋ํด์ problem context๋ฅผ ๋ถํด ๋ฐ ์ค๋ช ํจ์ผ๋ก์จ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํฅ์ ์ํด (Problem Elaboration Prompting, PEP)
- ๐๏ธ Apple cancels work on electric car, shifts team to generative AI
- ์ ํ์ด ๋์ด์ ์ ๊ธฐ์ฐจ๋ฅผ ๋ง๋ค์ง ์๊ณ ์์ฑํ AI ๊ฐ๋ฐ์ ์ง์คํ๋ค๋ ์์
- ๐ Reasoning in Conversation: Solving Subjective Tasks through Dialogue Simulation for Large Language Models
- LLM์ด ์ฃผ๊ด์ ์ธ ํ์คํฌ๋ฅผ ์ฒ๋ฆฌํ ๋๋ ๊ฐ๊ด์ ์ธ ํ์คํฌ๋ฅผ ์ฒ๋ฆฌํ ๋์ ๋นํด ์ด๋ฑํ ์ฑ๋ฅ์ ๋ณด์. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ผ๋ก CoT์ ๊ฐ์ rationale ์ ์ ๋ฐฉ์ ๋์ dialogue๋ฅผ ๋์ .
- ๐ง๐ปโ๐ป [DeepLearning.AI] Prompt Engineering with Llama 2
- Meta์ Llama 2๋ฅผ ํ์ฉํ์ฌ few-shot prompting๊ณผ ๊ฐ์ prompt engineering์ ๋ํด ํ์ต
1st ~ 2nd week
- ๐ง๐ปโ๐ป OpenAI APIโs change on log probabilities from 5 to 20 return
- ๐๏ธ Robotics startup Figure raises $675 mln from Microsoft, Nvidia, OpenAI
- IT ๊ณต๋ฃก ๊ธฐ์ ๋ค์ด ๋ก๋ด ๋ถ์ผ์๋ ์ ๊ทน์ ์ผ๋ก ํฌ์ํ๊ณ ์๋ค๋ ์์
- ๐ [IIT] How to think step-by-step: A mechanistic understanding of chain-of-thought reasoning
- CoT์ ๋ํด layer๋ณ๋ก ๋ถ์. token representation์ ํ์ธํ ๊ฒฐ๊ณผ ์ค๊ฐ ์ด์ ์ layer์์๋ ์ฌ์ ํ์ต๋ฐ์ดํฐ์ ๋ํด ํธํฅ๋์ด ์์ผ๋ ์ค๊ฐ ์ดํ๋ถํฐ๋ ๊ธ๊ฒฉํ in-context์ ์ง์ค
- ๐ [Rice University] Learning to Compress Prompt in Natural Language Formats
- API์ ๋ํด์๋ soft prompt compression์ ์ ์ฉํ ์ ์๊ธฐ ๋๋ฌธ์ ์์ฐ์ด ํํ๋ก compressionํ๋ ๋ฐฉ๋ฒ์ ์ ์. ์ฌ๊ธฐ์ ์ฌ์ฉ๋๋ ๊ฒ์ด Natrual Language Prompt Encapsulation (Nano-Capsulator) framework.
- ๐ [Microsoft] ResLoRA: Identity Residual Mapping in Low-Rank Adaption
- original model์ long calculation path๋ฅผ ๋์ผํ๊ฒ ๊ฑฐ์ณ์ผ ํ๋ LoRA์ ํ๊ณ๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ํ์ต ๋์์ residual path๋ฅผ ๋ํ๊ณ , ์ถ๋ก ๋์์๋ ์ด๋ฌํ extra path๋ฅผ ์ ๊ฑฐํ๊ธฐ ์ํ merging approach๋ฅผ ์ฌ์ฉ โ LoRA์ ๋๋น ํ์ต ๋ฐ ์ถ๋ก cost๋ ๋ ๋ฎ์ผ๋ฉด์๋ performance๋ ๋ ์ข์
- ๐ Datasets for Large Language Models: A Comprehensive Survey
- 8๊ฐ ์ธ์ด, 32๊ฐ ๋๋ฉ์ธ, 444๊ฐ ๋ฐ์ดํฐ์ ์ ๋ํ ์๋ฒ ์ด ๋ ผ๋ฌธ. ์ด 774.5TB์ ๋ฌํ๋ ์ฌ์ ํ์ต corpora๋ฅผ ๋ถ๋ฅ
- ๐ [Apple] LUCID: LLM-Generated Utterances for Complex and Interesting Dialogues
- 4,277๊ฐ์ ๋ฌํ๋ multi-domain, multi-intent conversation๋ฅผ ์์ฑํ๊ธฐ ์ํด LUCID๋ฅผ ์ฌ์ฉ (LLM-generated Utterances for Complex and Interesting Dialogues)
- ๐ An Empirical Categorization of Prompting Techniques for Large Language Models: A Practitioner's Guide
- 7๊ฐ์ ์นดํ ๊ณ ๋ฆฌ๋ก ๊ตฌ๋ถํ์ฌ academicํ๋ฉด์๋ pragmaticํ ๋ด์ฉ์ prompting ํ ํฌ๋์ ์ ๋ฆฌํ ์๋ฒ ์ด ํ์ดํผ
- ๐ [Meta] Learning and Leveraging World Models in Visual Representation Learning
- Joint-Embedding Predictive Architecture (JEPA)์ conditioning, prediction difficulty, capacity ๊ฐ๋ ์ ๋ํ Image Word Models๋ฅผ ์ ์. ์ ๋ฅด์ฟค์ด ์ฐ๊ตฌ์ ์ฐธ์ฌ
- ๐ง๐ปโ๐ป [Anthropic] Introducing the next generation of Claude
- Haiku, Sonnet, Opus๋ก ๊ตฌ์ฑ๋ Claude 3 family๋ฅผ ๊ณต๊ฐ. 159๊ฐ ๊ตญ๊ฐ์์ API ์ด์ฉ ๊ฐ๋ฅ. (์์ ๋ค์ ์ฃผ์ฅ์ผ๋ก๋) ์ฌ๋ฌ ๋ฒค์น๋งํฌ์์ GPT-4๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ. Vision ๊ด๋ จ ๋ฅ๋ ฅ๋ ๋ฐ์ด๋ ํธ. ๋ถํ์ํ ๊ฑฐ์ ๋ฉ์ธ์ง ๋ฐํ์จ๋ ํฌ๊ฒ ๋จ์ด์ง (์ด์ ๋ฒ์ ์์์ ์ด์). 200K์ window size๋ก ์ถ์๋์์ผ๋ ํน์ ๊ณ ๊ฐ๋ค์ ํํด 1M ํ ํฐ๋ ์ฒ๋ฆฌ ๊ฐ๋ฅํ๊ฒ๋ ํ ์ ์์์ ์ธ๊ธ.
- ๐ Distilling Text Style Transfer With Self-Explanation From LLMs
- test style transfer ๋ถ์ผ์์ ๋ถ์กฑํ parallel ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถ. ์ฌ๊ธฐ์ LLM distillation์ ํ์ฉ
- ๐ [Stanford, Georgia Tech, Microsoft, Google DeepMind] Design2Code: How Far Are We From Automating Front-End Engineering?
- ์ค์ 484๊ฐ์ ์นํ์ด์ง๋ฅผ ํ ์คํฌ ์ผ์ด์ค๋ก ๋๊ณ Design2Code task๋ฅผ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ถ. Gemini Pro Vision์ ๋ฒ๊ธ๊ฐ๋ Design2Code-18B ๋ชจ๋ธ์ fine-tuning
- ๐ PHAnToM: Personality Has An Effect on Theory-of-Mind Reasoning in Large Language Models
- Theory of Mind (ToM) Reasoning์ ์ด๋์ด๋ด๊ธฐ ์ํด ํ์ํ personality๊ฐ ์ด๋ค ๊ฒ์ธ์ง์ ๋ํ ์ฐ๊ตฌ. ํน์ personality๊ฐ ToM ๊ด๋ จ ํ์คํฌ์ ์ฑ๋ฅ์ ๋์ด๋ ๋ฐ ๋์์ด ๋๋ ๊ฒ์ ํ์ธ.
- ๐ง๐ปโ๐ป 2024 ์คํ์์ค ์ปจํธ๋ฆฌ๋ทฐ์
์์นด๋ฐ๋ฏธ [์ฒดํํ] ๋ฉํฐ ๋ชจ์ง
- โGit ํ์ฉ ๋ฐ Gemma๋ฅผ ์ด์ฉํ LLM ์ฑ ๊ฐ๋ฐโ
- ๐ง๐ปโ๐ป Elon Musk and OpenAIโs fiery battle
- OpenAIโs blog posting about Elon Muskโs accusation
- ๐ง๐ปโ๐ป Claude 3โs system prompt (X link)
- ๐ Benchmarking Hallucination in Large Language Models based on Unanswerable Math Word Problem
- ๊ธฐ์กด Math Word Problem ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก unanswerable problems๋ฅผ ํฌํจํ๋ ์๋ก์ด ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ถ. ๋๋ต ๊ฐ๋ฅํ ๋ฌธ์ ์ ๊ทธ๋ ์ง ์์ ๋ฌธ์ ๊ฐ 2,600๊ฐ์ฉ ๊ตฌ์ฑ. InstructGPT, Claude, LLaMA ์๋ฆฌ์ฆ๋ก ๊ฒ์ฆ.
- ๐ ShortGPT: Layers in Large Language Models are More Redundant Than You Expect
- LLM์ ํน์ layer๋ค์ด ๋์ ์ ์ฌ๋๋ฅผ ๊ฐ์ง๋ค๋ ๊ฒ์ ๋ถํ์ํ layer๊ฐ ํฌํจ๋์ด ์๋ค๋ ๋ป โ Block Influence (BI)๋ผ๋ metric์ ์ ์ํ์ฌ ๊ฐ layer์ ์ค์๋๋ฅผ ์ธก์ โ pruning์์ SoTA๋ฅผ ๋ฌ์ฑํ ShortGPT๋ฅผ ๊ฐ๋ฐ
- ๐ GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection
- full parameter learning์ ์ฌ์ฉํ์ง๋ง LoRA๋ณด๋ค๋ memory-efficientํ ํ์ต ์ ๋ต์ธ Graident Low-Rank Projection (GaLore)๋ฅผ ์ ์. 7B ๋ชจ๋ธ์ 24GB ๋ฉ๋ชจ๋ฆฌ GPU ํ ๋๋ก ๋ณ๋ ฌ ์ฒ๋ฆฌ ์์ด pre-training ๊ฐ๋ฅํ๋๋ก ๋ง๋๋ ํ ํฌ๋.
- ๐ SaulLM-7B: A pioneering Large Language Model for Law
- Mistral 7B ๋ชจ๋ธ์ ๋ฒ ์ด์ค๋ก ๋ฒ๋ฅ ๋ฐ์ดํฐ๋ก continual pre-training & instruction fine-tuningํ ๋ชจ๋ธ SaulLM-7B ๋ชจ๋ธ์ ๊ณต๊ฐ. 30B ํ ํฐ์ ๋ฒ๋ฅ ๋ฐ์ดํฐ๋ก ํ์ตํ๋ค๊ณ ํจ.
- ๐๏ธ Salesforce announces new AI tools for doctors
- ์ธ์ผ์ฆํฌ์ค์์ ์๋ฃ ๋ถ์ผ์ ํ์ ์ ์ ๋ฌด ๋ถ๋ด์ ์ํํด์ค ์ ์๋ Einstein Copilot์ ์ถ์
- ๐ Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference
- LLM ์ฑ๋ฅ ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋ด๋ ๋ฆฌ๋๋ณด๋๋ก ๋๋ฆฌ ์ฌ์ฉ๋๋ ์ฑ๋ด ์๋ ๋์ ๋ํ ์ค๋ช ์ด ๋ด๊ธด ๋ ผ๋ฌธ. ์ฌ์ฉ๋ ๋ฉํธ๋ฆญ์ด๋ ์ง๊ธ๊น์ง์ ํ๊ฐ ๊ฒฐ๊ณผ์ ๋ํ ๋ถ์์ ํฌํจํ๊ณ ์์
- ๐ Yi: Open Foundation Models by 01.AI
- 01.AI์์ ์ถ์ํ LLM, Yi. 6B, 34B ์ฌ์ด์ฆ์ ์ฌ์ ํ์ต ๋ชจ๋ธ์ด๋ฉฐ 200K์ context length, depth-upscaled model, vision-language model ์ด๋ผ๋ ํน์ง์ ์ง๋
- ๐ [Meta] Teaching Large Language Models to Reason with Reinforcement Learning
- feedback์ผ๋ก๋ถํฐ ๋ฐฐ์ฐ๋ ์ฌ๋ฌ ์๊ณ ๋ฆฌ์ฆ (Expert Iteration, Proximal Policy Optimization, Return-Conditioned RL)์ ๋ํ ๋น๊ต ์ฐ๊ตฌ
- ๐ง๐ปโ๐ป ๐ฆ WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
- ๋ณด๋ค ํ์ค์ ์ด๊ณ ๋์ด๋๊ฐ ๋์, real-world์์ ๋์ฌ ๋ฒํ ๊ฒ๋ค๋ก Benchmark๋ฅผ ๊ตฌ์ฑ. ๊นํ๋ธ, ๋ฆฌ๋๋ณด๋, ํ๊น ํ์ด์ค
- ๐ง๐ปโ๐ป mamba_peft.py on HuggingFace
- mamba๋ฅผ ์ด์ transformers์์ ์ด์ฉํ ์ ์์. ์ ๋งํฌ๋ PEFT example ์ฝ๋.
- ๐ง๐ปโ๐ป Foundation Model Development Cheatsheet
- ๊ฐ์ข ๋ชจ๋ธ ๋ฐ ๋ฐ์ดํฐ์ ์ ์นดํ ๊ณ ๋ฆฌ์ ๋ชจ๋ฌ๋ฆฌํฐ๋ก ๊ตฌ๋ถํ์ฌ ํ ๋ฒ์ ํ์ธํ ์ ์๋ ์ฌ์ดํธ
- ๐ Learning to Generate Instruction Tuning Datasets for Zero-Shot Task Adaptation
- 1.65M ๊ฐ์ examples๋ก ํ์ต๋ ์คํ์์ค ๋ชจ๋ธ for conditional task generation. unannotated text๋ฅผ instruction tuning์ ์ํ task-specific training datasets์ผ๋ก ๋ณํ
3rd week
- ๐ง๐ปโ๐ป [Gen AI Korea 2024] ์์ฑํ AI ๋ ๋ํ ์ฑ๋ฆฐ์ง
- 4์ 11์ผ (๋ชฉ) ~ 4์ 12์ผ (๊ธ), ์ฝ์์ค์์ ์งํ๋๋ ์ฑ๋ฆฐ์ง ๋ฐ ์ปจํผ๋ฐ์ค. Cohere ๋ํ, Kakao ์ด์ฌ, ๋ค์ด๋ฒ AI ์์ฅ ๋ฑ ์ ๋ช ์ธ์ฌ๋ค์ด ์ฐธ์ฌ
- ๐ [Anthropic] The Claude 3 Model Family: Opus, Sonnet, Haiku
- Anthropic์์ ์ต๊ทผ ์ถ์ํ Claude 3 ๋ชจ๋ธ ํจ๋ฐ๋ฆฌ์ ๋ํ model card. ์ฃผ๋ก ๋ฒค์น๋งํฌ ์ฑ๋ฅ ํ๊ฐ ๊ฒฐ๊ณผ๊ฐ ์ ์๋์ด ์๋ ๋ฏํจ
- ๐ [Microsoft] Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
- OpenAI์์ ์ถ์ํ text-to-video ์์ฑ AI ๋ชจ๋ธ, Sora์ ๋ํ comprehensive review paper
- ๐ [Google Research] Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language Model Critique in Text Generation
- ๊ธฐ์กด์๋ ์ ์ฒด output์ ๋ํ single reward๋ฅผ ๋ฐํํ๊ธฐ ๋๋ฌธ์ reward signal ์์ฒด๊ฐ spareํ๋ค๋ ๋ฌธ์ ๊ฐ ์์์ โ LLM์ ๋นํ(critique) ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ RL ํ์ต ๊ณผ์ ์์ ์ฌ์ฉ๋ ์ ์๋ intermediate-step rewards๋ฅผ ์์ฑ
- ๐ Birbal: An efficient 7B instruct-model fine-tuned with curated datasets
- NeurIPS workshop์ผ๋ก ์งํ๋ LLM Efficiency Challenge. RTX 4090 ๋๋ A00 with 40GB ํ ๋๋ก 24์๊ฐ ๋ด์ ํ์ตํ๋ ๊ฒ์ ๋ชฉํ๋ก ํจ. ๋ณธ ๋ชจ๋ธ์ Mistral-7B๋ฅผ ๋ฒ ์ด์ค๋ก ์ผ๊ณ ์์ผ๋ฉฐ RTX 4090์ผ๋ก 16์๊ฐ ๋์ ํ์ตํจ. ์ด๋ ๋ค์ํ ํ์คํฌ๋ฅผ ์์ฐ๋ฅด๋ ๊ณ ํ์ง instruction dataset์์ ๊ธฐ์ธํจ
- ๐ [Google DeepMind] Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context
- context์ ๊ธธ์ด๊ฐ ๊ธด ์ํฉ์์, Gemini 1.5 ๋ชจ๋ธ ํจ๋ฐ๋ฆฌ๊ฐ ์ด๋ค ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋์ง ๋น๊ต ๋ถ์ํ ๊ตฌ๊ธ์ technical report. MMLU์์ ์ฌ๋์ ์ต๊ณ ์ ์๋ฅผ ๋์ ์ต์ด์ ๋ชจ๋ธ์ด๋ผ๊ณ ์ฃผ์ฅํ์ง๋ง ๋์ค์ ํ๊ฐ๋ ์์ดํจ.
- ๐ MuseGraph: Graph-oriented Instruction Tuning of Large Language Models for Generic Graph Mining
- task-specific Chain-of-Thought-based insturction generation mechanism
- ๐ Harnessing Multi-Role Capabilities of Large Language Models for Open-Domain Question Answering
- ODQA ํ์คํฌ์์ โretrieve-then-readโ์ โgenerate-then-readโ ํจ๋ฌ๋ค์์ ํฉ์น ๋ฐฉ์. query expansion, document selection, answer generation์ ์ธ ๊ฐ์ง ์คํ ์ผ๋ก ๊ตฌ์ฑ๋จ.
- ๐ง๐ปโ๐ป [Cohere] Command-R: Retrieval Augmented Generation at Production Scale
- long context๋ฅผ ํ์ฉํ๋ RAG๋ ์ธ๋ถ API, ๋๋ tool ์ฌ์ฉ์ ์ ํฉํ ์์ฑํ ๋ชจ๋ธ Command-R์ ๊ณต๊ฐ. Embed & Rerank ๋ชจ๋ธ๊ณผ ํจ๊ป ์ฌ์ฉํ ์ ์๋๋ก ์ค๊ณ๋จ. Cohere API๋ฅผ ํตํด ์ด์ฉ ๊ฐ๋ฅ.
- ๐ [MIT] RA-ISF: Learning to Answer and Understand from Retrieval Augmentation via Iterative Self-Feedback
- query์ ๋ฌด๊ดํ ๋ฌธ์๊ฐ retrieve ๋๋ ๊ฒ์ ๋ฐฉ์งํ๊ธฐ ์ํด Iterative Self-Feedback ๋ฐฉ์์ ์ ์
- ๐ง๐ปโ๐ป [OpenAI] transfromer-debugger (TBD)
- Small Language Models์ ํน์ ํ๋์ ์กฐ์ฌํ๊ธฐ ์ํ ๋ชฉ์ ์ผ๋ก ์ ์๋ ๋๋ฒ๊น ํด (๊นํ๋ธ ๋ ํฌ ๋งํฌ)
- ๐ [Google DeepMind, OpenAI] Stealing Part of a Production Language Model
- proprietary ๋ชจ๋ธ์ embedding projector layer๋ฅผ hacking์ผ๋ก ์ป์ ์ ์๋ค๋ ํ์ ์ ๋ ผ๋ฌธ
- ๐ [Meta] Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM
- seed ๋ชจ๋ธ๋ก๋ถํฐ ๊ฐ ๋ฐ์ดํฐ์ ๋ฐ๋ผ ๋ค๋ฅธ expert LLM์ ํ์ต์ํค๊ณ , router๋ฅผ ํตํด ์ถ๊ฐ์ ์ธ FeedForward layer๋ฅผ ํ์ต์ํค๋ ๋ฐฉ์์ธ Branch-Train-Mix๋ฅผ ์ ์. MoE finetuning์ด ํ์ํ์ง ์์ Branch-Train-Merge ๋ฐฉ์์๋ ์ ์ฉ ๊ฐ๋ฅ.
- ๐ง๐ปโ๐ป [DeepLearning.AI] Knowledge Graph for RAG
- Neo4j์์ collaboration. RAG ๋ด์์ knowledge graph๋ฅผ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ฐ๋ ๊ณผ์ (graph store)
- ๐ง๐ปโ๐ป [Google DeepMind] A generalist AI agent for 3D virtual environments
- ๋ค์ํ video-game ํ๊ฒฝ์์ natural language instruction์ ๋ฐ๋ฅผ ์ ์๋ Multiworld Agent๋ฅผ ๊ฐ๋ฐ
- ๐ง๐ปโ๐ป [Microsoft Research] Rethinking Generative Large Language Model Evaluation for Semantic Comprehension
- ์ฌ๋ฌ ์ ํ์ง ์ค์์ ํ๋๋ฅผ ๊ณ ๋ฅด๋ Multiple Choice Question Answering (MCQA) ๋์ 24๊ฐ์ ๋ชจ๋ธ์ด ์ฐธ์ฌํ๋ RWQ-Elo ranking system์ ์ ์
- ๐ง๐ปโ๐ป [OpenAI] Figure Status Update - OpenAI Speech-to-Speech Reasoning
- OpenAI์์ Figure๋ผ๋ ๋ก๋ด ํ์ฌ์ ์ ํ์ ๊ฒฐํฉํ์ฌ ์ธ์ง ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ์ด ์์ฃผ ๋ฐ์ด๋ ๋ก๋ด์ ๊ฐ๋ฐ
- ๐ [Tancent] Large Language Models are Contrastive Reasoners
- โLetโs give a correct and a wrong answerโ, prompt๋ฅผ ์์ ๋ถ์ฌ์ค. ์ด๋ก์จ LLM์ด ํ๋ฅญํ contrastive reasoner๋ผ๋ ๊ฒ์ ์ ์ฆํ ์ฐ๊ตฌ.
- ๐ Logits of API-Protected LLMs Leak Proprietary Information
- proprietary ๋ชจ๋ธ๋ค์ hidden size, full-vocabulary output ๋ฑ์ ๊ดํ ์ ๋ณด๋ฅผ ์ ์ API ๋น์ฉ์ผ๋ก hackingํ ์ ์๋ค๋ ๋ ผ๋ฌธ. gpt-3.5-turbo์ ๊ฒฝ์ฐ $1000 ์ดํ๊ฐ ํ์ํ๋ค๊ณ ์ฃผ์ฅ.
- ๐ [Apple] MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
- Multimodal Large Language Models์ ๊ดํ ์ฌ์ ํ์ต์ฉ ๋ฐ์ดํฐ ์ ์ , ํ์ต ๊ธฐ๋ฒ, ์ด๋ฏธ์ง ์ธ์ฝ๋ ๋ฑ์ ๋ํ ์ฐ๊ตฌ. dense ๋ชจ๋ธ๊ณผ mixture-of-experts (MoE) ๋ฐฉ์์ ๊ฒฐํฉํ MM1 ๋ชจ๋ธ ํจ๋ฐ๋ฆฌ๋ฅผ ๊ฐ๋ฐ
- ๐๏ธ Ex-Activision CEO Bobby Kotick pitched buying TikTok to potential partners, including Sam Altman: report
- ๋ฏธ๊ตญ์์๋ ํฑํก์ ๊ท์ ํ๋ ์์ค์ Activision์ ์ CEO๊ฐ ํฑํก์ ์ธ์ํ๊ณ OpenAI์ ํ๋ ฅํ ๊ณํ์ ๊ฐ๊ณ ์์์ ๊ดํ ๋ณด๋
- ๐ง๐ปโ๐ป [xAI] Open Release of Grok-1
- ์ผ๋ก ๋จธ์คํฌ์ AI ํ์ฌ xAI์์ LLM Grok-1 (314B)์ ์คํ ์์ค๋ก ๊ณต๊ฐ. ์ฝ์์ ์งํค๋ ์๋จ์.. OpenAI์์ ๊ด๊ณ์ ๊ธฐ์ธํ ํ์๊ฐ๊ธฐ๋ ํ๊ณ .. (๊นํ๋ธ ๋งํฌ)
- ๐ง๐ปโ๐ป [Cohere] C4AI Command-R (HuggingFace)
- Cohere์์ ๊ณต๊ฐํ RAG์ ํนํ๋ LLM. ์ง๋ ๋ฒ API๋ก ๊ณต๊ฐํ ์ดํ ๋ชจ๋ธ๋ ํ๊น ํ์ด์ค์ ๊ณต๊ฐ.
- ๐ [Stanford University] Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
- ์ธ์ด ๋ชจ๋ธ์ด reasoning์ ์ํํ๋ ๊ณผ์ ์์, ๋งค ์คํ ๋ง๋ค โthoughtโ๋ฅผ ๋ณ๋ ฌ์ ์ผ๋ก ์์ฑํ์ฌ ๋ ์ข์ ์ถ๋ก ์ด ๊ฐ๋ฅํ๋๋ก ์ ๋ํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์
- ๐ [Peking University] RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation
- CoT ๋ฌธ์ฅ์ ๊ฐ ์์์ ๊ด๋ จ๋ content๋ฅผ ์ฐพ์์ ์ด๋ฅผ ๋ฐํ์ผ๋ก ํ์ํ ๊ฒฝ์ฐ revise. revised ๋ฌธ์ฅ๋ค๋ก CoT๋ฅผ ์ฌ๊ตฌ์ฑ
4th week
- ๐๏ธ [Nvidia] Nvidia reveals Blackwell B200 GPU, the โworldโs most powerful chipโ for AI
- H100์ ๋ค๋ฅผ ์๋ ํ๋๊ทธ์ญ GPU, B200 ๊ณต๊ฐ
- ๐ง๐ปโ๐ป Open-Sora
- OpenAI์ Sora์ ์๊ฐ์ ๋ฐ์ ๋ง๋ ๊ณ ํ์ง video ์์ฑ ๋ชจ๋ธ. ์คํ์์ค๋ก ๊ณต๊ฐ.
- ๐ [CMU-LTI] Enhancing LLM Factual Accuracy with RAG to Counter Hallucinations: A Case Study on Domain-Specific Queries in Private Knowledge-Bases
- upstream datasets processing๊ณผ downstrea performance evaluation์ ํตํฉํ ์์คํ ์ ๊ตฌ์ถ. ๋ฐ์ดํฐ ํฌ๋กค๋ง๋ถํฐ QA ์์คํ ์ ๋ฐ์ ๋ํ ๋ด์ฉ์ ๋ค๋ฃจ๊ณ ์์
- ๐ [UC Berkeley] RAFT: Adapting Language Model to Domain Specific RAG
- Test ๋จ๊ณ์์ ๋ชจ๋ธ์ด ์ธ๋ถ ๋ฌธ์๋ฅผ ํ์ฉํ๋ ๋ฐฉ์์ ๋ํด ํ์ตํ๋๋ก ํจ. ์ด๋ golden only ๋ฐฉ์์ด ์๋ sampled negative documents๋ ํ์ฉ.
- ๐ [Google Research] PERL: Parameter Efficient Reinforcement Learning from Human Feedback
- RLHF์ LoRA๋ฅผ ํ์ฉํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์. ์ ํํ๋ reward model ํ์ต์ LoRA๊ฐ ํ์ฉ๋จ
- ๐ [EACL 2024] Aligning Large and Small Language Models via Chain-of-Thought Reasoning
- SLM์ด ํน์ ์์์ ์ ๋ฐ๋ฅผ ์ ์๋๋ก Instruction-tuning-CoT Method๋ฅผ ์ ์
- ๐ RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners
- LLM์ด reasoning ๊ณผ์ ์ค์ ๋ง๋๋ ์ค์๋ฅผ ์ค์ด๊ธฐ ์ํ ๋ฐฉ์์ผ๋ก LLM์ด ์ค์ค๋ก ์์ ์ response์ ๋ํด ranking ํ๋ ๋ฐฉ์์ ์ ์. ์ถ๊ฐ์ ์ธ ๋ฆฌ์์ค ์ฌ์ฉ์ด ๋ฐ์ํ์ง ์๋๋ค๋ ์ ์ด ํน์ง.
- ๐ [KAIST] SuRe: Summarizing Retrievals using Answer Candidates for Open-domain QA of LLMs
- ODQA ํ์คํฌ์์ retrieved passage๋ฅผ ๋ฐํ์ผ๋ก โ๋ต๋ณ ํ๋ณด ์์ฑ - ์กฐ๊ฑด๋ถ ์์ฝ - ๊ฒ์ฆโ ๊ณผ์ฆ์ ๊ฑฐ์ณ ๋ฒค์น๋งํฌ ์ฑ๋ฅ์ ํฌ๊ฒ ๋์ด์ฌ๋ฆฐ LK Lab์ ์ฐ๊ตฌ
- ๐ [Microsoft Corporation] LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression
- LLM์ผ๋ก๋ถํฐ data distillation๋ฅผ ํตํด ์์ถ๋ ํ ์คํธ๋ฅผ ํ๋ํ๊ณ ์ด์ ๋ํด annotation์ ์ํํ ๋ค ํํฐ๋ง์ ๊ฑฐ์ณ ๋์จ ๊ฒฐ๊ณผ๋ฅผ ์์ถํ์ฌ ๋ชจ๋ธ์ ํ๋กฌํํธ๋ฅผ ์ ๋ฌ
- ๐ง๐ปโ๐ป [Google DeepMind] TacticAI: an AI assistant for football tactics
- ๋ฆฌ๋ฒํ์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด์ ์ฝ๋ํฅ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ๋ AI ๋ชจ๋ธ์ ๊ฐ๋ฐ. ์ด์ ์๋ ๋ฆฌ๋ฒํ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ๊ฒฐ๊ณผ๊ฐ ์์๋๋ฐ ํ์์์ผ๋ก ๋์จ ๋ฏํจ.
- ๐ [Google DeepMind] Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models (ICLRโ 2024)
- LLM์ด ์ฃผ์ด์ง ๋ฌธ์ ๋ก๋ถํฐ high-level concept๊ณผ ์์น๋ค์ ์ถ์ถํด๋ด๊ณ ์ด๋ฅผ ๋ฐํ์ผ๋ก reasoning ํ๋ Step-Back Prompting์ ์ ์. ๊ฐ๋จํ ๋งํ์๋ฉด Abstraction โ Reasoning ๊ณผ์ ์ ๊ฑฐ์นจ.
- ๐ [AI2] RewardBench: Evaluating Reward Models for Language Modeling
- RLHF์ ๊ฐ์ฅ ์ค์ํ ์์ ์ค ํ๋์ธ Reward Model์ด reward๋ฅผ ์ ๋๋ก ๋ฐํํ๊ณ ์๋์ง ํ์ธํ ์ ์๋ ๋ฒค์น๋งํฌ๋ฅผ ๊ฐ๋ฐํ์ฌ ๊ณต๊ฐ. prompt-win-lose trios ๋ฐ์ดํฐ์ .
- ๐ LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models
- ๋ค์ํ Efficient fine-tuning ๊ธฐ๋ฒ๋ค์ ๋ด์ฅ web UI LlamaBoard๋ฅผ ํตํด ์ฝ๋ฉํ ํ์ ์์ด ๊ฐ๋จํ๊ณ ํธ๋ฆฌํ๊ฒ ์ ์ฉํ ์ ์๋ ํ๋ ์์ํฌ๋ฅผ ์๊ฐ
- ๐ MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?
- ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ด ๊ทธ๋ฆผ์ ์ ํํ ์ดํดํ๊ณ ๋ฌธ์ ๋ฅผ ํธ๋์ง ํ์ธํ๊ธฐ ์ํด ์ฌ๋์ด ์ง์ annotationํ ํ ์คํธ ๋ฐ์ดํฐ 15K ๊ฐ๋ฅผ ํฌํจํ๋ MathVerse ๋ฒค์น๋งํฌ๋ฅผ ๊ณต๊ฐ
- ๐ [KAIST] Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity
- classifier (์ฌ์ด์ฆ๊ฐ ์์ LM)์ ํตํด query๋ฅผ straightforward/simple/complex query๋ก ๊ตฌ๋ถํ๊ณ ๊ฐ๊ฐ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก retrieval์ ์ํ
- ๐ [Sakana AI] Evolutionary Optimization of Model Merging Recipes
- ๋ชจ๋ธ merge์ ๊ด๋ จํ์ฌ ์ ํ๋ ๋ชจ๋ธ๋ค์ layer๋ฅผ ์๋์ ์ผ๋ก ๋ณํฉํ๋ ๋ฐฉ๋ฒ์ ์ ์ํจ.
5th week
- ๐ Instructing Large Language Models to Identify and Ignore Irrelevant Conditions
- Math Word Problem (MWP)๋ฅผ ํ ๋ ์์ฃผ ์ฌ์ฉ๋๋ CoT prompting์ ๋ํ ์ฐ๊ตฌ. I3C๋ผ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋๋ฐ, LLM์ผ๋ก ํ์ฌ๊ธ irrelevant conditions๋ฅผ ๋ฌด์ํ๋๋ก instructํ๋ ๋ฐฉ์์. ์ด๊ฒ์ด RAG์๋ ์ ์ฉ๋ ์ ์์ง ์์๊น ํ๋ ์๊ฐ์ด ๋ฆ.
- ๐ [Microsoft Research, CMU] Can large language models explore in-context?
- GPT-3.5, GPT-4, Llama2๋ฅผ ๋์์ผ๋ก ๋ค์ํ ํ๋กฌํํธ๋ฅผ ๋์์ธํด์ ์คํ์ ์ํ. ๊ฒฐ๊ตญ ์ง๊ธ๊น์ง์ ์ธ์ด ๋ชจ๋ธ๋ค์ ์๋นํ interventions(์๋ฅผ ๋ค์ด fine-tuning) ์์ด๋ robustํ ํ๋ ์์์ ๋ณด์ผ ์ ์๋ค๋ ๊ฒฐ๋ก ์ ๋ด๋ฆผ
- ๐ง๐ปโ๐ป [Lightning AI] lightning-thunder
- ํ์ดํ ์น๋ฅผ ํ์ฉํ LLM ํ์ต ์๋๋ฅผ 40% ๊ฐ๋ ํฅ์์์ผ์ฃผ๋ compiler๋ฅผ ๊ณต๊ฐ. single accelerator & multi-GPU ํ๊ฒฝ์์ ๋ชจ๋ ํ์ฉ ๊ฐ๋ฅ.
- ๐ [Johns Hopkins, Yale, AI2] FOLLOWIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions
- Information Retrieval (IR) ์ LLM์ ์ฌ์ฉํ๋๋ผ๋ ์ง๊ธ๊น์ง๋ ๋จ์ํ query๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ๋ฟ์ด์์ โ instruction following retrieval model, FollowIR์ ์ ์
- ๐ [UC Berkeley] LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement
- baseline student LLM์ ์ด๊ธฐ ๋ฐ์ดํฐ์ ์ ๋ํด ํ์ต โ ํ์ต ๊ฒฐ๊ณผ๋ฅผ ํ๊ฐํ์ฌ ์๋ชป๋ ์ผ์ด์ค๋ค์ ๋ชจ์ โ teacher LLM์ด ์ด๋ฅผ ๋ฐํ์ผ๋ก ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ฌ ํ์ต ๋ฐ์ดํฐ์ ์ถ๊ฐ