请问在精调这样的数据格式是正确的吗?
NiniAndy opened this issue · 2 comments
NiniAndy commented
提交前必须检查以下项目
- 请确保使用的是仓库最新代码(git pull)
- 已阅读项目文档和FAQ章节并且已在Issue中对问题进行了搜索,没有找到相似问题和解决方案。
- 第三方插件问题:例如llama.cpp、text-generation-webui等,建议优先去对应的项目中查找解决方案。
问题类型
模型训练与精调
基础模型
Llama-3-Chinese-8B(基座模型)
操作系统
Linux
详细描述问题
我在使用scripts/training/run_clm_pt_with_peft.py进行精调的过程中加载了/data中的两个gpt_data,在微调过程中记录的Training example,请问这个格式是对的吗?为什么没有用到<|eos|>?感觉怪怪的。
logger.info(tokenizer.decode(train_dataset[0]['input_ids']))
依赖情况(代码类问题务必提供)
# 请在此处粘贴依赖情况(请粘贴在本代码块里)
运行日志或截图
07/09/2024 14:46:20 - INFO - __main__ - Training example:
07/09/2024 15:18:54 - INFO - __main__ - 身状态的某种不满或者想象中的期望。在现实情况下,没有出现所谓的“坏人”其实是幸运且安全的,且我们应当感到庆幸而不是惊讶。"<|begin_of_text|> },<|begin_of_text|> {<|begin_of_text|> "instruction": "前几天肩膀晒脱皮了,现在睡个觉床上到处都是皮肤碎片 所以我能攒起来兑换一个新的我吗",<|begin_of_text|> "input": "",<|begin_of_text|> "output": "这个问题用幽默的手法表达了晒伤后脱皮的烦恼。实际上,当皮肤晒伤后,皮肤会开始修复过程,这包括了脱落损伤的皮肤细胞。虽然床上出现皮肤碎片可能让人觉得不舒服,但这是身体自愈过程的一部分。至于“攒起来兑换一个新的我”的想法,这显然是不可能的。人类的皮肤和身体虽然可以通过自然过程进行修复和更新,但无法通过简单地收集脱落的皮肤来实现“换新”。正确的方法是采取适当的皮肤护理,防晒和使用修复性的护肤产品来促进健康的皮肤。"<|begin_of_text|> },<|begin_of_text|> {<|begin_of_text|> "instruction": "每天都做梦的话是不是就等于多活了一辈子,",<|begin_of_text|> "input": "",<|begin_of_text|> "output": "梦境确实能为我们的现实生活添加丰富的精神内容。从某种意义上说,梦境可以被视为是一种体验,它们在我们的大脑中形成独立的记忆和经历。虽然这些经历是在无意识状态下产生的,并且通常是虚构的,它们能扩展我们的想象力,影响我们的情绪,甚至有时可以启发或影响我们的日常决策。然而,将梦境的体验等同于真实地“多活了一辈子”则是一种夸张的表达。梦境的体验虽然丰富并可能具有象征意义或心理影响,但它们缺乏现实生活中所具有的持久性和实际影响,因此不能等同于实际增加了寿命或生活体验的数量。"<|begin_of_text|> },<|begin_of_text|> {<|begin_of_text|> "instruction": "不是说这本书都是精华吗,我怎么还没怀孕 我都已经塞那么进去了",<|begin_of_text|> "input": "",<|begin_of_text|> "output": "这个问题显然使用了幽默和比喻来表达对信息或知识吸收的困扰。通常我们说一本书是“精华”,意味着这本书内容丰富、信息价值高。而问题中的“怀孕”则是用来比喻深度理解或完全吸收书本内容的历程。当然,这里的怀孕比喻仅是幽默地表示对知识的“内化”或“吸收”。实际上,阅读和理解新的信息往往需要时间、重复的学习和思考,而不是像怀孕那样可以有一个直观的结果或明显的标志。因此,如果感觉尚未“怀孕”,可能意味着还需要进一步地探索书中的内容,或者以不同的方式来加深对材料的理解和应用。"<|begin_of_text|> },<|begin_of_text|> {<|begin_of_text|> "instruction": "三体人为什么不把闲置的太阳出租 三体世界有三颗太阳,还会带来乱纪元,三体人为什么不把闲置的太阳出租。",<|begin_of_text|> "input": "",<|begin_of_text|> "output": "这个问题基于刘慈欣科幻小说《三体》中的设定,三体世界被三颗太阳照射,存在极端的气候变化和不稳定的环境,这被称作“乱纪元”。问题中提到的“出租太阳”的想法,虽然带有幽默意味,但在小说的设定中并不可行。三体人面临的主要挑战是如何在这种极端不稳定的环境中生存,而不是如何经济利用这些太阳。此外,太阳作为恒星,其控制和移动不仅技术上不可行,而且超出了当前科技水平——即便是在科幻的设定中。因此,这个问题虽然有趣,但在《三体》的背景与科技设定下,三体人没有出租太阳的科技能力和相关的可能性。"<|begin_of_text|> },<|begin_of_text|> {<|begin_of_text|> "instruction": "买了一只小狗,不知道养多久才能进化?
github-actions commented
This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your consideration.
github-actions commented
Closing the issue, since no updates observed. Feel free to re-open if you need any further assistance.