ymcui/Chinese-LLaMA-Alpaca-3

hfl/ruozhiba_gpt4 的数据集有问题啊

wencan opened this issue · 3 comments

提交前必须检查以下项目

  • 请确保使用的是仓库最新代码(git pull)
  • 已阅读项目文档FAQ章节并且已在Issue中对问题进行了搜索,没有找到相似问题和解决方案。
  • 第三方插件问题:例如llama.cpptext-generation-webui等,建议优先去对应的项目中查找解决方案。

问题类型

其他问题

基础模型

Others

操作系统

Linux

详细描述问题

https://huggingface.co/datasets/hfl/ruozhiba_gpt4
在第一页随便找了下,有问题的还不少

出生前爸爸没了叫遗腹子,那妈妈没了叫什么?
在汉语中,未出生时母亲去世的孩子通常没有一个专门的词来描述。遗腹子是特指孩子在母亲怀孕期间父亲去世的情况,而对于母亲怀孕期间母亲去世并没有特定的词汇。这类问题在文化和语言中较为罕见,因此没有形成一个约定俗成的叫法。一般情况下,如果在需要描述这种现象时,会直接说孩子出生时母亲已经去世了,但并没有专门词汇。

马上要上游泳课了,昨天洗的泳裤还没干,怎么办
你可以尝试以下几种方法来解决这个问题:1. 使用风扇或吹风机快速干燥泳裤。2. 将泳裤放在阳光下晾干,这样会加速水分蒸发。3. 如果时间太紧迫,考虑向朋友借泳裤,或者去最近的商店购买一条新的泳裤。总之,尽量找到一种合适的方式使泳裤在上游泳课前干燥。

依赖情况(代码类问题务必提供)

# 请在此处粘贴依赖情况(请粘贴在本代码块里)

运行日志或截图

# 请在此处粘贴运行日志(请粘贴在本代码块里)

是的,GPT-4o/4T也不是完全能够答对,数据集并没有进行人工校正。
有需要的话自行修正使用吧。

@ymcui
一来,别家的ruozhiba没这么严重的问题
二来,你们就拿这个数据微调llama 3?

如果数据质量没达到你的预期,你用其他数据即可。