关于小模型ChatLM-mini-Chinese 信息抽取的 sft_train.json文件

Question

关于小模型ChatLM-mini-Chinese 信息抽取的 sft_train.json文件

pengcheng-yan opened this issue a year ago · 4 comments

pengcheng-yan commented a year ago

请问一下 sft_train.json 这个文件是在哪里生成的嘞？

Answer 1 · 2024-01-08T03:34:12.000Z

请问一下 sft_train.json 这个文件是在哪里生成的嘞？

你提的这个sft_train.json是在模型sft阶段的数据，在utils/raw_data_process.py的parquet_to_json()函数看到，clone代码后可以直接搜到。

其次，下游任务微调——信息抽取过程中没有用到sft_train.json文件，信息抽取的训练数据、测试数据处理见finetune_examples/info_extract/data_process.py文件

Answer 2 · 2024-01-08T04:01:42.000Z

好的我明白了，我这边做的是下游任务的信息抽取微调。那就是需要将data_process.py 处理后生成的 my_train.json文件替换为执行sft_train.py 所需的 sft_train.json。谢谢您。
还想问一个问题：FileNotFoundError: [Errno 2] No such file or directory: 'E:/nwnu/learn/code/NLP/ner/体验一下0.2B 的小模型ChatLM-mini-Chinese/ChatLM-mini-Chinese/model_save/dpo_model/' 请问一下这个dpo_model是在哪个阶段生成的

Answer 3 · 2024-01-08T04:45:35.000Z

第一个问题，是的，finetune_examples/info_extract/finetune_IE_task.ipynb里面的下游微调代码和sft是一致的，一些训练参数可能有些许区别，比如学习率。

第二个问题，dpo_model是在rlhf阶段生成的，你直接从huggingface仓库下载下来的模型就是rlhf阶段得到的模型，预训练、sft、三元组信息抽取微调，这几个阶段得到的模型我没有公开。

Answer 4 · 2024-01-08T06:53:35.000Z

感谢您的回答，祝您大吉大利