charent/ChatLM-mini-Chinese
中文对话0.2B小模型(ChatLM-Chinese-0.2B),开源所有数据集来源、数据清洗、tokenizer训练、模型预训练、SFT指令微调、RLHF优化等流程的全部代码。支持下游任务sft微调,给出三元组信息抽取微调示例。
PythonApache-2.0
Issues
- 7
Some NCCL operations have failed or timed out.
#47 opened by dbcSep03 - 0
训练集与微调集数据重叠
#60 opened by AndyZZt - 2
3.4预训练运行出现 unsupported operand type(s) 错误,求帮忙
#55 opened by summerFF - 4
运行3.4python ptr_train.py时报错OSError: Can't load tokenizer for 'D:/pycharmenv/ChatLM-mini-Chinese/model_save/'.
#56 opened by summerFF - 3
tokenizer的字典中有不少token带有下划线,请问这种是什么意思
#53 opened by Mactarvish - 6
4080显卡,基本跑不了多少数据,过万条训练数据就报错
#54 opened by iissy - 1
- 1
tokenizer训练OOM 。内存60G
#59 opened by musexiaoluo - 0
大佬,能不能分享一下清洗后的数据集呀,loss一直在4.0下不来
#57 opened by KTVICTORY18 - 1
可以用a卡训练吗
#52 opened by alexhan1012 - 1
- 1
这种只能通过问答对的方式,有没有办法MLM的方式学习知识体系。
#50 opened by BShark-YB - 1
是否考虑将预训练的模型和仅stf后的模型也上传的平台呢
#49 opened by seal-wang - 1
- 1
train_3.5M_CN数据处理问题
#42 opened by wflying000 - 4
是否有计划针对agent函数调用微调
#19 opened by lucasjinreal - 10
用train.py出现shape的mismatch
#36 opened by huluk98 - 2
请问这些预训练数据加起来有多少token呀
#44 opened by StarCycle - 1
如何加载sft后的模型?
#41 opened by Liuxinhao12 - 1
这个模型好像没有长文对话的能力,该如何训练它让它有这个能力?
#43 opened by Liuxinhao12 - 1
非常不错的开源项目
#45 opened by DataXujing - 2
预训练数据集必须是{“prompt”: "response":}的格式么?
#46 opened by dbcSep03 - 2
- 1
考虑出一个支持llama的版本吗
#39 opened by leondada - 5
微调后预测三元组不正确原因
#35 opened by qiutzh - 4
sft微调时报错
#37 opened by ama0zarashi - 2
如何提取中间层的输出?
#38 opened by W-void - 1
运行·pre_train报错,TypeError: Accelerator.__init__() got an unexpected keyword argument 'use_seedable_sampler'
#31 opened by JaymzWang - 7
使用Lora 和 sft_train.py 训练效果好像没有,有没有好的方法?
#21 opened by yugu91 - 2
请问,如果有新的内容需要添加,是否需要全部重新训练?
#29 opened by kideve - 11
- 1
大佬请教一下,只做中文RAG的话,这个跟你另外一个phi,哪个效果比较好?
#26 opened by xianzhisheng - 1
- 2
- 1
项目怎么使用fastchat 进行调试
#33 opened by zhilangtaosha - 7
- 6
多卡情况下,同一份数据集会加载多次吗
#27 opened by shinerdeng - 2
请教“3.3 Tokenizer训练”如何运行?
#25 opened by ybdesire - 2
有考虑将模型分发的https://modelscope.cn/么?
#22 opened by qmjy - 1
readme可以提供下封装了环境加模型的docker镜像吗?
#20 opened by zack-sys - 1
如果在更好的设备上训练效果区别大吗
#18 opened by aiwillcoming - 2
请教一个问题,生成的回复重复
#17 opened by shinerdeng - 1
為甚麼我啟動API會出現這個
#16 opened by Adolph3671 - 2
Hello, 第一次使用,请问运行时出现 unsupported operand type(s) for |: 'types.GenericAlias' and 'type' 是什么问题?
#15 opened by yugu91 - 5
是否可以在服务器上运行?
#14 opened by yanyilin3344 - 13
基于提供的模型进行sft报错
#13 opened by cq1316 - 1
清洗好的数据集会开源吗?
#12 opened by echo-valor - 17
如何运行呢?
#10 opened by meng25meng - 4
- 11
在 SFT 微调途中出现报错
#23 opened by aoguai