charent/ChatLM-mini-Chinese

中文对话0.2B小模型（ChatLM-Chinese-0.2B），开源所有数据集来源、数据清洗、tokenizer训练、模型预训练、SFT指令微调、RLHF优化等流程的全部代码。支持下游任务sft微调，给出三元组信息抽取微调示例。

PythonApache-2.0

Issues

Some NCCL operations have failed or timed out.
#47 opened 8 months ago by dbcSep03
7
训练集与微调集数据重叠
#60 opened 2 months ago by AndyZZt
0
3.4预训练运行出现 unsupported operand type(s) 错误，求帮忙
#55 opened 2 months ago by summerFF
2
运行3.4python ptr_train.py时报错OSError: Can't load tokenizer for 'D:/pycharmenv/ChatLM-mini-Chinese/model_save/'.
#56 opened 2 months ago by summerFF
4
tokenizer的字典中有不少token带有下划线，请问这种是什么意思
#53 opened 5 months ago by Mactarvish
3
4080显卡，基本跑不了多少数据，过万条训练数据就报错
#54 opened 5 months ago by iissy
6
数据清洗代码
#58 opened 4 months ago by Mrkkew
1
tokenizer训练OOM 。内存60G
#59 opened 4 months ago by musexiaoluo
1
大佬，能不能分享一下清洗后的数据集呀，loss一直在4.0下不来
#57 opened 5 months ago by KTVICTORY18
0
可以用a卡训练吗
#52 opened 5 months ago by alexhan1012
1
预训练，用了160万数据，共2G句子对，使用A40的48G显存，无论使用1/2/3/4卡，都会报OOM
#51 opened 5 months ago by JaymzWang
1
这种只能通过问答对的方式，有没有办法MLM的方式学习知识体系。
#50 opened 5 months ago by BShark-YB
1
是否考虑将预训练的模型和仅stf后的模型也上传的平台呢
#49 opened 5 months ago by seal-wang
1
sft_train
#48 opened 5 months ago by dbcSep03
1
train_3.5M_CN数据处理问题
#42 opened 5 months ago by wflying000
1
是否有计划针对agent函数调用微调
#19 opened 5 months ago by lucasjinreal
4
用train.py出现shape的mismatch
#36 opened 8 months ago by huluk98
10
请问这些预训练数据加起来有多少token呀
#44 opened 8 months ago by StarCycle
2
如何加载sft后的模型？
#41 opened 8 months ago by Liuxinhao12
1
这个模型好像没有长文对话的能力，该如何训练它让它有这个能力？
#43 opened 8 months ago by Liuxinhao12
1
非常不错的开源项目
#45 opened 8 months ago by DataXujing
1
预训练数据集必须是{“prompt”: "response":}的格式么？
#46 opened 8 months ago by dbcSep03
2
RuntimeError: No executable batch size found, reached zero
#40 opened 9 months ago by suiyueyousan
2
考虑出一个支持llama的版本吗
#39 opened 9 months ago by leondada
1
微调后预测三元组不正确原因
#35 opened 9 months ago by qiutzh
5
sft微调时报错
#37 opened 9 months ago by ama0zarashi
4
如何提取中间层的输出？
#38 opened 9 months ago by W-void
2
运行·pre_train报错，TypeError: Accelerator.__init__() got an unexpected keyword argument 'use_seedable_sampler'
#31 opened 9 months ago by JaymzWang
1
使用Lora 和 sft_train.py 训练效果好像没有，有没有好的方法？
#21 opened 9 months ago by yugu91
7
请问，如果有新的内容需要添加，是否需要全部重新训练？
#29 opened 9 months ago by kideve
2
Why do I get stuck loading the dataset after running it
#24 opened 9 months ago by anyiz
11
大佬请教一下，只做中文RAG的话，这个跟你另外一个phi，哪个效果比较好？
#26 opened 9 months ago by xianzhisheng
1
Great Work! Does it support multimodal ability?
#32 opened 9 months ago by LianghuiGuo
1
预训练数据集
#34 opened 9 months ago by rabintang
2
项目怎么使用fastchat 进行调试
#33 opened 10 months ago by zhilangtaosha
1
请问数据预处理里面bell_open_source/train_0.8M_CN.json是在哪里下载的呀
#30 opened a year ago by PshySimon
7
多卡情况下，同一份数据集会加载多次吗
#27 opened a year ago by shinerdeng
6
请教“3.3 Tokenizer训练”如何运行？
#25 opened a year ago by ybdesire
2
有考虑将模型分发的https://modelscope.cn/么？
#22 opened a year ago by qmjy
2
readme可以提供下封装了环境加模型的docker镜像吗?
#20 opened a year ago by zack-sys
1
如果在更好的设备上训练效果区别大吗
#18 opened a year ago by aiwillcoming
1
请教一个问题，生成的回复重复
#17 opened a year ago by shinerdeng
2
為甚麼我啟動API會出現這個
#16 opened a year ago by Adolph3671
1
Hello, 第一次使用，请问运行时出现 unsupported operand type(s) for |: 'types.GenericAlias' and 'type' 是什么问题？
#15 opened a year ago by yugu91
2
是否可以在服务器上运行？
#14 opened a year ago by yanyilin3344
5
基于提供的模型进行sft报错
#13 opened a year ago by cq1316
13
清洗好的数据集会开源吗？
#12 opened a year ago by echo-valor
1
如何运行呢？
#10 opened a year ago by meng25meng
17
关于小模型ChatLM-mini-Chinese 信息抽取的 sft_train.json文件
#9 opened a year ago by pengcheng-yan
4
在 SFT 微调途中出现报错
#23 opened a year ago by aoguai
11