TsinghuaAI/CPM-1-Finetune

Finetune CPM-1

PythonMIT

Issues

模型加载问题
#58 opened 2 years ago by xealml
0
使用fp16如何加载训练之后保存的模型动量呢
#56 opened 2 years ago by xealml
2
模型加载问题
#57 opened 2 years ago by 447428054
4
如何检查模型是否加载成功？
#53 opened 2 years ago by Tron1994
5
cpm-large 的预训练动量是否会开源呢？
#50 opened 2 years ago by yayaQAQ
2
模型问题
#43 opened 3 years ago by Chunhui-Zou
1
请问使用2张卡保存的模型有2个，最终使用时使用哪个
#55 opened 2 years ago by xealml
0
训好的模型如何转化成huggingface的模型格式呢
#54 opened 2 years ago by Tron1994
0
AttributeError: 'tuple' object has no attribute 'is_cuda'
#52 opened 2 years ago by Tron1994
6
使用系统推荐的docker发生RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED问题
#41 opened 2 years ago by forrestbing
2
能直接加载huggingface中的CPM-Distill模型吗
#42 opened 2 years ago by zhoucz97
1
跑CPM-large对显存要求是多少，我用一张24G的3090跑不出来
#47 opened 2 years ago by Chunhui-Zou
2
关于Zero-shot 和 Finetune 模式下 Acc 计算问题
#35 opened 2 years ago by lulu51230
1
[deepspeed] fp16 dynamic loss scale overflow!
#28 opened 2 years ago by 520jefferson
2
多卡finetune时的Bug
#34 opened 2 years ago by xiaofei05
3
这个框架支持pipeline并行吗？
#49 opened 2 years ago by yayaQAQ
1
使用基于STC数据集修改的代码跑问题生成
#24 opened 2 years ago by LaVineChan
3
请问CPM-1预训练的时候是训练1024个token吗
#51 opened 2 years ago by orlando1986
1
RuntimeWarning: overflow encountered in exp
#27 opened 3 years ago by 520jefferson
2
关于模型问题
#46 opened 3 years ago by Chunhui-Zou
0
embedding average计算中，词向量使用的是哪个呢？如何进行分词的呢？STC_test中ground truth存在中英文的情况，这种情况如何进行分词呢？
#48 opened 3 years ago by allyouneeds
0
在ChID数据集上微调CPM-large模型准确率远低于论文结果
#11 opened 4 years ago by keezen
10
stc数据集测试时embedding average 精度的计算方式。是否会release 相关代码？
#45 opened 3 years ago by allyouneeds
1
请教
#44 opened 3 years ago by Chunhui-Zou
0
STC数据集finetune时报错
#40 opened 3 years ago by David-Li0406
1
python 3.6.8，torch 1.7.1+cu110，cuda 11.1环境下微调chid数据报错，显卡是3090
#10 opened 4 years ago by zhenhao-huang
9
zero-shot测试：TypeError: list indices must be integers or slices, not str
#39 opened 3 years ago by kevin65050113
2
字典token的扩展
#37 opened 3 years ago by Hansen06
1
How to load the checkpoint if I am not using deepspeed?
#30 opened 3 years ago by Walid-Ahmed
1
下载的模型问题
#32 opened 3 years ago by makai281
1
微调结果
#33 opened 3 years ago by zhenhao-huang
0
RuntimeError: cuda runtime error (10)
#36 opened 3 years ago by drxmy
1
关于微调超长文本和生成结果的问题
#31 opened 3 years ago by zhenhao-huang
2
TypeError: 'NoneType' object is not subscriptable
#26 opened 3 years ago by yiyele
4
用fp32精度微调文本生成模型不收敛
#20 opened 3 years ago by zmingshi
6
[question] cand_ids变量的来源？
#29 opened 3 years ago by starkhu
4
多卡多机，building model时间很长
#25 opened 3 years ago by demomagic
2
在加载CPM模型(26亿参数)的情况下，修改微调参数减小显存占用
#12 opened 3 years ago by zhenhao-huang
16
CHID数据集 finetune_chid_large_fp32.sh报错
#21 opened 4 years ago by YinWei123
3
RuntimeError: CUDA error: initialization error
#23 opened 3 years ago by holalula
2
关于finetune_lm损失函数的问题
#22 opened 4 years ago by mali19064
1
关于文本生成模板的合理性
#18 opened 4 years ago by zhenhao-huang
24
finetune_chid.py里面193~195行关于scores = torch.stack(tensor_list, 0).view(-1, 15000) 的含义？
#19 opened 4 years ago by lulu51230
8
文本转id问题
#15 opened 4 years ago by zhenhao-huang
3
用fp32精度微调生成的模型过大
#16 opened 4 years ago by zhenhao-huang
8
执行change_mp.py文件将模型由2块分成4块后，使用4块GPU加载分成4块的模型，报错
#17 opened 4 years ago by lulu51230
12
请问这个可以在单GPU上运行吗
#14 opened 4 years ago by unbuilt
1
将模型切成4份后，第0个进程load错误
#13 opened 4 years ago by lulu51230
5
在ChID数据集运行scripts/finetune_chid_large.sh报错
#9 opened 4 years ago by keezen
1
请问为什么微调代码里面没有model.zero_grad呢？难道不需要清空梯度吗？
#8 opened 4 years ago by keezen
2