BlinkDL/RWKV-LM

RWKV is an RNN with transformer-level LLM performance. It can be directly trained like a GPT (parallelizable). So it's combining the best of RNN and transformer - great performance, fast inference, saves VRAM, fast training, "infinite" ctx_len, and free sentence embedding.

PythonApache-2.0

Issues

基于world-chinese的1.5b的ckpt增量训练loss绝对值达到2.7几？
#184 opened 9 months ago
1
arch_list[-1] += '+PTX' IndexError: list index out of range
#182 opened 8 months ago
1
Proposal: add a flag to recognize model version
#181 opened 7 months ago
2
wsl2 Ubuntu 运行 wkv_cuda_bf16和wkv_cuda的__global__错误提示没有存储类或者说明符
#180 opened 9 months ago
0
微调报错，RuntimeError: Error(s) in loading state_dict for RWKV, size mismatch for .....
#172 opened 10 months ago
2
Stuck in Multigpus lora finetuning
#170 opened 10 months ago
1
Loading extension module wkv_512... Fail
#169 opened 9 months ago
3
DDP多机多卡如何使用？
#168 opened 10 months ago
1
Questions about formula 14 and code implementation in the paper
#167 opened 10 months ago
1
nvcc fatal : Unknown option '-Xptxas -O3'
#166 opened 10 months ago
2
模型微调
#163 opened a year ago
0
Cannot train a added module using RWKV_GPT in RWKV-4/src/model_run.py
#162 opened 10 months ago
1
比清华牛逼
#161 opened 10 months ago
0
希望新增对接口的ipv6支持（发错了忽略，sry）
#160 opened 10 months ago
0
transformers代码加载cuda失败
#159 opened 10 months ago
3
windows平台下vscode运行RWKV-V4 train.py 报错 RuntimeError: Ninja is required to load C++ extensions
#158 opened 10 months ago
1
v4neo multi gpu training split (not duplicated ram/vram)
#157 opened 10 months ago
1
Bfloat16 in v4neo
#155 opened a year ago
1
Is token padding or attention_mask needed and supported for RWKV?
#154 opened 10 months ago
1
切换模型失败 - {"detail":"failed to load: The MPS backend is supported on MacOS 12.3+.Current OS version can be queried using `sw_vers`"}
#153 opened a year ago
3
Pretrain using the SlimPajama dataset
#152 opened 10 months ago
1
precomputed pile binidx dataset
#151 opened a year ago
0
question about time_decay initialization
#150 opened 10 months ago
1
报错：assert fragment_start < fragment_end
#149 opened 10 months ago
2
训练到这一步报错 build.ninja...
#148 opened a year ago
4
训练运行train.py报错：
#147 opened a year ago
2
其它的都非常好，现在有个问题就是多卡怎么并连成单卡
#146 opened 10 months ago
3
python train.py failed in windows11 platform, during ninja build wkv.o
#145 opened a year ago
1
报错求解RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasGemmEx( handle, opa, opb, m, n, k, &falpha, a,CUDA_R_16F, lda, b, CUDA_R_16F, ldb, &fbeta, c, CUDA_R_16F, ldc, CUDA_R_32F, CUBLAS_GEMM_DFALT_TENSOR_OP)`
#144 opened a year ago
1
怎样使用lora+alpaca的代码式样训练rwkv的指令微调？
#143 opened a year ago
1
Lora微调灾难性遗忘
#141 opened a year ago
3
Exporting RWKV into ONNX
#140 opened a year ago
1
TypeError loss backward() takes 2 positional arguments but 3 were given
#139 opened a year ago
2
Fewer Checkpoint Files for train.py
#138 opened a year ago
1
Initializing single layer
#137 opened a year ago
1
模型训练问题
#136 opened a year ago
1
Multi-Modal in the future?
#135 opened a year ago
1
jsonl2binidx tool for new RWKV tokenizer (world vocab)?
#134 opened a year ago
1
question about the RWKV version
#133 opened a year ago
1
Add citation format to the RWKV preprint
#130 opened a year ago
0
RuntimeError: Error building extension 'wkv_1024'
#129 opened a year ago
1
txt数据集格式
#128 opened a year ago
3
finetune for other languages?
#127 opened a year ago
3
Guidance/Feature request: Training or using RWKV or Rwkv-4-Raven for text summarization?
#126 opened a year ago
1
Visual RWKV
#125 opened a year ago
1
169M模型在下游任务微调时效果不佳
#124 opened a year ago
1
Add to guidance https://github.com/microsoft/guidance/tree/main/guidance/llms/transformers
#123 opened a year ago
1
模型的License 是什么？
#122 opened a year ago
2
Main differences between versions?
#120 opened a year ago
3
UTF-16 stream does not start with BOM
#119 opened a year ago
1