HandH1998/QQQ

QQQ is an innovative and hardware-optimized W4A8 quantization solution for LLMs.

Python

Issues

Transformer 4.46.1 compat
#24 opened 17 days ago by Qubitium
0
Condition to achieve linear speedup?
#15 opened 2 months ago by jiwonsong-dev
18
rotation+gptq data
#20 opened a month ago by Andy0422
7
关于qwen2-1.5b模型的问题
#23 opened a month ago by darrenearl
5
Question about building W4A8 on AMD platform
#22 opened a month ago by XIAOHUIL1
2
rotate + lm_head quantization
#21 opened a month ago by RanchiZhao
1
Question on rotation
#13 opened 3 months ago by cli99
7
Qwen2-1.5B 量化后精度完全不可用
#17 opened a month ago by Juelianqvq
18
bugs: qqq_gemm.cu(183): error: identifier "__hfma2" is undefined
#18 opened a month ago by Andy0422
1
关于Marlin fetch_to_registers的问题
#19 opened a month ago by darrenearl
0
How to use custom calib data?
#1 opened 5 months ago by Juelianqvq
7
Possibility of using different group size setting
#9 opened 3 months ago by NicoNico6
6
Qwen2-72B-Instruct packing failed
#16 opened 2 months ago by Juelianqvq
2
Qwen2 supported？
#14 opened 3 months ago by Juelianqvq
5
Plz share some calibration dataset or examples
#11 opened 2 months ago by skykiseki
2
Does QQQ linear support H100?
#12 opened 2 months ago by donglinz
1
smooth.py报错
#8 opened 2 months ago by darrenearl
1
关于group_size的问题
#10 opened 3 months ago by darrenearl
1
使用QQQ W4A8量化后的模型好像有问题。。。
#7 opened 3 months ago by Zhao-Dongyu
2
[QST] Speedup of GEMM
#3 opened 4 months ago by Hongbosherlock
24
Can MLA be smoothed?
#6 opened 4 months ago by RanchiZhao
5
What is the prior for loss/error?
#4 opened 4 months ago by RanchiZhao
1
[New Model Supported] MiniCPM-2.4B
#5 opened 4 months ago by RanchiZhao
3
[QST] Scale factors and benchmarks
#2 opened 5 months ago by jeromeku
30