willccbb/mlx_parallm

Fast parallel LLM inference for MLX

Jupyter Notebook

Issues

Support for KV-cache loading?
#8 opened a month ago by mark-lord
0
No module named 'mlx_parallm'
#7 opened 2 months ago by pascal-maker
1
Pip package (temporary?)
#6 opened 4 months ago by do-me
2
HuggingFace authentication for Gemma required
#2 opened 4 months ago by do-me
2
Llava 1.6 support?
#3 opened 4 months ago by RuairiSpain
1
Prompt processing time seems off
#1 opened 5 months ago by awni
2