gptq

There are 25 repositories under gptq topic.

intel/neural-compressor
SOTA low-bit LLM quantization (INT8/FP8/INT4/FP4/NF4) & sparsity; leading model compression techniques on TensorFlow, PyTorch, and ONNX Runtime
Language:Python2.5k 33 219282
ModelCloud/GPTQModel
LLM model quantization (compression) toolkit with hw acceleration support for Nvidia CUDA, AMD ROCm, Intel XPU and Intel/AMD/Apple CPU via HF, vLLM, and SGLang.
Language:Python782 5 244111
shm007g/LLaMA-Cult-and-More
Large Language Models for All, 🦙 Cult and More, Stay in touch !
Language:HTML444 33 825
bobazooba/xllm
🦖 X—LLM: Cutting Edge & Easy LLM Finetuning
Language:Python407 4 1121
1b5d/llm-api
Run any Large Language Model behind a unified API
Language:Python171 4 1227
chenhunghan/ialacol
🪶 Lightweight OpenAI drop-in replacement for Kubernetes
Language:Python146 3 2317
abhinand5/gptq_for_langchain
A guide about how to use GPTQ models with langchain
Language:Jupyter Notebook40 2 29
ziwang-com/zero-lora
zero零训练llm调参
32 1 803
taishan1994/LLM-Quantization
记录量化LLM中的总结。
Language:Python26 0 22
hcd233/Aris-AI-Model-Server
An OpenAI Compatible API which integrates LLM, Embedding and Reranker. 一个集成 LLM、Embedding 和 Reranker 的 OpenAI 兼容 API
Language:Python17 1 01
seyf1elislam/LocalLLM_OneClick_Colab
Run gguf LLM models in Latest Version TextGen-webui and koboldcpp
Language:Jupyter Notebook16 1 00
tripathiarpan20/self-improvement-4all
Private self-improvement coaching with open-source LLMs
Language:Python15 3 02
chinoll/chatsakura
ChatSakura：Open-source multilingual conversational model.（开源多语言对话大模型）
Language:Python13 1 00
Aqirito/A.L.I.C.E
A.L.I.C.E (Artificial Labile Intelligence Cybernated Existence). A REST API of A.I companion for creating more complex system
Language:Python9 2 00
matlok-ai/bampe-weights
This repository is for profiling, extracting, visualizing and reusing generative AI weights to hopefully build more accurate AI models and audit/scan weights at rest to identify knowledge domains for risk(s).
Language:Python9 2 00
bobazooba/shurale
Conversation AI model for open domain dialogs
Language:Python4 1 11
SujanNeupane42/NEPSE-Chatbot-Using-Retrieval-augmented-generation-and-reranking
This project will develop a NEPSE chatbot using an open-source LLM, incorporating sentence transformers, vector database and reranking.
Language:Jupyter Notebook3 1 00
upunaprosk/quantized-lm-confidence
Code for NAACL paper When Quantization Affects Confidence of Large Language Models?
Language:Jupyter Notebook3 1 11
amajji/LLM-Quantization-Techniques-Absmax-Zeropoint-GPTQ-GGUF
LLM quantization techniques: absmax, zero-point, GPTQ and GGUF
Language:Jupyter Notebook2 1 01
lpalbou/model-quantizer
Effortlessly quantize, benchmark, and publish Hugging Face models with cross-platform support for CPU/GPU. Reduce model size by 75% while maintaining performance.
Language:Python2
STiFLeR7/Edge-LLM
Optimized Qwen2.5-3B using GPTQ, reducing size from 5.75GB → 1.93GB and improving inference speed. Ideal for efficient edge AI deployments.
Language:Python1
ElDokmak/LLMs-variety
Hands on some LLMs
Language:Jupyter Notebook0 1 00
SJD1882/LLMCheatSheet
Personal GitHub repository for stashing resources on Large Language Models (LLM), including Jupyter Notebooks on open source LLMs, use-cases with Langchain and R&D paper review.
Language:Jupyter Notebook0 1 00
SujanNeupane42/LLM_Quantization
Quantizing LLMs using GPTQ
Language:Jupyter Notebook0 1 00
rightpunchChen/edgeAI_final_report
Llama-3.2-3B-Instruct LoRA + GPTQ Compression & Inference with vLLM
Language:Python

gptq

intel/neural-compressor

ModelCloud/GPTQModel

shm007g/LLaMA-Cult-and-More

bobazooba/xllm

1b5d/llm-api

chenhunghan/ialacol

abhinand5/gptq_for_langchain

ziwang-com/zero-lora

taishan1994/LLM-Quantization

hcd233/Aris-AI-Model-Server

seyf1elislam/LocalLLM_OneClick_Colab

tripathiarpan20/self-improvement-4all

chinoll/chatsakura

Aqirito/A.L.I.C.E

matlok-ai/bampe-weights

bobazooba/shurale

SujanNeupane42/NEPSE-Chatbot-Using-Retrieval-augmented-generation-and-reranking

upunaprosk/quantized-lm-confidence

amajji/LLM-Quantization-Techniques-Absmax-Zeropoint-GPTQ-GGUF

lpalbou/model-quantizer

STiFLeR7/Edge-LLM

ElDokmak/LLMs-variety

SJD1882/LLMCheatSheet

SujanNeupane42/LLM_Quantization

rightpunchChen/edgeAI_final_report