xusenlinzy/api-for-open-llm

💡 [REQUEST] - 支持 XuanYuan-70B-Chat-4bit / 8bit

LuneZ99 opened this issue · 0 comments

起始日期 | Start Date

No response

实现PR | Implementation PR

No response

相关Issues | Reference Issues

No response

摘要 | Summary

XuanYuan-70B 在金融领域达到 GPT-4 水平。 XuanYuan-70B-Chat 开源了 8bit 和 4bit 的量化版本,其中 4bit 量化版本和 Qwen-14B-Chat-Int4 同样使用了 auto-gptq 工具,且显存要求相对较低,应该更适合部署调试。在这个基础上如果能进一步增加 vllm(官方demo支持) 和 8bit 量化版本的支持就更好了。

基本示例 | Basic Example

https://github.com/Duxiaoman-DI/XuanYuan
https://huggingface.co/Duxiaoman-DI/XuanYuan-70B-Chat-4bit
https://huggingface.co/Duxiaoman-DI/XuanYuan-70B-Chat-8bit

缺陷 | Drawbacks

未解决问题 | Unresolved questions

No response