Github-Scalers-AI/distributed-inference-llm

Serve Llama 2 (7B/13B/70B) Large Language Models efficiently at scale by leveraging heterogeneous Dell™ PowerEdge™ Rack servers in a distributed manner.

Python

Watchers

drkostas
University of Tennessee, Knoxville