注:当前项目为 Serverless Devs 应用,由于应用中会存在需要初始化才可运行的变量(例如应用部署地区、函数名等等),所以不推荐直接 Clone 本仓库到本地进行部署或直接复制 s.yaml 使用,强烈推荐通过
s init ${模版名称}
的方法或应用中心进行初始化,详情可参考部署 & 体验 。
通过函数计算开箱即用Ollama,极低成本部署自己的云端LLM服务。
使用该项目,您需要有开通以下服务并拥有对应权限:
服务/业务 | 权限 | 相关文档 |
---|---|---|
函数计算 | AliyunFCFullAccess | 帮助文档 计费文档 |
- 🔥 通过 Serverless 应用中心 , 该应用。
- 通过 Serverless Devs Cli 进行部署:
- 安装 Serverless Devs Cli 开发者工具 ,并进行授权信息配置 ;
- 初始化项目:
s init ollama -d ollama
- 进入项目,并进行项目部署:
cd ollama && s deploy -y
基于 Ollama 案例,您可以轻松地将 Ollama 服务部署到函数计算中,享受高效、灵活的 AI 语言模型服务。Ollama 是一款专为开发者设计的高性能语言模型,它能够处理各种自然语言处理任务,包括文本生成、翻译、摘要等,是您开发智能应用的强大后盾。
Ollama 以其卓越的性能和易用性在业界获得了广泛认可,Ollama 服务的部署通常需要一定的技术背景和资源配置。然而,通过 Serverless 开发平台,您可以快速、便捷地将 Ollama 服务部署至函数计算,无需担心底层资源管理和运维问题,让您专注于应用的创新和开发。此外,开发平台还提供了包括模型管理、API 集成、云存储等在内的多种服务,以满足不同用户的需求。
使用本案例,servereless开发平台将为您提供开箱即用的ollama服务,并可以开启GPU闲置预留模式,在保证使用性能的同时,以最小成本持有自己专属的LLM服务。GPU闲置预留模式公测中,请提交公测申请
当前版本软件内置了以下三种尺寸的Qwen模型:Qwen 0.5b, Qwen 7b, Qwen 14b。每种模型都具有不同的参数量和复杂度,以适应不同的应用场景和性能要求,您可以在应用初始化时进行选择。
我们推荐以openAI的API范式进行函数调用,其中model需替换为您当前使用的模型名字(qwen_0_5b
, qwen_7b
, qwen_14b
),如下是一个调用qwen_7b模型的示例:
curl "${FunctionEndpoint}/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
"model": "qwen_7b",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "How can you help me?"
}
]
}'
API参数说明及更多请参考 https://github.com/ollama/ollama/blob/main/docs/api.md
通过应用 fc-open-webui 部署,并配置 ollama 接口为当前应用触发器
应用中心创建地址 https://fcnext.console.aliyun.com/applications/create?template=fc-open-webui
您如果有关于错误的反馈或者未来的期待,您可以在 Serverless Devs repo Issues 中进行反馈和交流。如果您想要加入我们的讨论组或者了解 FC 组件的最新动态,您可以通过以下渠道进行:
微信公众号:serverless |
微信小助手:xiaojiangwh |
钉钉交流群:33947367 |