模型部署API

API密钥

密钥仅在浏览器端存储，易源不做转发

创建专属服务

使用指定的模型，创建一个专属服务

模型名称

算力单元数量

部署ID后缀（选填）

每个模型部署的第一个专属服务可以不指定suffix，若需要部署使用了同一个模型的多个专属服务，需要设置suffix进行区分

服务创建结果

请点击"创建服务"按钮发起请求

功能示例

创建客户服务专属模型服务

创建服务客户服务

输入：

模型名称：qwen-plus（通用对话大模型）
部署后缀：customer-service
算力单元：8（支持高并发咨询）

输出：

服务标识：qwen-plus-customer-service
部署状态：部署中（预计5分钟后可用）

查询可部署的AI模型列表

列举模型模型列表

输入：

页码：1（第一页）
每页数量：10（最多展示10个模型）

输出：

可部署模型列表：qwen-plus（对话）、llama2-7b（文本生成）、chatglm3（多轮交互）
模型总数：3（当前可部署的预置模型数量）

查询订单系统模型服务状态

查询服务服务状态

输入：

服务标识：qwen-plus-order-system（已部署的订单处理服务）

输出：

服务状态：运行中（正常响应推理请求）
当前算力：8算力单元（支持每秒200次订单查询）

调整营销文案生成服务算力

更新部署算力调整

输入：

服务标识：llama2-7b-marketing（营销文案生成服务）
新算力单元：16（原8算力，提升并发能力）

输出：

调整状态：更新中（算力扩容至16单元）
预计完成时间：3分钟后（扩容期间服务不中断）

使用场景

智能客服系统

部署对话模型构建7x24小时智能客服，提供即时响应和准确解答，提升客户满意度。

订单处理系统

部署订单分析模型，实时处理和分类订单查询，提高订单处理效率和准确性。

营销文案生成

部署文案生成模型，根据产品特点自动生成吸引人的营销文案，提升转化率。

文档智能处理

部署文档理解模型，自动提取和分析文档关键信息，减少人工处理成本和时间。

智能教育辅导

部署教育模型，为学生提供个性化学习辅导和答疑，提升学习效果和体验。

内容安全审核

部署内容审核模型，实时检测和过滤违规内容，保障平台内容安全和合规性。

价格说明

价格由API服务商设定，请到服务商官网查看详细的价格方案和计费标准。

查看阿里云官方价格

常见问题

如何选择适合的模型进行部署？

您可以通过"列举模型"接口获取当前可部署的模型列表，每个模型都有详细的功能描述和适用场景。对于对话场景，推荐使用qwen-plus；对于文本生成，可选择llama2-7b；多轮交互则适合chatglm3模型。

算力单元数量如何选择？

算力单元数量决定了模型服务的并发处理能力。一般建议根据预期的每秒请求量来选择：8算力单元支持约每秒200次请求，16算力单元支持约每秒400次请求。您可以随时通过"更新部署"接口调整算力，无需重新部署模型。

模型部署需要多长时间？

通常情况下，模型部署过程需要3-5分钟。部署状态可以通过"查询服务"接口实时查看。一旦状态变为"运行中"，您就可以开始调用该模型服务进行推理请求了。

调整算力时服务会中断吗？

不会。调整算力是一个平滑的过程，服务在更新期间会保持可用状态。系统会先创建新的算力实例，待其就绪后再切换流量，最后释放旧实例，确保服务不中断。整个过程通常需要3分钟左右。

如何监控模型服务的性能？

您可以通过阿里云百炼控制台查看模型服务的实时性能指标，包括请求量、响应时间、成功率等。同时，系统会自动记录详细的访问日志，方便您进行问题排查和性能优化。

删除服务后可以恢复吗？

一旦删除服务，相关资源会被立即释放，且无法直接恢复。建议在删除前确认该服务不再使用。如果需要重新使用相同配置，您可以通过"创建服务"接口重新部署，部署过程与首次部署相同。

模型部署API