密钥仅在浏览器端存储,易源不做转发
使用指定的模型,创建一个专属服务
每个模型部署的第一个专属服务可以不指定suffix,若需要部署使用了同一个模型的多个专属服务,需要设置suffix进行区分
输入:
模型名称:qwen-plus(通用对话大模型)
部署后缀:customer-service
算力单元:8(支持高并发咨询)
输出:
服务标识:qwen-plus-customer-service
部署状态:部署中(预计5分钟后可用)
输入:
页码:1(第一页)
每页数量:10(最多展示10个模型)
输出:
可部署模型列表:qwen-plus(对话)、llama2-7b(文本生成)、chatglm3(多轮交互)
模型总数:3(当前可部署的预置模型数量)
输入:
服务标识:qwen-plus-order-system(已部署的订单处理服务)
输出:
服务状态:运行中(正常响应推理请求)
当前算力:8算力单元(支持每秒200次订单查询)
输入:
服务标识:llama2-7b-marketing(营销文案生成服务)
新算力单元:16(原8算力,提升并发能力)
输出:
调整状态:更新中(算力扩容至16单元)
预计完成时间:3分钟后(扩容期间服务不中断)
部署对话模型构建7x24小时智能客服,提供即时响应和准确解答,提升客户满意度。
部署订单分析模型,实时处理和分类订单查询,提高订单处理效率和准确性。
部署文案生成模型,根据产品特点自动生成吸引人的营销文案,提升转化率。
部署文档理解模型,自动提取和分析文档关键信息,减少人工处理成本和时间。
部署教育模型,为学生提供个性化学习辅导和答疑,提升学习效果和体验。
部署内容审核模型,实时检测和过滤违规内容,保障平台内容安全和合规性。
价格由API服务商设定,请到服务商官网查看详细的价格方案和计费标准。
查看阿里云官方价格您可以通过"列举模型"接口获取当前可部署的模型列表,每个模型都有详细的功能描述和适用场景。对于对话场景,推荐使用qwen-plus;对于文本生成,可选择llama2-7b;多轮交互则适合chatglm3模型。
算力单元数量决定了模型服务的并发处理能力。一般建议根据预期的每秒请求量来选择:8算力单元支持约每秒200次请求,16算力单元支持约每秒400次请求。您可以随时通过"更新部署"接口调整算力,无需重新部署模型。
通常情况下,模型部署过程需要3-5分钟。部署状态可以通过"查询服务"接口实时查看。一旦状态变为"运行中",您就可以开始调用该模型服务进行推理请求了。
不会。调整算力是一个平滑的过程,服务在更新期间会保持可用状态。系统会先创建新的算力实例,待其就绪后再切换流量,最后释放旧实例,确保服务不中断。整个过程通常需要3分钟左右。
您可以通过阿里云百炼控制台查看模型服务的实时性能指标,包括请求量、响应时间、成功率等。同时,系统会自动记录详细的访问日志,方便您进行问题排查和性能优化。
一旦删除服务,相关资源会被立即释放,且无法直接恢复。建议在删除前确认该服务不再使用。如果需要重新使用相同配置,您可以通过"创建服务"接口重新部署,部署过程与首次部署相同。