硅基流动音频处理API

API密钥

密钥仅在浏览器端存储，易源不做转发

上传参考音频

上传音频文件获取URI，用于后续语音合成

音频文件

描述文本

选择模型

自定义名称

上传结果

上传结果将显示在这里

功能示例

个人播客声音克隆

输入：主持人日常说话录音（30秒）

播客文本："欢迎收听《科技新声》..."

输出：120秒播客开场语音，音色与主持人录音一致

双语有声书旁白制作

输入：双语故事文本，模型选择MOSS-TTSD

语速：0.9（稍慢适合故事讲述）

输出：300秒中英双语有声书旁白，发音标准

客服对话语音合成

输入：客服对话脚本，音色选择亲切女声

格式：mp3

输出：240秒客服对话语音，语气热情自然

会议录音转文字记录

输入：团队项目进度讨论录音（15分钟）

模型：FunAudioLLM/SenseVoiceSmall

输出：3500字会议文字记录，识别准确率95%

过期参考音频清理

输入：待删除音频URI（3条）

操作：批量删除请求

输出：成功清理3条过期音频，释放空间15MB

儿童故事长语音合成

输入：《小熊的奇妙冒险》全篇（约16分钟）

语速：0.8（适合儿童收听）

输出：960秒完整儿童故事语音，含角色对话区分

使用场景

播客制作

快速克隆主持人声音，生成专业播客内容，支持长时程语音合成

在线教育

生成多角色有声教材，支持双语教学内容，提升学习体验

有声内容创作

将小说、文章转换为高质量有声内容，支持角色声音区分

智能客服

生成自然流畅的客服语音，支持多轮对话，提升客户体验

会议记录

快速将会议录音转换为文字记录，自动识别发言人和关键信息

游戏配音

为游戏角色生成多样化语音，支持情绪变化和特殊音效提示

价格信息

价格由API服务商设定，详细的定价方案及套餐信息，请访问服务商官网查看。

查看详细价格

常见问题

Q: 支持多长时长的音频合成？

A: 硅基流动音频API单次可生成长达960秒（16分钟）的语音，满足长时程内容制作需求，如完整故事、播客等。

Q: 语音转文本的准确率如何？

A: 使用FunAudioLLM/SenseVoiceSmall模型，在标准普通话环境下识别准确率可达95%以上，支持多人对话区分和关键词高亮。

Q: 如何实现声音克隆功能？

A: 通过"上传参考音频"接口上传30秒以上的清晰语音样本，获取音频URI后，在文本转语音接口中引用该URI即可实现声音克隆。

Q: 支持哪些音频输出格式？

A: 支持mp3、opus、wav、pcm等多种音频格式，可根据需求选择合适的输出格式，不同格式支持的采样率有所不同。

Q: 如何控制生成语音的语速和情感？

A: 可通过speed参数（0.25-4.0）控制语速，通过在文本中添加特殊标记（如"<|endofprompt|>"）和描述性语言来引导情感表达。

Q: API调用需要身份验证吗？

A: 是的，所有API调用都需要在请求头中包含有效的Authorization令牌，格式为"Bearer {YOUR_API_KEY}"，您可以从服务商官网获取API密钥。

硅基流动音频处理API