硅基流动音频处理API

密钥仅在浏览器端存储,易源不做转发

上传参考音频

上传音频文件获取URI,用于后续语音合成

上传结果

上传结果将显示在这里

功能示例

个人播客声音克隆

输入:主持人日常说话录音(30秒)

播客文本:"欢迎收听《科技新声》..."

输出:120秒播客开场语音,音色与主持人录音一致

双语有声书旁白制作

输入:双语故事文本,模型选择MOSS-TTSD

语速:0.9(稍慢适合故事讲述)

输出:300秒中英双语有声书旁白,发音标准

客服对话语音合成

输入:客服对话脚本,音色选择亲切女声

格式:mp3

输出:240秒客服对话语音,语气热情自然

会议录音转文字记录

输入:团队项目进度讨论录音(15分钟)

模型:FunAudioLLM/SenseVoiceSmall

输出:3500字会议文字记录,识别准确率95%

过期参考音频清理

输入:待删除音频URI(3条)

操作:批量删除请求

输出:成功清理3条过期音频,释放空间15MB

儿童故事长语音合成

输入:《小熊的奇妙冒险》全篇(约16分钟)

语速:0.8(适合儿童收听)

输出:960秒完整儿童故事语音,含角色对话区分

使用场景

播客制作

快速克隆主持人声音,生成专业播客内容,支持长时程语音合成

在线教育

生成多角色有声教材,支持双语教学内容,提升学习体验

有声内容创作

将小说、文章转换为高质量有声内容,支持角色声音区分

智能客服

生成自然流畅的客服语音,支持多轮对话,提升客户体验

会议记录

快速将会议录音转换为文字记录,自动识别发言人和关键信息

游戏配音

为游戏角色生成多样化语音,支持情绪变化和特殊音效提示

价格信息

价格由API服务商设定,详细的定价方案及套餐信息,请访问服务商官网查看。

查看详细价格

常见问题

Q: 支持多长时长的音频合成?

A: 硅基流动音频API单次可生成长达960秒(16分钟)的语音,满足长时程内容制作需求,如完整故事、播客等。

Q: 语音转文本的准确率如何?

A: 使用FunAudioLLM/SenseVoiceSmall模型,在标准普通话环境下识别准确率可达95%以上,支持多人对话区分和关键词高亮。

Q: 如何实现声音克隆功能?

A: 通过"上传参考音频"接口上传30秒以上的清晰语音样本,获取音频URI后,在文本转语音接口中引用该URI即可实现声音克隆。

Q: 支持哪些音频输出格式?

A: 支持mp3、opus、wav、pcm等多种音频格式,可根据需求选择合适的输出格式,不同格式支持的采样率有所不同。

Q: 如何控制生成语音的语速和情感?

A: 可通过speed参数(0.25-4.0)控制语速,通过在文本中添加特殊标记(如"<|endofprompt|>")和描述性语言来引导情感表达。

Q: API调用需要身份验证吗?

A: 是的,所有API调用都需要在请求头中包含有效的Authorization令牌,格式为"Bearer {YOUR_API_KEY}",您可以从服务商官网获取API密钥。