上传音频文件获取URI,用于后续语音合成
输入:主持人日常说话录音(30秒)
播客文本:"欢迎收听《科技新声》..."
输出:120秒播客开场语音,音色与主持人录音一致
输入:双语故事文本,模型选择MOSS-TTSD
语速:0.9(稍慢适合故事讲述)
输出:300秒中英双语有声书旁白,发音标准
输入:客服对话脚本,音色选择亲切女声
格式:mp3
输出:240秒客服对话语音,语气热情自然
输入:团队项目进度讨论录音(15分钟)
模型:FunAudioLLM/SenseVoiceSmall
输出:3500字会议文字记录,识别准确率95%
输入:待删除音频URI(3条)
操作:批量删除请求
输出:成功清理3条过期音频,释放空间15MB
输入:《小熊的奇妙冒险》全篇(约16分钟)
语速:0.8(适合儿童收听)
输出:960秒完整儿童故事语音,含角色对话区分
快速克隆主持人声音,生成专业播客内容,支持长时程语音合成
生成多角色有声教材,支持双语教学内容,提升学习体验
将小说、文章转换为高质量有声内容,支持角色声音区分
生成自然流畅的客服语音,支持多轮对话,提升客户体验
快速将会议录音转换为文字记录,自动识别发言人和关键信息
为游戏角色生成多样化语音,支持情绪变化和特殊音效提示
价格由API服务商设定,详细的定价方案及套餐信息,请访问服务商官网查看。
查看详细价格A: 硅基流动音频API单次可生成长达960秒(16分钟)的语音,满足长时程内容制作需求,如完整故事、播客等。
A: 使用FunAudioLLM/SenseVoiceSmall模型,在标准普通话环境下识别准确率可达95%以上,支持多人对话区分和关键词高亮。
A: 通过"上传参考音频"接口上传30秒以上的清晰语音样本,获取音频URI后,在文本转语音接口中引用该URI即可实现声音克隆。
A: 支持mp3、opus、wav、pcm等多种音频格式,可根据需求选择合适的输出格式,不同格式支持的采样率有所不同。
A: 可通过speed参数(0.25-4.0)控制语速,通过在文本中添加特殊标记(如"<|endofprompt|>")和描述性语言来引导情感表达。
A: 是的,所有API调用都需要在请求头中包含有效的Authorization令牌,格式为"Bearer {YOUR_API_KEY}",您可以从服务商官网获取API密钥。