以云服务的方式提供语音通信能力,方便快捷,拨通率高;安全可靠,防盗取,防攻击;性能稳定,支持大容量、高并发。【注意细则,请<a href='https://www.showapi.com/images/apiGateway/premise_voice.jpg' target='_blank'>点击查看</a>】。
该API允许用户上传视频,并根据提示生成音频。支持通过Base64或URL上传mp4格式的视频,并可选择生成音频的步骤和种子。
用户可以通过multipart/form-data格式上传音频文件,文件将被存储为16kHz的.wav格式,有效期为24-48小时。上传时,文件名可选,但需符合特定字符要求。此外,用户可以通过指定音频文件的ID来删除已上传的音频文件。
DiffRhythm API 允许开发者通过文本提示生成完整的歌曲,支持多种风格和场景描述,提供异步API调用、纯人声生成、多语言音乐生成等功能。
该API允许用户通过输入歌词或描述生成音乐,支持多种音乐模型版本(如chirp-v4、chirp-v3.5等),并提供了歌词生成、歌曲拼接、音频上传等功能。用户可以通过API生成两首歌曲,计费按次数而非歌曲数。
百度语音技术API集成了语音识别、语音合成、呼叫中心语音及自训练平台等功能,支持多种应用场景,如泛阅读、在线教育、音频审核等。开发者可通过接入指南快速集成,享受免费测试额度及灵活的付费方式。
该API允许用户通过参考语音样本生成自然语音,支持任何声音的语音合成。请求需指定模型、任务类型、生成文本和参考音频等参数。
MiniMax 语音API能够将文字转换为栩栩如生的语音,支持多种音色和语言,包括中文、英语、日语等。适用于新闻播报、说书、影视配音等多种场景。API提供高清晰度的音质和快速生成音频的能力,用户可以根据需求选择不同的音色和语言进行语音生成。
D-ID Text to Speech API 集成了Microsoft Azure、ElevenLabs和Amazon Polly等语音合成服务,支持超过100种语言和多种语音风格。用户可以通过API请求选择特定的语音ID,生成自然流畅的语音。此外,API还支持通过SSML添加自然停顿,生成完全静音的视频。
通过此API,用户可以上传其自定义的语音风格参考音频,支持base64编码或文件格式。上传的音频可用于后续的文本转语音等语音处理任务。
用户可以通过Upload API上传音乐文件或干声+伴奏文件,获取vocie_id和instrumental_id,然后将这些ID与歌词一起传入Music Generation API,生成相应的AI音乐。
该API提供音乐生成服务,用户可以通过输入提示词生成音乐,支持自定义歌词和音乐续写。API支持多种模型,不同模型价格不同,生成质量可调。
通过GET请求,用户可以获取到系统预置音色和自定义音色的详细信息,包括音色名称、ID、创建时间、更新时间、预览音频等。支持分页查询和过滤系统音色。
Suno API 提供了生成音乐、扩展音乐、获取完整扩展音乐、生成歌词以及查询生成结果的功能。用户可以通过文本提示或自定义歌词生成音乐,并可以扩展已有的音乐片段。所有任务结果均为异步返回。
Song API 支持两种模型:music-u(Udio API)和 music-s(Suno)。music-u 支持生成音乐任务,包括简单提示、纯音乐和完整歌词模式。music-s 目前处于测试阶段,支持描述模式和自定义模式。