Ebby Speech To Text API 提供快速音频转文本服务,支持超过100种语言和方言,包括自动标点、脏话过滤和说话人标签。用户可以通过在线编辑器同步播放媒体文件并编辑文本,支持多种导出格式如Word、PDF、Text等。API还提供私有和安全的自动转录服务,确保数据隐私。
Face Swap API 允许用户通过上传或提供图片/视频的URL来进行人脸交换。API支持单张图片的人脸交换、多张图片的人脸交换、视频中的人脸交换,以及从视频帧中提取人脸。所有操作都支持通过webhook回调获取结果。
该API通过接收两张Base64编码的人脸图像,将它们融合成一张新的图像或视频。
该API支持转语音生成,最大输入长度为10,000字符。提供超过100种系统和克隆语音,可自定义音量、音调、语速和输出格式。支持流式输出和多种音频格式,如mp3、pcm、flac和wav。适用于短句生成、语音聊天和在线社交场景。
该API通过POST请求转换为视频,支持自定义视频尺寸、生成步骤、提示词等参数。生成的视频可以通过任务ID异步获取,适用于内容创作和视觉化信息展示。
本接口提供大语言模型(LLM)核心API服务,支持对话生成、文本补全、嵌入向量计算、语义重排等功能,并提供模型列表查询与详情获取能力。API支持流式响应和结构化输出格式。
该API通过异步处理方式,使用指定的AI模型对图像进行放大、背景移除与替换、局部修复、文字去除、画面清理、图像转文本等。用户需提供图像的base64编码,API返回任务ID,用户可通过任务ID查询处理结果。
此API通过POST请求接收提示,生成图像并返回任务ID。用户需使用任务ID查询生成结果。支持多种参数配置,如模型选择、图像尺寸、生成步骤等。
通过POST请求创建一个批量处理任务,需要提供输入文件ID、处理端点和完成时间窗口。任务完成后会生成输出文件和错误文件。
通过GET请求,用户可以查询自己的账户信息,包括信用余额。请求需要包含Content-Type和Authorization头部信息。响应中会返回用户的信用余额,该余额是用户在novita.ai网站上显示的余额乘以10,000的结果。
Forced Alignment API用于将语音音频与文本对齐,生成时间对齐的转录本。适用于需要为转录本中的每个单词或短语提供精确时间戳的场景,如视频字幕匹配或电子书的有声读物录制。支持29种语言,最大音频文件大小为3GB,最长音频时长为10小时。
ElevenLabs Voices API 允许用户通过文本提示创建和定制语音,支持多种语言和语音类型。用户可以从社区语音库中选择语音,或通过克隆和设计工具创建自定义语音。API 还提供了语音管理功能,方便用户搜索、过滤和组织语音。
通过POST请求,用户可以创建一个音频原生项目,并上传相关文件。API支持多种编程语言调用,如Python、TypeScript、Go等。创建成功后,将返回项目ID和HTML片段,便于嵌入到网页中。
该API能够从音频和视频文件中提取语音,去除背景噪音、音乐和其他干扰声音。支持多种音频和视频文件格式,适用于在嘈杂环境中录制的音频处理。
该API通过分离每个说话者的对话与背景音,允许在另一种语言中重现原始表达。支持多语言输出、保留原始声音、保持背景音频等功能,适用于大规模或自动化工作流程。
该API通过文本描述生成高质量音效,支持精确控制时长、风格和复杂度。适用于电影音效设计、游戏自定义音效和视频内容的Foley音效。