支持所有主要音频格式,文件大小必须小于1GB
输入文本可以是任何格式,但目前不支持对话分离
自动为视频内容生成精准同步的字幕,节省人工制作时间,提高视频可访问性。
为有声读物添加文本时间戳,实现文本与音频的精准同步,提升用户阅读体验。
帮助语言学习者逐词跟读,通过精确的时间对齐,提升发音练习的效果和效率。
自动将会议录音与文字记录对齐,快速定位特定内容,提高会议信息检索效率。
为语音助手提供精确的语音识别时间信息,提升语音交互的准确性和响应速度。
分析语音节奏、停顿模式,为市场调研、用户体验分析提供精准的语音数据支持。
价格由API服务商设定,详细的定价信息请访问ElevenLabs官方网站查看。
查看ElevenLabs官方定价Forced Alignment API是一种能够将语音音频与文本精确对齐的工具,它可以为文本中的每个单词或字符提供在音频中对应的开始和结束时间,生成时间对齐的转录本。
目前Forced Alignment API支持29种语言,包括英语、中文、日语、西班牙语、法语、德语等主要语种,能够满足多语言环境下的音频文本对齐需求。
API支持的最大音频文件大小为3GB,最长音频时长为10小时。对于大文件,建议使用流式传输功能(enabled_spooled_file=true)进行分块处理。
API密钥需要在ElevenLabs官网注册账号后获取。注册成功后,您可以在账号设置中的API部分找到您的xi-api-key,用于API调用鉴权。
API通常能提供毫秒级的时间精度,对齐误差一般在几十毫秒以内,具体精度可能因音频质量、背景噪音和语言类型而略有差异。