Forced Alignment API

ElevenLabs的Forced Alignment API可以将语音音频和文本转换为时间对齐的转录本。

开始使用 API测试 API原站文档

本页面仅提供API测试，调用的API服务由 ElevenLabs 提供，用量购买及管理请前往其官网。浏览器直调API，易源不做代理转发。

强制对齐API

API密钥密钥仅在浏览器端存储，易源不做转发

要对齐的文件

支持所有主要音频格式，文件大小必须小于1GB

要与音频对齐的文本

输入文本可以是任何格式，但目前不支持对话分离

流式传输文件（适用于大文件）

功能示例

英语新闻播报音频对齐

输入：

音频：英语新闻播报（10秒，"Hello world, this is a breaking news update."）
文本："Hello world, this is a breaking news update."
流式传输：false

输出：

"Hello"：0.5-1.2秒
"world"：1.3-2.0秒
"this"：2.8-3.3秒
"breaking"：4.5-5.3秒

中文有声书片段对齐

输入：

音频：中文儿童故事（15秒，"小兔子蹦蹦跳跳，来到了森林里。"）
文本："小兔子蹦蹦跳跳，来到了森林里。"
流式传输：false

输出：

"小兔子"：0.8-1.6秒
"蹦蹦跳跳"：1.8-2.7秒
"来到了"：3.2-3.9秒
"森林里"：4.1-5.0秒

日语产品介绍音频对齐

输入：

音频：日语产品介绍（20秒，"こんにちは、新製品の紹介です。品質が非常に優れています。"）
文本："こんにちは、新製品の紹介です。品質が非常に優れています。"
流式传输：true

输出：

"こんにちは"：0.6-1.5秒
"新製品"：2.0-2.8秒
"紹介"：3.0-3.5秒
"品質"：4.2-4.8秒

西班牙语会议记录音频对齐

输入：

音频：西班牙语会议对话（30秒，"Buenos días, ¿cómo está everyone? Hoy discutiremos el proyecto."）
文本："Buenos días, ¿cómo está everyone? Hoy discutiremos el proyecto."
流式传输：true

输出：

"Buenos"：0.7-1.4秒
"días"：1.5-2.1秒
"cómo"：2.5-3.0秒
"proyecto"：8.2-9.0秒

使用场景

视频字幕生成

自动为视频内容生成精准同步的字幕，节省人工制作时间，提高视频可访问性。

有声书制作

为有声读物添加文本时间戳，实现文本与音频的精准同步，提升用户阅读体验。

语言学习应用

帮助语言学习者逐词跟读，通过精确的时间对齐，提升发音练习的效果和效率。

会议记录整理

自动将会议录音与文字记录对齐，快速定位特定内容，提高会议信息检索效率。

语音助手开发

为语音助手提供精确的语音识别时间信息，提升语音交互的准确性和响应速度。

语音数据分析

分析语音节奏、停顿模式，为市场调研、用户体验分析提供精准的语音数据支持。

价格信息

价格由API服务商设定，详细的定价信息请访问ElevenLabs官方网站查看。

查看ElevenLabs官方定价

常见问题

什么是Forced Alignment API？

Forced Alignment API是一种能够将语音音频与文本精确对齐的工具，它可以为文本中的每个单词或字符提供在音频中对应的开始和结束时间，生成时间对齐的转录本。

支持哪些语言？

目前Forced Alignment API支持29种语言，包括英语、中文、日语、西班牙语、法语、德语等主要语种，能够满足多语言环境下的音频文本对齐需求。

音频文件大小和时长有限制吗？

API支持的最大音频文件大小为3GB，最长音频时长为10小时。对于大文件，建议使用流式传输功能（enabled_spooled_file=true）进行分块处理。

如何获取API密钥？

API密钥需要在ElevenLabs官网注册账号后获取。注册成功后，您可以在账号设置中的API部分找到您的xi-api-key，用于API调用鉴权。

返回结果的精度如何？

API通常能提供毫秒级的时间精度，对齐误差一般在几十毫秒以内，具体精度可能因音频质量、背景噪音和语言类型而略有差异。