ElevenLabs语音转文本API - 专业音频视频转录解决方案

功能示例

商务会议转录

输入：

商务会议录音文件（主题：Q3销售策略讨论，英语）

输出：

会议纪要文本："参会人A（销售总监）：本季度销售目标需提升15%，重点拓展华东市场。参会人B（市场经理）：同意，建议增加线上推广预算，下周提交详细方案。"

主要语言：英语（可信度98%）

客户服务记录

输入：

客户服务通话音频（客户投诉产品质量问题，中文）

输出：

对话转录内容："客户：我上周买的耳机有杂音，使用不到三天就坏了。客服：非常抱歉给您带来不便，我们会安排退换货，您方便提供订单号吗？"

音频事件标记：[客户情绪激动（00:01:20）]、[客服安抚语气（00:01:45）]

国际会议多语言转录

输入：

国际科技峰会演讲视频URL（含英语、日语，主题：AI发展趋势）

输出：

多语言转录文本："英语：AI技术将在未来五年改变医疗诊断流程。日语：データセキュリティは最優先事項です（数据安全是首要任务）。"

识别语言：英语（可信度97%）、日语（可信度95%）

名人访谈转录

输入：

名人访谈音频（嘉宾：作家李明，主题：新书创作历程）

输出：

访谈对话文本："主持人：您创作这本书的灵感来自哪里？李明：主要源于去年的一次乡村旅行，当地的民俗故事给了我很多启发。"

音频事件标记：[观众笑声（00:05:10）]、[掌声（00:08:30）]

教育内容转录

输入：

大学公开课录音（课程：中国近代史，中文）

输出：

讲座内容文本："1919年五四运动是中国近代史上重要的爱国运动，推动了新文化运动的发展，促进了马克思主义在中国的传播。"

主要语言：中文（可信度99%）

法律记录

输入：

法庭庭审录音（涉及法官、原告、被告三方）

输出：

庭审对话文本："法官：原告请陈述诉讼请求。原告（建筑公司）：要求被告支付拖欠的工程款共计50万元。被告（业主）：我们未收到验收合格证明，因此暂缓付款。"

说话者区分：法官、原告（建筑公司）、被告（业主）

使用场景

会议记录自动化

自动将会议录音转为文字记录，准确捕捉发言内容和决策要点，节省人工记录时间。

播客与视频转录

将播客、视频内容转为文本，便于制作字幕、生成文章摘要，提升内容可访问性。

客服质量监控

转录客服通话内容，分析服务质量，识别客户需求和问题，优化客户体验。

教育内容处理

将讲座、课程录音转为文本笔记，方便学生复习和内容检索，支持多语言教学材料。

法律与医疗记录

准确记录法庭庭审、医疗问诊对话，确保重要信息完整保存，便于后续查阅和分析。

国际内容本地化

处理多语言国际会议、演讲内容，实现跨语言信息获取和传播，促进国际交流合作。

常见问题

支持哪些音频和视频格式？

API支持所有主要的音频和视频格式，包括MP3、WAV、MP4、AVI等。文件大小限制为3.0GB以内，通过URL上传的文件需小于2GB。

转录准确率如何？支持哪些语言？

API采用先进的Scribe v1模型，提供高精度转录服务，支持99种语言。对于清晰的音频，准确率可达95%以上，具体取决于音频质量和背景噪音水平。

如何处理长音频文件？支持实时转录吗？

API适用于需要高精度转录而非实时转录的场景。对于长音频文件，建议使用异步处理模式，设置webhook接收转录结果。实时转录需通过其他专用API实现。

是否支持识别多个说话者？

是的，API支持多说话者识别，最多可区分32个不同说话者。您可以通过设置num_speakers参数指定上传文件中说话者的最大数量，帮助提高识别准确性。

如何获取转录结果？支持哪些输出格式？

转录结果以JSON格式返回，包含完整文本、单词级时间戳、说话者信息和音频事件标记。您可以选择同步等待结果或使用webhook异步接收。对于需要其他格式的情况，可以根据JSON结果自行转换。

有使用量限制吗？如何监控API使用情况？

使用量限制取决于您的ElevenLabs账户类型。免费账户有月度转录分钟限制，付费账户提供更高配额。您可以通过ElevenLabs控制台监控API使用情况、查看消费统计和设置用量警报。

Speech to Text API

语音转文本API

创建转录

转录结果

转录文本