语音转文本API

密钥仅在浏览器端存储,易源不做转发

创建转录

支持所有主要的音频和视频格式,文件大小必须小于3.0GB

功能示例

商务会议转录

输入:

商务会议录音文件(主题:Q3销售策略讨论,英语)

输出:

会议纪要文本:"参会人A(销售总监):本季度销售目标需提升15%,重点拓展华东市场。参会人B(市场经理):同意,建议增加线上推广预算,下周提交详细方案。"

主要语言:英语(可信度98%)

客户服务记录

输入:

客户服务通话音频(客户投诉产品质量问题,中文)

输出:

对话转录内容:"客户:我上周买的耳机有杂音,使用不到三天就坏了。客服:非常抱歉给您带来不便,我们会安排退换货,您方便提供订单号吗?"

音频事件标记:[客户情绪激动(00:01:20)]、[客服安抚语气(00:01:45)]

国际会议多语言转录

输入:

国际科技峰会演讲视频URL(含英语、日语,主题:AI发展趋势)

输出:

多语言转录文本:"英语:AI技术将在未来五年改变医疗诊断流程。日语:データセキュリティは最優先事項です(数据安全是首要任务)。"

识别语言:英语(可信度97%)、日语(可信度95%)

名人访谈转录

输入:

名人访谈音频(嘉宾:作家李明,主题:新书创作历程)

输出:

访谈对话文本:"主持人:您创作这本书的灵感来自哪里?李明:主要源于去年的一次乡村旅行,当地的民俗故事给了我很多启发。"

音频事件标记:[观众笑声(00:05:10)]、[掌声(00:08:30)]

教育内容转录

输入:

大学公开课录音(课程:中国近代史,中文)

输出:

讲座内容文本:"1919年五四运动是中国近代史上重要的爱国运动,推动了新文化运动的发展,促进了马克思主义在中国的传播。"

主要语言:中文(可信度99%)

法律记录

输入:

法庭庭审录音(涉及法官、原告、被告三方)

输出:

庭审对话文本:"法官:原告请陈述诉讼请求。原告(建筑公司):要求被告支付拖欠的工程款共计50万元。被告(业主):我们未收到验收合格证明,因此暂缓付款。"

说话者区分:法官、原告(建筑公司)、被告(业主)

使用场景

会议记录自动化

自动将会议录音转为文字记录,准确捕捉发言内容和决策要点,节省人工记录时间。

播客与视频转录

将播客、视频内容转为文本,便于制作字幕、生成文章摘要,提升内容可访问性。

客服质量监控

转录客服通话内容,分析服务质量,识别客户需求和问题,优化客户体验。

教育内容处理

将讲座、课程录音转为文本笔记,方便学生复习和内容检索,支持多语言教学材料。

法律与医疗记录

准确记录法庭庭审、医疗问诊对话,确保重要信息完整保存,便于后续查阅和分析。

国际内容本地化

处理多语言国际会议、演讲内容,实现跨语言信息获取和传播,促进国际交流合作。

价格信息

价格由API服务商设定,请到服务商官网查看详细定价方案

查看详细价格

常见问题

支持哪些音频和视频格式?

API支持所有主要的音频和视频格式,包括MP3、WAV、MP4、AVI等。文件大小限制为3.0GB以内,通过URL上传的文件需小于2GB。

转录准确率如何?支持哪些语言?

API采用先进的Scribe v1模型,提供高精度转录服务,支持99种语言。对于清晰的音频,准确率可达95%以上,具体取决于音频质量和背景噪音水平。

如何处理长音频文件?支持实时转录吗?

API适用于需要高精度转录而非实时转录的场景。对于长音频文件,建议使用异步处理模式,设置webhook接收转录结果。实时转录需通过其他专用API实现。

是否支持识别多个说话者?

是的,API支持多说话者识别,最多可区分32个不同说话者。您可以通过设置num_speakers参数指定上传文件中说话者的最大数量,帮助提高识别准确性。

如何获取转录结果?支持哪些输出格式?

转录结果以JSON格式返回,包含完整文本、单词级时间戳、说话者信息和音频事件标记。您可以选择同步等待结果或使用webhook异步接收。对于需要其他格式的情况,可以根据JSON结果自行转换。

有使用量限制吗?如何监控API使用情况?

使用量限制取决于您的ElevenLabs账户类型。免费账户有月度转录分钟限制,付费账户提供更高配额。您可以通过ElevenLabs控制台监控API使用情况、查看消费统计和设置用量警报。