Fireworks AI 音频转录API

Fireworks AI 音频创作

密钥仅在浏览器端存储,易源不做转发

音频转录参数

支持常见音频格式如mp3、flac、wav等,最大文件大小为1GB

转录结果

转录结果将显示在这里

功能示例

英语会议录音转文字

输入:

英语团队周会录音.mp3(30分钟),目标语言:en,模型:whisper-v3

输出:

本次会议讨论了Q3季度销售目标,确定了北美市场优先推进,欧洲市场延后至11月启动。

会议时长:30分25秒 | 关键片段:[15:30-18:45] 北美市场预算分配细节

中文客户服务电话转录

输入:

客户咨询电话.wav(5分钟),语音检测模型:silero,预处理模式:dynamic

输出:

客户:"您好,我上周下单的商品还没收到,订单号是12345。" 客服:"稍等,我查询一下...您的包裹已在昨天发出,预计明天送达。"

对话时长:5分12秒 | 情绪标记:客户语气平和,无投诉倾向

日语演讲翻译成中文

输入:

东京技术峰会演讲.mp4(15分钟),目标语言:zh,模型:whisper-v3-turbo

输出:

"今天我将介绍AI在自动驾驶中的最新应用,通过多传感器融合技术,车辆识别准确率已提升至99.8%..."

原语言检测:ja(日语) | 演讲时长:15分40秒

批量处理培训音频

输入:

新员工培训系列.zip(含8个mp3文件,总时长2小时),预处理模式:bass_dynamic

输出:

包含产品知识、操作流程、安全规范三大模块内容,关键术语"SOP-2023"出现12次

批量任务状态:处理完成(8/8文件已转录) | 总处理时长:25分钟

双嘉宾访谈带说话人区分

输入:

科技访谈.flac(40分钟),时间戳粒度:word,segment,对齐模型:tdnn_ffn

输出:

speaker_0(主持人):"您认为AI生成内容的核心挑战是什么?" speaker_1(专家):"主要是真实性验证,我们正在研发基于区块链的溯源技术..."

说话人区分:主持人、AI专家 | 精彩片段:[28:15-32:40] 专家对未来3年技术趋势预测

播客转录带字幕格式

输入:

商业播客 episode 56.mp3(60分钟),响应格式:srt,温度参数:0.2

输出:

[00:02:10] 嘉宾:"今年全球电商市场规模预计突破5万亿美元,东南亚增速最快。" [00:05:30] 主持人:"那中小商家该如何抓住这一趋势?"

播客总时长:60分18秒 | 字幕段落数:128段(平均每30秒1段)

使用场景

企业会议记录

自动将团队会议录音转换为文本记录,便于存档和后续查阅,节省人工记录时间。

客户服务分析

转录客服通话内容,分析客户问题和需求,优化服务流程和产品改进方向。

教育内容处理

将讲座、课程录音转换为文本笔记,方便学生复习和教育机构制作字幕。

媒体内容创作

快速将采访录音转为文字稿,辅助记者、编辑进行新闻报道和内容创作。

多语言内容本地化

将外语演讲、播客转录并翻译成目标语言,帮助企业快速拓展国际市场。

法律医疗文档转换

将法庭记录、医疗咨询录音转为文本,便于法律文件存档和医疗记录整理。

价格信息

价格由API服务商设定,请到服务商官网查看详细定价方案

查看Fireworks AI官方定价

常见问题