百度语音技术API

百度智能云语音技术API

API密钥

密钥仅在浏览器端存储，易源不做转发

语音识别API

音频格式

语言类型

采样率

当前仅支持16000Hz采样率

音频URL

可使用百度云对象存储进行音频存储，生成云端可外网访问的url链接

敏感词过滤

文本顺滑

转写结果

请点击"创建转写任务"按钮获取结果

功能示例

会议录音文字转写

输入：

• 音频格式：mp3
• 音频内容：产品部周会录音（30分钟）
• 采样率：16000Hz（标准清晰音质）

输出：

• 转写文字："本次周会讨论了Q3新功能排期，市场部需在8月前完成用户调研..."
• 转写状态：成功（准确率98%）

客服通话智能质检

输入：

• 通话音频：客服与用户沟通录音（2分钟）
• 质检规则：需检测"投诉""退款""态度恶劣"等关键词
• 敏感词过滤：开启

输出：

• 质检结果：检测到关键词"退款"（出现1次），建议人工复核
• 通话总结：用户咨询订单退货流程，客服已引导至售后页面

电子书章节语音合成

输入：

• 文本内容：《自然科学启蒙》第一章"太阳系的奥秘"（1500字）
• 语速：适中（5级）
• 音色：亲切女声（适合儿童听书）

输出：

• 合成状态：成功生成30分钟音频
• 音频描述：发音清晰，断句自然，适合6-12岁儿童收听

企业个性化音色创建

输入：

• 训练音频：客服主管3段标准话术录音（每段20秒）
• 音色名称："企业客服专用"
• 音色描述：专业、耐心、亲和力强

输出：

• 音色ID：CUST202406
• 创建状态：训练完成（相似度95%）
• 可用场景：自动语音导航、订单状态播报

使用场景

企业会议记录

自动将会议录音转为文字纪要，支持多人对话区分，提高会议效率和信息留存率。

客服质检分析

对客服通话进行实时质检，自动识别敏感词和服务问题，提升客户服务质量。

有声内容创作

将小说、新闻等文本内容转换为自然流畅的语音，快速制作播客、有声书等内容。

智能语音导航

为智能设备提供自然语音交互能力，支持自定义唤醒词和指令，提升用户体验。

教育内容转写

将教学音频转为文字笔记，支持双语转换和专业术语识别，辅助学习和复习。

媒体字幕生成

自动为视频内容生成精准字幕，支持多语言翻译和时间戳标记，提升内容可访问性。

价格信息

价格由API服务商设定，请到服务商官网查看详细定价方案

查看百度智能云官方定价

常见问题

百度语音API支持多种音频格式，包括pcm、wav、mp3、m4a、amr等。不同接口可能支持的格式略有差异，建议在使用前查阅具体接口文档。对于最佳识别效果，推荐使用pcm或wav格式的音频文件。

百度语音识别技术在标准普通话环境下，准确率可达98%以上。实际识别效果可能受音频质量、背景噪音、说话人口音等因素影响。对于特定领域，可通过自训练平台优化模型，进一步提高识别准确率。

要获取百度语音API的调用凭证，您需要先在百度智能云官网注册账号并创建应用，然后在应用管理页面获取API Key和Secret Key。使用这些密钥可以生成access_token，用于API调用时的身份验证。详细步骤可参考百度智能云官方文档。

是的，百度语音API提供实时语音识别能力，支持通过WebSocket协议进行流式语音识别。这种方式适用于需要低延迟的场景，如语音输入、实时字幕生成等。实时识别接口支持16k和8k采样率，可根据实际需求选择合适的模型。

百度语音合成提供丰富的音色选择，包括基础音库、精品音库、臻品音库和大模型音库。基础音库提供普通男女声，精品音库包含多种特色音色（如童声、方言等），大模型音库则提供更自然、更富情感的合成效果。此外，通过大模型声音复刻功能，您还可以创建自定义音色。