
需两次购买:①订购原厂商接口 ②订购易源会员包代理转发;为开发者提供语音转文字服务的最佳体验,开放实时语音识别、一句话识别和录音文件识别三种服务形式,满足不同类型开发者需求,具备识别准确率高、接入便捷、性能稳定等特点。
本接口用于对60秒之内的短音频文件进行识别,支持本地语音文件上传和语音URL上传两种请求方式。 当音频文件通过请求中body内容上传时,请求大小不能超过600KB;当音频以url方式传输时,音频时长不可超过60s。 所有请求参数放在POST请求的body中,编码类型采用x-www-form-urlencoded,参数进行urlencode编码后传输。 现暂只支持中文普通话和带有一定方言口音的中文普通话识别,支持识别8k16bit和16k16bit的mp3或者wav格式的单声道音频。原接口订购地址:https://cloud.tencent.com/product/asr
| 参数名称 | 类型 | 示例值 | 必须 | 描述 |
|---|---|---|---|---|
| content-type | String | application/x-www-form-urlencoded | 否 |
| 参数名称 | 类型 | 示例值 | 必须 | 描述 |
|---|---|---|---|---|
| ds_id | String | - | 是 | 数据源 |
| EngSerViceType | String | 8k_zh | 是 | 引擎模型类型。 电话场景: • 8k_zh:中文电话通用; • 8k_en:英文电话通用; 非电话场景: • 16k_zh:中文通用; • 16k_zh-PY:中英粤; • 16k_zh_medical:中文医疗; • 16k_en:英语; • 16k_yue:粤语; • 16k_ja:日语; • 16k_ko:韩语; • 16k_vi:越南语; • 16k_ms:马来语; • 16k_id:印度尼西亚语; • 16k_fil:菲律宾语; • 16k_th:泰语; • 16k_pt:葡萄牙语; • 16k_tr:土耳其语; • 16k_zh_dialect:多方言,支持23种方言(上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话); |
| SourceType | Number | 0 | 是 | 语音数据来源。0:语音 URL;1:语音数据(post body)。 |
| VoiceFormat | String | wav | 是 | 识别音频的音频格式,支持wav、pcm、ogg-opus、speex、silk、mp3、m4a、aac、amr。 |
| Url | String | https://showapi.oss-cn-hangzhou.aliyuncs.com/modleapi/lzh/case13.wav | 否 | 语音的URL地址,需要公网环境浏览器可下载。当 SourceType 值为 0时须填写该字段,为 1 时不填。音频时长不能超过60s,音频文件大小不能超过3MB。 |
| Data | String | - | 否 | 语音数据,当SourceType 值为1(本地语音数据上传)时必须填写,当SourceType 值为0(语音 URL上传)可不写。要使用base64编码(采用python语言时注意读取文件应该为string而不是byte,以byte格式读取后要decode()。编码后的数据不可带有回车换行符)。音频时长不能超过60s,音频文件大小不能超过3MB(Base64后)。 |
| DataLen | Number | - | 否 | 数据长度,单位为字节。当 SourceType 值为1(本地语音数据上传)时必须填写,当 SourceType 值为0(语音 URL上传)可不写(此数据长度为数据未进行base64编码时的数据长度)。 |
| WordInfo | Number | 0 | 否 | 是否显示词级别时间戳。0:不显示;1:显示,不包含标点时间戳,2:显示,包含标点时间戳。默认值为 0。 |
| FilterDirty | Number | 0 | 否 | 是否过滤脏词(目前支持中文普通话引擎)。0:不过滤脏词;1:过滤脏词;2:将脏词替换为 * 。默认值为 0。 |
| FilterModal | Number | 0 | 否 | 是否过语气词(目前支持中文普通话引擎)。0:不过滤语气词;1:部分过滤;2:严格过滤 。默认值为 0。 |
| FilterPunc | Number | 0 | 否 | 是否过滤标点符号(目前支持中文普通话引擎)。 0:不过滤,1:过滤句末标点,2:过滤所有标点。默认值为 0。 |
| ConvertNumMode | Number | 1 | 否 | 是否进行阿拉伯数字智能转换。0:不转换,直接输出中文数字,1:根据场景智能转换为阿拉伯数字。默认值为1。 |
| HotwordId | String | - | 否 | 热词id。用于调用对应的热词表,如果在调用语音识别服务时,不进行单独的热词id设置,自动生效默认热词;如果进行了单独的热词id设置,那么将生效单独设置的热词id。 |
| CustomizationId | String | - | 否 | 自学习模型 id。如设置了该参数,将生效对应的自学习模型。 |
| ReinforceHotword | Number | - | 否 | 热词增强功能。1:开启后(仅支持8k_zh,16k_zh),将开启同音替换功能,同音字、词在热词中配置。举例:热词配置“蜜制”并开启增强功能后,与“蜜制”同拼音(mizhi)的“秘制”、“蜜汁”的识别结果会被强制替换成“蜜制”。因此建议客户根据自己的实际情况开启该功能。 |
| HotwordList | String | - | 否 | 临时热词:用于提升识别准确率,临时热词规则:“热词|权重”,热词不超过30个字符(最多10个汉字),权重1-10,最多传入128个热词。举例:"腾讯云|10,语音识别|5,ASR|10"。 “临时热词”和“热词id”的区别:热词id需要先在控制台或通过接口创建热词表,得到热词表id后才可以使用热词功能,本字段可以在每次请求时直接传入热词使用,但每次请求后云端不会保留相关的热词数据,需要客户自行维护相关数据 |
showapi_res_body 系统封装,业务数据均位于该对象内;系统级字段见。