智能文档解析-文字识别-API黄页

基础配置

选择接入点：

POST

接入点文档：查看

Run: Ctrl+

↵

接入点描述：对证件、票据、表单等任意版式文档进行键值对提取、文字识别、以及表格识别等任务，实现进阶高效的自动化结构化返回。

请求参数

endpoint*

即调用API的请求地址，不同服务不同区域的“endpoint”不同，具体请参见终端节点。

project_id*

项目ID，您可以从获取项目ID中获取。

data

与url二选一。单个图片、PDF文件其对应的Base64编码不超过10MB。文件在Base64编码后会大于文件原本大小，请注意做好边界判断，建议文件大小不超过7MB。图像尺寸不小于15×15像素，最长边不超过8192像素，支持JPG/PNG/BMP/TIFF格式。PDF以150dpi的分辨率转为图像进行文档解析，需符合上述图像尺寸规定。若PDF有多页，当前仅对第1页进行识别。

拖动文件到此，或点击上传

url

与data二选一。url中单个图片、PDF文件其对应的Base64编码不超过10MB。文件在Base64编码后会大于文件原本大小，请注意做好边界判断，建议文件大小不超过7MB。目前支持：公网http/https url；OBS提供的url，使用OBS数据需要进行授权。包括对服务授权、临时授权、匿名公开授权，详情参见配置OBS访问权限。

language

中英文识别，取值为zh。

single_orientation_mode

单朝向模式开关。可选值包括：true：打开单朝向模式；false：关闭单朝向模式；图片文字方向一致时，打开该开关可提升识别精度；图片文字方向不一致时，关闭该开关可支持多朝向文字识别。未传入该参数时默认为true，既默认图片中的字段为单朝向。

pdf_page_number

指定PDF页码识别。传入该参数时，则识别指定页码的内容。如果不传该参数，则默认识别第1页。

erase_seal

是否进行印章擦除。开启后，可提升印章遮挡区域的文字识别精度。

form

是否进行有线表单识别。有线表单指关键信息以有线单元格形式进行呈现，例如户口本、机动车发票等。若是，结果会以 "form_result"这一关键字返回。

formula

是否进行公式识别，识别结果为latex序列。若是，结果会以“formula_result”这一关键字返回。开启公式识别后会降低响应速度。当前仅支持3行以内公式识别，不支持3行以上的多行公式。

是否进行键值对（key-value）提取。若是，结果会以“kv_result”这一关键字返回。

kv_map

需要传入字典的json序列化后字符串，用于对kv_result中的特定key值进行归一化映射。例如，kv_result中包含{"名称"："小明"}的键值对，若传入{"名称"："姓名"}的kv_map，则返回结果为{“姓名”：“小明”}。

layout

是否进行版面分析。若是，结果会以“layout_result”这一关键字返回。

table

是否进行表格识别。此处表格特指逻辑表格，通常具有M行N列的形式，且第一行或第一列为表头。若是，结果会以“table_result”这一关键字返回。

return_excel

仅当table为True时有效。是否返回表格转换Microsoft Excel的Base64编码字段。

返回结果

当前为示例返回