[color=rgba(0, 0, 0, 0.85)]请求示例 [color=rgba(0, 0, 0, 0.85)]HTTP 方法:POST [color=rgba(0, 0, 0, 0.85)]请求URL: https://aip.baidubce.com/rest/2.0/ocr/v1/doc_convert/request [color=rgba(0, 0, 0, 0.85)]URL参数: 参数值
access_token通过API Key和Secret Key获取的access_token,参考“Access Token获取”[color=rgba(0, 0, 0, 0.85)]Header如下: 参数值
Content-Typeapplication/x-www-form-urlencoded[color=rgba(0, 0, 0, 0.85)]Body中放置请求参数,参数详情如下: [color=rgba(0, 0, 0, 0.85)]请求参数 [color=rgba(0, 0, 0, 0.85)]注意:要求使用 JSON 格式的结构体来描述一个请求的具体内容。 参数是否必选类型说明
image和 url/pdf_file 三选一string图像数据,base64编码后进行urlencode,需去掉编码头(data:image/jpeg;base64, )
要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级: image > url > pdf_file,当image字段存在时,url、pdf_file字段失效
url和 image/pdf_file 三选一string图片完整URL,URL长度不超过1024字节,URL对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式
优先级: image > url > pdf_file,当image字段存在时url字段失效
请注意关闭URL防盗链
pdf_file和 image/url 三选一stringPDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过10M
优先级: image > url > pdf_file,当image、url字段存在时,pdf_file字段失效
pdf_file_num否string需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容;若不传入,默认识别文件所有页,页码从1开始[color=rgba(0, 0, 0, 0.85)]请求代码示例 [color=rgba(0, 0, 0, 0.85)]提示一:使用示例代码前,请记得替换其中的示例Token、文档地址或Base64信息。 [color=rgba(0, 0, 0, 0.85)] 提示二:目前仅提供Python语言,如需其他语言示例可参考 示例代码中心 。 [color=rgba(0, 0, 0, 0.85)]- [color=rgba(0, 0, 0, 0.8)]Python
[backcolor=rgba(150, 150, 150, 0.3)]
import base64import requests'''文档格式转换-提交请求'''request_host = "https://aip.baidubce.com/rest/2.0/ocr/v1/doc_convert/request"# 二进制方式打开图片文件f = open('[本地文件]', 'rb')img = base64.b64encode(f.read())params = {"image": img}access_token = '[调用鉴权接口获取的token]'request_url = request_host + "?access_token=" + access_tokenheaders = {'Content-Type': 'application/x-www-form-urlencoded'}response = requests.post(request_url, headers=headers, data=params)if response: print(response.json())
返回说明[color=rgba(0, 0, 0, 0.85)]返回参数 字段类型说明
successbool当前请求状态; true 表示请求成功,false表示请求异常
log_iduint64唯一的log id,用于问题定位
resultdict返回的结果列表
+ task_idstring该请求生成的task_id,后续使用该task_id获取识别结果
codeint成功状态码
messagestring详情[color=rgba(0, 0, 0, 0.85)]返回示例 [color=rgba(0, 0, 0, 0.85)]成功返回示例: [color=rgba(0, 0, 0, 0.85)][backcolor=rgba(150, 150, 150, 0.3)]
[color=rgba(0, 0, 0, 0.85)]{ "success":true, "log_id": 12345, "result":{ "task_id":"task-xxxxxxx", }, "code":1001, "message": "Create task successfully!"}
[color=rgba(0, 0, 0, 0.85)] 失败返回示例(详细的错误码说明见API文档-错误码): [color=rgba(0, 0, 0, 0.85)][backcolor=rgba(150, 150, 150, 0.3)]
[color=rgba(0, 0, 0, 0.85)]{ "success":false, "log_id": 12345, "error_code": 216401, "error_msg": "Create task failed!"}
获取结果接口在线调试[color=rgba(0, 0, 0, 0.85)] 您可以在 示例代码中心 中调试该接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。 请求说明[color=rgba(0, 0, 0, 0.85)]请求示例 [color=rgba(0, 0, 0, 0.85)]HTTP 方法:POST [color=rgba(0, 0, 0, 0.85)]请求URL: https://aip.baidubce.com/rest/2.0/ocr/v1/doc_convert/get_request_result [color=rgba(0, 0, 0, 0.85)]URL参数: 参数值
access_token通过API Key和Secret Key获取的access_token,参考“Access Token获取”[color=rgba(0, 0, 0, 0.85)]Header如下: 参数值
Content-Typeapplication/x-www-form-urlencoded[color=rgba(0, 0, 0, 0.85)]Body中放置请求参数,参数详情如下: [color=rgba(0, 0, 0, 0.85)]请求参数 参数是否必选类型说明
task_id是string发送提交请求时返回的task_id[color=rgba(0, 0, 0, 0.85)]请求代码示例 [color=rgba(0, 0, 0, 0.85)]提示一:使用示例代码前,请记得替换其中的示例Token、task_id。 [color=rgba(0, 0, 0, 0.85)] 提示二:目前仅提供Python语言,如需其他语言示例可参考 示例代码中心 。 [color=rgba(0, 0, 0, 0.85)]- [color=rgba(0, 0, 0, 0.8)]Python
[backcolor=rgba(150, 150, 150, 0.3)]
import requests'''文档格式转换-获取结果'''request_host = "https://aip.baidubce.com/rest/2.0/ocr/v1/doc_convert/get_request_result"params = {"task_id": "[调用提交请求接口获取的task_id]"}access_token = '[调用鉴权接口获取的token]'request_url = request_host + "?access_token=" + access_tokenheaders = {'Content-Type': 'application/x-www-form-urlencoded'}response = requests.post(request_url, headers=headers, data=params)if response: print(response.json())
返回说明[color=rgba(0, 0, 0, 0.85)]返回参数 字段类型说明
successbool当前请求状态; true表示请求成功,false表示请求异常
log_iduint64唯一的log id,用于问题定位
resultdict返回的结果列表
+ task_idstring该文件对应请求的task_id
+ ret_codeint识别状态,1:任务未开始;2:进行中;3:已完成
+ ret_msgstring识别状态信息:任务未开始;进行中;已完成
+ percentint文档转换进度(百分比)
+ result_datadict识别结果字符串,返回word、excel的文件分别的下载地址
+ +wordstring还原后的word文件的下载地址,下载地址有效期为30天,文件识别失败时返回""
+ +excelstring还原后的Excel文件的下载地址,下载地址有效期为30天,若文档中没有表格则返回""
+ create_timedatetime任务创建时间
+ start_timedatetime任务开始时间
+ end_timedatetime任务结束时间
codeint成功状态码
messagestring详情[color=rgba(0, 0, 0, 0.85)]返回示例 [color=rgba(0, 0, 0, 0.85)]成功返回示例: [color=rgba(0, 0, 0, 0.85)][backcolor=rgba(150, 150, 150, 0.3)]
[color=rgba(0, 0, 0, 0.85)]{ "success":true, "log_id": "xxxxxx", "result":{ "task_id":"task-xxxxxxx", "ret_code": 3, "ret_msg": "已完成", "percent": 100, "result_data": { "word": "word_download_url", "excel": "", }, "create_time": "2023-01-17 11:06:12", "start_time": "2023-01-17 11:06:13", "end_time": "2023-01-17 11:06:15" }, "code":1001, "message": "Query task successfully!""}
[color=rgba(0, 0, 0, 0.85)]若cha询的task_id不存在, 返回result为{}。 请求失败响应体示例如下: [color=rgba(0, 0, 0, 0.85)][backcolor=rgba(150, 150, 150, 0.3)]
[color=rgba(0, 0, 0, 0.85)]{ "code":1001, "log_id":1635891796603052032, "message":"Query task successfully!", "result":{}, "success":true}
|