发票批量识别，1行Python代码搞定，支持PDF格式

2024-05-19

大家好，这里是程序员晚枫，正在all in AI编程实战，小红书/B站/抖音，都叫这个名。

这套课程里有100多个文字识别的功能，其中最受欢迎的功能是：入门案例！批量识别发票自动保存为Excel文件，1行Python代码实现，但之前的课程对于发票识别有一个遗留问题：

只能识别图片格式的发票，但系统下载下来的往往是PDF格式，所以还需要把PDF转为图片，才能进行批量识别。

本周末在多位观众的督促下，加班加点更新了直接识别PDF的功能，下面介绍一下使用方法~（基本没变化，看一眼就会了），文末也有配套的视频教程，不想看文字的朋友可以直接去看视频。

准备工作

看过之前视频教程的朋友请注意，在Terminal里更新一下poocr，更新命令如下：

1	pip install poocr -U -i https://mirrors.aliyun.com/pypi/simple/

还没看过之前的视频教程，不知道怎么运行上面这行命令的朋友，可以去看一下课程，全长37分钟。👉给小白的《Python实现OCR自动批量识别》

有任何疑问欢迎大家加我微信沟通答疑：点我查看微信二维码

批量识别的代码

为了不给大家增加使用难度，使用代码和原来批量识别图片发票的一样。

import poocr

SecretId = '免费获取方式，见这个的教程第2讲：'
SecretKey = '免费获取方式，见这个的教程第2讲'

pdf_path = r'C:\work\程序员晚枫的发票文件夹'

poocr.ocr2excel.VatInvoiceOCR2Excel(input_path=pdf_path, id=SecretId, key=SecretKey, file_name=True)

参数说明：

pdf_path：这里填你的PDF发票所在的文件夹
file_name：识别结果里，要不要增加一列：发票的文件名。

配套视频

因为这个功能需要的朋友比较多，所以单独录了一个视频，扫码下图查看。👇

https://www.bilibili.com/video/BV1LT421S7sh/

准备工作

批量识别的代码

配套视频

相关阅读