大家好,这里是程序员晚枫,小红书/B站/抖音,都叫这个名。
五一期间给大家更新了一套课程:给小白的《Python实现OCR自动批量识别》。
这套课程里有100多个文字识别的功能,其中最受欢迎的功能是:入门案例!批量识别发票自动保存为Excel文件,1行Python代码实现,但之前的课程对于发票识别有一个遗留问题:
只能识别图片格式的发票,但系统下载下来的往往是PDF格式,所以还需要把PDF转为图片,才能进行批量识别。
本周末在多位观众的督促下,加班加点更新了直接识别PDF的功能,下面介绍一下使用方法~(基本没变化,看一眼就会了),文末也有配套的视频教程,不想看文字的朋友可以直接去看视频。
准备工作
看过之前视频教程的朋友请注意,在Terminal里更新一下poocr
,更新命令如下:
1 | pip install poocr -U -i https://mirrors.aliyun.com/pypi/simple/ |
还没看过之前的视频教程,不知道怎么运行上面这行命令的朋友,可以去看一下课程,全长37分钟。👉给小白的《Python实现OCR自动批量识别》
有任何疑问欢迎大家加我微信沟通答疑:CoderWanFeng
批量识别的代码
为了不给大家增加使用难度,使用代码和原来批量识别图片发票的一样。
1 | import poocr |
参数说明:
- pdf_path:这里填你的PDF发票所在的文件夹
- file_name:识别结果里,要不要增加一列:发票的文件名。
配套视频
因为这个功能需要的朋友比较多,所以单独录了一个视频,扫码下图查看。👇