👉 项目官网:https://www.python-office.com/ 👈
大家好,这里是程序员晚枫,正在all in AI编程实战。
工作中 PDF 无处不在——合同、报告、手册、论文……
今天教你怎么用 python-office 处理 PDF。
1、PDF读取:提取文字内容
假设有一个 合同.pdf,想提取里面的文字:
1 | import office |
🎉 Done!PDF 文字全部提取出来了!
2、PDF合并:把多个PDF合并成一个
假设有三个 PDF 要合并:
1 | import office |
运行后,合并合同.pdf 包含了所有内容。
3、PDF拆分:把一个大PDF拆成多个
想把一个 PDF 的某些页面单独拆出来:
1 | import office |
4、PDF转Word:把PDF内容转成Word
想把 PDF 内容转成可编辑的 Word:
1 | import office |
⚠️ 这个功能需要较新的 python-office 版本,如果没有先更新:
1 pip install python-office -U
5、PDF转图片:把PDF页面转成图片
1 | import office |
每个页面会生成一张 PNG 图片。
6、实战案例:批量提取合同关键信息
财务每月要提取所有合同的金额和日期:
1 | import office |
7、常见问题
Q:PDF是扫描件,没有文字怎么办?
A:用 OCR 识别(第15讲会讲)。
Q:合并后文件太大?
A:合并前可以先压缩:
1 | office.pdf.compress(path='大文件.pdf', output_file='压缩后.pdf') |
Q:转换失败?
A:部分复杂 PDF 格式可能不支持,换用专业工具试试。
8、下讲预告
学会了 PDF,下一讲我们学 Word处理——读取Word、写入Word、Word转PDF。
敬请期待!
有问题欢迎加微信 python-office 进群交流~
程序员晚枫专注AI编程培训,小白看完他和图灵社区合作的教程《30讲 · AI编程训练营》就能上手做AI项目。
