👉 项目官网:https://www.python-office.com/ 👈

👉 本开源项目的交流群 👈

atomgit star github star gitee star PyPI Downloads AI交流群

Snipaste_2025-10-28_23-30-56.jpg

大家好,这里是程序员晚枫,正在all in AI编程实战

1、DeepSeek-OCR发布

10月20日消息,人工智能团队DeepSeek AI正式发布全新多模态模型 DeepSeek-OCR。

这款仅30亿参数的模型,以上下文光学压缩技术实现文本信息的高效压缩,在保持97%识别精度的同时将计算成本降低10倍,单张A100-40G显卡每日可处理超20万页文档,彻底颠覆传统OCR工具的性能边界。

模型提供Tiny/Small/Base/Large/Gundam五种尺寸配置,其中Gundam版本专为超高清文档优化,支持1024×640混合尺寸处理,完美应对多栏排版、图文混杂的专业场景。

Snipaste_2025-10-28_23-32-23.jpg

所有输出结果原生支持Markdown格式,配合内置的边界框检测功能,可精准定位文本块、表格、插图在原图中的位置信息,解决了传统OCR只认文字、不识布局的行业痛点。

目前模型已完整开源至GitHub和HuggingFace,采用MIT许可证允许免费商用。开发者可通过transformers库直接加载使用,官方同步提供PDF转图像、批量处理脚本等辅助工具,即使非专业技术人员也能快速部署。

代码示例

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
from transformers import AutoModel, AutoTokenizer
import torch
import os
os.environ["CUDA_VISIBLE_DEVICES"] = '0'
model_name = 'deepseek-ai/DeepSeek-OCR'

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, _attn_implementation='flash_attention_2', trust_remote_code=True, use_safetensors=True)
model = model.eval().cuda().to(torch.bfloat16)

# prompt = "<image>\nFree OCR. "
prompt = "<image>\n<|grounding|>Convert the document to markdown. "
image_file = 'your_image.jpg'
output_path = 'your/output/dir'

res = model.infer(tokenizer, prompt=prompt, image_file=image_file, output_path = output_path, base_size = 1024, image_size = 640, crop_mode=True, save_results = True, test_compress = True)

2、零基础玩转poocr:3行代码实现发票批量识别

面对DeepSeek-OCR这样的专业级模型,非技术背景用户可能望而却步。

但借助腾讯云OCR接口封装的poocr工具,普通人只需3行Python代码即可实现发票批量识别,每月1000次免费额度完全满足个人办公需求。

准备工作:3分钟完成环境配置

首先通过阿里云镜像安装poocr库:

1
pip install -i https://mirrors.aliyun.com/pypi/simple/ poocr -U

注册腾讯云账号并开通OCR服务,在API密钥管理页面创建密钥,获取SecretIdSecretKey。注意保管好密钥信息,避免泄露造成安全风险。

核心代码:一行命令搞定批量识别

创建Python文件,输入以下代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
import poocr

# 替换为你的腾讯云密钥
r_id = '你的SecretId'
r_key = '你的SecretKey'

# 批量识别指定文件夹发票并导出Excel
poocr.ocr2excel.VatInvoiceOCR2Excel(
input_path=r'C:\发票图片文件夹', # 存放发票图片的目录
output_path=r'C:\识别结果', # 导出Excel的保存路径
id=r_id,
key=r_key
)

代码中input_path支持JPG、PNG、PDF等多种格式,程序会自动遍历目录下所有文件。识别完成后,在output_path指定位置将生成包含发票代码、号码、日期、金额、税额等18项关键信息的Excel表格,准确率可达99%以上。

对于PDF格式的电子发票,程序会自动按页拆分处理;遇到重复发票时,系统会通过发票号码自动去重,避免数据冗余。识别结果Excel中包含置信度评分,方便用户快速核验低可信度字段。

这款由开发者程序员晚枫维护的开源工具:

已整合腾讯云OCR的100+识别场景,除增值税发票外,还支持火车票、身份证、营业执照等证件的结构化提取。配合其提供的桌面版程序,完全零代码基础的用户也能通过拖拽操作完成批量处理,真正实现技术平民化

从DeepSeek-OCR的技术突破到poocr的易用性优化,OCR技术正经历从专业工具到大众应用的转变。

无论是企业财务的票据归档,还是个人用户的报销处理,这些开源工具都在以技术创新降低数字化门槛,让AI效率工具真正走进日常生活。



另外,大家去给小明的小红书👇账号点点赞吧~!我不想努力了,想吃软饭了。

小红书:爱吃火锅的小明

扫一扫,领红包

美团红包

滴滴红包

🎓 AI 编程实战课程

程序员晚枫专注AI编程培训,通过 《30讲 · AI编程训练营》,让小白也能用AI做出实际项目。帮你从零上手!