网络爬虫-法律&案例
法律规定
最高检 - 明确越界网络爬虫行为的刑事处罚边界
网络爬虫技术爬取数据的法律风险及合规建议
爬虫使用及合规指南
苏宇:网络爬虫的行政法规制
案例解析
“爬虫”第一案,判了!
“爬虫”软件违规获取企业信息 9人因侵犯公民个人信息罪获刑
金杜知卓 | 数据之争: 网络爬虫涉及的法律问题(二)Robots协议
要过年了,中国爬虫违法违规案例汇总!不要被钱财蒙蔽你的双眼
开源
仓颉编程
入门教程
白皮书
再推荐3个编程大模型:推荐3个免费的AI编程大模型,全部来自BAT
粉丝福利
加入学习👉给小白的《50讲Python自动化办公》
学习之前,建议看一下这篇文章,这是我在2023 ...
网络爬虫-法律&案例
👉 项目官网:https://www.python-office.com/ 👈
👉 本开源项目的交流群 👈
仓颉编程
入门教程
白皮书
再推荐3个编程大模型:推荐3个免费的AI编程大模型,全部来自BAT
粉丝福利
加入学习👉给小白的《50讲Python自动化办公》
学习之前,建议看一下这篇文章,这是我在2023年的Python中国大会上分享的一个观点:
不只是程序员的专利:Python为何成为全民编程语言? ...
Web Crawler - Laws & Cases
👉 Project Website: https://www.python-office.com/ 👈
👉 Open Source Project Exchange Group 👈
Cangjie Programming
Beginner Tutorial
White Paper
Three more programming LLMs recommended: Recommend 3 Free AI Programming LL ...
程序员的觉醒之路:我用这4本证书击退35岁危机(含备考血泪经验)
大家好,这里是程序员晚枫,正在all in AI编程实战。
1. 为什么程序员到了中年突然迷信证书?去年面试时HR盯着我简历上的"8年经验"眼神飘忽,我突然懂了——代码敲得再6,在资本眼里也只是会呼吸的Jira卡片。35岁那年体检,B超机里我的肝和简历一样布满"脂肪",而隔壁刚毕业的小崽子拿着offer在我工位前炫耀:"哥你这破证书比你工龄还长!"
直到我用软考中级敲开外包转外包的门,才明白证书是程序员的"职场养老保险"。它们不会让你一夜暴富,但能在寒冬里帮你续上一杯温吞的996奶茶。
2. 1号续命符:软考中级 ...
少数民族名字总丢 “・”?一行代码让识别秒更精确!
"热娜・艾买提" 变成 "热娜艾买提","巴图・巴特尔" 识别成 "巴图巴特尔",甚至在身份证录入时因为 "・" 失踪导致身份核验失败……对少数民族朋友来说,一个小小的间隔符 "・",却让办事处处卡壳:考试报名认证不通过、物流地址识别错误、线上身份核验反复报错……
你之前是否有过这些烦恼?
现在终于有救了! ,我们的【potx_cloud】库 已完美解决这个问题了,无论是身份证、驾驶证还是手写文档,名字里的"・" 再也不会消失啦!
1. 2步实现&quo ...
手动识别 PDF发票太慢?用这个方法让速度提高 50 倍!
大家好,我是码匠er。你是否遇到过处理几十页甚至更多的发票信息,既容易出错又速度慢,月底处理公司发票,老板一直催~
别愁了!这次 【potx-cloud】新版本让你体验黑科技,只需喝杯茶就可以很快处理几百页的发票文件!
1. 3行代码体验黑科技你可能会想,现在变的这么厉害,我会不会很难用?优化后的接口依然保持简单,只需要3行代码就可以体验最新黑科技哦!
12345# pip install potx_cloudimport potx_cloudpotx_cloud.ocr2excel.VatInvoiceOCR2Excel(input_path='./test.pdf' ...
识别社保卡信息,手动整理效率低,OCR 和 Python 来帮你!
你是否曾因社保卡,一头变得两个大。现在不用再愁啦,一行代码解决它。【pobd】 你的办公好帮手。
一、1行代码,体验魔法pobd.ocr2excel.social_security_card(img_path=input_file,output_excel_path=output_file,api_key=api_key,secret_key=secret_key)
只需要上面这行代码,就能实现识别社保卡信息 + 生成excel 表格。不知道怎么申请百度API接口的 api_key 和 secret_key 的伙伴们,可以留言找我哦!
它是怎么做到的呢,接下来让我们揭开它神秘面纱吧。
二、抽 ...
potx-cloud 库全面升级:让发票识别体验直接起飞
大家好,这里是码匠er,我是【potx-cloud】库的核心开发。今天我很高兴与大家分享近期对【potx-cloud】库的优化成果。这个库最初基于腾讯的API实现发票识别,然后进一步封装为一个方便生成Excel文件的Python库。随着使用场景不断拓宽,我注意到库内有一些设计和实现细节还可以进一步优化,对于这个库的易用性和性能要求也越来越高,于是我启动了本次全面优化计划今天就给大家讲讲这些改进点,咱们一探背后的技术细节。
1. 【potx-cloud】库简单来说,这是我基于腾讯 OCR 接口封装的工具库,专门解决「发票识别 + 数据整理」的痛点。
你只需要传入发票图片、PDF 或者在线链 ...
关税大震荡!用Python量化交易薅股市羊毛,老铁们别错过!
大家好,这是程序员晚枫,小红书/B站都叫这个名字。
最近关税这事儿闹得沸沸扬扬,股市跟坐过山车似的! 这种时候,量化交易就派上大用场了!咱用Python写个自动化交易系统,让机器帮咱薅羊毛,岂不美哉?
关税震荡,股市波动,量化交易正当时!关税变化就像给市场撒了一把辣椒粉,股市瞬间就“辣眼睛”了。最近美股、A股都跟着震荡,这种时候,量化交易的优势就出来了——冷静、精准、不带情绪!咱不用像散户一样追涨杀跌,直接让机器 ...
GitHub封锁?推荐5个国产的Git仓库替代平台
各位程序猿兄弟们,今天的消息比二月的DNS污染还劲爆——GitHub对中国区IP下手了!
未登录用户直接被拒,已登录用户苟延残喘,部分功能卡成PPT。
更离谱的是,南北方网络环境开始"内卷",南方兄弟直呼"加载条跑马拉松",北方战友却稳如老狗。这波操作让我想起了当年DNS污染时的盛况,只不过这次玩得更狠!
别急着砸键盘!老司机连夜整理了一份国产Git仓库避难指南,保你代码不丢、项 ...
打工人的Python神器!4个开源项目,效率翻倍
👉 项目官网:https://www.python-office.com/ 👈
👉 本开源项目的交流群 👈
大家好,我是程序员晚枫。
今天必须给各位职场奋斗者安利一波真正的效率神器!咱打工人学Python,不搞花里胡哨的算法竞赛,就冲着自动化办公去!用一行代码搞定老板交代的琐碎任务,让同事惊呼"这也太卷了吧?"
一、Python-office:职场全能瑞士军刀这是咱的镇店之宝!集成Ex ...
熬夜上线!poocr库火速修复PDF发票识别致命BUG
一、poocr库:你的发票识别瑞士军刀上周刚给poocr库装上"多页PDF识别功能",以为自己在发票识别领域封神了。
poocr这货本质上是个OCR瑞士军刀,能对接腾讯云、百度、阿里等大厂的OCR接口,把各种发票、文档识别得明明白白。安装命令简单粗暴:
1pip install poocr
用法更是傻瓜式:
123456# 一行代码,实现发票的批量识别poocr.ocr2excel.VatInvoiceOCR2Excel( intput_path=r'C:\Users\Lenovo\Desktop\temp\增值 ...
腾讯云SDK优化,瞬间省几百M!不看血亏!
哈喽,大家好!我是程序员晚枫,一个总在代码里“修仙”的开源爱好者。
今天来跟大家唠唠,我们最近在腾讯云OCR项目里挖到的一个“空间宝藏”!
一、发票OCR项目:从0到“臃肿”我和小伙伴写了一个基于腾讯云的OCR项目:poocr,能直接把发票识别成Excel文件,本来是个省心的工具,结果越用越心塞。每次打包部署,空间就像吹气球一样“膨胀”,几百M的空间说没就没了!那感觉就像你辛辛苦苦攒的硬盘空间,被人一把抢走。
二、瘦身秘籍:只装你需要的包后来我琢磨,这空间肯定被那些“用不到的包”给占了。一查腾讯云SDK的文档,我拍大腿——原来我们一直用的是“全家桶” ...
今天亏惨了!分享一下我的AI工作流程,完全公开
哈喽,大家好!
我是程序员晚枫,一个重度 AI 用户兼自媒体人,全网同名。
每天需要大量输出内容,效率就是生命线!今天本来想搞点大新闻,结果一通操作猛如虎,一看收益,我直接愣住了——亏惨了!
不过,亏钱不能亏经验,今天就来给大家完全公开我的 AI 工作流程,说不定能帮你们少走点弯路。
一、写文章:Kimi AI 助力,效率翻倍就拿写这篇文章来说,我先去看了几个 AI 平台。Kimi(https://kimi.moonshot.cn/)这个 AI 助理,简直是我的写作神器!
它的推理能力特别强,我只需要给它几个关键词,比如“AI 工具”“工作流程”“分享”,它就能瞬间生成一段逻辑清晰、内容丰 ...
怎么开发Python第三方库?手把手教你参与开源项目!
大家好,我是程序员晚枫,一个热爱开源的Python开发者。今天,我想和大家分享一下如何开发Python第三方库,并以我维护的开源项目 popdf 为例,手把手教你如何参与开源项目。这篇文章不仅是教程,也是我开发经验的总结,希望能帮到大家!
1. Python所有第三方库都是开源的Python的生态系统非常开放,几乎所有第三方库都是开源的。这意味着你可以查看它们的代码,学习它们的实现,甚至参与改进。开源不仅是技术的分享,更是一种社区精神。
2. 以我的开源第三方库为例:popdf先给大家介绍我维护的开源项目 popdf,这是一个专注于PDF操作的Python库,功能包括PDF转Word、P ...
我用RAG做了一个企业知识库问答系统:从0到1完整实战记录
最近帮一个客户做了企业知识库问答系统,用的是RAG(检索增强生成)技术。
作为一个写了6年代码、做了5年自媒体的程序员,从需求分析到上线,我花了2周时间。
我的看法是:RAG是目前最实用的企业AI应用方案,值得每个程序员掌握。
说到这儿,想起我在python-office项目中也用过类似的技术。
python-office有大量的文档和教程,用户经常问重复的问题。为了提高效率,我搭建了一个文档问答系统:
用户提问
系统从文档中检索相关内容
基于检索结果生成答案
这个系统和RAG的原理是一样的。
不过企业级的RAG项目要复杂得多。这次帮客户做的项目 ...
2025年AI学习路线图:从0基础到能上手项目,我花了3年踩出的路径
从2019年零基础学Python,到2025年专注AI编程培训。
作为一个写了6年代码、做了5年自媒体的程序员,我花了3年时间,踩了无数坑,才找到一条行之有效的AI学习路径。
我的看法是:学习AI没有捷径,但有方法。
说到这儿,想起我自己的经历。2019年,我还是一个法律硕士,在北京一家科技公司做数据合规。那时候我对编程一窍不通,连Python是什么都不知道。
我不是天赋异禀,我只是比大多数人更愿意花时间去试错。
但我有一个想法:如果能用程序自动化处理那些重复的法律文件,该多好?
于是我开始自学Python。没有老师,没有课程,全靠Google和B站 ...
我整理了100个优质Prompt后,发现高手都在用这5个技巧
用了2年AI工具,我整理了1000+个Prompt。
作为一个写了6年代码、做了5年自媒体的程序员,我从最初的"帮我写个代码",到现在能精准控制AI的输出质量。
我的看法是:写Prompt就像编程,有方法可循。
说到这儿,想起2023年初我开始尝试用AI辅助写作的时候。那时候我的Prompt很简单,结果AI生成的内容千篇一律。
我不是天赋异禀,我只是花了半年时间,测试了上百种写法,才找到了一套有效的方法。
今天把这5个技巧全部分享给你。
技巧1:角色设定法原理: 给AI设定一个具体角色,让它进入相应的状态。
普通写法1帮我写一篇 ...
2025年最值得用的7款AI办公神器:我实测了3个月,效率提升300%
作为一个每天和代码、文档、数据打交道的程序员,我对办公效率工具的要求很高。
2025年,AI办公工具爆发式增长,我花了3个月时间,实测了市面上主流的20+款工具。
今天分享7款真正好用的,每一款都是我每天都在用的。
一、文档处理类1. Notion AI:知识管理神器核心功能:
自动总结长文档
根据笔记生成大纲
AI辅助写作和润色
我的使用场景:
写技术文档时,让AI帮我生成结构
整理会议纪要,AI自动提取要点
写博客文章,AI辅助润色
价格: 免费版够用,付费版$10/月
推荐指数: ⭐⭐⭐⭐⭐
2. ChatDOC:PDF阅 ...
GPT-5来了!多模态全能时代,程序员该如何应对?
OpenAI又搞事情了。
GPT-5正式发布,官方称之为"迄今能力最强的模型"。
作为一个写了6年代码、做了5年自媒体的程序员,我第一时间研究了它的新特性。
我的看法是:这次升级有点猛,但不必焦虑。
说到这儿,想起我自己的一个经历。去年我在做python-office的视频教程时,遇到一个问题:如何自动生成带字幕的教学视频?
我不是天赋异禀,我只是比大多数人更早开始用AI解决实际问题。
当时的流程是:
录制屏幕
用语音识别生成字幕文件
用视频编辑软件添加字幕
导出视频
整个过程需要3-4个工具,耗时2小时以上。
如果GPT-5 ...
