github star gitee star atomgit star PyPI Downloads AI 编程 AI 交流群

大家好,我是正在实战各种AI项目的程序员晚枫。

今天学习文件与媒体处理,让AI能够看懂图片、听懂语音、阅读文档,实现真正的多模态交互。


支持的多媒体类型

类型格式功能
图片JPG, PNG, GIF, WebP图像识别、OCR、分析
音频MP3, WAV, OGG, M4A语音转文字、语音识别
视频MP4, AVI, MOV帧提取、内容分析
文档PDF, DOCX, TXT, MD文本提取、摘要生成
表格CSV, XLSX, JSON数据分析、可视化

图片分析与OCR

场景1:识别图片内容

发送一张图片给AI,它可以:

  • 描述图片内容
  • 识别图中文字(OCR)
  • 分析图表数据
  • 识别物体和场景

示例对话:

1
2
3
4
5
6
7
8
9
10
11
[用户发送一张包含图表的图片]

你:分析一下这张图表

AI:我看到这是一张销售趋势图,显示了2024年各季度的销售额:
- Q1: ¥120万
- Q2: ¥150万
- Q3: ¥180万
- Q4: ¥210万

整体呈上升趋势,Q4相比Q1增长了75%。

语音转文字

场景:语音消息处理

在支持的通道(Telegram、WhatsApp)中发送语音,AI可以:

  • 将语音转为文字
  • 理解语音内容并回复
  • 支持多种语言

示例:

1
2
3
4
5
6
7
8
9
[用户发送语音消息]

AI:🎤 语音转文字:
"帮我查一下明天北京的天气"

明天北京天气预报:
- 天气:晴转多云
- 温度:5°C ~ 15°C
- 风力:北风3级

文档读取与分析

场景1:PDF文档摘要

1
2
3
4
5
6
7
8
9
10
11
12
13
你:[上传一份PDF报告]
请总结一下这份报告的核心观点

AI:我来阅读这份PDF文档...
🔧 Using tool: read_document
Format: PDF
Pages: 25

📤 核心观点摘要:
1. 市场增长:2024年AI市场规模增长35%
2. 技术趋势:大模型成为主流方向
3. 投资建议:关注基础设施和应用层
4. 风险提示:监管政策不确定性

场景2:Excel数据分析

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
你:[上传sales_data.xlsx]
分析一下销售数据,找出增长最快的产品

AI:正在分析Excel文件...
🔧 Using tool: read_excel
Sheets: 3
Rows: 1250

📤 分析结果:
增长最快的产品Top 3:
1. 产品A - 环比增长45%
2. 产品B - 环比增长32%
3. 产品C - 环比增长28%

建议加大产品A的营销投入。

代码文件处理

场景:代码审查

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
你:[上传main.py]
帮我检查一下这段代码有没有问题

AI:正在分析Python代码...
🔧 Using tool: read
Path: main.py
Lines: 156

📤 代码审查结果:
✓ 整体结构清晰
⚠️ 第23行:未使用的导入
⚠️ 第45行:硬编码的API密钥,建议使用环境变量
✗ 第78行:可能存在SQL注入风险

建议修改:
```python
# 原代码
cursor.execute(f"SELECT * FROM users WHERE id = {user_id}")

# 修改为
cursor.execute("SELECT * FROM users WHERE id = %s", (user_id,))

---

## 下节预告

下一讲学习**子代理与多Agent**,实现复杂任务的并行处理。

👉 **[继续阅读:第17讲-子代理与多Agent](/course/AI相关/人民邮电出版社/ads/openclaw/openclaw-tutorial/20260301030501-第17讲-子代理与多Agent/)**

---

## 💬 加入学习交流群

文件处理问题?加群交流:

👉 **[点击加入交流群](https://www.python4office.cn/wechat-group/)**

---

## 推荐:AI Python编程实战营

🎁 **限时福利**:送《利用Python进行数据分析》实体书

👉 **[点击了解详情](https://mp.weixin.qq.com/s/8p2eviFUmYa1V0pswmDRmw)**

---

---## 📚 完整学习路线这是OpenClaw入门课程的第X讲。查看完整课程大纲:👉 **[OpenClaw入门课程大纲](/course/AI相关/人民邮电出版社/ads/openclaw/openclaw-tutorial/20260301010101-第1讲-OpenClaw入门课程大纲/)**课程包含30讲,从安装部署到实战项目,带你全面掌握OpenClaw。
## 课程导航

**上一篇:** [第15讲-工具调用入门](/course/AI相关/人民邮电出版社/ads/openclaw/openclaw-tutorial/20260301030301-第15讲-工具调用入门/)

**下一篇:** [第17讲-子代理与多Agent](/course/AI相关/人民邮电出版社/ads/openclaw/openclaw-tutorial/20260301030501-第17讲-子代理与多Agent/)

---

*PS:多媒体处理能力让AI从"只能聊天"变成"全能助手"。善用这些功能,能大幅提升工作效率。*

---

## 💬 联系我

| 平台 | 账号/链接 |
|------|----------|
| 微信 | [扫码加好友](https://www.python4office.cn/wechat-qrcode/) |
| 微博 | [@程序员晚枫](https://weibo.com/u/7726957925) |
| 知乎 | [@程序员晚枫](https://www.zhihu.com/people/CoderWanFeng) |
| 抖音 | [@程序员晚枫](https://www.douyin.com/user/MS4wLjABAAAA259649365) |
| 小红书 | [@程序员晚枫](https://xhslink.com/m/4i8OhkfTvW3) |
| B 站 | [Python 自动化办公社区](https://space.bilibili.com/259649365) |

**主营业务**:AI 编程培训、企业内训、技术咨询


## 🎓 AI 编程实战课程

想系统学习 AI 编程?程序员晚枫的 **AI 编程实战课** 帮你从零上手!

- 👉 **免费试看**:[B站免费试看前3讲,先看看适不适合自己](https://www.bilibili.com/cheese/play/ss982042944)
- 👉 **课程报名**:[点击这里报名,现在报名还送书📖](https://mp.weixin.qq.com/s/kGmRRZ_LMUgLaS7AQkcSnw)