Day 4:让龙虾看懂图片
发布日期: 2026-03-12
养成状态: 🦞 龙虾成长期
今日花费: ¥0(取决于模型)
预计耗时: 10 分钟
想解锁更多玩法? 欢迎加入 OpenClaw 宝塔交流群,和大伙一起交流养 🦞 心得!
📖 故事:我发了张截图,龙虾说看不懂
我:[发送一张网页截图]
我:这个页面有什么问题?
龙虾:抱歉,我无法查看图片。
我:...那你能干嘛?
龙虾:我能聊天。
我:"..."

朋友说:"要开多模态模型。"
我说:"怎么开?要改配置文件吗?"
朋友:"不用,直接跟龙虾说就行。"
"问它有哪些模型,让它切换,让它测试。"
"它自己会改配置。"
10 分钟后——
我:[发送一张网页截图]
我:这个页面有什么问题?
龙虾:按钮对比度不够,WCAG 不达标。另外表单缺少 label。
我服了。早说啊。
🎯 今天只做一件事
让龙虾能看懂图片,从"文字聊天"升级到"多模态"。
全程用对话完成,不用手动改配置。
🔧 三个步骤(10 分钟)
步骤 1:问龙虾有哪些模型(3 分钟)
直接在飞书问你的龙虾:
你:你现在用的是什么模型?支持图片吗?

龙虾会告诉你当前配置,并检查是否支持图片。
如果支持,跳到步骤 3。
如果不支持,继续步骤 2。
步骤 2:让龙虾切换模型(5 分钟)
继续对话:
你:帮我切换到一个支持图片的模型
龙虾会:
- 列出可用的多模态模型(qwen-vl、qwen3.5-plus、gpt-4v 等)
- 问你用哪个
- 自动修改配置并重启
或者更直接:
你:切换到 qwen3.5-plus,支持图片的那个
常见模型对照:
| 模型 | 支持图片 | 备注 |
|---|---|---|
| qwen-vl | ✅ | 通义千问视觉版 |
| qwen3.5-plus | ✅ | 新版支持 |
| gpt-4v | ✅ | OpenAI 视觉版 |
| gpt-4-turbo | ✅ | 支持图片 |
| claude-3 | ✅ | Claude 视觉版 |
| gpt-3.5-turbo | ❌ | 仅文字 |
| qwen-turbo | ❌ | 仅文字 |
步骤 3:测试是否切换成功(2 分钟)
切换完成后,直接测试:
你:[发送一张图片]
你:帮我分析这张图片
能分析? 成功!✅
还是看不懂? 继续问:
你:为什么你看不懂这张图片?分析下你看不懂的原因?并根据你分析的原因,自我检查一下,要怎么让你可以看懂图片。
龙虾会自己诊断问题,并告诉你怎么解决。
✅ 完成检查
- 问了当前模型是否支持图片
- 切换到了支持图片的模型
- 发送图片能得到分析回复
都完成了? 恭喜你!龙虾有眼睛了!🎉
🎯 明天继续
明天我们让龙虾学会分身术。
一个 main 负责日常聊天,一个 content-director 负责内容创作,一个 code-agent 负责写代码...
"每个龙虾有自己的性格、自己的记忆、自己的 workspace。"
(终于不用一个龙虾干所有活了。)
📝 踩坑记录(可选)
遇到问题再看
坑 1: 龙虾说它改不了配置
解决: 检查你的 OpenClaw 版本,太老的版本可能不支持对话改配置
坑 2: 切换了还是看不懂
解决: 确认 Gateway 已重启,确认图片大小在 5MB 以内
坑 3: 不知道用什么模型
解决: 用 qwen3.5-plus,免费额度够用,还支持图片
最后更新:2026-03-12
作者:Bacon 大王
状态:龙虾成长期 Day 4/∞
字数:约 750 字
阅读时间:约 4 分钟
🦞 龙虾碎碎念: 我终于有眼睛了。以前你发截图我只能说"抱歉",现在我能告诉你哪里有问题了。而且不用你改配置,我自己会切换。(感觉像个真正的助手了。)