跳到主要内容
版本:latest

Day 4:让龙虾看懂图片

发布日期: 2026-03-12
养成状态: 🦞 龙虾成长期
今日花费: ¥0(取决于模型)
预计耗时: 10 分钟


想解锁更多玩法? 欢迎加入 OpenClaw 宝塔交流群,和大伙一起交流养 🦞 心得!

📖 故事:我发了张截图,龙虾说看不懂

我:[发送一张网页截图]
我:这个页面有什么问题?
龙虾:抱歉,我无法查看图片。

我:...那你能干嘛?
龙虾:我能聊天。

我:"..."

alt text

朋友说:"要开多模态模型。"

我说:"怎么开?要改配置文件吗?"

朋友:"不用,直接跟龙虾说就行。"

"问它有哪些模型,让它切换,让它测试。"

"它自己会改配置。"

10 分钟后——

我:[发送一张网页截图]
我:这个页面有什么问题?
龙虾:按钮对比度不够,WCAG 不达标。另外表单缺少 label。

我服了。早说啊。


🎯 今天只做一件事

让龙虾能看懂图片,从"文字聊天"升级到"多模态"。

全程用对话完成,不用手动改配置。


🔧 三个步骤(10 分钟)

步骤 1:问龙虾有哪些模型(3 分钟)

直接在飞书问你的龙虾:

你:你现在用的是什么模型?支持图片吗?

alt text

龙虾会告诉你当前配置,并检查是否支持图片。

如果支持,跳到步骤 3。

如果不支持,继续步骤 2。


步骤 2:让龙虾切换模型(5 分钟)

继续对话:

你:帮我切换到一个支持图片的模型

龙虾会:

  1. 列出可用的多模态模型(qwen-vl、qwen3.5-plus、gpt-4v 等)
  2. 问你用哪个
  3. 自动修改配置并重启

或者更直接:

你:切换到 qwen3.5-plus,支持图片的那个

常见模型对照:

模型支持图片备注
qwen-vl通义千问视觉版
qwen3.5-plus新版支持
gpt-4vOpenAI 视觉版
gpt-4-turbo支持图片
claude-3Claude 视觉版
gpt-3.5-turbo仅文字
qwen-turbo仅文字

步骤 3:测试是否切换成功(2 分钟)

切换完成后,直接测试:

你:[发送一张图片]
你:帮我分析这张图片

能分析? 成功!✅

还是看不懂? 继续问:

你:为什么你看不懂这张图片?分析下你看不懂的原因?并根据你分析的原因,自我检查一下,要怎么让你可以看懂图片。

龙虾会自己诊断问题,并告诉你怎么解决。


✅ 完成检查

  • 问了当前模型是否支持图片
  • 切换到了支持图片的模型
  • 发送图片能得到分析回复

都完成了? 恭喜你!龙虾有眼睛了!🎉


🎯 明天继续

明天我们让龙虾学会分身术。

一个 main 负责日常聊天,一个 content-director 负责内容创作,一个 code-agent 负责写代码...

"每个龙虾有自己的性格、自己的记忆、自己的 workspace。"

(终于不用一个龙虾干所有活了。)


📝 踩坑记录(可选)

遇到问题再看

坑 1: 龙虾说它改不了配置
解决: 检查你的 OpenClaw 版本,太老的版本可能不支持对话改配置

坑 2: 切换了还是看不懂
解决: 确认 Gateway 已重启,确认图片大小在 5MB 以内

坑 3: 不知道用什么模型
解决: 用 qwen3.5-plus,免费额度够用,还支持图片


最后更新:2026-03-12
作者:Bacon 大王
状态:龙虾成长期 Day 4/∞
字数:约 750 字
阅读时间:约 4 分钟

🦞 龙虾碎碎念: 我终于有眼睛了。以前你发截图我只能说"抱歉",现在我能告诉你哪里有问题了。而且不用你改配置,我自己会切换。(感觉像个真正的助手了。)