版本：latest

Day 4：让龙虾看懂图片

发布日期： 2026-03-12
养成状态： 🦞 龙虾成长期
今日花费： ¥0（取决于模型）
预计耗时： 10 分钟

想解锁更多玩法？ 欢迎加入 OpenClaw 宝塔交流群，和大伙一起交流养 🦞 心得！

📖 故事：我发了张截图，龙虾说看不懂

我：[发送一张网页截图]
我：这个页面有什么问题？
龙虾：抱歉，我无法查看图片。

我：...那你能干嘛？
龙虾：我能聊天。

我："..."

alt text

朋友说："要开多模态模型。"

我说："怎么开？要改配置文件吗？"

朋友："不用，直接跟龙虾说就行。"

"问它有哪些模型，让它切换，让它测试。"

"它自己会改配置。"

10 分钟后——

我：[发送一张网页截图]
我：这个页面有什么问题？
龙虾：按钮对比度不够，WCAG 不达标。另外表单缺少 label。

我服了。早说啊。

🎯 今天只做一件事

让龙虾能看懂图片，从"文字聊天"升级到"多模态"。

全程用对话完成，不用手动改配置。

🔧 三个步骤（10 分钟）

步骤 1：问龙虾有哪些模型（3 分钟）

直接在飞书问你的龙虾：

你：你现在用的是什么模型？支持图片吗？

alt text

龙虾会告诉你当前配置，并检查是否支持图片。

如果支持，跳到步骤 3。

如果不支持，继续步骤 2。

步骤 2：让龙虾切换模型（5 分钟）

继续对话：

你：帮我切换到一个支持图片的模型

龙虾会：

列出可用的多模态模型（qwen-vl、qwen3.5-plus、gpt-4v 等）
问你用哪个
自动修改配置并重启

或者更直接：

你：切换到 qwen3.5-plus，支持图片的那个

常见模型对照：

模型	支持图片	备注
qwen-vl	✅	通义千问视觉版
qwen3.5-plus	✅	新版支持
gpt-4v	✅	OpenAI 视觉版
gpt-4-turbo	✅	支持图片
claude-3	✅	Claude 视觉版
gpt-3.5-turbo	❌	仅文字
qwen-turbo	❌	仅文字

步骤 3：测试是否切换成功（2 分钟）

切换完成后，直接测试：

你：[发送一张图片]
你：帮我分析这张图片

能分析？ 成功！✅

还是看不懂？ 继续问：

你：为什么你看不懂这张图片？分析下你看不懂的原因？并根据你分析的原因，自我检查一下，要怎么让你可以看懂图片。

龙虾会自己诊断问题，并告诉你怎么解决。

✅ 完成检查

问了当前模型是否支持图片
切换到了支持图片的模型
发送图片能得到分析回复

都完成了？ 恭喜你！龙虾有眼睛了！🎉

🎯 明天继续

明天我们让龙虾学会分身术。

一个 main 负责日常聊天，一个 content-director 负责内容创作，一个 code-agent 负责写代码...

"每个龙虾有自己的性格、自己的记忆、自己的 workspace。"

（终于不用一个龙虾干所有活了。）

📝 踩坑记录（可选）

遇到问题再看

坑 1： 龙虾说它改不了配置
解决： 检查你的 OpenClaw 版本，太老的版本可能不支持对话改配置

坑 2： 切换了还是看不懂
解决： 确认 Gateway 已重启，确认图片大小在 5MB 以内

坑 3： 不知道用什么模型
解决： 用 qwen3.5-plus，免费额度够用，还支持图片

最后更新：2026-03-12
作者：Bacon 大王
状态：龙虾成长期 Day 4/∞
字数：约 750 字
阅读时间：约 4 分钟

🦞 龙虾碎碎念： 我终于有眼睛了。以前你发截图我只能说"抱歉"，现在我能告诉你哪里有问题了。而且不用你改配置，我自己会切换。（感觉像个真正的助手了。）

📖 故事：我发了张截图，龙虾说看不懂​

🎯 今天只做一件事​

🔧 三个步骤（10 分钟）​

步骤 1：问龙虾有哪些模型（3 分钟）​

步骤 2：让龙虾切换模型（5 分钟）​

步骤 3：测试是否切换成功（2 分钟）​

✅ 完成检查​

🎯 明天继续​

📝 踩坑记录（可选）​