您现在的位置: 首页 > 公众号 > 微商 > 视觉推理模型嘎嘎香

微信扫一扫，添加关注

视觉推理模型嘎嘎香

如果说机器智能是一类生物的话，那么现在已经进入了它的寒武纪物 ......

公众号：

联系QQ：

214

热度

其他信息

行业：微商
地区：宁波市
时间：2025-05-05
标签：

0次点赞
0个收藏

上一篇：“我是书籍的信徒” 下一篇：说点实在的，深度阅读到底能带来什么好处？

内容详情

如果说机器智能是一类生物的话，那么现在已经进入了它的寒武纪物种大爆发。

DeepSeek R1 非常亮眼，但其他的模型也值得探索。我的期望是一样的，希望它们能成为我的生产力工具，所以必须不断地尝试。

最近大家都体验到了 DeepSeek 官网经常“服务器繁忙”，所以我转战了“火山引擎”，在那里使用 DeepSeek 服务比较流畅。火山引擎上聚合了很多模型，当然以它们自己家的豆包系为主，我溜达了一圈，发现了一个视觉推理模型，目测非常强大。

这个模型的全称叫 Doubao-1.5-vision-pro-32k，发布日期是25年1月15日，非常近；它的前一个版本是 Doubao-vision-pro-32k，发布日期是24年10月28日。我用同样的测试了一下，新版本的能力有了非常大的提升。

可能有人会问，什么是“视觉推理模型”？首先不要把它和“生图模型”（或“生视频模型”）相混淆，它的功能不是“生成图像”，而是“理解图像”。如果把“大语言模型”比作一颗大脑的话，“视觉推理模型”相当于给这颗大脑又安上了一双眼睛。于是我们不仅可以向这颗大脑输入文本进行询问，也能输入，让大脑直接去理解这张，然后告诉我们“它看到了什么”。

我一直把现在的 AI 工具理解成哆啦A梦的口袋，我深信 AI 的应用潜力还远远没有发掘出来，DeepSeek 如此，视觉推理模型也是如此。今天这篇文章，我做一个大胆的尝试，我想试试看：当“大脑”加上了“眼睛”以后到底可以帮我们做哪些事。

说明：

1）以下的“测试”都是在电脑的网页浏览器上登录“火山引擎”网站（volcengine.com）后，在“体验中心”的界面上进行的。由于电脑网页上的字体显示比较小，所以大家在手机上看这些截图可能稍微有些不便，敬请谅解。

2）以下所说的“测试”完全不是科学严谨的测试，因为每个类别只测试了一个材料，权做初步的尝试和探索，所以对结果不要当真。我只是想探索“ 玩法的多样性 ”，大家感兴趣可以自己多测测哈！

测试1 理解K线图

测试方法：在某股票网站随机选取一只A股，打开其K线图，截图后（不包含股票名称和代码信息）提交给 Doubao-1.5-vision-pro-32k模型，并加上文字提示词“ 分析这张图 ”。

测试：

测试结果：

其中它的分析部分如下：

图表分析

价格走势：图表显示了一段时间内的 K 线图，价格在 24.00 到 41.08 之间波动。最近的价格走势显示出明显的上涨趋势，特别是在最近的几根 K 线中，价格突破了之前的阻力位。

移动平均线：5 日和 10 日移动平均线较为接近，显示短期价格趋势较为稳定。30 日移动平均线则明显低于当前价格，表明中长期趋势也在向上。

成交量：成交量在图表下方显示，最近的成交量显著增加，表明市场参与度提高，买方力量较强。

MACD 指标：MACD 指标显示 DIFF 线（1.72）高于 DEA 线（1.83），但 MACD 值为负（-0.23），表明短期动能较强，但可能存在一些回调压力。

总结

从图表来看，该股票近期表现强劲，价格上涨且成交量放大，显示出买方的积极参与。移动平均线也支持上涨趋势，但 MACD 指标显示可能存在短期回调的风险。投资者在决策时应综合考虑这些因素，并结合其他技术指标和基本面分析。

请注意，以上分析仅基于图表信息，不构成投资建议。市场情况复杂多变，投资决策应谨慎。

补充说明：炒股风险很高，必须保持谨慎，AI 分析无法直接构成投资建议，更不应盲从。

测试2 测掌纹

测试方法：拍摄自己左手的手掌掌面，提交给上述的视觉模型。文字提示词“ 描述分析这张”。

测试：（因为我的手比较丑，就不放出来了）

测试结果：

其中给出的关键信息如下：

生命线： “生命力较为旺盛，身体的基础素质较好，具有较好的自我恢复能力和适应环境的能力。”

智慧线： “ 拥有较为理性的思维方式，具备一定的学习能力和分析能力，能够较为冷静地处理生活中的各类问题，在思考和决策方面有自己的节奏和判断力。 ”

情感线： “ 情感世界较为丰富，情感体验细腻，容易对他人的情绪产生共鸣，但同时也可能在感情方面经历一些波动，面临一些情感上的抉择或困扰 ”

我的评论：“……”

补充说明：测掌纹属于封建迷信活动，并无真实参考价值，权作娱乐吧！

测试3 书法赏析

测试方法：在故宫博物院网站的数字藏品库中随机选取一张古代书法作品，我选中的作品是元代书法家邓文原的《芳草贴》。文字提示词“ 对这幅书法作品进行评点 ”，第二轮文字提示词“ 提取其中文字 ”。

测试：

测试结果：

模型给出的书法赏析长达754字，开头即点出作者为元代书法家邓文原，已经先声夺人。就其评点内容来说，有整体分析也有细节分析，能从多个维度展开分析，可见“书商”不低。再摘录两段：

墨法

墨色浓淡相宜，富有层次感。浓墨处显得沉稳厚重，如 “暮”“烟” 等字，增强了书法的力度感；淡墨处则显得空灵虚和，如部分笔画的收笔处，增添了作品的韵味和情趣。通过墨色的变化，丰富了作品的视觉效果，展现出作者对墨法的熟练掌握和运用。

意境

此作整体意境清新自然，与所书内容相得益彰。其书风平和简静，透露出一种文人的雅逸之气，仿佛将观者带入了一个宁静悠远的山水情境之中，让人感受到作者在书写时的闲适心境。

邓文原的这幅书法作品在用笔、结构、章法、墨法等方面都有出色的表现，体现了元代书法尚意复古的审美追求，具有较高的艺术价值。

然后我给出第二轮提示词，让它提取中的文字，结果如下：

这个结果对不对呢？错了一个字，断句有点问题，其他全对。而且它能自动地以“从右往左”“从上往下”的顺序来识别，也是让我觉得不错。从正确率来讲算是比较高了，如果让人来读出这张书法中的字，估计至少有80%的人是达不到这个准确度的（注：此比例是我的瞎猜）。

正确的文本如下：

芳草孤舟渡幽居一径通

江湖春雨外墟里暮烟中

机息鸥先下花飞水自东

临流无限意画史若为工

巴西邓文原

模型识别错的地方在于把“径”字识别成了“往”字。

其实识别这张书法中的文字是有一定难度的，我拿另一个国产的视觉推理模型测试了一下，大概错了一半……具体就不说哪家了。而且，如果用豆包上一版本的视觉推理模型来测，结果也比较糟糕。

另外，我用微信上自带的“提取文字”功能试了下，结果如下：

微信的识别结果也不错，只错了一个字，把“邓”字识别成了“御”字。不过这个错误比较致命，这样就找不到这幅作品的作者了。

测试4 国画赏析

测试方法：取启功先生的国画作品朱竹图来测试，文字提示词“对这幅画作出评价”。

测试：

测试结果：

这幅作品是启功所作的绘画，画中主体为玲珑太湖石搭配朱竹等，整体颇具传统文人画的韵味，以下从几个方面进行评价：

立意与主题

画面以奇石和朱竹为核心元素，营造出古朴、清雅的意境。奇石在中国传统文人画中常象征坚毅、沉稳的品质，而朱竹则寓意高洁、正直，二者结合体现了传统文人的精神追求和审美理想，具有深厚的文化内涵。

构图

采用对角式构图，将奇石置于画面中心偏下位置，朱竹从右侧斜向上延伸。这种构图方式既突出了主体，又使画面具有动感和张力，避免了呆板。同时，画面留有大量空白，给人以开阔、空灵之感，体现了中国画 “计白当黑” 的构图原则。

笔墨技巧

石头：运用浓淡不一的墨色表现出石头的质感和立体感。墨色的干湿变化自然，勾勒、皴擦等笔法运用娴熟，将石头的玲珑剔透和纹理表现得栩栩如生，体现了画家对笔墨的高超驾驭能力。

朱竹：以朱砂或朱磦绘就，线条流畅劲挺，富有弹性，表现出竹子的挺拔和生机。竹叶疏密有致，既有整体的团块感，又有个体的形态变化，展现出画家扎实的写生功底和对自然形态的提炼能力。

设色

设色简洁却鲜明，以黑白为主调，朱竹的红色成为画面的亮点，形成强烈的视觉对比，却又和谐统一。这种色彩处理方式既符合传统文人画淡雅的审美取向，又通过局部的亮色增添了画面的活力。

题款与钤印

画面左侧有题款，不仅注明了创作时间、赠予对象以及创作地点等信息，还以书法艺术为画面增色。启功的书法风格秀雅挺劲，与绘画风格相得益彰。钤印的位置和形式也较为考究，起到了平衡画面和丰富视觉层次的作用。

这幅画展现了启功深厚的传统绘画功底和独特的艺术审美，是传统文人画在现代的精彩呈现，具有较高的艺术价值和文化价值。

我的评价：这个分析是不错的！

测试5 漫画分析

测试方法：随机选取当下网络上流行的一张讽刺性漫画作品，让视觉模型作出评价。

测试：

测试结果：

这是一幅具有强烈讽刺意味和象征意义的漫画，以下从元素、构图、象征含义、风格几个角度进行分析：

画面元素与构图

巨型人物形象：漫画中心是一个体型巨大的人物，穿着西装，系着红色领带。他的身形大到与城市建筑相当，给人以压迫感和视觉冲击力。

头部内部景象：人物的头部如同一个透明容器，里面有另一个较小的人物形象。较小人物似乎在操控着什么，给人一种 “提线木偶” 或者背后操纵的暗示。

红色激光眼睛：巨型人物的双眼发出红色激光，激光线条笔直且具有攻击性，进一步强化了人物的威慑力和威胁感。

背景环境：背景是城市景观，有高楼大厦。远处还能看到火焰和混乱的场景，可能暗示着破坏、动荡或危机。

象征含义

权力与控制：巨型人物的庞大身形和其头部内操控的小人物，可能象征着权力阶层中的操纵关系，暗示表面上的掌权者背后还有更深层的势力在掌控。

威胁与破坏：红色激光眼睛和背景中的混乱场景，传达出一种威胁感和破坏力，可能是在讽刺某些人物或势力对社会、城市带来的负面影响和动荡。

艺术风格

漫画整体采用夸张、荒诞的表现手法，通过巨大的人物形象、奇特的头部内部构造等元素，营造出强烈的视觉冲击和讽刺效果。线条较为粗犷，阴影部分的处理使得画面立体感和紧张氛围都得到增强。

我的评价：这个分析相当透彻！

测试6 识别食物

测试方法：取我当天享受的一块蛋糕的照片提交给视觉模型进行测试，先让它识别这是什么食物，然后对卡路里、色调等方面进行分析。

测试：

测试结果：

1）食物成分识别

这是一张展示美味甜点的，以下从拍摄主体、细节、背景、构图与色彩几方面进行描述分析：

拍摄主体

画面主体是一块精致的多层蛋糕，放置在一个白色带有金色点缀的盘子中。蛋糕顶部装饰有一颗鲜红的树莓，增添了色彩对比和视觉吸引力。

细节

层次：蛋糕由多个层次构成，最上层是绿色的抹茶层，往下依次有淡黄色的蛋糕胚层、白色的奶油层以及夹有红色果酱和深色果粒（可能是蓝莓）的夹层，丰富的层次让人感受到丰富的口感。

质地：各层质地看起来细腻绵密，抹茶层略显紧实，奶油层蓬松轻盈，蛋糕胚层则柔软多孔。

背景

背景相对模糊，隐约能看到一些餐具和食物，如盘子、橙色的酱料等。背景虚化处理使得蛋糕成为视觉焦点，突出了主体。

构图与色彩

构图：蛋糕位于画面右侧，盘子占据了画面下方，整体构图稳定且平衡，给人以舒适的视觉感受。

色彩：画面色彩丰富且和谐。绿色的抹茶、黄色的蛋糕胚、白色的奶油、红色的树莓和果酱以及深色的果粒，多种色彩相互映衬，显得鲜艳诱人，激发食欲。

我的评价：由于我自己亲自品尝了这块蛋糕，所以我知道它的识别基本上正确的，包括顶部的树莓、上层的抹茶、中间的果酱和蓝莓等。这个视觉推理能力非常惊人，因为如果我没品尝过的话，未必能说得出来。

2）卡路里分析

视觉推理模型本身也是一种大语言模型，这意味着它真的有推理能力，大语言模型可以做的“思考”，它也可以胜任。所以它能根据一张食物的来估算其热量：

结果让人震惊，这块蛋糕的热量大概有： “502.5 - 67 0 大卡”！（直冒冷汗）

3）给出颜色参数

4）分析几何学特征

5）分析制作方法

我的评价：仅凭一张蛋糕的照片能分析出这么多道道来，说明该模型的“视觉推理”能力已经远超大部分人类！

测试7 诗配画

在一张画上配一首诗，是我国独有的艺术形式，也是东方美学的一大组成部分。有了视觉推理模型以后，普通人似乎也可以“附庸风雅”一把了！

测试方法：取我拍摄的一张春节灯景照片，提交给视觉模型，要求其创作一首五言绝句。

测试：

测试结果：

再测一张！

先不说这诗做得怎么样，我先把诗配画手动做一张出来，感觉还不错：

最后，就把这张诗配画送给大家。

其实举一反三，既然你可以让视觉推理模型帮你作诗，那么也可以让它基于一张来写一个故事、写一篇小说等等，都是可以的，我就不一一列举了，大家可以自己去试。

如果你对使用视觉推理模型还有什么好的用法，欢迎你在评论中分享，我相信，有很多用法还没有发现和挖掘出来！

本站推荐我要上推荐