如果说机器智能是一类生物的话,那么现在已经进入了它的寒武纪物种大爆发。
最近大家都体验到了 DeepSeek 官网经常“服务器繁忙”,所以我转战了“火山引擎”,在那里使用 DeepSeek 服务比较流畅。火山引擎上聚合了很多模型,当然以它们自己家的豆包系为主,我溜达了一圈,发现了一个视觉推理模型,目测非常强大。
这个模型的全称叫 Doubao-1.5-vision-pro-32k,发布日期是25年1月15日,非常近;它的前一个版本是 Doubao-vision-pro-32k,发布日期是24年10月28日。我用同样的测试了一下,新版本的能力有了非常大的提升。
可能有人会问,什么是“视觉推理模型”?首先不要把它和“生图模型”(或“生视频模型”)相混淆,它的功能不是“生成图像”,而是“理解图像”。 如果把“大语言模型”比作一颗大脑的话,“视觉推理模型”相当于给这颗大脑又安上了一双眼睛 。于是我们不仅可以向这颗大脑输入文本进行询问,也能输入,让大脑直接去理解这张,然后告诉我们“它看到了什么”。
我一直把现在的 AI 工具理解成哆啦A梦的口袋,我深信 AI 的应用潜力还远远没有发掘出来,DeepSeek 如此,视觉推理模型也是如此。今天这篇文章,我做一个大胆的尝试,我想试试看: 当“大脑”加上了“眼睛”以后到底可以帮我们做哪些事 。
说明:
1)以下的“测试”都是在电脑的网页浏览器上登录“火山引擎”网站 (volcengine.com)后,在“体验中心”的界面上进行的。由于电脑网页上的字体显示比较小,所以大家在手机上看这些截图可能稍微有些不便,敬请谅解。
2)以下所说的“测试”完全不是科学严谨的测试,因为每个类别只测试了一个材料,权做初步的尝试和探索,所以对结果不要当真。我只是想探索“ 玩法的多样性 ”,大家感兴趣可以自己多测测哈!
测试1 理解K线图
测试方法: 在某股票网站随机选取一只A股,打开其K线图,截图后(不包含股票名称和代码信息)提交给 Doubao-1.5-vision-pro-32k模型,并加上文字提示词“ 分析这张图 ”。
测试:
测试结果:
其中它的分析部分如下:
图表分析
价格走势 :图表显示了一段时间内的 K 线图,价格在 24.00 到 41.08 之间波动。最近的价格走势显示出明显的上涨趋势,特别是在最近的几根 K 线中,价格突破了之前的阻力位。
移动平均线 :5 日和 10 日移动平均线较为接近,显示短期价格趋势较为稳定。30 日移动平均线则明显低于当前价格,表明中长期趋势也在向上。
成交量 :成交量在图表下方显示,最近的成交量显著增加,表明市场参与度提高,买方力量较强。
MACD 指标 :MACD 指标显示 DIFF 线(1.72)高于 DEA 线(1.83),但 MACD 值为负(-0.23),表明短期动能较强,但可能存在一些回调压力。
总结
从图表来看,该股票近期表现强劲,价格上涨且成交量放大,显示出买方的积极参与。移动平均线也支持上涨趋势,但 MACD 指标显示可能存在短期回调的风险。投资者在决策时应综合考虑这些因素,并结合其他技术指标和基本面分析。
请注意,以上分析仅基于图表信息,不构成投资建议。市场情况复杂多变,投资决策应谨慎。
补充说明: 炒股风险很高,必须保持谨慎,AI 分析无法直接构成投资建议,更不应盲从。
测试2 测掌纹
测试方法: 拍摄自己左手的手掌掌面,提交给上述的视觉模型。文字提示词“ 描述分析这张”。
测试: (因为我的手比较丑,就不放出来了)
测试结果:
其中给出的关键信息如下:
生命线: “生命力较为旺盛,身体的基础素质较好,具有较好的自我恢复能力和适应环境的能力。”
智慧线: “ 拥有较为理性的思维方式,具备一定的学习能力和分析能力,能够较为冷静地处理生活中的各类问题 ,在思考和决策方面有自己的节奏和判断力。 ”
情感线: “ 情感世界较为丰富,情感体验细腻,容易对他人的情绪产生共鸣,但同时也可能在感情方面经历一些波动,面临一些情感上的抉择或困扰 ”
我的评论:“……”
补充说明: 测掌纹属于封建迷信活动,并无真实参考价值,权作娱乐吧!
测试3 书法赏析
测试方法: 在故宫博物院网站的数字藏品库中随机选取一张古代书法作品,我选中的作品是元代书法家邓文原的《芳草贴》。文字提示词“ 对这幅书法作品进行评点 ”,第二轮文字提示词“ 提取其中文字 ”。
测试:
测试结果:
模型给出的书法赏析长达754字,开头即点出作者为元代书法家邓文原,已经先声夺人。就其评点内容来说,有整体分析也有细节分析,能从多个维度展开分析,可见“书商”不低。再摘录两段:
墨法
墨色浓淡相宜,富有层次感。浓墨处显得沉稳厚重,如 “暮”“烟” 等字,增强了书法的力度感;淡墨处则显得空灵虚和,如部分笔画的收笔处,增添了作品的韵味和情趣。通过墨色的变化,丰富了作品的视觉效果,展现出作者对墨法的熟练掌握和运用。
意境
此作整体意境清新自然,与所书内容相得益彰。其书风平和简静,透露出一种文人的雅逸之气,仿佛将观者带入了一个宁静悠远的山水情境之中,让人感受到作者在书写时的闲适心境。
邓文原的这幅书法作品在用笔、结构、章法、墨法等方面都有出色的表现,体现了元代书法尚意复古的审美追求,具有较高的艺术价值。
然后我给出第二轮提示词,让它提取中的文字,结果如下:
这个结果对不对呢?错了一个字,断句有点问题,其他全对。而且它能自动地以“从右往左”“从上往下”的顺序来识别,也是让我觉得不错。从正确率来讲算是比较高了,如果让人来读出这张书法中的字,估计至少有80%的人是达不到这个准确度的(注:此比例是我的瞎猜)。
正确的文本如下:
芳草孤舟渡 幽居一径通
江湖春雨外 墟里暮烟中
机息鸥先下 花飞水自东
临流无限意 画史若为工
巴西邓文原
模型识别错的地方在于把“径”字识别成了“往”字。
其实识别这张书法中的文字是有一定难度的,我拿另一个国产的视觉推理模型测试了一下,大概错了一半……具体就不说哪家了。而且,如果用豆包上一版本的视觉推理模型来测,结果也比较糟糕。
另外,我用微信上自带的“提取文字”功能试了下,结果如下:
微信的识别结果也不错,只错了一个字,把“邓”字识别成了“御”字。不过这个错误比较致命,这样就找不到这幅作品的作者了。
测试4 国画赏析
测试方法: 取启功先生的国画作品朱竹图来测试,文字提示词“对这幅画作出评价”。
测试:
测试结果:
这幅作品是启功所作的绘画,画中主体为玲珑太湖石搭配朱竹等,整体颇具传统文人画的韵味,以下从几个方面进行评价:
立意与主题
画面以奇石和朱竹为核心元素,营造出古朴、清雅的意境。 奇石在中国传统文人画中常象征坚毅、沉稳的品质,而朱竹则寓意高洁、正直,二者结合体现了传统文人的精神追求和审美理想,具有深厚的文化内涵。
构图
采用对角式构图,将奇石置于画面中心偏下位置,朱竹从右侧斜向上延伸。 这种构图方式既突出了主体,又使画面具有动感和张力,避免了呆板。 同时,画面留有大量空白,给人以开阔、空灵之感,体现了中国画 “计白当黑” 的构图原则。
笔墨技巧
石头 :运用浓淡不一的墨色表现出石头的质感和立体感。墨色的干湿变化自然,勾勒、皴擦等笔法运用娴熟,将石头的玲珑剔透和纹理表现得栩栩如生,体现了画家对笔墨的高超驾驭能力。
朱竹 :以朱砂或朱磦绘就,线条流畅劲挺,富有弹性,表现出竹子的挺拔和生机。竹叶疏密有致,既有整体的团块感,又有个体的形态变化,展现出画家扎实的写生功底和对自然形态的提炼能力。
设色
设色简洁却鲜明,以黑白为主调,朱竹的红色成为画面的亮点,形成强烈的视觉对比,却又和谐统一。 这种色彩处理方式既符合传统文人画淡雅的审美取向,又通过局部的亮色增添了画面的活力。
题款与钤印
画面左侧有题款,不仅注明了创作时间、赠予对象以及创作地点等信息,还以书法艺术为画面增色。 启功的书法风格秀雅挺劲,与绘画风格相得益彰。 钤印的位置和形式也较为考究,起到了平衡画面和丰富视觉层次的作用。
这幅画展现了启功深厚的传统绘画功底和独特的艺术审美,是传统文人画在现代的精彩呈现,具有较高的艺术价值和文化价值。
我的评价:这个分析是不错的!
测试5 漫画分析
测试方法: 随机选取当下网络上流行的一张讽刺性漫画作品,让视觉模型作出评价。
测试:
测试结果:
这是一幅具有强烈讽刺意味和象征意义的漫画,以下从元素、构图、象征含义、风格几个角度进行分析:
画面元素与构图
巨型人物形象 :漫画中心是一个体型巨大的人物,穿着西装,系着红色领带。他的身形大到与城市建筑相当,给人以压迫感和视觉冲击力。
头部内部景象 :人物的头部如同一个透明容器,里面有另一个较小的人物形象。较小人物似乎在操控着什么,给人一种 “提线木偶” 或者背后操纵的暗示。
红色激光眼睛 :巨型人物的双眼发出红色激光,激光线条笔直且具有攻击性,进一步强化了人物的威慑力和威胁感。
背景环境 :背景是城市景观,有高楼大厦。远处还能看到火焰和混乱的场景,可能暗示着破坏、动荡或危机。
象征含义
权力与控制 :巨型人物的庞大身形和其头部内操控的小人物,可能象征着权力阶层中的操纵关系,暗示表面上的掌权者背后还有更深层的势力在掌控。
威胁与破坏 :红色激光眼睛和背景中的混乱场景,传达出一种威胁感和破坏力,可能是在讽刺某些人物或势力对社会、城市带来的负面影响和动荡。
艺术风格
漫画整体采用夸张、荒诞的表现手法,通过巨大的人物形象、奇特的头部内部构造等元素,营造出强烈的视觉冲击和讽刺效果。 线条较为粗犷,阴影部分的处理使得画面立体感和紧张氛围都得到增强。
我的评价:这个分析相当透彻!
测试6 识别食物
测试方法: 取我当天享受的一块蛋糕的照片提交给视觉模型进行测试,先让它识别这是什么食物,然后对卡路里、色调等方面进行分析。
测试:
测试结果:
1)食物成分识别
这是一张展示美味甜点的,以下从拍摄主体、细节、背景、构图与色彩几方面进行描述分析:
拍摄主体
画面主体是一块精致的多层蛋糕,放置在一个白色带有金色点缀的盘子中。 蛋糕顶部装饰有一颗鲜红的树莓,增添了色彩对比和视觉吸引力。
细节
层次 :蛋糕由多个层次构成,最上层是绿色的抹茶层,往下依次有淡黄色的蛋糕胚层、白色的奶油层以及夹有红色果酱和深色果粒(可能是蓝莓)的夹层,丰富的层次让人感受到丰富的口感。
质地 :各层质地看起来细腻绵密,抹茶层略显紧实,奶油层蓬松轻盈,蛋糕胚层则柔软多孔。
背景
背景相对模糊,隐约能看到一些餐具和食物,如盘子、橙色的酱料等。 背景虚化处理使得蛋糕成为视觉焦点,突出了主体。
构图与色彩
构图 :蛋糕位于画面右侧,盘子占据了画面下方,整体构图稳定且平衡,给人以舒适的视觉感受。
色彩 :画面色彩丰富且和谐。绿色的抹茶、黄色的蛋糕胚、白色的奶油、红色的树莓和果酱以及深色的果粒,多种色彩相互映衬,显得鲜艳诱人,激发食欲。
我的评价:由于我自己亲自品尝了这块蛋糕,所以我知道它的识别基本上正确的,包括顶部的树莓、上层的抹茶、中间的果酱和蓝莓等。这个视觉推理能力非常惊人,因为如果我没品尝过的话,未必能说得出来。
2)卡路里分析
视觉推理模型本身也是一种大语言模型,这意味着它真的有推理能力,大语言模型可以做的“思考”,它也可以胜任。所以它能根据一张食物的来估算其热量:
结果让人震惊,这块蛋糕的热量大概有: “502.5 - 67 0 大卡”! (直冒冷汗)
3)给出颜色参数
4)分析几何学特征
5)分析制作方法
我的评价:仅凭一张蛋糕的照片能分析出这么多道道来,说明该模型的“视觉推理”能力已经远超大部分人类!
测试7 诗配画
在一张画上配一首诗,是我国独有的艺术形式,也是东方美学的一大组成部分。有了视觉推理模型以后,普通人似乎也可以“附庸风雅”一把了!
测试方法: 取我拍摄的一张春节灯景照片,提交给视觉模型,要求其创作一首五言绝句。
测试:
测试结果:
再测一张!
先不说这诗做得怎么样,我先把诗配画手动做一张出来,感觉还不错:
最后,就把这张诗配画送给大家。
其实举一反三,既然你可以让视觉推理模型帮你作诗,那么也可以让它基于一张来写一个故事、写一篇小说等等,都是可以的,我就不一一列举了,大家可以自己去试。
如果你对使用视觉推理模型还有什么好的用法, 欢迎你在评论中分享 ,我相信,有很多用法还没有发现和挖掘出来!