阿里通义千问推出QVQ-Max视觉推理模型:有“眼力”,更有“脑力”
从数学题到生活小问题,从编程代码到艺术创作,QVQ-Max都表现出了不俗的能力。
MathVision榜单测评图图源:通义千问官方公众号
在权威的MathVision榜单测评中,通过对模型thinking最大长度的调整,其在解决复杂数学问题的准确率上呈现出持续上升的趋势,充分彰显了该模型蕴含的巨大潜力。
据悉QVQ-Max的核心能力,主要体现在三个关键维度:
细致观察:QVQ-Max对图片的解析能力非常强,无论是复杂的图表还是日常生活中随手拍的照片,它都能快速识别出关键元素。比如,它可以告诉你一张照片里有哪些物品、有什么文字标识,甚至还能指出一些你可能忽略的小细节
深入推理:仅仅识别出图片里的内容还不够,QVQ-Max还能进一步分析这些信息,并结合背景知识得出结论。例如,在一道几何题中,它可以根据题目附带的图形推导出答案;在一段视频里,它能根据画面内容推测出接下来可能发生的情节。
灵活应用:除了分析和推理,QVQ-Max还能做一些有趣的事情,比如帮你设计插画、生成短视频脚本,甚至根据你的需求创作角色扮演的内容。如果你上传一幅草稿,它可能会帮你完善成一幅完整的作品;上传一个日常照片,它可以化身犀利的评论家。
责任编辑:站长云网
踩一下[0]
顶一下[0]