Google推出下一代人工智能推理模型Gemini 2.5
该模型将于周二在公司的开发者平台GoogleAIStudio以及Gemini应用程序中推出,供该公司每月20美元的AI计划GeminiAdvanced的订阅者使用。
展望未来,Google表示其所有新人工智能模型都将具备推理能力。
自OpenAI于2024年9月推出首个AI推理模型以来,科技行业一直在竞相用自己的模型来匹敌或超越该模型的能力。如今,Anthropic、DeepSeek、Google和xAI都拥有AI推理模型,这些模型利用额外的计算能力和时间来核实事实并推理问题,然后再给出答案。
推理技术帮助人工智能模型在数学和编码任务上取得了新的高度。科技界的许多人认为推理模型将成为人工智能代理的关键组成部分,人工智能代理是可以执行基本无需人工干预的任务的自主系统。然而,这些模型也更昂贵。
Google声称,Gemini2.5Pro在多个基准测试中的表现均优于其之前的前沿AI模型以及一些领先的AI竞争模型。具体来说,Google表示,Gemini2.5的设计初衷是打造出视觉效果出众的Web应用和代理编码应用程序。
在一项名为AiderPolyglot的代码编辑评估中,Google表示Gemini2.5Pro的得分为68.6%,超过了OpenAI、Anthropic和中国人工智能实验室DeepSeek的顶尖人工智能模型。
然而,在另一项衡量软件开发能力的测试SWE-benchVerified中,Gemini2.5Pro的得分为63.8%,优于OpenAI的o3-mini和DeepSeek的R1,但低于Anthropic的Claude3.7Sonnet,后者的得分为70.3%。
在著名的“人类的最后考试”中的一项包括数千道数学、人文和自然科学众包问题的多模式测试——Google表示,Gemini2.5Pro的得分为18.8%,优于OpenAI、Anthropic和DeepSeek的领先AI模型。
首先,Google表示Gemini2.5Pro配备了100万个token上下文窗口,这意味着AI模型可以在一个提示中吸收大约75万个单词。这比整个《指环王》系列丛书还要长。不过,Google表示,200万个token上下文窗口即将推出。
Google之前曾尝试过人工智能推理模型——此前曾于12月发布过Gemini的“思考”版本——但Gemini2.5是该公司迄今为止对OpenAIo系列模型最强劲的竞争对手。
Google并未透露Gemini2.5Pro的API定价。
踩一下[0]
顶一下[0]