周二,谷歌推出了Gemini 2.5,这是一个全新的AI推理模型系列,该系列模型能在回答问题前“思考”。 为了开启这一新模型系列,谷歌推出了Gemini 2.5 Pro Experimental,这是一款多模态推理AI模型,谷歌称其为目前最智能的模型。该模型将于周二在谷歌的开发者平台Google AI Studio上推出,同时也会向订阅了该公司每月20美元AI计划Gemini Advanced的用户在Gemini应用程序中提供。 谷歌表示,未来其所有新的AI模型都将内置推理能力。
自2024年9月OpenAI推出首个AI推理模型o1以来,科技行业便一直在竞相研发能匹配或超越该模型能力的自有模型。如今,Anthropic、DeepSeek、谷歌和xAI均拥有AI推理模型,这些模型在给出答案前会运用额外的计算能力和时间来核查事实并推理问题。 推理技术助力AI模型在数学和编码任务上达到了新高度。许多科技界人士认为,推理模型将成为AI代理的关键组成部分,这类自主系统在很大程度上可无需人工干预就能执行任务。
然而,这些模型的成本也更高昂。 此前,谷歌曾对AI推理模型进行过试验,并于去年12月发布了一个具备“思考”能力的Gemini版本。但Gemini 2.5代表着该公司迄今为止为超越OpenAI的“o”系列模型所做的最认真的尝试。 谷歌声称,Gemini 2.5 Pro在多项基准测试中的表现优于其此前的尖端AI模型以及一些领先的竞品AI模型。具体而言,谷歌表示,Gemini 2.5在设计上擅长创建视觉效果出众的Web应用程序和代理编码应用程序。
在一项名为Aider Polyglot的代码编辑评估中,谷歌称Gemini 2.5 Pro得分68.6%,超过了OpenAI、Anthropic以及中国AI实验室DeepSeek的顶级AI模型。 然而,在另一项衡量软件开发能力的测试SWE - bench Verified中,Gemini 2.5 Pro得分63.8%,虽超过了OpenAI的o3 - mini和DeepSeek的R1,但不如Anthropic的Claude 3.7 Sonnet(后者得分70.3%)。
在名为Humanity’s Last Exam的多模态测试中(该测试包含数千个涉及数学、人文和自然科学的众包问题),谷歌称Gemini 2.5 Pro得分18.8%,表现优于大多数竞品旗舰模型。 谷歌表示,Gemini 2.5 Pro最初将配备100万token的上下文窗口,这意味着该AI模型可一次性处理约75万个单词。这比《指环王》全系列书籍的篇幅还要长。很快,Gemini 2.5 Pro将支持双倍输入长度(200万token)。 谷歌尚未公布Gemini 2.5 Pro的API定价,该公司称将在未来几周内分享更多相关信息。