Anthropic 在 11 个月内推出了他们的第一个 Haiku 模型 - Claude 4.5 Haiku 在人工分析智能指数中跃升 35 分,重新变得相关。 Claude 4.5 Haiku 每个 token 的成本是 Claude 4.5 Sonnet 的 3 倍更便宜。运行人工分析智能指数的成本为 262 美元(使用 Haiku),而使用 Sonnet 则为 817 美元(大约贵 3 倍) - 详细成本分解见下面的线程。 与 3.5 Haiku 相比,4.5 Haiku 的智能/成本定位更具优势,但有许多更便宜的替代品在智能上相似,可能对没有特别需要 Claude 模型的开发者更有意义 - 包括 gpt-oss-120b(推理高,约 75 美元)和 Grok 4 Fast(约 40 美元)。Claude 4.5 Haiku 是访问“Claude”的最具成本效益的方式,但并不是其智能水平的最具成本效益的模型。 关键基准结果: ➤🧠 模型智能:在推理模式下,Claude 4.5 Haiku 在人工分析智能指数中得分 55。这比 Claude 4.5 Sonnet(思考)低 8 分,比 Claude 4.1 Opus(思考)低 4 分。Claude 4.5 Haiku(思考)略微领先于 Gemini 2.5 Flash(推理,54),但落后于其他推理模型,如 Qwen3 235B 2507(57)、DeepSeek V3.2 Exp(57)和 GLM 4.6(56)。 ➤📈 智能提升:Anthropic 在 2024 年 11 月发布了 Claude 3.5 Haiku,距离 Claude 4.5 Haiku 的发布约 11 个月。与 Claude 3.5 Haiku 相比,Claude 4.5 Haiku 在推理模式下的智能有显著提升,在 GPQA Diamond 中得分 67%(而 Claude 3.5 Haiku 为 41%)。 ➤⚙️ 显著优势:在推理模式下,Claude 4.5 Haiku 在长上下文推理中表现良好(AA-LCR 得分 70%,仅次于 GPT-5 High)和编码(43%,与 GPT-5 High 和 Gemini 2.5 Pro 相匹配)。 ➤⚡ 非推理性能:在非推理模式下,Claude 4.5 Haiku 在人工分析智能指数中得分 42。这使得该模型与 GPT-5(最低,43)相当,但落后于 Gemini 2.5 Flash(非推理,47)。 ➤💲 定价:Claude 4.5 Haiku 的定价为每百万输入/输出 token 1 美元/5 美元,这使其比 Claude 4.5 Sonnet(每百万输入/输出 token 3 美元/15 美元)便宜 3 倍。 ➤⚙️ Token 效率:Anthropic 的 Claude 模型在 token 效率上继续优于所有其他推理模型。对于 Claude 4.5 Haiku(思考) - 在最大推理预算为 64k tokens 的情况下评估 - 我们看到该模型使用 3900 万输出 tokens 来运行人工分析智能指数。其 token 使用量低于 Claude 4.5 Sonnet(4200 万),但高于 Claude 4.1 Opus(3000 万)在思考模式下。 关键模型细节: ➤📏 上下文窗口:200K tokens。这相当于 Claude 4.5 Sonnet。 ➤🌐 可用性:Claude 4.5 Haiku 可通过 Anthropic 的 API、Google Vertex 和 Amazon Bedrock 获得。Claude 4.5 Haiku 也可以通过 Claude 和 Claude Code 获得。
Claude 4.5 Haiku 的每个 token 价格比 Claude 4.5 Sonnet 便宜 3 倍,并且在推理模式下运行人工分析智能指数的成本更低。
Claude 4.5 Haiku 在推理模式下运行人工分析智能指数所需的令牌比 Claude 4.1 Opus 多,而输出令牌比 Claude 4.5 Sonnet(思考)少一些。在 Anthropic 模型中,Claude 4.5 Haiku(思考)位于 Claude 4.1 Opus(思考)和 Claude 4.5 Sonnet(思考)之下,处于智能与输出令牌的边界上。
Claude 4.5 Haiku 相较于 Claude 3.5 Haiku 是一次显著的智能提升。与 Claude 3.5 Haiku 相比,思维模式和非思维模式的 GPQA-Diamond 分数分别增加了 +26 个百分点和 +24 个百分点。Claude 3.5 Haiku 是一个非推理模型,发布于 Claude 4.5 Haiku 发布前约 11 个月。
Claude 4.5 Haiku 在 Anthropic 模型的前沿,考虑到智能与运行人工分析智能指数的成本之间的权衡。这使得 Claude 4.5 Haiku 成为希望以更低价格访问‘Claude’的用户的有效替代方案。
我们在人工智能分析指数中对所有基准的个体结果进行了评估。我们独立运行了所有这些基准,并在所有模型之间进行了逐一比较。
将Claude 4.5 Haiku与其他模型在人工分析中的表现进行比较:
查看原文
4.16万
354
本页面内容由第三方提供。除非另有说明,欧易不是所引用文章的作者,也不对此类材料主张任何版权。该内容仅供参考,并不代表欧易观点,不作为任何形式的认可,也不应被视为投资建议或购买或出售数字资产的招揽。在使用生成式人工智能提供摘要或其他信息的情况下,此类人工智能生成的内容可能不准确或不一致。请阅读链接文章,了解更多详情和信息。欧易不对第三方网站上的内容负责。包含稳定币、NFTs 等在内的数字资产涉及较高程度的风险,其价值可能会产生较大波动。请根据自身财务状况,仔细考虑交易或持有数字资产是否适合您。