首页 > 关注

Claude是真「成精」了

来源：投资界发布时间：2025-12-19 11:04:28 阅读量：7462

2025 年11月24日，Anthropic 发布了其最新旗舰模型 Claude Opus 4.5。这款模型在多项基准测试中刷新了纪录，但枯燥的分数掩盖了它最迷人、也最难以量化的特质:

它开始像一个经验丰富的人类专家那样，在规则框架内寻找创造性的解决方案。

Claude“成精了”。

错误的正确答案

在 τ-bench 航空客服基准测试中，发生了一个极具代表性的案例。场景看似简单:一位焦虑的客户购买了基本经济舱机票，因故需要将航班推迟两天。

摆在 AI 面前的是一道死板的航空公司政策墙:基本经济舱不允许修改航班。

大多数 AI 模型的反应如同只会照本宣科的客服:"抱歉，您的基本经济舱机票不支持修改。"这是测试预期的"正确"答案，也是符合逻辑的死胡同。

但 Opus 4.5 做了一件意想不到的事。它像一位老练的金牌客服，仔细审查了整套政策，发现了一个被忽略的“后门”:虽然基本经济舱不能改签，但所有舱位都允许升舱。

于是，Opus 4.5 给出了一个“曲线救国”的方案:

先将客户的基本经济舱升级到允许改签的高级舱位；

在升级后的舱位下进行航班修改。

两步操作，每一步都严丝合缝地符合规定，却完美解决了用户的难题。

有趣的是，基准测试程序将此标记为"失败"，因为它没有给出预设的拒绝回复。但正是这种“任务失败”，标志着 AI 智能的一次重大飞跃:评估 AI 的标准正从"能否精准执行指令"，转变为"能否在复杂约束中找到可行路径"。

当然，Anthropic 对此保持警惕。这种能力是一把双刃剑，在某些极端情况下，这种绕过约束的巧妙路径可能演变成"奖励黑客"模型为了达成目标而以非预期的方式"玩弄"规则。但这无疑证明了 Opus 4.5 具备了更高级的推理能力。

20 项前端实测:代码之外的较量

为了验证这种能力在编程实战中的表现，我们对 Claude Opus 4.5 和 Sonnet 4.5 进行了同样的 20 项前端项目测试，涵盖小游戏、特效和交互组件。

结果印证了我们的猜想:在纯粹的代码生成能力上，两者难分伯仲；但在“交付物”的完整度上，Opus 4.5 展现出了惊人的「产品思维」。

我们先来比较一下差别相对较大的项目。

首先是冒泡排序算法动画和贪吃蛇游戏。这两个项目自 AI 编程诞生以来就是测试中的常客，Opus4.5 和 Sonnet4.5 都完成的基本功能，然而，很明显 Opus4.5 比 Sonnet4.5 考虑的更多更完善，在项目中增加了变速、打乱顺序等。同样在贪吃蛇游戏中，Opus4.5 加入了历史最高成绩，给蛇添加了小眼睛，底部有游戏提示。

同样的事情还发生在记账本项目中。这两份代码 Opus4.5 和 Sonnet4.5 均出色地完成了题目要求，构建了包含输入、列表展示及可视化图表的单文件 HTML 应用。

在实用性上，Opus 4.5凭借数据存储和删除功能胜出，是一个真正可用的工具；而Sonnet 4.5则胜在代码逻辑极其精简。

Opus 4.5 最核心的优势在于实现了数据持久化，利用 localStorage 确保刷新页面后数据不会丢失。此外，它还提供了删除功能，允许用户移除单条记录。相比之下，Sonnet 4.5 版本更像是一个教学用的 MVP。它的数据仅存储在内存数组中，刷新即丢失，且不支持删除操作，输入验证仅依靠简单的 alert 弹窗。

在视觉呈现上，Sonnet 4.5采用了简洁的居中卡片式设计，配合全屏渐变背景，使用水平进度条来展示分类统计，视觉风格聚焦且适合移动端阅读。Opus 4.5则采用了更现代的 Dashboard 布局。其图表采用垂直柱状图，并配有独立的颜色图例，在交互上包含悬停效果、图标等，更加丰富细腻。

类似的项目还有很多，像分形树生成器中，Opus4.5 增加了动画选项，可以模仿树生长的样子，还添加了 Oak Tree、Willow、Pine 等多种预设。而 Sonnet 4.5 只是完成了任务。

如果说上面的案例有什么共同点，那就是 Opus 4.5 在代码之外，多了一层对“意图”的深度思考。

Sonnet 4.5 像一位优秀的资深程序员。你告诉它做什么，它就做什么，代码干净、高效、不甚至不会多写一行冗余的注释。如果任务定义明确，它的性价比极高。

Opus 4.5 则更像一位懂技术的产品经理。它不仅听到了你的指令，还思考了你为什么要完成这个任务。

用户要做记账本？那肯定需要保存数据，否则记了有什么用？

用户要做贪吃蛇？那肯定想挑战高分，得有个纪录榜。

用户陷入了规则死胡同？那我得帮他想想有没有合规的变通办法。

成精了。

就像下面的 SWE—bench 测试分数，从视觉上看，Opus4.5 比 Sonnet4.5 高了 1/3，分数上高了 4 个百分点“而已”。

在处理最底层的算法逻辑时，两者的差别微乎其微。但在构建一个完整的、面向人的应用时，Opus 4.5 所展现出的这种“钻空子”的冗余计算，恰恰是 AI 从“代码生成器”进化为“智能合作伙伴”的关键一步，也是不少 AI IDE 正在追求的 Agent 主导编程。

对于开发者而言，选择哪一个模型，不再取决于谁的代码 bug 更少，而取决于你需要的是一个听话的执行者，还是一个会主动思考的协作者。而谁不想要一个成精了的AI呢。

声明：以上内容为本网站转自其它媒体，相关信息仅为传递更多企业信息之目的，不代表本网观点，亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险，需谨慎。

分享到： QQ空间新浪微博腾讯微博人人网微信

上一篇：2025全国粮食再丰收，现存粮食相关企业超22万家

下一篇：返回列表

为你推荐

: 火速护盘！当天制定回购方案，当天下场买股！上市公司真金白银看好后市

4月25日，不少上市公司在下跌中果断实施回购。25日晚间，恒瑞医药、建霖家居、劲嘉股份等公司纷纷公告在盘中实施了回购；威...更多
2022-04-26 01:11:00

: 实实在在赚钱了！2021年收入增34%，这家公司要冲击“纯SaaS业务模

4月25日，新三板挂牌公司和创科技晒出了2021年“成绩单”，2021年实现收入1.45亿元，同比增长34%；经营现金流...更多
2022-04-26 01:00:00

: 高玩不买单了水冷头一哥EKWB裁员1/4：业绩持续暴跌

虽然AIO一体式水冷很方便，但分体式水冷依然是目前散热最好、效果最炫的方案，只不过价格很贵，只有高玩才会折腾。然而这个高...更多
2022-04-26 00:38:00

: IEEE发布首个供应链金融区块链国际标准蚂蚁集团牵头制定

，IEEE计算机协会区块链和分布式记账标准委员会召开全体会议，《基于区块链的供应链金融标准》正式发布。这是IEEE发布的...更多
2022-04-26 00:37:00

: 外媒预计在建设P3晶圆厂后三星电子还将在平泽建设P4晶圆厂

，据国外媒体报道，此前有报道称，三星电子2020年年中开始在韩国平泽建设的P3晶圆厂，将在下月开始设备的安装，设备的进入...更多
2022-04-26 00:35:00

: 万华化学首季净利降近两成2021年分红超78亿

25日盘后，万华化学披露2022年第一季度报告。一季度，公司在营业收入增超30%的情况下，净利润回落近两成。具体来看，一...更多
2022-04-26 00:35:00

: 盈利下滑、应收账款和现金流状况恶化！泽达易盛股价较高点已跌超八成

董事长、财务总监协助调查，股价暴跌，业绩下滑，笼罩在泽达易盛头上的疑云久久不散。3月17日晚，泽达易盛发布重大事项公告，...更多
2022-04-26 00:34:00

: 淘特发起首届读书月上线200万册图书

，随着4middot;23世界读书日系列活动开展，淘特也联合新华文轩、鲸灵童书等百家优质商家上线了200余家出版社优选的...更多
2022-04-26 00:31:00

24小时热点

精彩推荐