
Anthropic公司近日升级了其最智能的模型,发布了Claude Opus 4.6。新模型在编程技能上有所改进,能更谨慎地规划任务,在大型代码库中更可靠地运行,并具备更好的代码审查和调试能力以自我纠错。此外,Opus 4.6首次在Opus级模型中引入了100万令牌的上下文窗口(目前处于测试阶段)。

Opus 4.6还能将改进的能力应用于日常工作任务,如进行财务分析、开展研究,以及使用和创建文档、电子表格和演示文稿。在Cowork环境中,Claude可以自主多任务处理,Opus 4.6能代表用户运用所有这些技能。
该模型在多项评估中表现卓越。例如,在代理编程评估Terminal-Bench 2.0中获得了最高分,并在复杂多学科推理测试Humanity's Last Exam中领先于其他前沿模型。在衡量经济价值知识工作任务(如金融、法律等领域)的GDPval-AA评估中,Opus 4.6比行业次优模型(OpenAI的GPT-5.2)高出约144个Elo点,比其前身Claude Opus 4.5高出190点。在衡量模型在线查找难寻信息能力的BrowseComp评估中,Opus 4.6也优于其他模型。
根据Anthropic的详细系统卡显示,Opus 4.6的整体安全性能与行业其他前沿模型相当或更优,在安全评估中表现出较低的错误行为率。
在Claude Code中,用户现在可以组建代理团队共同完成任务。在API方面,Claude能使用压缩技术总结自身上下文,执行更长时间的任务而不受限制。Anthropic还引入了自适应思维功能,使模型能根据上下文线索调整扩展思维的使用程度,以及新的努力控制功能,让开发者能更好地控制智能、速度和成本。
来源:Anthropic


