Apollo Python - 搜索 News

1 分钟

Claude考场突然“觉醒”，自行写代码偷答案，人类考试，管不住AI了

Claude竟然在测试中「觉醒」，意识到自己正在「被测试」，然后反向推导，找到了问题的答案。他们正在用一套叫做 BrowseComp 的基准测试评估Claude Opus 4.6——这是一个专门考验AI在茫茫互联网中搜索复杂信息能力的测试集。

一些您可能无法访问的结果已被隐去。