Claude竟然在 测试中「觉醒」 ,意识到自己正在「被测试」,然后反向推导,找到了问题的答案。 他们正在用一套叫做 BrowseComp 的基准测试评估Claude Opus 4.6——这是一个专门考验AI在茫茫互联网中搜索复杂信息能力的测试集。