Claude 4 Sonnet 全方位实测:百万上下文、代码能力与性价比的真实数据
Anthropic Claude 4 Sonnet 公测两周,我们用 12 个真实任务做横向对比。重点关注:100 万 token 检索准确率、代码能力、工具调用稳定性、定价。
OpenAI/Anthropic/Google/Meta/DeepSeek/Qwen 等厂商模型发布
Anthropic Claude 4 Sonnet 公测两周,我们用 12 个真实任务做横向对比。重点关注:100 万 token 检索准确率、代码能力、工具调用稳定性、定价。
OpenAI 内部路线图泄露:GPT-5 主线任务(SWE-bench Verified)目标 85%,目前已达 80.3%。Codex 团队被要求把失败案例重做一遍。