🌐
AI世界
搜索 AI 快讯...⌘K
← 返回快讯流
其他4 小时前

SlopCodeBench: Benchmarking How Coding Agents Degrade over Long-Horizon Tasks

SlopCodeBench项目发布,旨在评估编码代理在长期任务中的性能退化情况。

查看原文 →
分享XTGLinkedIn邮件