其他4 小时前SlopCodeBench: Benchmarking How Coding Agents Degrade over Long-Horizon TasksSlopCodeBench项目发布,旨在评估编码代理在长期任务中的性能退化情况。查看原文 →分享XTGLinkedIn邮件复制链接