linny006/agent-eval-harness

一个用于在真实 GitHub Issue 上对比 AI 编码智能体的实时开源基准测试工具。

agent-eval-harness 是什么？

`agent-eval-harness` 是一个开源的基准测试工具，旨在实时评估和比较不同 AI 编码助手（如 Claude Code、Cursor 等）在解决真实 GitHub Issue 时的性能。它通过从 GitHub 仓库中提取真实问题，并让不同的 AI 智能体独立尝试解决，从而提供客观的量化对比数据。该工具不仅支持多种主流的 AI 编码智能体，还允许用户自定义测试任务，非常适合开发者研究、比较或优化 AI 编码智能体的实际工作能力。其核心优势在于其真实性和动态性：它使用真实世界的编程任务（而非人工构建的玩具问题），并持续更新，确保测试结果能反映当下实际场景中的表现。

兼容平台~Claude Code~Codex CLI~Cursor

npx skills add linny006/agent-eval-harness

Installed? Explore more 研究与数据分析 skills: obra/superpowers, affaan-m/quarkus-verification, affaan-m/uspto-database · View all 6 →

查看原文→浏览所有技能

在你喜欢的 AI 中提问

打开一个已预加载此 Agent Skill 的新对话。

ChatGPT Claude Gemini Grok Perplexity DeepSeek

文档

agent-eval-harness 是做什么的？

Live, open-source benchmark for comparing AI coding agents on real GitHub issues

linny006/agent-eval-harness

agent-eval-harness 是什么？

在你喜欢的 AI 中提问

文档

agent-eval-harness 是做什么的？

相关技能

obra/superpowers

affaan-m/quarkus-verification

affaan-m/uspto-database

affaan-m/scholar-evaluation

affaan-m/literature-review

affaan-m/research-ops