derberg/eval-bench

Benchmark Claude Code plugins/skills/agents/MCPs by A/B comparing versions with LLM-judged evaluation prompts

eval-bench 是什麼？

eval-bench is a Claude Code agent skill that benchmark Claude Code plugins/skills/agents/MCPs by A/B comparing versions with LLM-judged evaluation prompts.

相容平台✓Claude Code~Codex CLI~Cursor

Part ofAgent Workflows

npx skills add derberg/eval-bench

Installed? Explore more 程式設計與開發 skills: steipete/bluebubbles, steipete/eightctl, steipete/blucli · View all 6 →

查看原文→瀏覽所有技能

在你喜歡的 AI 中提問

開啟一個已預先載入此 Agent Skill 的新對話。

ChatGPT Claude Gemini Grok Perplexity DeepSeek

說明文件

eval-bench 是做什麼的？

Benchmark Claude Code plugins/skills/agents/MCPs by A/B comparing versions with LLM-judged evaluation prompts

derberg/eval-bench

eval-bench 是什麼？

在你喜歡的 AI 中提問

說明文件

eval-bench 是做什麼的？

相關技能

steipete/bluebubbles

steipete/eightctl

steipete/blucli

steipete/bear-notes

steipete/camsnap

steipete/gifgrep