trajectoryRL/trajrl-bench

TrajRL-Bench: AI agent skills benchmark. SSH sandbox with mock services, LLM judge scoring, split-half delta evaluation. Leaderboard at trajrl.com/bench

対応~Claude Code~Codex CLI~Cursor

npx skills add trajectoryRL/trajrl-bench

オリジナルを見る→すべてのスキルを見る

Ask in your favorite AI

Open a new chat with this agent skill pre-loaded.

ChatGPT Claude Gemini Grok Perplexity DeepSeek

ドキュメント

trajectoryRL/trajrl-bench

TrajRL-Bench: AI agent skills benchmark. SSH sandbox with mock services, LLM judge scoring, split-half delta evaluation. Leaderboard at trajrl.com/bench

関連スキル

stone16/harness-engineering-skills

Run AI coding agents unattended for hours and ship PRs worth merging. Cybernetics-based multi-agent orchestration + cross-LLM peer review for Claude Code, Codex, and Gemini. Engine-enforced gates, fresh agent per checkpoint, cross-vendor review before every PR.

community

← More コーディング＆開発 skills

trajectoryRL/trajrl-bench

Ask in your favorite AI

ドキュメント

trajectoryRL/trajrl-bench

関連スキル

stone16/harness-engineering-skills

plidezus/flomo-save-reminder-skill

Norio691/claude-conduit

ComposioHQ/owl-protocol-automation

johannes-engler-mw/terraform-test-generator-skill

HIDORAKAI002/ai-workspace-archive