灵感菇

AI 技能的自然生态,你的一句话,蔓延出无限连接。

返回搜索

软件工程 / 诊断修复

skill-benchmark

skill-benchmark

安装量 111GitHub Stars 135更新时间 2026年5月16日

描述

Benchmark any agent skill to measure whether it actually improves performance. Use when the user wants to evaluate, test, or compare a skill against baseline, or when they mention "benchmark", "eval", "skill performance", or "does this skill help". Runs isolated eval sessions with and without the skill, grades outputs via layered grading (deterministic checks + LLM-as-judge), analyzes behavioral signals, and generates a comparison report with a USE / DON'T USE verdict.

安全审计

使用前的风险提示

未审计

规则审计

未审计
更新 1年1月1日

智能审计

未审计
更新 1年1月1日
uiperformancesecurityllmagentbenchmarkanymeasurewhetheractuallyimprovesthe