AI 应用 / Agent skills

评估驱动开发

eval-driven-dev

安装量 2,396GitHub Stars 0更新时间 2026年5月15日

描述

通过评估驱动开发改进AI应用。定义评估标准、为应用埋点、构建黄金数据集、观测并评估应用运行情况、分析结果，并制定具体的改进行动计划。当用户要求为任何调用LLM模型的Python项目设置QA、添加测试、添加评估、执行评估、基准测试、修复错误行为、提升质量或进行质量保证时，务必使用此技能。

安全审计

使用前的风险提示

未审计

未审计

更新 1年1月1日

未审计

更新 1年1月1日

uitestingauditapidatabasellmpromptagentworkflowgithubevaldriven