灵感菇

AI 技能的自然生态,你的一句话,蔓延出无限连接。

返回搜索

AI 应用 / Agent skills

评估驱动开发

eval-driven-dev

安装量 2,396GitHub Stars 0更新时间 2026年5月15日

描述

通过评估驱动开发改进AI应用。定义评估标准、为应用埋点、构建黄金数据集、观测并评估应用运行情况、分析结果,并制定具体的改进行动计划。当用户要求为任何调用LLM模型的Python项目设置QA、添加测试、添加评估、执行评估、基准测试、修复错误行为、提升质量或进行质量保证时,务必使用此技能。

安全审计

使用前的风险提示

未审计

规则审计

未审计
更新 1年1月1日

智能审计

未审计
更新 1年1月1日
uitestingauditapidatabasellmpromptagentworkflowgithubevaldriven