描述
通过评估驱动开发改进AI应用。定义评估标准、为应用埋点、构建黄金数据集、观测并评估应用运行情况、分析结果,并制定具体的改进行动计划。当用户要求为任何调用LLM模型的Python项目设置QA、添加测试、添加评估、执行评估、基准测试、修复错误行为、提升质量或进行质量保证时,务必使用此技能。
AI 应用 / Agent skills
eval-driven-dev
描述
通过评估驱动开发改进AI应用。定义评估标准、为应用埋点、构建黄金数据集、观测并评估应用运行情况、分析结果,并制定具体的改进行动计划。当用户要求为任何调用LLM模型的Python项目设置QA、添加测试、添加评估、执行评估、基准测试、修复错误行为、提升质量或进行质量保证时,务必使用此技能。
安全审计