描述
评估和改进 AI 智能体输出的模式与技术。在以下场景使用此技能: - 实现自我批评与反思循环 - 构建面向高质量生成的评估器-优化器流水线 - 创建测试驱动的代码精化工作流 - 设计基于评分标准或以 LLM 为评判的评估系统 - 为智能体输出(代码、报告、分析)添加迭代改进机制 - 衡量并提升智能体响应质量
通用助手 / 编排推荐
agentic-eval
描述
评估和改进 AI 智能体输出的模式与技术。在以下场景使用此技能: - 实现自我批评与反思循环 - 构建面向高质量生成的评估器-优化器流水线 - 创建测试驱动的代码精化工作流 - 设计基于评分标准或以 LLM 为评判的评估系统 - 为智能体输出(代码、报告、分析)添加迭代改进机制 - 衡量并提升智能体响应质量
安全审计