evaluate

找到 3 个相关结果 / AI / LLM

AI / LLM / Agent skills

微软铸造厂

microsoft-foundry

303.2K

端到端部署、评估和管理 Foundry 代理：Docker 构建、ACR 推送、托管/提示代理创建、容器启动、批量评估、持续评估……

Stars 0

uidockerdeploymentaudit

AI / LLM / Agent skills

google-agents-cli-workflow

5.1K

当用户希望“开发智能体”、“使用 ADK 构建智能体”、“在本地运行智能体”、“调试智能体代码”、“测试智能体”、“部署智能体”、“发布智能体”、“监控智能体”，或需要 ADK (Agent Development Kit) 开发生命周期与编码规范时，应使用此技能。它是构建 ADK 智能体的入口。始终处于激活状态——提供完整的工作流（脚手架、构建、评估、部署、发布、监控）、代码保留规则、模型选择指南，以及针对 ADK 或任何智能体开发的故障排除步骤。

Stars 0

reactdesignuitesting

AI / LLM / Agent skills

google-agents-cli-eval

5.1K

当用户希望“运行评估”、“评估我的 ADK agent”、“编写 evalset”、“调试 eval scores”、“比较 eval results”，或需要有关 ADK (Agent Development Kit) 评估方法论及 eval-fix 循环的指导时，应使用此技能。涵盖 eval metrics、evalset schema、LLM-as-judge、tool trajectory scoring 以及常见失败原因。属于 Google ADK (Agent Development Kit) 技能套件的一部分。请勿用于 API 代码模式（请使用 google-agents-cli-adk-code）、部署（请使用 google-agents-cli-deploy）或项目脚手架（请使用 google-agents-cli-scaffold）。

Stars 0

uitestingdeploymentapi