微软在 Build 2026 发布了开源框架 ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing),用于将以自然语言写就的行为规范自动转为可执行的评估流程。ASSERT 将评估流程分为四个阶段:从宽泛行为描述细化成概念性规范并构建许可/不许可分类;基于维度生成分层测试用例;对目标系统运行用例并记录完整轨迹;按行为分类和策略对轨迹打分并输出判定与理由。微软的覆盖率研究与人工比对显示,ASSERT 能生成更广的测试覆盖并暴露独特失败模式,LLM 判定器与人工审核一致率在 80%–90% 左右。微软强调该工具最适合行为定义明确的场景,不能替代人工判断或领域专家评审,而是用于加速、明确和可迭代的评估流程。
6 月 3 日消息,微软今日宣布推出开源框架 ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing,自适应规范驱动评分),旨在将自然语言写成的行为规范直接转换为可执行的评估流程。
据介绍,ASSERT 能够从产品需求、政策文件或系统提示等文本出发,自动生成测试场景、数据集、评估指标和计分卡,并针对目标模型、应用或智能体运行测试。

该框架建立在这样一个前提之上:行为规范本身应当成为评估的核心输入,而非仅仅作为背景参考。ASSERT 将这一过程系统化为四个阶段:
- 首先,将宽泛的行为描述细化为明确的概念规范,进而转换为可编辑的许可与不许可行为分类体系;
- 随后,基于开发者指定的维度(如任务类型、角色、工具可用性等)生成分层测试用例,涵盖单轮提示、多轮场景以及善意交互和对抗性探测;
- 接着,对目标系统运行这些用例并记录完整轨迹,包括工具调用、中间决策等;
- 最后,对照行为分类和策略立场对每个轨迹进行评分,输出通过与否标签、判断理由、策略引用以及作出该裁决的具体回合或动作。

为了验证 ASSERT 的有效性,微软团队开展了两项覆盖率研究和人工评审对比。
第一项覆盖率研究显示,相比直接从意图生成的评估集,ASSERT 在多项行为(IT之家注:如社会评分、拍马屁行为、任务遵循、工具使用规范、不安全健康建议)上生成的测试集覆盖更广,暴露出更多值得检查的案例,区分强弱系统的能力更强,同时显现出更多独特的失败模式。
第二项验证通过对比 LLM 判定器与人工审核,显示两者一致率通常在 80%–90%,而人工标注者之间一致率约为 90%,表明 LLM 判定器能够捕捉大部分目标信号,但在策略细微差别或高度专业领域仍需谨慎。

微软指出,ASSERT 最适用于行为定义明确、约束清晰的场景。丰富的工具、政策和边界描述有助于生成更精确的测试用例。开发者不应将汇总评分视为最终结论,更多情况下,收集的失败案例和操作轨迹对改进系统和评估方法更有价值。ASSERT 并不能替代人工判断、遥测数据或领域专家评审,而应将其作为使评估更快速、更明确和更易于迭代的一种方式。
参考资料:
- 代码库:https://github.com/responsibleai/ASSERT
- 项目网站:aka.ms/ASSERT
- 实例:travel-planning agent
微软 Build 2026 开发者大会专题