Microsoft ASSERT: AI エージェント向けオープンソース仕様ベース評価フレームワーク

何が起きたか

Microsoft は ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing) を MIT ライセンスのオープンソースフレームワークとしてリリースしました (6月10日発表、約6月2日公開)。自然言語の動作仕様、製品要件、ガバナンスドキュメントを実行可能な評価シナリオ、データセット、メトリクス、スコアカードに変換し、AI モデルおよびエージェント向けに提供します。

なぜ重要か

AI エージェントの動作が本番環境前に一貫性なく評価されるというエンタープライズの課題に直接対処します。形式的な動作テストへの敷居を低くし、評価を事後的な対応ではなく本番環境ゲートとして位置づけることで、エージェントをデプロイする規制対象産業にとって重要な支援となります。

適用範囲

AI/ML エンジニアリングチームおよび AppSec チームが AI エージェントを構築またはデプロイする際に採用し、動作回帰テスト用の CI/CD パイプラインの一部として利用します。現在利用可能です。