Apa yang terjadi
Microsoft merilis ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing) sebagai framework open-source berlisensi MIT (diumumkan 10 Juni, dipublikasikan ~2 Juni). Framework ini mengonversi spesifikasi perilaku bahasa alami, persyaratan produk, dan dokumen tata kelola menjadi skenario evaluasi yang dapat dieksekusi, dataset, metrik, dan scorecard untuk model dan agent AI.
Mengapa penting
Secara langsung mengatasi kesenjangan enterprise di mana perilaku AI agent dievaluasi secara tidak konsisten sebelum produksi. Menurunkan hambatan untuk pengujian perilaku formal — memperlakukan eval sebagai production gate daripada pemikiran belakangan — yang penting untuk industri terregulasi yang menerapkan agent.
Cakupan penerapan
Tim AI/ML engineering dan AppSec yang membangun atau menerapkan AI agent; adopsi sebagai bagian dari pipeline CI/CD untuk regression testing perilaku. Tersedia sekarang.