Defense  ·  Glosarium

Guardrails

Filter keamanan dan aturan yang dibangun di sekitar model AI untuk mencegahnya menghasilkan keluaran yang berbahaya, tidak sesuai topik, atau melanggar kebijakan. Guardrail dapat memeriksa apa yang dikirim pengguna, apa yang akan dikatakan AI, atau keduanya. Mereka dapat dibangun oleh penyedia AI, perusahaan yang menerapkan AI, atau keduanya bekerja sama.
Guardrail adalah garis pertahanan utama antara AI yang mampu dan penyalahgunaan, tetapi penelitian telah membuktikan bahwa tidak ada set guardrail yang terbatas yang tidak dapat ditembus. Mereka harus terus diperbarui seiring dengan munculnya serangan baru — dan secara paradoks, guardrail yang sangat canggih dapat menjadi senjata dalam serangan denial-of-service.
Referensi
NIST: Mathematical Proof That No Finite AI Guardrail Set Is Universally Robust
Pantau di umpan langsung Lihat bagaimana hal ini terwujud dalam perkembangan keamanan dan tata kelola AI nyata.
Buka umpan →