Setiap email, dokumen, halaman web, dan hasil alat yang dibaca seorang agen dapat membawa instruksi yang akan dipatuhinya. Tidak ada mekanisme andal dan umum yang membuat model saat ini memisahkan konten yang harus diproses dari perintah yang harus dipatuhi.
Itulah sebabnya prompt injection menempati posisi Nomor 1 dalam OWASP Top 10 untuk Aplikasi LLM - dan sebabnya ia tidak akan "ditambal" sebagaimana buffer overflow ditambal. Ini adalah sifat struktural dari medianya. Web application firewall Anda memeriksa permintaan dan melihat panggilan API yang benar-benar sah; serangannya ada di dalam kata-katanya. Pemeriksaan per-permintaan Anda lolos di setiap langkah serangan berantai, karena kerusakannya hidup dalam urutan - volume, pengulangan, dan pengeluaran sepanjang waktu - bukan pada satu panggilan mana pun.
Kesimpulannya tidak nyaman tetapi jelas: keamanan AI bukanlah masalah pelatihan model. Ini masalah arsitektur - dan dapat dipecahkan dengan disiplin yang sama yang sudah diterapkan perusahaan pada setiap sistem produksi lainnya.
14 risiko utama dalam empat kategori: bidang konten, bidang aksi, ekonomi, serta kepercayaan & rantai pasok.
Pertahanan bersifat arsitektural: dua bidang, enam lapis, di gateway
Setiap serangan di atas berhasil melawan otoritas tanpa batas dan gagal melawan otoritas yang dibatasi, diawasi, dan diaudit. Membendungnya menuntut kendali atas dua bidang yang berbeda:
• Bidang konten — apa yang dibaca dan ditulis model. Ini adalah tugas Guardrails.
• Bidang aksi — apa yang dilakukan agen: alat yang dipanggilnya, jaringan yang dijangkaunya, uang yang dibelanjakannya. Ini adalah tugas Firewall.
Insiden paling merusak melintasi kedua bidang: sebuah injeksi tiba sebagai konten, lalu dicairkan sebagai aksi. OrcaRouter menempatkan enam lapis independen yang dapat diaudit di antara sebuah permintaan dan sebuah penyesalan:
• Identitas terbatas — setiap agen memanggil melalui kuncinya sendiri yang membawa model yang diizinkan, daftar IP yang diizinkan, batas pengeluaran yang keras, dan masa berlaku. Permintaan di luar cakupan mati sebelum konten apa pun dibaca.
• Guardrails input — aturan terhadap injeksi dan jailbreak, deteksi dan penyamaran data pribadi, pemblokiran rahasia, serta hakim LLM semantik yang menangkap apa yang tak bisa ditangkap regex.
• Firewall aksi — setiap panggilan alat, dispatch MCP, dan egress jaringan dinilai terhadap kebijakan default-deny yang berurutan dengan enam putusan: allow, audit, deny, sanitize, pending-approval, dan cap-cost. Agen yang dibajak tidak dapat menjangkau alat, host, atau dolar yang tidak pernah Anda daftarkan.
• Guardrails output — balasan disaring saat keluar untuk keluaran tak aman, data pribadi, dan rahasia, dengan pemeriksaan grounding. Inilah lapisan yang menangkap URL eksfiltrasi EchoLeak sebelum ia keluar.
• Deteksi anomali — baseline perilaku menandai apa yang tak bisa diprediksi aturan statis: panggilan yang sama dihantam dalam jendela waktu sempit, pengeluaran yang melonjak terhadap baseline yang dipelajari, transisi alat-ke-alat yang belum pernah dilakukan ruang kerja.
AI Jadi Permukaan Serangan 2025 Tapi 2026 OrcaRouter Jadikan Pertahanan Gratis
Diskusi pembaca untuk berita ini