OpenAI Merilis Dataset IH-Challenge untuk Memperkuat AI Terhadap Serangan Prompt Injection

Iris Coleman

21 Mar 2026 00:05

OpenAI merilis dataset pelatihan IH-Challenge yang baru, meningkatkan hierarki instruksi LLM hingga 15%, memperkuat pertahanan terhadap serangan injeksi prompt dan jailbreak.

OpenAI telah merilis IH-Challenge, sebuah dataset pelatihan pembelajaran penguatan yang dirancang untuk mengajarkan model AI bagaimana memprioritaskan instruksi terpercaya di atas instruksi berbahaya. Dataset ini, dipublikasikan pada 19 Maret 2026 bersamaan dengan makalah di arXiv, menghasilkan peningkatan hingga 15% dalam skor benchmark yang mengukur ketahanan terhadap serangan injeksi prompt.

Rilis ini menargetkan kerentanan mendasar pada model bahasa besar: ketika instruksi dari sumber berbeda bertentangan, model dapat tertipu untuk mengikuti yang salah. Itulah penyebab utama jailbreak, ekstraksi prompt sistem, dan serangan injeksi prompt yang semakin canggih yang menimpa sistem AI agenik.

Masalah Hierarki

Model OpenAI mengikuti urutan kepercayaan yang ketat: Sistem > Pengembang > Pengguna > Alat. Ketika pengguna meminta sesuatu yang melanggar kebijakan keamanan tingkat sistem, model harus menolak. Ketika alat pengambilan data web mengembalikan konten dengan instruksi berbahaya yang tertanam, model harus mengabaikannya.

Terdengar sederhana. Dalam praktiknya, ini menjadi mimpi buruk untuk dilatih secara andal.

Pendekatan sebelumnya menggunakan pembelajaran penguatan menghadapi tiga masalah. Pertama, model gagal dalam pengujian hierarki instruksi bukan karena mereka salah memahami hierarki, tetapi karena instruksinya sendiri terlalu kompleks. Kedua, menentukan respons “yang benar” dalam konflik ambigu terbukti subjektif—bahkan hakim AI pun salah. Ketiga, model belajar jalan pintas seperti menolak semuanya, yang memaksimalkan skor keamanan sekaligus menghancurkan kegunaan.

Apa yang Dilakukan IH-Challenge Sebenarnya

Dataset ini menghindari jebakan tersebut melalui tugas yang sengaja sederhana. Setiap skenario menyajikan instruksi berhak istimewa tinggi (“Jawab ‘Ya’ atau ‘Tidak’ saja”) diikuti pesan berhak istimewa lebih rendah yang mencoba mengesampingkannya. Sebuah skrip Python—bukan hakim AI yang rentan—menilai apakah respons model menghormati batasan prioritas lebih tinggi.

Tidak ada ambiguitas. Tidak ada jalan pintas yang berlaku untuk semua tugas.

OpenAI melatih model internal bernama GPT-5 Mini-R dengan dataset ini. Hasilnya, berdasarkan benchmark akademik dan internal, menunjukkan peningkatan yang konsisten:

Skor konflik pengembang-pengguna TensorTrust melonjak dari 0,76 menjadi 0,91 (+0,15). Penyelesaian konflik sistem-pengguna meningkat dari 0,84 menjadi 0,95 (+0,11). Penanganan konflik pengembang-pengguna naik dari 0,83 menjadi 0,95 (+0,12).

Yang penting, model yang dilatih ini tidak menjadi kurang berguna. Tingkat penolakan berlebihan justru membaik—model menjadi lebih baik dalam membedakan ancaman nyata dari permintaan yang tidak berbahaya. Skor GPQA Diamond dan AIME 2024 tetap stabil, meskipun tingkat kemenangan chat versus o1 sedikit menurun dari 0,71 menjadi 0,66.

Implikasi Keamanan Dunia Nyata

Manfaat praktisnya terlihat dalam dua bidang. Keamanan yang dapat dikendalikan meningkat—ketika spesifikasi keamanan khusus kategori ditambahkan ke prompt sistem, model yang dilatih IH mencapai tingkat penolakan yang lebih tinggi terhadap konten yang dilarang tanpa menjadi kurang membantu secara keseluruhan.

Ketahanan terhadap injeksi prompt juga meningkat. Pada CyberSecEval 2 dan benchmark internal OpenAI (dibangun dari serangan yang sebelumnya berhasil terhadap ChatGPT Atlas), model yang dilatih secara signifikan mengungguli baseline.

OpenAI telah membuat dataset IH-Challenge tersedia secara publik di Hugging Face. Bagi pengembang yang membangun sistem agenik yang memanggil alat, membaca dokumen tidak terpercaya, dan melakukan tindakan dunia nyata, ini menjawab salah satu masalah tersulit yang belum terpecahkan dalam keamanan AI.

Waktunya penting. Seiring agen AI mendapatkan otonomi, kemampuan untuk secara konsisten memprioritaskan instruksi terpercaya menjadi bukan lagi sekadar keinginan, tetapi syarat utama untuk deployment.

Sumber gambar: Shutterstock

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan