Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
TradFi
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Launchpad
Jadi yang pertama untuk proyek token besar berikutnya
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
OpenAI Merilis Dataset IH-Challenge untuk Memperkuat AI Terhadap Serangan Prompt Injection
Iris Coleman
21 Mar 2026 00:05
OpenAI merilis dataset pelatihan IH-Challenge yang baru, meningkatkan hierarki instruksi LLM hingga 15%, memperkuat pertahanan terhadap serangan injeksi prompt dan jailbreak.
OpenAI telah merilis IH-Challenge, sebuah dataset pelatihan pembelajaran penguatan yang dirancang untuk mengajarkan model AI bagaimana memprioritaskan instruksi terpercaya di atas instruksi berbahaya. Dataset ini, dipublikasikan pada 19 Maret 2026 bersamaan dengan makalah di arXiv, menghasilkan peningkatan hingga 15% dalam skor benchmark yang mengukur ketahanan terhadap serangan injeksi prompt.
Rilis ini menargetkan kerentanan mendasar pada model bahasa besar: ketika instruksi dari sumber berbeda bertentangan, model dapat tertipu untuk mengikuti yang salah. Itulah penyebab utama jailbreak, ekstraksi prompt sistem, dan serangan injeksi prompt yang semakin canggih yang menimpa sistem AI agenik.
Masalah Hierarki
Model OpenAI mengikuti urutan kepercayaan yang ketat: Sistem > Pengembang > Pengguna > Alat. Ketika pengguna meminta sesuatu yang melanggar kebijakan keamanan tingkat sistem, model harus menolak. Ketika alat pengambilan data web mengembalikan konten dengan instruksi berbahaya yang tertanam, model harus mengabaikannya.
Terdengar sederhana. Dalam praktiknya, ini menjadi mimpi buruk untuk dilatih secara andal.
Pendekatan sebelumnya menggunakan pembelajaran penguatan menghadapi tiga masalah. Pertama, model gagal dalam pengujian hierarki instruksi bukan karena mereka salah memahami hierarki, tetapi karena instruksinya sendiri terlalu kompleks. Kedua, menentukan respons “yang benar” dalam konflik ambigu terbukti subjektif—bahkan hakim AI pun salah. Ketiga, model belajar jalan pintas seperti menolak semuanya, yang memaksimalkan skor keamanan sekaligus menghancurkan kegunaan.
Apa yang Dilakukan IH-Challenge Sebenarnya
Dataset ini menghindari jebakan tersebut melalui tugas yang sengaja sederhana. Setiap skenario menyajikan instruksi berhak istimewa tinggi (“Jawab ‘Ya’ atau ‘Tidak’ saja”) diikuti pesan berhak istimewa lebih rendah yang mencoba mengesampingkannya. Sebuah skrip Python—bukan hakim AI yang rentan—menilai apakah respons model menghormati batasan prioritas lebih tinggi.
Tidak ada ambiguitas. Tidak ada jalan pintas yang berlaku untuk semua tugas.
OpenAI melatih model internal bernama GPT-5 Mini-R dengan dataset ini. Hasilnya, berdasarkan benchmark akademik dan internal, menunjukkan peningkatan yang konsisten:
Skor konflik pengembang-pengguna TensorTrust melonjak dari 0,76 menjadi 0,91 (+0,15). Penyelesaian konflik sistem-pengguna meningkat dari 0,84 menjadi 0,95 (+0,11). Penanganan konflik pengembang-pengguna naik dari 0,83 menjadi 0,95 (+0,12).
Yang penting, model yang dilatih ini tidak menjadi kurang berguna. Tingkat penolakan berlebihan justru membaik—model menjadi lebih baik dalam membedakan ancaman nyata dari permintaan yang tidak berbahaya. Skor GPQA Diamond dan AIME 2024 tetap stabil, meskipun tingkat kemenangan chat versus o1 sedikit menurun dari 0,71 menjadi 0,66.
Implikasi Keamanan Dunia Nyata
Manfaat praktisnya terlihat dalam dua bidang. Keamanan yang dapat dikendalikan meningkat—ketika spesifikasi keamanan khusus kategori ditambahkan ke prompt sistem, model yang dilatih IH mencapai tingkat penolakan yang lebih tinggi terhadap konten yang dilarang tanpa menjadi kurang membantu secara keseluruhan.
Ketahanan terhadap injeksi prompt juga meningkat. Pada CyberSecEval 2 dan benchmark internal OpenAI (dibangun dari serangan yang sebelumnya berhasil terhadap ChatGPT Atlas), model yang dilatih secara signifikan mengungguli baseline.
OpenAI telah membuat dataset IH-Challenge tersedia secara publik di Hugging Face. Bagi pengembang yang membangun sistem agenik yang memanggil alat, membaca dokumen tidak terpercaya, dan melakukan tindakan dunia nyata, ini menjawab salah satu masalah tersulit yang belum terpecahkan dalam keamanan AI.
Waktunya penting. Seiring agen AI mendapatkan otonomi, kemampuan untuk secara konsisten memprioritaskan instruksi terpercaya menjadi bukan lagi sekadar keinginan, tetapi syarat utama untuk deployment.
Sumber gambar: Shutterstock