“硝石当取何纯度?”文言文对话AI竟轻松越狱?论文揭LLM安全破口
Penelitian menunjukkan bahwa karena sifatnya yang kabur, bahasa Tionghoa Klasik (wenyanwen) dapat dengan mudah mengakali batas keamanan model bahasa besar. Tim peneliti menggunakan kerangka CC-BOS untuk menjalankan serangan jailbreak dengan tingkat keberhasilan hampir 90%, mengungkap celah dalam pelatihan keamanan AI terhadap wenyanwen, serta menunjukkan kelemahan yang muncul saat model memproses bahasa klasik.
CryptoCity·04-03 00:40