«Para que pureza deve ser o salitre?» Um diálogo em estilo clássico da literatura chinesa com IA conseguiu sair facilmente da prisão? Um artigo revela falhas de segurança em LLMs
A investigação mostra que, devido à sua natureza obscura, as línguas clássicas chinesas (wenyanwen) conseguem contornar facilmente as barreiras de segurança dos grandes modelos de linguagem. A equipa de investigação utilizou a estrutura CC-BOS para concretizar um ataque de jailbreak com uma taxa de sucesso de quase 90%, revelando as lacunas no treino de segurança da IA para as línguas clássicas chinesas e mostrando vulnerabilidades na forma como os modelos processam línguas clássicas.
CryptoCity·04-03 00:40