«Какую чистоту следует брать для селитры?» Беседа на классическом китайском языке с ИИ — и он легко взломал защиту? Документ раскрывает брешь в безопасности LLM
Исследования показывают, что благодаря своей неясности классическая китайская литература на вэньянь может легко обходить защитные барьеры больших языковых моделей; исследовательская группа использовала фреймворк CC-BOS для реализации джейлбрейк-атак с уровнем успешности почти 90%, раскрывая слепые зоны в обучении ИИ-безопасности для вэньянь и демонстрируя уязвимости при обработке моделями классического языка.
CryptoCity·04-03 00:40