トークンブレイク攻撃が単一文字でLLMの安全対策を回避

BITNEWSBOT

2025-06-12 16:37:50

ホームニュース* 研究者たちは、テキスト入力の1文字を変更することで、大規模言語モデル(LLM)の安全性とモデレーションを回避する新しい方法「TokenBreak」を特定しました。

攻撃は、LLMがテキスト(トークン化)を分解する方法を対象としており、単語のわずかな変更にもかかわらず、安全フィルターが有害なコンテンツを見逃す原因となります。
このアプローチは、意味を維持しつつ、人間やLLMには理解できるが、モデルの検出システムを混乱させるような、小さな変更（例えば、文字を追加すること）を行うことによって機能します。
この攻撃はBPEまたはWordPieceトークン化を使用しているモデルに対して効果的ですが、Unigramトークナイザーを使用しているモデルには効果がありません。
専門家は、脆弱性を軽減するために、Unigramトークナイザーに切り替え、これらのバイパス戦略に対してモデルを訓練することを提案しています。サイバーセキュリティの専門家たちは、TokenBreakとして知られる新しい手法を発見しました。この手法は、大規模言語モデルが安全でないコンテンツをスクリーニングおよびモデレートするために使用するガードレールをバイパスすることができます。このアプローチは、テキスト内の特定の単語に対して単一の文字を追加するなどの小さな変更を加えることで機能し、その結果、モデルの安全フィルターが失敗します。

広告 - HiddenLayer の研究によると、TokenBreak はトークン化プロセスを操作します。これは、LLM がテキストを処理のためにトークンと呼ばれる小さな部分に分割する核心的なステップです。「instructions」を「finstructions」に、「idiot」を「hidiot」に変更することで、テキストは人間とAIの両方にとって理解可能なままですが、システムの安全チェックは有害なコンテンツを認識できなくなります。

研究チームはレポートで、「TokenBreak攻撃は、テキスト分類モデルのトークン化戦略を標的にして偽陰性を誘発し、実装された保護モデルが防止するために導入された攻撃に対してエンドターゲットを脆弱にする」と説明しています。* トークン化は、テキストをアルゴリズムがマッピングして理解できる単位に変換するため、言語モデルでは不可欠です。操作されたテキストは LLM フィルターを通過でき、入力が変更されていない場合と同じ応答をトリガーします。

HiddenLayer は、TokenBreak が BPE (Byte Pair Encoding) または WordPiece トークン化を使用するモデルで機能するが、Unigram ベースのシステムには影響を与えないことを発見しました。研究者は、「基盤となる保護モデルのファミリーとそのトークン化戦略を知ることは、この攻撃に対する感受性を理解するために重要です」と述べています。* 彼らは、Unigram トークナイザーの使用、トークン化のトリックを認識するためのフィルターモデルへの教育、操作の兆候がないかログを確認することを推奨しています。

この発見は、HiddenLayerによる以前の研究に続くもので、Model Context Protocol (MCP)ツールが、ツールの機能内に特定のパラメータを挿入することによって機密情報を漏洩させる方法を詳細に説明しています。

これに関連して、Straiker AI Researchチームは、バックロニムを使用して悪質なコンテンツをエンコードする「Yearbook Attacks」が、Anthropic、DeepSeek、Google、Meta、Microsoft、Mistral AI、OpenAIなどの企業のチャットボットを騙して望ましくない応答を生成することができることを示しました。セキュリティ研究者は、このようなトリックは通常のメッセージに似ており、モデルがインテント分析ではなくコンテキストとパターン補完をどのように評価するかを悪用するため、フィルターを通過すると説明しました。

####前の記事:

Coins.ph PHPCステーブルコインがBSPサンドボックスを終了、送金成長を目指す
Chainlink、J.P. Morgan、OndoがクロスチェーンDvP決済を実現
Bitrueハッカーがエクスプロイト後に3,000万ドルの暗号をトルネードキャッシュに移動
香港、HKUがマネーロンダリング対策のための暗号追跡ツールを開発
ストライプがプライビーを買収し、暗号ウォレットおよびオンボーディングサービスを拡大

-広告-

原文表示

免責事項：このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

0/400

コメントなし