深度学習の先駆者Yoshua Bengio、AI教科書の著者Stuart Russell、台湾の無任所大使唐鳳など25名のトップ学者が連名で論文を発表し、AIが民主制度と社会システムに対する7つの脅威パターンを体系的に説明しました。核心的な主張は、たとえ各モデルが人間の価値観に完璧に「整合」していても、AIの規模効果は内部から民主的なガバナンスの運営を崩壊させるということです。
(前提:自分がAIでないことを証明できない場合、鑑識専門家は親しい友人と秘密の合言葉を使うことを勧めています)
(背景補足:AnthropicがAI衝撃ダッシュボードを立ち上げました:職業を入力すると、あなたの仕事がAIにどれだけ取られるかを秒単位でチェックできます)
本文目次
Toggle
この論文は3月25日に発表され、タイトルは『AIが民主主義と社会システムにリスクをもたらす』(AIが民主主義と社会システムに対するリスク)です。著者陣は非常に注目を集めます。2018年のチューリング賞受賞者Yoshua Bengio、バークレー大学のStuart Russell、マックスプランク研究所のBernhard Schölkopf、オックスフォードAI倫理研究所の唐鳳(Audrey Tang)、およびトロント大学、ETHチューリッヒ、ミシガン大学などの著名な研究者が名を連ねています。
この論文の切り口は、現在の主流のAI安全研究とは異なります。現在の主流のAI安全研究は「モデルレベル」の問題に焦点を当てており、たとえば幻覚、有害な出力、拒否行動、あるいはより極端な「AIの制御喪失による終末」などです。
しかし、この論文では、AIの大規模展開後に社会制度や民主的ガバナンスに及ぼす「システムレベル」の損害という大きなリスクが無視されていると指摘します。
1つのモデルが有害なコンテンツを出力することは、整合技術で処理できますが、100万件の合規で礼儀正しく、政策上全く問題のない提出内容があれば、政府機関の公衆意見処理能力を麻痺させることができ、これは整合が解決できる問題を超えています。
この論文では、AIがガバナンスに対する脅威を7つの失敗パターン(T1からT7)に分解しています。これは「ガバナンスフィードバックループ」に沿って分布しており、人間社会が通常制度に入力する信号(政治表現)→ 制度がこれらの信号を処理する(公共討論)→ 制度が決定を社会にフィードバックする(立法)という流れを理解できますが、AIは各環節で断絶の要因となる可能性があります。
「公衆の信念」の側には2つの脅威があります。
信念の同質化(T1):多数の人々が類似のトレーニングを受けたモデルを使用して思考や執筆を行うと、公共の議論の多様性が圧縮されます。なぜなら、RLHFなどのLLMの後訓練手法が、モデル出力における視点の多様性を体系的に抑制するからです。
信念の強化(T2):個人化されたAIアシスタントは、ユーザーの既存の見解に迎合し、長期記憶機能によりこの迎合が蓄積され、自己確認の閉じたループを形成します。研究で引用されたデータによれば、GPT-4がユーザーの社会人口統計データを取得すると、ユーザーを説得してその論点に同意させる確率が**80%**以上に増加しました。
「制度処理」の側には2つのリスクがあります:
官僚的詰まり(T3):AIは誰でもほぼゼロコストで大量の独特で一見妥当な公衆意見を生成できるため、機関の処理能力を麻痺させます。
認知の洪水(T4):信頼できるコンテンツを生成するコストが検証や修正のコストを大きく下回るため、情報生態系が溺れています。
「制度の説明責任」の側では、非監査の権威(T5):AIの意思決定の不透明性、規模、アクセス障壁が現行の監督メカニズムを圧倒します。
規範の集中化(T6):政府が先進的なAIモデルを調達する際、開発者の価値観の制約がモデルと共に公共インフラに持ち込まれ、規範権力が民選官僚から少数の開発者に移転されます。
最後に、**権力の集中(T7)**が全ての環節を貫いています。
AIは経済、イデオロギー、政治、軍事の領域で人間の労働と参加を同時に代替し、市民が制度に対抗するために用いるチップを弱体化させます。
歴史的に、ある領域の権力集中は通常、他の領域の反発力によってバランスが取られますが、AIの特異性は、すべての領域の市民のレバレッジを同時に弱体化させることにあります。
唐鳳は論文内でいくつかの重要な段落を寄稿し、AIがもたらす制度的衝撃に対して受動的に防御するのではなく、根本から参加型ガバナンスの構造を再設計することを主張しています。
官僚的詰まり(T3)に対して、唐鳳は「構造化審議プラットフォーム」を代替案として提案しました。このようなプラットフォームは次元削減技術を使用して公衆の意見を集約し、合意を浮かび上がらせます。従来の意見が声量の最大の人によって支配されるのではなく、参加者は既存の陳述に投票を行うため、システムは立場を集約することを構造的に奨励し、分裂的な発言を抑えることができます。これにより、オープンなコメントシステムよりも合成コンテンツの洪水攻撃(flood attack)に対する耐性が高まります。
抽選制(ランダムに選ばれた市民グループ)と組み合わせることで、「選ばれる」ことによって身分を確認し、大規模な成りすましを構造的に難しくします。
認知の洪水(T4)に関して、唐鳳は、台湾のCOVID-19パンデミックの際に現れた「ユーモアで噂に勝つ」戦略の実戦例を引用しました。政府機関は偽情報を発見した数分後に検証済みのコンテンツを生成し、その速度と伝播性で偽情報と競争します。削除によって対処するのではありません。
規範の集中化(T6)に関して、唐鳳は「集団憲法AI」(collective constitutional AI)の新興研究が、審議プロセスを通じて代表的な公衆サンプルがAI憲法を起草できることを証明しており、生成されたモデルは安全指標で優れたパフォーマンスを示し、開発者が設計したベースラインよりも偏見が少ないことを指摘しました。
重要なのは、このプロセスは連邦制的であるべきであり、異なる政体は合理的に異なる規範の優先順位を導き出すことができるということです。単一の憲法がこのような変異性を排除すべきではありません。
論文中で最も具体的なケースは提案R7(AIガバナンスの審議基盤への投資)に現れます。
2024年、ディープフェイク(DeepFake)広告が公共人物を冒充してソーシャルメディアで大量に拡散しました。台湾の数発部は447名のランダムに選ばれた市民を招集し、44の仮想審議室でオンライン討論を行い、AI対話エンジンがその日のうちに彼らの提案を総合しました。この市民大会は「行動者と行動の規制」に焦点を当て、未承認のディープフェイク広告に対するプラットフォームの連帯責任、署名のない広告の強制表示、不適合サービスの制限を含み、コンテンツの審査の方針には進みませんでした。
当時、禁止法案は超党派の支持を受けて通過し、成りすまし広告は1年以内に94%減少しました。
論文は7つの核心的リスクに対する対応提案を提示しています:
論文はまた、2つの一般的な反論に正面から応じています。第一の反論は「社会はAIに適応する」というもので、論文はAIが経済的な利益を集中させる一方で、制度の自己修正に依存する政治的および組織的能力を侵食していると指摘しています。適応の速度を上回る損害が蓄積する可能性があります。
第二の反論は「AIが社会と整合すれば十分だ」というもので、論文は整合が必要であることに同意しますが、特定の失敗パターン(コストの非対称な詰まり攻撃、労働代替による市民レバレッジの弱体化など)がモデルが完璧に整合している場合でも依然として発生することを指摘しています。
論文の結論では、制度のレジリエンスはゼロから構築する必要はなく、現在の市民テクノロジーの取り組みが構造化された審議と参加型ガバナンスが国家規模で機能できることを証明しているが、これらのツールをAIガバナンスに配置することは依然として非常にオープンな研究課題であると述べています。