世界中の数千人が声や顔、通話記録を販売し、AIに収入をもたらしているが、深層偽造と取り消せない権利のリスクを負っている。
深潮導読:イギリスの『ガーディアン』の調査報道は、急成長しているグレー産業を明らかにした。世界中の数千人が、自分の声、顔、通話記録、日常の動画を販売してAIトレーニング費用を稼いでいる。これはプライバシーの問題についての一般的な議論ではなく、実在の人物、実際の金額、実際の結果に関する調査であり、自己の顔を売った俳優がInstagramで「自分」を見かけ、不明な医療製品の宣伝をしているのを見たことがある。コメント欄には彼の「外見」を評価する人々がいる。AI企業のデータ飢餓と世界経済の格差が結びつくことで、不平等な取引が生まれている。
全文は以下の通り:
昨年のある朝、南アフリカのケープタウンに住むJacobus Louwは、いつものように散歩に出かけ、途中でカモメに餌を与えた。しかし今回は、彼は人行道を歩く自分の足元や視界を撮影した数本の動画を録画した。この動画は彼に14ドルをもたらし、同国の最低賃金の約10倍に相当し、この27歳の若者の半月分の食品費に相当する。
これはLouwがKled AIで完了させた「都市ナビゲーション」タスクである。Kled AIは、ユーザーが写真や動画などのデータをアップロードしてAIモデルを訓練するために報酬を支払うアプリである。短期間で、Louwは日常生活の写真や動画をアップロードすることで50ドルを稼いだ。
数千マイル離れたインドのランチでは、22歳の学生Sahil Tiggaが定期的にSilencioを使って稼いでいる。このアプリはオーディオデータをAIトレーニングにクラウドソーシングし、彼の携帯電話のマイクを使ってレストランの中や繁忙な交差点の環境音を収集する。彼は自分の声の録音もアップロードしている。Sahilは、Silencioの地図にまだ記録されていないホテルのロビーなど、ユニークなシーンを訪れる。彼はこれで毎月100ドル以上を稼ぎ、全食費を賄うのに十分である。
シカゴでは、18歳の溶接見習いRamelio Hillが自分と友人、家族のプライベートな携帯電話のチャット記録をNeon Mobileに売った。この対話AIトレーニングプラットフォームは、1分ごとに0.50ドルを支払っており、彼は何百ドルも稼いだ。Hillにとって、この取引は単純だ。彼は、テクノロジー企業がすでに彼のプライベートデータの大量を把握していると考え、自分もその一部を得る方が良いと感じている。
これらの「AIトレーニングの零細作業」——周囲のシーン、自身の写真、動画、音声をアップロードする——は、世界の新しいデータゴールドラッシュの最前線に立っている。シリコンバレーが高品質な人間データへの渇望が、オープンネットワークから取得できる範囲を超える中で、データ市場産業が急成長してこのギャップを埋めている。ケープタウンからシカゴまで、数千人が自分の生体認証アイデンティティとプライベートデータを次世代AIに微小に許可している。
しかし、この新しい零細経済には代償が伴う。数ドルで得られるその背後で、これらのトレーナーは、最終的に彼らの技能を時代遅れにする可能性のある産業に燃料を提供し、深層偽造、アイデンティティ盗用、デジタル搾取の未来のリスクにさらされている——そして彼らはそれについて理解し始めたばかりである。
ChatGPTやGeminiなどのAI言語モデルは、継続的に改善するために大量の学習資料を必要とするが、データ不足に直面している。最もよく使用されるトレーニングデータのソース——C4、RefinedWeb、Dolma——は、インターネット上の最高品質のデータセットの4分の1を占めており、現在、生成AI企業がそのデータを使用してモデルを訓練することを制限している。研究者は、AI企業は早ければ2026年には利用可能な新鮮な高品質テキストを使い果たすと見積もっている。一部の研究所はすでにAI自身が生成した合成データを訓練に再利用し始めているが、この再帰的プロセスはモデルが誤った「ゴミ」を生成し、崩壊を引き起こす可能性がある。
画像出典:The Guardian
Kled AIやSilencioのようなアプリがここに登場する。このデータ市場で、数百万の人々が自分のアイデンティティデータを販売してAIを養い、訓練している。Kled AI、Silencio、Neon Mobileの他にも、AIトレーナーには多くの選択肢がある。著名なインキュベーターY-Combinatorが支援するLuel AIは、約0.15ドルで多言語の会話素材を取得する。ElevenLabsは、自分の声をデジタルクローンし、1分あたり0.02ドルの基本料金で他人が使用できるようにしている。
ロンドン大学キングスカレッジの経済学教授Bouke Klein Teeselinkは、AIトレーニングの零細作業が新たな職業カテゴリであり、大幅に成長するだろうと述べている。
AI企業は、人々にデータライセンス料を支払うことで、ウェブからのコンテンツのクロールに完全に依存することによって引き起こされる著作権の争いを回避できることを知っているとTeeselinkは言う。AI研究者のVeniamin Veselovskyは、これらの企業はまた、システムが新しい改善された行動をモデル化するために高品質のデータが必要だとも述べている。「現時点では、人間データはモデル分布の外からサンプリングされる金の基準です」とVeselovskyは付け加えた。
これらの機械を動かす人々——特に発展途上国の人々——は、そのお金が必要で、ほとんど選択肢がないことが多い。多くのAIトレーニングの零細作業にとって、この仕事に従事することは経済格差への実践的な回答である。失業率が高く、通貨が減価している国では、ドルを稼ぐことは地元の仕事よりも安定していて、より価値があることが多い。一部の人々はエントリーレベルの仕事を見つけるのが困難で、生計のためにAIトレーニングを行わざるを得ない。裕福な国でも、生活費の上昇は自己を販売することを論理的な財務選択にしている。
ケープタウンのAIトレーナーLouwは、そのプライバシーの代償を明確に理解している。不安定な収入で、彼の全ての月間支出を賄うには不足しているが、彼はお金を稼ぐためにこれらの条件を受け入れる意向がある。彼は長年神経系の病気に苦しんでおり、仕事を見つけることができなかったが、AIデータ市場(Kled AIを含む)で得たお金で500ドルを貯めて、スパトレーニングコースに申し込み、マッサージ師になった。
「南アフリカ人として、ドルを受け取ることは他の人が思っているよりも価値がある」とLouwは言う。
オックスフォード大学のネットワーク地理学教授で『機械を養う』の著者Mark Grahamは、発展途上国の個人にとって、そのお金は短期的には実際的な意味を持つかもしれないが、「構造的には、この仕事は不安定で昇進の余地がなく、実際には行き止まりの道である」と警告する。
Grahamは、AIデータ市場が「賃金の競争的引き下げ」と「人間データの一時的な需要」に依存していると付け加えた。一旦この需要が移れば、「労働者は何の保障もなく、転職可能なスキルもなく、安全網もない」。
Grahamは、唯一の勝者は「北半球のプラットフォームであり、すべての持続的な価値を取得している」と述べている。
画像出典:The Guardian
シカゴからのAIトレーナーHillは、Neon Mobileにプライベート通話を売ることに複雑な気持ちを抱いている。約11時間の通話内容で200ドルを稼いだが、彼はこのアプリが頻繁にオフラインになり、支払いが遅れると述べている。「Neonは私にとってずっと疑わしい存在だったが、それでも私は利用していた。少しでもお小遣いを稼いで請求書を支払うためだ」とHillは言う。
今、彼はそのお金が本当にそんなに簡単に得られるのか再考し始めている。昨年9月、Neon Mobileが立ち上がって数週間後にオフラインになったが、その前にTechCrunchがセキュリティの脆弱性を発見し、誰でもユーザーの電話番号、通話録音、テキスト記録にアクセスできる状態だった。HillはNeon Mobileがこの状況を彼に通知したことはないと述べ、今では自分の声がインターネット上で悪用されるのではないかと心配している。
スタンフォード大学の人間中心の人工知能研究所のデータプライバシー研究員Jennifer Kingは、AIデータ市場がユーザーのデータがどのように、どこで使用されるかわからないことを懸念している。彼女は補足して言う。「消費者は自分の権利を理解せず、それについて交渉できないと、データが彼らが好まない、理解しない、または予期しなかった方法で再利用されるリスクに直面し、その時にはほとんど補救の手段がない」。
AIトレーナーがNeon MobileやKled AIでデータを共有する際、彼らが授与するのは全権授権(全世界、独占、取り消し不能、譲渡可能、ロイヤリティフリー)であり、プラットフォームが彼らの肖像を販売、使用、公表、開示、保存することを許可し、それに基づいて派生作品を創作することを含む。
Kled AIの創設者Avi Patelは、彼の会社のデータ契約はAIトレーニングと研究目的に限定されると述べている。「ビジネスモデルはユーザーの信頼に依存している。もし貢献者が自分のデータが悪用される可能性があると考えれば、プラットフォームは機能しない」と彼は述べ、データセットを販売する前に購入者を審査することで「意図が疑わしい」機関、たとえばポルノ産業や、彼らが信頼を裏切る可能性のある「政府機関」との協力を避けると述べた。
Neon Mobileはコメントのリクエストに応じなかった。
ロンドンシティ大学の法学教授Enrico Bonadioは、これらの契約条件により、プラットフォームとその顧客は「その素材に対してほぼ何でもできる」ことを許可されており、「永続的に、追加料金なしで、貢献者が同意を撤回したり再交渉する実際の方法がない」と指摘している。
さらに懸念されるリスクには、トレーナーのデータが深層偽造やアイデンティティの詐称に使用されることが含まれる。データ市場は、販売前にデータから識別情報(名前や位置など)を削除すると主張しているが、生体特徴の規則は本質的に実質的な意味での匿名化処理が難しいとBonadioは補足した。
AIトレーナーがデータの使用方法についてより詳細な保護条項を交渉できたとしても、彼らは後悔する可能性がある。2024年、ニューヨークの俳優Adam Coyは、自身の肖像を1000ドルでCaptions——AIビデオ編集ソフトウェアに販売したが、現在はMirageと改名された。彼の契約には、彼のアイデンティティが政治的目的に使用されず、アルコール、タバコ、またはポルノコンテンツの販売に使用されないこと、そして権利の期限が1年であることが規定されていた。
Captionsはコメントのリクエストに応じなかった。
その後すぐに、Adamの友人たちは彼らがオンラインで見つけたビデオを再共有し、彼の顔と声を使ったビデオが数百万回再生された。その中の1つのInstagramビデオでは、AdamのAIクローンが「陰部の医者」と名乗り、妊娠中や産後の女性に未確認の医療サプリメントを宣伝していた。
「これについて他の人に説明するのは恥ずかしい」とCoyは言った。
「コメント欄は奇妙で、彼らは私の外見を評価しているが、それは私ではない」とCoyは補足した。「私が(肖像を売る)決定を下した時の考えは、大多数のモデルがどうせオンラインでデータや肖像をクロールするのだから、支払ってもらった方が良いということだった」。
Coyは、その後AIデータの零細作業を一切受けていない。彼は、どこかの企業が大きな報酬を提示した場合にのみ再び考慮するだろうと述べた。