Spotify 遭盗版组织窃取 300 TB 数据,包含 8,600 万个音讯档。该组织计划以种子形式公开,不仅冲击音乐人收入,更揭露平台存在大量 AI 劣质音乐。
全球串流音乐龙头 Spotify,近日惊传大规模数据外泄事件。被称为「秘密图书馆」的盗版行动组织 Anna’s Archive,宣称已成功备份了 Spotify 的音乐库,并计划将数据公开。
Anna’s Archive 在部落格文章中声称,已抓取 Spotify 上约 2.56 亿笔曲目元数据(Metadata)以及 8,600 万个音讯档案,这些数据将透过 P2P 网路,以批量种子(Torrents)的形式分发,总容量估计高达 300 TB。
目前,仅有元数据被完全释出,音讯档案则正透过批量种子逐步推出,并优先从最热门的曲目开始。
图源:Anna’s Archive Spotify爆史上最大外泄案,盗版组织声称偷走300 TB资料
针对重大安全漏洞,Spotify 发言人已迅速回应,证实有此事发生,并已识别与禁用相关的恶意帐户。
Spotify 强调,已针对此类反版权攻击实施了新的保护措施,并正积极监控可疑行为,目前正与行业合作伙伴积极合作,以保护创作者并捍卫其权利。
Spotify 的大规模资料盗取事件,不仅涉及音讯档案,更揭露惊人的数据规模与串流平台的生态现状。
Anna’s Archive 声称掌握 Spotify 2.56 亿首曲目中 99% 的元数据,且其中包括 8,600 万首真正有人在听的关键歌曲音讯档,光是元数据资料库,就包含 1.86 亿个唯一的国际标准录音代码(ISRC)。
相比之下,目前最大的合法开放音乐资料库 MusicBrainz 仅拥有约 500 万笔资料,Anna’s Archive 建立的数据库规模,足足是其 37 倍之大。
图源:Anna’s Archive Anna’s Archive 声称掌握 Spotify 2.56 亿首曲目中 99% 的元数据,且其中包括 8,600 万首真正有人在听的关键歌曲音讯档
数据分析也显示了 Spotify 平台内部巨大的流量落差。在 2.56 亿首曲目中,超过 70% 的歌曲其受欢迎程度评分(Popularity Score)为零,意即这些歌曲几乎无人问津。
统计指出,仅有约 21 万首歌曲(约占总目录的 0.1%)的受欢迎分数在 50 分以上,而正是这极少数的曲目占据了绝大多数的收听活动。换句话说,Spotify 上大部分的音乐内容很少有人在听,就像一座音乐坟场。
图源:Anna’s Archive Anna’s Archive 声称, Spotify 超过 70% 的歌曲其受欢迎程度评分(Popularity Score)为零,意即这些歌曲几乎无人问津。
Anna’s Archive 表示,他们不备份坟场里的内容,因为若要储存这些仅占 0.04% 收听活动的冷门档案,将需要额外 700 TB 的储存空间,而且其中有许多内容,被认为是 AI 生成的劣质音乐。
Anna’s Archive 在发布数据的同时,也公开了详细的分析报告,例如他们爬取的曲目长度,在 2 分钟、3 分钟和 4 分钟整上出现明显的群聚现象,这也通常是一般流行歌曲常见的长度。
此外,自 2015 年以来,专辑发行量呈指数级爆炸式增长,光是 2023 年标注的专辑就超过 1,000 万张,很可能受到 AI 生成音乐和自动上传工具普及的驱动。
图源:Anna’s Archive Anna’s Archive 声称, Spotify 自 2015 年以来,专辑发行量呈指数级爆炸式增长,光是 2023 年标注的专辑就超过 1,000 万张
Anna’s Archive 在文章中辩称,他们爬取 Spotify 资料的原因,是为了建立一个音乐保存档案馆,并称现有的音乐保存工作,过于集中在流行艺人和高音质格式(如无损 FLAC),导致冷门音乐在平台更改政策或关闭时,容易面临消失的风险。
但不管 Anna’s Archive 如何狡辩,他们的行为本质上就是盗版!
Spotify 支付给创作者的版权费用,约为每次播放 0.003 至 0.005 美元。以 Dittomusic 的计算器来推估,每 100 万次播放可为创作者带来约 4,370 美元的收入。
但如果都被上传成种子档案,免费供人下载,那就会让创作者一毛钱都拿不到,让人类著作权退步回大盗版时代。
这起外泄案,在科技论坛 Hacker News 上也引发热论。有网友揣测,Anna’s Archive 很可能已针对其盗版书籍档案库,提供高达数万美元的企业级存取服务,意即向 AI 公司兜售用于训练模型的批量数据。
延伸阅读:
Google AI摘要踢铁板?欧盟展开反垄断调查,若违规恐开出天价罚款
猖狂的 Anna’s Archive 组织,其实已经被多国政府盯上。
根据外媒《Decrypt》的整理,自 2012 年以来,Google 已根据版权投诉从搜寻结果中,移除了 7.49 亿个涉及 Anna’s Archive 的网址,占其收到的所有数位千禧年著作权法(DMCA)删除请求的 5%。
在 2024 年 12 月,英国高等法院批准了 Anna’s Archive 的封锁令;而 2025 年 7 月,比利时也祭出封锁令,违者最高可处以 50 万欧元罚款;德国也在 2025 年 10 月,封锁了该网站的主要域名。
外界预测,Spotify 可能会对 Anna’s Archive 采取法律行动,但由于数据正透过分散式的 P2P 网路分发,分布在全球成千上万个节点上,没有任何单一实体能够将其完全关闭。
这正是种子技术的核心特性,一旦档案流出,想要彻底下架几乎是不可能的任务。这场数位时代的版权大战,恐将进入一个全新的、更加混乱的阶段。