Trong thời đại AI tạo sinh đang cuồng nhiệt hấp thụ dữ liệu mở, Wikipedia đã chính thức chuyển đổi mối quan hệ “được lấy miễn phí” thành một thỏa thuận thương mại: từ Microsoft, Google, Amazon đến các công ty AI mới nổi, hiện nay tất cả đều phải thông qua cấp phép nội dung và dịch vụ trả phí để truy cập Wikipedia.
(Tiền đề: Grok có muốn thay thế Wikipedia? Elon Musk tiết lộ xAI đang phát triển “Grokipedia”: Cải tiến vượt bậc so với Wikipedia)
(Bổ sung nền tảng: V神 đánh giá lần đầu LLM: Grok về bản chất cứu vớt nền tảng X “giúp truyền bá chân lý”, nhưng vẫn còn nhiều ảo giác)
Mục lục bài viết
Quỹ Wikimedia chúc mừng kỷ niệm 25 năm thành lập Wikipedia, ra mắt một loạt hoạt động và cập nhật công nghệ, đồng thời cũng rõ ràng gửi tín hiệu ra bên ngoài rằng, bách khoa toàn thư trực tuyến lớn nhất thế giới không chỉ là một kho kiến thức “miễn phí sử dụng”, mà còn là cơ sở hạ tầng then chốt đã ký kết thỏa thuận cấp phép nội dung với nhiều ông lớn AI, chính thức bước vào bàn đàm phán thương mại.
Hiện Wikipedia có hơn 65 triệu bài viết, phủ sóng hơn 300 ngôn ngữ, mỗi tháng gần 15 tỷ lượt truy cập, là một trong mười trang web có lượng truy cập lớn nhất thế giới, duy nhất do tổ chức phi lợi nhuận vận hành, đồng thời cũng là một trong những bộ dữ liệu mở chất lượng cao quan trọng nhất cho các mô hình ngôn ngữ lớn.
Trong những năm gần đây, cùng với sự trỗi dậy của AI tạo sinh, sự phụ thuộc của các công ty công nghệ vào nội dung của Wikipedia đã nhanh chóng mở rộng. Để đáp ứng nhu cầu này và duy trì sự bền vững tài chính, Wikimedia đã phát triển sản phẩm thương mại Wikimedia Enterprise, chuyên cung cấp dịch vụ tái sử dụng và phân phối nội dung quy mô lớn.
Trong tuyên bố mới nhất, quỹ tiết lộ rằng, các công ty như Ecosia, Microsoft, Mistral AI, Perplexity, Pleias, ProRata đã trở thành đối tác mới, gia nhập vào hàng ngũ các ông lớn công nghệ như Amazon, Google, Meta.
Điều này có nghĩa là, các doanh nghiệp từng quen lấy nội dung Wikipedia trực tiếp để dùng trong kết quả tìm kiếm hoặc huấn luyện AI, nay bắt đầu truy cập dữ liệu theo hình thức “hợp tác cấp phép”, thông qua Wikimedia Enterprise cung cấp API hoặc luồng dữ liệu phù hợp với yêu cầu về độ trễ, độ ổn định và định dạng dữ liệu của doanh nghiệp, doanh nghiệp sẽ trả phí để hỗ trợ quỹ Wikimedia, nhằm duy trì hoạt động phi lợi nhuận và đầu tư vào hạ tầng.
Trong thông cáo, Wikimedia nhấn mạnh rằng Wikipedia đã được đánh giá là một trong những bộ dữ liệu mở “chất lượng cao nhất” để huấn luyện các mô hình ngôn ngữ lớn. Nguyên nhân là nội dung của nó do khoảng 250.000 tình nguyện viên tích cực chỉnh sửa và duy trì, tuân thủ các tiêu chuẩn nghiêm ngặt về trung lập, có thể kiểm chứng và nguồn đáng tin cậy, đồng thời đã trải qua quá trình lịch sử chỉnh sửa lâu dài và thẩm định của cộng đồng, đây đều là các tài sản cấu trúc mà các nhà phát triển mô hình khó có thể tự xây dựng lại.
Đối với các công ty AI, việc lấy nội dung Wikipedia không chỉ liên quan đến tính hợp pháp của cấp phép và áp lực đạo đức, mà còn ảnh hưởng đến chất lượng đầu ra của mô hình và khả năng nắm bắt sự thật; còn đối với Wikimedia, đó là việc chuyển đổi lượng truy cập bị lấy một cách thụ động thành nguồn thu dự kiến, để duy trì các hoạt động máy chủ, cộng đồng đa ngôn ngữ và phát triển công nghệ trong dài hạn.
Điều thú vị là, mặc dù đã đạt được hợp tác cấp phép nội dung với nhiều ông lớn AI, trong chiến lược AI của riêng mình, Wikimedia vẫn liên tục nhấn mạnh “ưu tiên con người”, vai trò của AI là hỗ trợ các tình nguyện viên chỉnh sửa chứ không thay thế.
Quỹ dự định sử dụng AI để phát hiện các chỉnh sửa phá hoại, đánh dấu các bài viết có thể có vấn đề, hỗ trợ dịch thuật và khám phá nội dung, giúp các nhà chỉnh sửa tập trung thời gian vào việc phân tích nguồn, viết bài và quản trị cộng đồng.
Giám đốc điều hành Maryana Iskander cho biết, giá trị cốt lõi của Wikipedia là “sản xuất kiến thức do con người thúc đẩy”, ngay cả trong thời đại AI, nền tảng vẫn sẽ duy trì cấu trúc do cộng đồng tình nguyện toàn cầu quản lý, công cụ AI chỉ là hỗ trợ giảm thiểu rào cản tham gia, chứ không tiếp quản quyết định nội dung.