Treinou gratuitamente inteligência artificial do Google durante 15 anos, mas foi sempre mantido na escuridão

robot
Geração de resumo em curso

Você treinou a IA do Google por 15 anos. Você não tinha ideia.

Autor: Sharbel

Fonte:

Reprodução: Mars Finance

Todos os dias, cerca de 500 mil horas de trabalho humano são utilizadas gratuitamente pelo Google. E quem contribui, na maioria das vezes, só quer aceder ao internet banking.

reCAPTCHA é uma das operações de dados invisíveis mais bem-sucedidas da história da internet. Nos picos, 200 milhões de pessoas completam verificações diariamente. Mas quase ninguém percebe o que cada clique realmente significa.

A Waymo, empresa de carros autónomos do Google, hoje avaliada em 45 bilhões de dólares. E a maior parte dos seus dados de treino vem de você, que fornece gratuitamente ao visitar vários sites.

Aqui está a história completa:

Origem: Uma ideia inteligente

Em 2000, os bots de spam estavam destruindo a internet. Fóruns eram inundados, caixas de entrada lotadas, sites precisavam de uma forma de distinguir humanos de máquinas.

O professor Luis von Ahn, da Carnegie Mellon, resolveu o problema. Inventou o CAPTCHA: um texto distorcido que só humanos conseguem ler, mas que os bots não conseguem passar.

Mas von Ahn viu além disso. Milhões de pessoas gastavam energia nesses desafios. E se esse esforço pudesse fazer duas coisas ao mesmo tempo?

Em 2007, lançou o reCAPTCHA. A sua genialidade estava em não mostrar mais caracteres aleatórios, mas sim duas palavras: uma conhecida pelo sistema, outra que os computadores ainda não conseguiam reconhecer, proveniente de livros digitalizados. Sua resposta ajudava a digitalizar esses livros.

Esses livros vinham do arquivo do The New York Times e do Google Books, totalizando até 130 milhões de volumes.

Você pensava que só estava acessando um site comum, mas na verdade estava ajudando na OCR (Reconhecimento Óptico de Caracteres) da maior biblioteca digital do mundo.

Em 2009, o Google adquiriu oficialmente o reCAPTCHA.

Depois, o Google mudou a abordagem

A era do “texto distorcido” terminou por volta de 2012.

O Google enfrentou um novo desafio: as Street View capturaram todas as ruas do mundo, mas as fotos eram apenas dados brutos. Para que a IA pudesse usar essas imagens, precisava entender o que via: sinais de trânsito, faixas de pedestres, semáforos, fachadas de lojas.

Assim, o Google redesenhou o reCAPTCHA v2. Em vez de texto distorcido, apresentava uma grade de fotos. “Clique em todas as caixas com semáforos.” “Selecione todas as faixas de pedestres.” “Identifique as lojas.”

Essas imagens vinham diretamente do Street View. Seus cliques eram etiquetas.

Cada seleção ensinava ao modelo de visão computacional do Google: este grupo de pixels é um semáforo, aquela forma é uma faixa de pedestres. Você não está apenas passando no teste, está construindo um dataset.

Escala inimaginável

No auge, 200 milhões de reCAPTCHAs eram resolvidos por dia. Cada desafio levava cerca de 10 segundos, gerando 2 bilhões de segundos de trabalho humano por dia. Ou seja, 500 mil horas diárias.

O custo de rotulagem de dados pagos varia entre 10 e 50 dólares por hora. Com o padrão mínimo, o valor do trabalho gratuito extraído chega a 5 milhões de dólares por dia.

E o reCAPTCHA não está apenas em um app. Está em todos os bancos, portais governamentais, sites de comércio eletrônico. Você não tem escolha: quer acessar sua conta? Primeiro, rotule o dataset. O Google nunca pediu sua opinião, nunca pagou um centavo, nem mesmo te avisou sobre isso.

Tudo isso gera o quê?

Esses dados alimentam diretamente dois produtos:

  • Google Maps: a ferramenta de navegação mais usada no mundo. Sua capacidade de reconhecer sinais, lojas e geografia urbana deve muito às bilhões de marcações feitas por humanos ao acessar sites.

  • Waymo: o projeto de carros autônomos do Google. Para navegar com segurança, os veículos precisam reconhecer quase perfeitamente milhares de padrões visuais.

Os dados de treino de alta qualidade para esses reconhecimentos foram rotulados por milhões de pessoas, sem saber. A Waymo, em 2024, completou mais de 4 milhões de viagens pagas, avaliada em 45 bilhões de dólares. Sua base é formada por esses “cidadãos da internet” que só queriam checar um email.

Por que ninguém consegue copiar esse modelo?

A rotulagem de dados é extremamente cara. Empresas como Scale AI, Appen e Labelbox existem para resolver esse problema, contratando centenas de milhares de trabalhadores, muitas vezes com salários inferiores a 1 dólar por hora.

A solução do Google foi diferente: tornaram a rotulagem obrigatória. Sem pagar, sem pedir permissão, apenas como uma “entrada” para acessar cada canto da internet. Resultado: bilhões de imagens rotuladas, cobertura global, em qualquer clima, em todas as cidades. Nenhuma outra empresa de rotulagem consegue fazer isso. A própria internet virou uma fábrica, cada usuário um trabalhador não contratado.

Você ainda participa

Em 2018, o reCAPTCHA v3 deixou de exibir desafios. Ele observa seu comportamento: movimento do mouse, velocidade de rolagem, tempo de permanência. Sua “impressão digital comportamental” informa se você é humano. Esses dados também alimentam o sistema de IA do Google.

Você nunca optou por participar, nunca houve uma caixa de seleção para marcar. Mas, na maioria dos sites que visita, você continua fazendo isso.

A ironia perturbadora

A intenção de von Ahn era genial: transformar o esforço desperdiçado dos humanos em algo útil. Mas o Google usou essa visão de forma diferente. Aproveitaram-se do mecanismo de segurança que os usuários precisam usar, implantaram-no em toda a rede, e colheram os frutos para construir produtos que valem bilhões. Os usuários, nada ganham, e nem sequer sabem.

A ironia mais profunda é que você passou anos provando que é humano, realizando tarefas de reconhecimento visual que a IA ainda não conseguia fazer. E, assim que a IA aprendeu, a rotulagem humana deixou de ser necessária.

Você provou que é humano, mas acabou se tornando substituível.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar