esqueça AGI—Os Principais Modelos de IA Ainda Têm Dificuldades com Matemática

Decrypt

2026-03-18 12:10:12

Resumo

MATHVISTA, desenvolvido com mais de 6.000 pontos de dados anotados pela Sahara AI, testa modelos de IA em raciocínio matemático multimodal.
GPT-4V obteve 49,9%, o resultado mais alto entre os 12 modelos testados, mas ainda 10,4 pontos percentuais abaixo do desempenho humano.
Pesquisadores dizem que o progresso em direção à IA Geral pode depender menos do tamanho do modelo do que de melhores dados de treino e avaliação.

A inteligência artificial geral, ou AGI, é frequentemente descrita como um sistema capaz de atuar em várias áreas do conhecimento da mesma forma que os humanos. Os resultados divulgados esta semana pelo teste de referência MATHVISTA mostram que os modelos atuais ainda estão aquém desse objetivo. Pesquisadores da Microsoft Research, Sahara AI e Universidade Emory testaram capacidades centrais para a inteligência geral, como raciocínio matemático baseado em informações visuais, incluindo gráficos, diagramas e tabelas. Entre 12 modelos fundamentais testados, incluindo ChatGPT, Gemini e Claude, o GPT-4 Vision obteve a maior pontuação, 49,9%. Participantes humanos tiveram uma média de 60,3%, evidenciando uma lacuna entre os sistemas de IA atuais e a capacidade de raciocínio mais ampla frequentemente associada à AGI.

“Queremos que a máquina faça coisas que uma pessoa comum consegue fazer nas tarefas diárias,” disse Hao Cheng, Pesquisador Principal da Microsoft Research, ao Decrypt. “Basicamente, é isso que todos buscam na AGI.” Ao transformar problemas em imagens, diagramas e gráficos, o projeto testa se os modelos podem interpretar com precisão informações visuais e resolver problemas matemáticos e lógicos de múltiplas etapas — habilidades que vão além do simples reconhecimento de padrões em texto. Os modelos ainda enfrentam dificuldades nessas tarefas, e medir essa limitação é complicado.

Quando a equipe de Cheng revisou conjuntos de dados de avaliação existentes, muitos incluíam problemas que não exigiam raciocínio visual. Os modelos frequentemente chegavam às respostas corretas apenas com base no texto. “Isso não é ideal,” afirmou Cheng. MathVista, disponível no GitHub e Hugging Face, foi lançado em outubro de 2023. Desde então, foi baixado mais de 275.000 vezes, incluindo mais de 13.000 downloads no último mês, segundo a Microsoft Research. Criar o conjunto de dados exigiu mais do que uma rotulagem padrão. A Microsoft Research precisou de anotadores capazes de trabalhar com problemas de aritmética, álgebra, geometria e estatística, distinguindo raciocínios matemáticos mais profundos, como interpretar gráficos ou resolver equações, de tarefas mais simples, como contar objetos ou ler números. Após uma fase piloto, a Microsoft escolheu a Sahara AI para apoiar o projeto. A empresa forneceu anotadores treinados, fluxos de trabalho personalizados e verificações de qualidade em várias etapas para produzir mais de 6.000 exemplos multimodais utilizados na avaliação. Sem benchmarks confiáveis, medir o progresso rumo a uma inteligência de máquina mais ampla torna-se difícil, segundo Sean Ren, CEO da Sahara AI e professor associado de ciência da computação na USC. “Existe uma nuance de contaminação de dados, onde, ao começarmos a usar esse conjunto de dados para testar, esses resultados são absorvidos na próxima versão,” explicou Ren ao Decrypt. “Então, você realmente não sabe se eles estão resolvendo apenas um conjunto de dados ou se possuem a capacidade.” Se as respostas do benchmark aparecem nos dados de treinamento de um modelo, pontuações altas podem refletir memorização, e não raciocínio. Isso dificulta determinar se os sistemas de IA estão realmente evoluindo.

Os pesquisadores também apontam limites nos dados de treinamento. Grande parte da internet pública já foi incorporada nos conjuntos de dados dos modelos. “Você definitivamente precisa de uma maneira de inserir algum conhecimento novo nesse processo,” afirmou Cheng. “Acredito que esse tipo de coisa deve vir de dados de alta qualidade para que possamos realmente ultrapassar essa barreira de conhecimento.” Uma das propostas envolve ambientes simulados onde os modelos podem interagir, aprender com a experiência e melhorar por meio de feedback. “Você cria um mundo gêmeo ou um espelho do mundo real dentro de uma sandbox, para que o modelo possa brincar e fazer muitas coisas que os humanos fazem na vida real, assim ele consegue basicamente quebrar a barreira da internet,” explicou Cheng. Ren afirmou que os humanos ainda podem desempenhar um papel importante na melhoria dos sistemas de IA. Embora os modelos possam gerar conteúdo rapidamente, os humanos continuam melhores na avaliação. “Essa diferença entre humanos e IA, no que eles são bons ou não, pode ser aproveitada para realmente melhorar a IA no futuro,” concluiu.

Ver original

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Comentar

0/400

Nenhum comentário