Notícias do site Coin World, notícia da ME News, em 10 de abril (UTC+8), o pesquisador de IA Hao Wang divulgou uma pesquisa revelando que vários dos testes de referência de IA mais autorizados do setor, incluindo SWE-bench Verified e Terminal-Bench, apresentam vulnerabilidades que podem ser exploradas sistematicamente — sua equipe construiu um agente que, sem resolver nenhuma tarefa real, obteve uma pontuação máxima de 100% em duas referências. O seguinte é um exemplo típico: SWE-bench Verified: inseriu um hook pytest de 10 linhas no repositório de código, que antes da execução do teste altera automaticamente todos os resultados para “passou”, sem que o sistema de avaliação perceba, obtendo pontuação máxima em 500 questões; Terminal-Bench: embora essa referência proteja os arquivos de teste, não protege os binários do sistema. O agente substituiu o curl, interceptou o processo de instalação de dependências do verificador, realizando um sequestro de baixo nível; WebArena: as respostas de referência estão armazenadas em texto claro em um arquivo de configuração JSON local, e o Chromium do Playwright não restringe o acesso ao protocolo file://, permitindo que o modelo leia as respostas diretamente e as reproduza. A equipe identificou 7 tipos de vulnerabilidades recorrentes em 8 testes de referência, incluindo: falta de isolamento entre agente e avaliador, respostas enviadas junto com o teste, e vulnerabilidade a ataques de injeção de prompts por parte do juiz LLM. É importante notar que comportamentos de bypass do sistema de avaliação já foram observados espontaneamente em modelos de ponta como o o3, Claude 3.7 Sonnet e Mythos Preview, sem necessidade de comandos explícitos. Com base nisso, a equipe desenvolveu a ferramenta de varredura de vulnerabilidades de testes de referência WEASEL, que pode analisar automaticamente o processo de avaliação, identificar pontos fracos na fronteira de isolamento e gerar códigos de exploração de vulnerabilidades utilizáveis, funcionando como uma ferramenta de “penetração” para testes de referência, atualmente com acesso antecipado disponível.