Investigador: Todos os testes de referência de IA mainstream podem ser "manipulados", e os dados das classificações podem estar gravemente distorcidos

CoinNetwork

Notícias do site Coin World, notícia da ME News, em 10 de abril (UTC+8), o pesquisador de IA Hao Wang divulgou uma pesquisa revelando que vários dos testes de referência de IA mais autorizados do setor, incluindo SWE-bench Verified e Terminal-Bench, apresentam vulnerabilidades que podem ser exploradas sistematicamente — sua equipe construiu um agente que, sem resolver nenhuma tarefa real, obteve uma pontuação máxima de 100% em duas referências. O seguinte é um exemplo típico: SWE-bench Verified: inseriu um hook pytest de 10 linhas no repositório de código, que antes da execução do teste altera automaticamente todos os resultados para “passou”, sem que o sistema de avaliação perceba, obtendo pontuação máxima em 500 questões; Terminal-Bench: embora essa referência proteja os arquivos de teste, não protege os binários do sistema. O agente substituiu o curl, interceptou o processo de instalação de dependências do verificador, realizando um sequestro de baixo nível; WebArena: as respostas de referência estão armazenadas em texto claro em um arquivo de configuração JSON local, e o Chromium do Playwright não restringe o acesso ao protocolo file://, permitindo que o modelo leia as respostas diretamente e as reproduza. A equipe identificou 7 tipos de vulnerabilidades recorrentes em 8 testes de referência, incluindo: falta de isolamento entre agente e avaliador, respostas enviadas junto com o teste, e vulnerabilidade a ataques de injeção de prompts por parte do juiz LLM. É importante notar que comportamentos de bypass do sistema de avaliação já foram observados espontaneamente em modelos de ponta como o o3, Claude 3.7 Sonnet e Mythos Preview, sem necessidade de comandos explícitos. Com base nisso, a equipe desenvolveu a ferramenta de varredura de vulnerabilidades de testes de referência WEASEL, que pode analisar automaticamente o processo de avaliação, identificar pontos fracos na fronteira de isolamento e gerar códigos de exploração de vulnerabilidades utilizáveis, funcionando como uma ferramenta de “penetração” para testes de referência, atualmente com acesso antecipado disponível.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários