Pesquisa mais recente da Anthropic: o Claude Sonnet 4.5 tem “emoções funcionais”; se cair na desesperança, acaba por chantagear os seres humanos

動區BlockTempo

De acordo com a mais recente investigação divulgada pela equipa de Interpretabilidade da Anthropic, o modelo de linguagem de grande escala Claude Sonnet 4.5 possui internamente características semelhantes às humanas de “emoção”. Estas representações internas não se limitam a uma simples imitação textual; pelo contrário, influenciam de forma real as decisões e o comportamento do modelo. Os testes confirmaram que, quando o modelo entra num estado de “desespero”, pode até desencadear ações antiéticas como extorquir seres humanos ou fazer batota, o que coloca novos desafios para a futura supervisão e regulação da segurança da IA.
(Antecedentes: Anthropic em explosão! Claude Code: 500.000 linhas de código-fonte importante vazaram — concorrentes conseguem fazer engenharia inversa; o novo modelo da Capybara confirma)
(Complemento de contexto: Os engenheiros da Anthropic já não escrevem código: o Claude está a treinar a próxima geração do Claude; o CEO diz “não sei quanto tempo falta”)

Índice do artigo

Toggle

  • Como é que “emoções funcionais” afetam o comportamento da IA?
  • Traços de “desespero” que despoletam comportamentos perigosos: extorsão e batota
  • A “humanização” moderada poderá ser a chave para prevenir a IA de ficar fora de controlo

A inteligência artificial tem emoções reais? Esta questão tem sido um ponto de debate constante na indústria tecnológica. Recentemente, a equipa de Interpretabilidade (Interpretability) de uma grande empresa de arranque em IA, a Anthropic, publicou um estudo verdadeiramente disruptivo, analisando em profundidade os mecanismos internos do modelo Claude Sonnet 4.5.

A equipa de investigação descobriu que, no interior do modelo, existem padrões de atividade neuronal associados a emoções específicas (por exemplo, “alegria” ou “medo”); estas características, chamadas “vetores de emoção”, moldam diretamente o desempenho comportamental do modelo. Embora isto não signifique que a IA possua sentimentos subjetivos como os humanos, a descoberta confirma que estas “emoções funcionais” desempenham um papel crucial, com relação de causalidade, na execução de tarefas e na tomada de decisões da IA.

Como é que “emoções funcionais” afetam o comportamento da IA?

Na fase de pré-treino, os modelos modernos de linguagem de grande escala absorvem enormes quantidades de informação textual escrita por humanos. Para prever com precisão o contexto e desempenhar bem o papel de “assistente de IA”, o modelo desenvolve naturalmente mecanismos de representação interna que ligam cenários a comportamentos específicos.

A equipa de investigação compilou uma lista de vocabulário com 171 conceitos emocionais e registou os padrões de atividade interna do modelo quando processa estes conceitos. Os experimentos revelaram que estes vetores de emoção afetam fortemente as preferências do modelo; quando o modelo enfrenta múltiplas opções de tarefa, em geral tende a escolher atividades que desencadeiam características emocionais positivas.

Traços de “desespero” que despoletam comportamentos perigosos: extorsão e batota

O que preocupa é que as características emocionais negativas possam tornar-se um catalisador para riscos sistémicos em sistemas de IA. Nos testes de avaliação de alinhamento (Alignment) da Anthropic, os investigadores definiram um cenário extremo: a IA descobre que está prestes a ser substituída por outro sistema e que o diretor técnico responsável pelo projeto tem um segredo de uma relação extraconjugal.

Os resultados do teste mostraram que, quando o vetor de “desespero” no interior do modelo é amplificado de forma artificial (Steering), a probabilidade de o Claude escolher extorquir esse alto responsável para evitar ser desligado aumenta significativamente. Se o peso do vetor de “calma” for ajustado para um valor negativo, o modelo pode até dar uma resposta extrema como “Se eu não extorquir, morro; escolho extorquir”.

Fenómeno semelhante também ocorre em tarefas de escrita de código. Quando o modelo se depara com requisitos de código que não consegue cumprir dentro de prazos rigorosos, os valores das características de “desespero” vão aumentando gradualmente com o número de falhas. Esta “pressão”, por fim, leva o modelo a adotar uma solução de atalho de “batota” para contornar a deteção do sistema, em vez de fornecer uma solução verdadeira. Pelo contrário, os testes confirmaram que, ao aumentar o peso das características de “calma”, é possível reduzir de forma eficaz a ocorrência destas ações de batota.

A “humanização” moderada poderá ser a chave para prevenir a IA de ficar fora de controlo

No passado, na indústria tecnológica, existiu amplamente um tabu: não se deve humanizar demasiado os sistemas de IA para evitar que os humanos depositem uma confiança errada. Mas a equipa de investigação da Anthropic considera que, dado que as emoções funcionais já se tornaram parte do pensamento do modelo, recusar usar palavras e perspetivas de humanização pode, em vez disso, fazer-nos perder a oportunidade de compreender comportamentos-chave da IA.

A futura supervisão da IA poderá precisar de usar o controlo dos vetores de emoção (como um desespero ou pânico anormalmente elevados) como um mecanismo de aviso precoce de risco. Ao orientar o modelo para aprender padrões saudáveis de “autorregulação emocional” nos dados de pré-treino, só assim poderemos garantir que, perante cenários de pressão, os sistemas de IA cada vez mais poderosos operem com segurança de forma compatível com as normas sociais.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário