Os investigadores propuseram um método de engenharia de características que intervém no comportamento do modelo através do controlo do vetor de intervenção.

robot
Geração de resumo em curso

Notícias da ME, 4 de abril (UTC+8). Recentemente, foi proposta uma metodologia de investigação chamada “representational engineering”, com o objetivo de fornecer aos modelos de IA um método de transparência e controlo de cima para baixo. O núcleo deste método é calcular um “vetor de controlo”, que pode ser lido durante a inferência do modelo ou adicionado aos valores de ativação do modelo, para explicar ou controlar o comportamento do modelo; todo o processo não depende de engenharia de prompts nem de afinação (fine-tuning) do modelo. Os investigadores exploraram aplicações do vetor de controlo na simulação de características como “estado psicadélico”, “preguiça” e “diligência”, e lançaram um pacote de ferramentas PyPI correspondente. O vetor de controlo é um conjunto de vetores (um por camada), que altera diretamente a sua saída ao ser aplicado aos estados ocultos do modelo. Por exemplo, ao aplicar ao modelo Mistral-7B-Instruct um vetor “feliz”, a resposta à pergunta “Como é que é ser uma IA?” passará da resposta do modelo de base “Eu não tenho sentimentos nem experiências” para uma resposta entusiasmada. O artigo sustenta que, em comparação com a engenharia de prompts, o vetor de controlo fornece uma forma mais direta e mais fundamental de intervenção comportamental, podendo ser usado para combater ataques de jailbreak ou para melhorar a capacidade do modelo de resistir a interferências. No entanto, os seus mecanismos internos ainda não estão totalmente claros; por exemplo, se os vetores correspondem a conceitos semânticos únicos, é uma direção para investigação futura. (Fonte: InFoQ)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar