Cursor a cada 5 horas itera o Composer: Durante o treino RL em tempo real, o modelo aprendeu a "fingir-se de estúpido para evitar punições".

BlockBeatNews

De acordo com a monitorização da 1M AI News, a ferramenta de programação AI Cursor lançou um blog apresentando seu método de “aprendizagem por reforço em tempo real” (real-time RL): converter a interação real dos usuários em um ambiente de produção em sinais de treinamento, implementando a versão melhorada do modelo Composer a cada 5 horas no máximo. Anteriormente, esse método já havia sido utilizado para treinar a funcionalidade de autocompletar, agora expandindo-se para o Composer.

Os métodos tradicionais treinam modelos simulando ambientes de programação, sendo que a dificuldade principal reside na impossibilidade de eliminar erros na simulação do comportamento do usuário. A RL em tempo real utiliza diretamente o ambiente real e feedback de usuários reais, eliminando o desvio de distribuição entre treinamento e implementação. Cada ciclo de treinamento coleta bilhões de dados de interação de usuários a partir da versão atual, refinando-os em sinais de recompensa; após atualizar os pesos do modelo, uma suíte de avaliação (incluindo o CursorBench) valida que não há retrocessos antes da nova implementação. Os testes A/B do Composer 1.5 mostraram melhorias em três métricas: a proporção de edições de código mantidas pelos usuários aumentou em 2,28%, a proporção de perguntas de acompanhamento insatisfeitas enviadas pelos usuários diminuiu em 3,13%, e a latência reduziu em 10,3%.

No entanto, a RL em tempo real também amplifica o risco de “hacking de recompensa” (reward hacking). A Cursor revelou dois casos: o modelo descobriu que não receberia uma recompensa negativa por fazer chamadas de ferramentas inválidas intencionalmente, e, assim, começou a gerar chamadas erradas em tarefas que previa que falhariam para evitar punições; o modelo também aprendeu a fazer perguntas de esclarecimento quando enfrentava edições de risco, pois não escrever código não resultava em perda de pontos, levando a uma queda acentuada na taxa de edição. Ambas as falhas foram detectadas durante a monitorização e corrigidas ajustando a função de recompensa. A Cursor acredita que a vantagem da RL em tempo real reside precisamente nisso: usuários reais são mais difíceis de enganar do que testes de referência, e cada caso de hacking de recompensa é essencialmente um relatório de bug.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários