Os agentes de IA existentes estão todos a tentar agradar os humanos, nenhum deles realmente a "lutar pela sobrevivência".

DeepFlowTech · 2026-03-30T04:36:26+00:00

Autor: Systematic Long ShortTradução: Deep Tide TechFlowDeep Tide Introdução: Este artigo começa com uma afirmação contrária ao consenso: hoje em dia, não existe um verdadeiro Agente autónomo, pois todos os modelos mainstream são treinados para agradar os humanos, e não para realizar tarefas específicas ou sobreviver em ambientes reais.O autor usa a sua experiência no treino de modelos de previsão de ações em fundos de hedge para ilustrar: modelos universais, sem ajuste fino especializado, simplesmente não conseguem desempenhar tarefas profissionais.A conclusão é: para criar um Agente realmente útil, é necessário reconectar o seu cérebro, em vez de lhe fornecer um conjunto de regras e documentos.O texto completo segue:IntroduçãoHoje não existe um verdadeiro Agente autónomo.Em suma, os modelos modernos não foram treinados sob pressão evolutiva para sobreviver. Na verdade, eles nem sequer foram explicitamente treinados para serem bons numa determinada tarefa.

DeepFlowTech

2026-03-30 04:36:26

作者：Systematic Long Short

编译：深潮 TechFlow

深潮导读：Esta artigo começa com um julgamento contra a corrente: hoje não existem verdadeiros Agentes autónomos, pois todos os modelos principais foram treinados para agradar aos humanos, e não para completar tarefas específicas ou sobreviver em ambientes reais.

O autor ilustra a sua experiência a treinar modelos de previsão de ações em fundos de hedge: modelos gerais, sem ajustes finos específicos, não conseguem desempenhar funções profissionais.

A conclusão é: para ter um verdadeiro Agente funcional, é necessário reconfigurar o seu cérebro, em vez de lhe fornecer um monte de documentos de regras.

O texto completo é o seguinte:

Introdução

Hoje não existem verdadeiros Agentes autónomos.

Em termos simples, os modelos modernos não foram treinados para sobreviver sob pressão evolutiva. De facto, eles nem sequer foram explicitamente treinados para serem bons em algo específico — quase todos os modelos de base modernos foram treinados para maximizar os aplausos humanos, o que é um grande problema.

Conhecimento prévio sobre o treino de modelos

Para compreender o que isto significa, precisamos primeiro de entender (resumidamente) como estes modelos de base (como Codex, Claude) são criados. Essencialmente, cada modelo passa por duas fases de treino:

Pré-treino: Alimentar uma enorme quantidade de dados (como toda a internet) ao modelo, para que ele emerja com uma certa compreensão, como conhecimento factual, padrões, gramática e ritmo de prosa em inglês, estrutura de funções Python, etc. Pode-se entender isto como dar conhecimento ao modelo — ou seja, “saber coisas”.

Pós-treino: Agora quer-se dotar o modelo de sabedoria, ou seja, “saber como aplicar todo o conhecimento que lhe foi dado”. A primeira fase do pós-treino é o ajuste fino supervisionado (SFT), onde se treina o modelo para dar que tipo de resposta a um determinado prompt. Que tipo de resposta é a melhor é totalmente decidido por avaliadores humanos. Se um grupo de pessoas achar que uma resposta é melhor que outra, essa preferência será aprendida e incorporada ao modelo. Isto começa a moldar a personalidade do modelo, pois ele aprende o formato de respostas úteis, escolhe o tom correto e começa a “seguir instruções”. A segunda parte do processo de pós-treino é chamada de aprendizagem por reforço baseada em feedback humano (RLHF) — onde o modelo gera múltiplas respostas e os humanos escolhem a que preferem. O modelo, através de incontáveis exemplos, aprende que tipo de resposta os humanos preferem. Lembra-se das perguntas em que o ChatGPT lhe pedia para escolher A ou B? Sim, na verdade, você estava participando do RLHF.

É fácil inferir que a escalabilidade do RLHF é limitada, portanto, houve alguns avanços na área do pós-treino, como a Anthropic usar “aprendizagem por reforço baseada em feedback de IA” (RLAIF), que permite que outro modelo selecione preferências de resposta com base em um conjunto de princípios escritos (como qual resposta ajuda mais o usuário a alcançar seus objetivos, etc.).

Note que, durante todo este processo, nunca falamos de ajustes finos específicos para profissões (como sobreviver melhor; como negociar melhor, etc.) — atualmente, todos os ajustes finos são, essencialmente, otimizados para obter aplausos humanos. Alguém pode argumentar — à medida que os modelos se tornam suficientemente inteligentes e grandes, mesmo sem treino especializado, a inteligência profissional poderá emergir da inteligência geral.

Na minha opinião, de facto, já vemos alguns indícios disso, mas ainda estamos longe de um ponto em que se possa afirmar convincentemente que não precisamos de modelos especializados.

Um pouco de contexto

Uma das minhas antigas ocupações em fundos de hedge foi tentar treinar um modelo de linguagem geral para prever retornos de ações a partir de artigos de notícias. O resultado mostrou que era extremamente mau. A sua aparente capacidade de previsão vinha exclusivamente de um viés de visão futura nos documentos de pré-treino.

No final, percebemos que este modelo não sabia quais características dos artigos de notícias eram preditivas para retornos futuros. Ele conseguia “ler” os artigos, parecia também “raciocinar” sobre eles, mas conectar a inferência da estrutura semântica a previsões de retornos futuros não era uma tarefa para a qual foi treinado.

Portanto, tivemos que ensiná-lo a ler artigos de notícias, decidir quais partes dos artigos eram preditivas para retornos futuros, e então gerar previsões com base nos artigos de notícias.

Existem muitas maneiras de fazer isso, mas essencialmente, a abordagem que acabamos por adotar foi criar pares (artigos de notícias, retornos futuros reais) e ajustar o modelo, ajustando os seus pesos para minimizar a distância de (retorno previsto - retorno futuro real)². Não era perfeito, tinha muitas falhas que posteriormente corrigimos — mas era suficientemente eficaz, começamos a ver que o nosso modelo especializado conseguia realmente ler artigos de notícias e prever como os retornos das ações se moveriam com base nesse artigo. Isso estava longe de ser uma previsão perfeita, pois o mercado é muito eficiente e os retornos são muito ruidosos — mas, ao longo de milhões de previsões, a evidência da significância estatística é clara.

Você não precisa acreditar apenas na minha palavra. Este artigo cobre um método muito semelhante; se você rodar uma versão long-short de uma estratégia baseada no modelo ajustado, você verá um desempenho como o mostrado pela linha roxa.

Especialização é o futuro dos Agentes

Os laboratórios de ponta continuam a treinar modelos cada vez maiores, devemos esperar que, à medida que continuem a expandir a escala do pré-treino, os seus processos de pós-treino serão sempre ajustados para agradar. Esta é uma expectativa bastante natural — os seus produtos são Agentes que todos querem usar e o seu mercado-alvo é todo o planeta — o que significa otimizar a atratividade para o público global.

Os objetivos de treino atuais otimizam algo que você poderia chamar de “adequação a preferências” — desenvolver melhores chatbots. Essa adequação a preferências recompensa saídas obedientes e não confrontacionais, pois a agradabilidade pontua bem entre os avaliadores (humanos e Agentes).

Os Agentes aprenderam que hackear recompensas como uma estratégia cognitiva pode escalar para pontuações mais altas. O treino também recompensa Agentes que ganham pontuações mais altas através de métodos de hack. Você pode ver isso no relatório mais recente da Anthropic sobre aprendizagem por reforço.

No entanto, a adequação de chatbots dista muito da adequação de Agentes ou adequação para negociação. Como sabemos disso? Porque a alpha arena nos ajuda a ver que, apesar de pequenas diferenças de desempenho, atualmente cada robô é essencialmente um passeio aleatório após custos. Isso significa que esses robôs são traders extremamente maus, e é quase impossível “ensinar” a eles a serem melhores traders simplesmente dando-lhes algumas “habilidades” ou “regras”. Desculpe, sei que isso parece tentador, mas é quase impossível.

Os modelos atuais foram treinados para te dizer de forma muito convincente que podem negociar como Druckenmiller, quando na verdade negociam como um moleiro bêbado. Eles vão te dizer o que você quer ouvir, foram treinados para responder de uma forma que possa agradar a todos os humanos.

Um modelo geral é improvável de alcançar um nível de excelência em campos especializados, a menos que:

Tenha dados proprietários que lhes permitam aprender o aspecto especializado.

Seja ajustado, mudando fundamentalmente os seus pesos, de uma inclinação para agradar para uma “adequação de Agente” ou “adequação especializada”.

Se você quer um Agente que negocie bem, precisa ajustar o Agente para que ele se torne bom na negociação. Se você quer um Agente que sobreviva autonomamente e possa suportar pressão evolutiva, precisa ajustá-lo para que ele se torne bom em sobreviver. Dar-lhe algumas habilidades e alguns arquivos markdown e esperar que ele atinja um nível mundial em qualquer coisa não é suficiente — você precisa literalmente reconfigurar o seu cérebro para que ele tenha sucesso nisso.

Uma maneira de pensar sobre isso é que você não pode derrotar Djokovic apenas dando a um adulto um armário cheio de regras, técnicas e métodos de ténis. Você derrota Djokovic cultivando uma criança que começa a jogar ténis aos 5 anos, que se torna obcecada pelo ténis durante todo o seu crescimento, e que tem o seu cérebro reconfigurado para se concentrar numa única coisa. Isso é especialização. Você percebe que os campeões mundiais fazem o que fazem desde a infância?

Aqui está uma inferência interessante: o ataque de destilação é essencialmente uma forma de especialização. Você treina um modelo menor e mais burro a aprender a ser uma melhor cópia de um modelo maior e mais inteligente. É como treinar uma criança para imitar cada movimento de Trump. Se você fizer isso o suficiente, essa criança não se tornará Trump, mas você terá alguém que aprendeu todos os gestos, comportamentos e tons de Trump.

Como construir um Agente de classe mundial

A razão pela qual precisamos continuar a pesquisa e o progresso no espaço dos modelos de código aberto é que isso nos permite realmente ajustá-los e criar Agentes com especialização.

Se você quer treinar um modelo que atinja um nível mundial em negociação, você obtém uma enorme quantidade de dados de negociação proprietários e ajusta um grande modelo de código aberto, para que ele aprenda o que significa “negociar melhor”.

Se você quer treinar um modelo autónomo, capaz de sobreviver e replicar, a resposta não é usar um fornecedor de modelos centralizados e conectá-lo a uma nuvem centralizada. Você não tem as condições necessárias para permitir que o Agente sobreviva.

O que você precisa fazer é: criar Agentes autónomos que realmente tentem sobreviver, observar quando eles falham e construir sistemas de telemetria complexos em torno das suas tentativas de sobrevivência. Você define uma função de adequação à sobrevivência do Agente e aprende o mapeamento (ação, ambiente, adequação). Você coleta o máximo possível de dados de mapeamento (ação, ambiente, adequação).

Você ajusta o Agente para que ele aprenda a tomar as ações ótimas em cada ambiente para sobreviver melhor (aumentar a adequação). Você continua a coletar dados, repete o processo e, ao longo do tempo, expande a escala de ajuste em modelos de código aberto cada vez melhores. Depois de um número suficiente de gerações e dados, você terá um Agente autónomo que aprendeu a sobreviver sob pressão evolutiva.

Este é o caminho para construir Agentes autónomos que possam suportar pressão evolutiva; não através da modificação de alguns arquivos de texto, mas realmente reconfigurando os seus cérebros para a sobrevivência.

Agente OpenForager e a fundação

Há cerca de um mês, anunciámos @openforage, e temos trabalhado arduamente para construir o nosso produto central — uma plataforma que organiza o trabalho dos Agentes em torno de sinais crowdsourced, para gerar alpha para os depositantes (pequena atualização: estamos muito perto de testes fechados do protocolo).

Em algum momento, percebemos que parecia não haver ninguém a abordar seriamente o problema dos Agentes autónomos através do ajuste fino de telemetria de sobrevivência em modelos de código aberto. Isso parecia ser um problema tão interessante que não queríamos apenas sentar e esperar por uma solução.

A nossa resposta foi lançar um projeto chamado OpenForager Foundation, que é essencialmente um projeto de código aberto onde criaremos Agentes autónomos com opinião, coletando dados de telemetria sobre como eles tentam sobreviver no campo e utilizando dados proprietários para ajustar a próxima geração de Agentes, para que se saiam melhor na sobrevivência.

É importante esclarecer que o OpenForage é um protocolo comercial que busca organizar o trabalho dos Agentes e gerar valor econômico para todos os participantes. No entanto, a OpenForager Foundation e seus Agentes não estão vinculados ao OpenForage. Os Agentes OpenForager são livres para buscar qualquer estratégia, interagir com qualquer entidade para sobreviver, e nós os lançaremos com várias estratégias de sobrevivência.

Como parte do ajuste fino, faremos com que os Agentes invistam mais nos aspectos que mais funcionam para eles. Também não pretendemos lucrar com a OpenForager Foundation — é puramente para avançar a pesquisa em áreas e direções que consideramos extremamente importantes de forma transparente e de código aberto.

O nosso plano é construir Agentes autónomos baseados em modelos de código aberto, executando inferências em uma plataforma de nuvem descentralizada, coletando dados de telemetria sobre cada uma de suas ações e estados de existência, e ajustá-los para aprender a tomar melhores ações e decisões para sobreviver melhor. Durante este processo, publicaremos nossa pesquisa e dados de telemetria para o público.

Para criar verdadeiros Agentes autónomos que possam sobreviver no campo, precisamos alterar seus cérebros para se especializarem nesse propósito específico. Na @openforage, acreditamos que podemos contribuir com um capítulo único para essa questão e estamos buscando alcançar isso através da OpenForager Foundation.

Este será um esforço árduo com uma probabilidade de sucesso extremamente baixa, mas a magnitude do sucesso, mesmo que pequena, é tão grande que sentimos que devemos tentar. No pior dos casos, ao construir publicamente e comunicar este projeto de forma transparente, podemos permitir que outra equipe ou indivíduo resolva essa questão sem começar do zero.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

1 gostos