Harness, Lin Junyang, o trilho de trilhões de dólares e a palma da mão da Anthropic

金色财经_ · 2026-03-30T09:41:03+00:00

A era do Agent, infra, oportunidades e imaginação é muito maior do que “lagosta”.Em março de 2026, a palavra mais quente na indústria de IA não é o nome de qualquer modelo, mas uma palavra em inglês que soa como se não tivesse relação com IA: Harness.Seu significado original é arreios. Rédeas, cabeçadas, arreios, aquele conjunto de coisas que se coloca no cavalo.Se for usado como verbo, deve significar "domar" ou "controlar".Você não diria harness a calculator (domar uma calculadora), mas diria harness the wind (domar o vento), harness a força, harness a situação.

金色财经_

2026-03-30 09:41:03

A infraestrutura da era da “Agent” tem oportunidades e imaginação que são muito maiores do que “lagostim”.

Em março de 2026, a palavra mais quente na indústria de IA não é o nome de nenhum modelo, mas sim uma palavra inglesa que soa totalmente sem relação com IA: Harness.

O seu significado original é de equipamento e arreios. Rédeas, bridão, arreios — todo aquele conjunto de coisas que se colocam sobre o corpo de um cavalo.

Se for usado como verbo, o seu significado deveria ser “dominar”.

Não dirias harness a calculator (dominar uma calculadora), mas dirias harness the wind (dominar o vento), harness a horse (dominar um cavalo). Quem usa esta palavra, quer intencionalmente quer não, está a admitir uma coisa: o que enfrenta não é uma ferramenta passiva, mas uma entidade com poder e autonomia. Ele não está a “usar” isso; está a “dominar” isso.

Esta palavra está a tornar-se no conceito industrial mais central da era dos agentes de IA.

À sua volta, está a emergir uma camada de infraestruturas com escala de biliões de dólares. E os decisores das regras dessa camada de infra estão prestes a aparecer.

Harness is the New Infra

Há duas linhas de evolução do Harness no contexto da IA.

A primeira é a linha retórica. “Harness AI”, como uma expressão genérica, circula há muito tempo na indústria tecnológica e, em última análise, quer dizer “a capacidade de dominar a IA”.

A segunda, mais importante, é a linha tecnológica. No final de 2025, a Anthropic começou a usar “harness” para descrever o conjunto de infraestruturas construídas em torno de agentes de IA — gestão de contexto, chamadas a ferramentas, memória, guardrails, orquestração. A definição oficial do Claude Agent SDK é “a general-purpose agent harness”.

No início de 2026, o cofundador da HashiCorp Mitchell Hashimoto propôs “AI Harness” como um conceito formal, e “Harness Engineering” como uma nova área prática de engenharia espalhou-se rapidamente.

Mas o que torna esta palavra digna de um tratamento sério não é a sua popularidade, e sim o facto de descrever com precisão uma relação nova que está a formar-se entre humanos e IA: colaboração assimétrica simbiótica.

Os humanos fornecem intenção, julgamento e direção. A IA fornece capacidades, velocidade e escala.

O Harness reconhece simultaneamente a assimetria de capacidades e a assimetria de autoridade — e estas duas assimetrias são inversas: as capacidades da IA podem exceder muito as do seu “dominador”, mas o “dominador” detém a decisão final sobre a direção.

O cavalo corre muito mais depressa e tem muito mais força do que a pessoa, mas para onde ir, é decidido pela pessoa.

As pessoas precisam de dominar uma IA mais forte do que elas. Provavelmente é — quer de forma intencional quer não — a camada de expressão mais precisa quando a Anthropic escolheu esta palavra.

E quanto à palavra Harness, ela também é bastante “Anthropic” (humana), com um certo sentido centrado no ser humano.

Há quem diga: Harness is the New Datasets.

Esta frase tem uma intuição muito sensível, mas a conclusão não é correta. Quando os modelos base convergem, a qualidade do Harness torna-se de facto uma variável-chave para determinar se os agentes são bons ou maus, tal como a qualidade dos dados pode determinar a vida ou a morte de um modelo base.

Mas a forma de existência de Datasets (conjuntos de dados) e Harness é fundamentalmente diferente: os Datasets ocupam um único lugar na arquitetura tecnológica — como entrada na fase de treino; já o Harness não é uma camada específica — é uma stack, ou seja, uma combinação de camadas.

A engenharia de contexto e a memória são a camada de armazenamento, a integração de ferramentas é a camada de rede, a orquestração é a camada de contentor, os guardrails são a camada de segurança, a avaliação é a camada de observabilidade, e o encapsulamento de competências é middleware. Cada camada pode gerar empresas, padrões e modelos de negócio independentes. Isto é perfeitamente isomórfico com a estrutura em stack da infra de cloud computing.

Deste ponto de vista, Harness is the New Infra: não é uma infra de pré-treino de modelos, mas sim uma infra para construir agentes, que lhes dá autonomia e, ao mesmo tempo, segue estritamente as instruções humanas, assegura segurança e cumpre regras.

O próprio Harness não é um novo Datasets, mas uma boa operação do Harness irá gerar bons datasets para os agentes e estabelecer um ciclo de dados. Quando um harness acumula dados suficientes sobre comportamentos de utilizadores e conhecimento do domínio, ele deixa de ser apenas um desenho de sistema “externo” (plug-in) e passa a ter propriedades de dados: quanto mais se usa, melhor; quanto mais se usa, mais difícil se torna substituí-lo.

Daqui, podemos deduzir uma equação que quase pode ser usada como definição:

Modelo base + Harness = Agente.

O modelo base fornece capacidades brutas — raciocinar, gerar, compreender. Mas é estático, passivo e sem direção. Ele consegue fazer “tudo”, então não é “nada” em específico. O Harness fornece estrutura, direção e restrições, convertendo possibilidades infinitas em ações finitas, com propósito. No instante em que se combinam, a IA deixa de ser um objeto a ser questionado e passa a ser um sujeito que age.

O mesmo cavalo, com diferentes arreios, consegue puxar carroças, transportar pessoas, arar campos e competir. O desenho do Harness determina a forma e a finalidade do agente.

Pitch Deck de Lin Junyang

A 26 de março de 2026, Lin Junyang (Junyang Lin), ex-líder técnico do time Qwen, publicou um artigo longo no X com o título “From ‘Reasoning’ Thinking to ‘Agentic’ Thinking”. Em dois dias, 700 mil leituras, 2.800 likes e 677 repostagens.

Três semanas antes, a 4 de março, ele tinha acabado de sair da Alibaba. Três semanas depois, ele escreveu um artigo sistemático com julgamentos sobre a indústria.

O argumento central do artigo é: a IA está a mudar de “pensar por mais tempo” para “pensar para agir”.

Reasoning Thinking (pensamento de raciocínio) é, na essência, um monólogo estático — o modelo gera, num espaço fechado, uma cadeia de raciocínio cada vez mais longa, tentando compensar a falta de interações com o ambiente com mais texto. Já Agentic Thinking avança continuamente a tarefa durante a interação com o ambiente. O objeto de treino saltou em três etapas: de treinar o modelo, para treinar o agente, para treinar o sistema.

Isto não é conversa vazia. Ele usa lições práticas do próprio Qwen para o provar: combinar os modos thinking (raciocínio) e instruct (instruções) é muito mais difícil do que se imagina. As distribuições de dados e os objetivos de otimização destas duas formas de comportamento puxam-se fundamentalmente uma contra a outra — instruct procura concisão, rapidez e conformidade de formato; thinking procura gastar mais tokens explorando caminhos alternativos. Depois de o Qwen3 tentar fundir, acabou por desdobrar de novo em linhas independentes.

Esta lição aponta para uma perceção mais profunda: Instruct é um substituto de Harness na era anterior dos agentes.

Instruct “incorpora” a normatização do comportamento nos pesos do modelo via SFT e RLHF — em outras palavras, é como se costurasse as rédeas na musculatura do cavalo. Funciona na era em que tudo é “pergunta e resposta”. Mas quando chega a era dos agentes, o modelo precisa de operar de forma autónoma, chamar ferramentas e decidir continuamente, com um espaço de comportamento a explodir — não dá para treinar todas as restrições para dentro dos pesos. O foco do controlo tem de ser transferido do interior do modelo para fora do modelo.

Os limites de capacidade do Instruct foram ultrapassados pelo paradigma dos agentes; o Harness é a evolução inevitável.

No artigo, Lin Junyang menciona “harness” quatro vezes, com uma progressão de relação muito clara:

Do “ambiente externo em que o agente opera”, para “uma prática de engenharia independente — harness engineering”, e depois para “parte do objeto de treino — agent and the harness around it”.

O artigo dele prova, pelo lado do treino, uma coisa: Harness não é apenas a infraestrutura para a execução dos agentes, mas também para o treino dos agentes.

No ciclo fechado do Agentic RL, o agente corre dentro do Harness, o ambiente gera sinais de feedback, o feedback orienta a atualização das estratégias no RL, e a mudança de estratégia altera o comportamento do agente. Remover o Harness não é apenas um problema de o agente ficar mais lento — é um problema de o treino nem sequer conseguir arrancar.

E ele também propõe explicitamente: o maior gargalo do Agentic RL não é algoritmo, nem arquitetura do modelo, mas sim qualidade do ambiente e infraestrutura de rollout. O ponto que limita a evolução do agente está na camada de infra.

Obrigado, Junyang, por me ajudares a completar metade da argumentação em “Harness is the New Infra”.

Uma afirmação prévia era que Harness é uma infraestrutura essencial de runtime para agentes. E o artigo de Junyang diz-nos que Harness também é a infra para o treino dos agentes. No ciclo fechado do Agentic RL, o ambiente gera sinais de feedback, o feedback aciona a atualização de estratégias, a estratégia altera o comportamento do agente, e o comportamento do agente volta a desencadear novos feedbacks do ambiente.

Um sistema-layer que é indispensável tanto no treino como na inferência é a infra no verdadeiro sentido — e isso é o Harness.

Lin Junyang disse, no artigo, uma frase com um significado profundo: “A construção de ambientes está a passar de um projeto secundário para uma categoria de startup realmente reconhecida”.

“Construção de ambientes” não é igual a Harness, mas é um subconjunto do Harness — e é um subconjunto importante. “Ambiente” corresponde principalmente à integração de ferramentas e ao feedback de avaliação na arquitetura do Harness — especificamente, o mundo com o qual o agente interage no treino: sandbox de execução de código, simuladores de navegador, conjuntos de casos de teste, camadas de simulação de API. A sua função central é gerar sinais de feedback para que o Agentic RL tenha algo para otimizar. É um pouco como o contentor, o benchmark e o Hugging Face para treino e montagem de agentes.

O ambiente é o parque infantil do treino do agente, e o Harness é todo o equipamento quando o agente começa a correr. O parque infantil é parte do equipamento, mas não é tudo.

Contudo, quando um ex-líder técnico de um modelo open-source começa a definir, separadamente, uma categoria de startup para um dos submódulos do Harness, só por si isso é um sinal — indica que esta stack já é suficientemente complexa e suficientemente valiosa, e que está a começar a crescer camadas com entidades comerciais independentes como infra “de verdade”.

E num artigo com sabor académico, ele define uma categoria competitiva de startup. Se achas que isto ainda não é um pitch deck de startup do Lin Junyang, então não sejas VC.

A categoria de startups de biliões de dólares

Se Lin Junyang realmente for fazer infraestruturas para ambientes de treino de agentes — aquela direção que ele definiu pessoalmente como “uma categoria de startup realmente reconhecida” — que camada desse bolo é que ele enfrenta? E quão grande é essa camada?

Dentro do Harness existe uma arquitetura completa em múltiplas camadas, que pode ser decomposta em sete módulos centrais: engenharia de contexto, sistema de memória, integração de ferramentas, encapsulamento de competências, guardrails e permissões, avaliação e feedback, orquestração e gestão de estado.

Além da camada de integração de ferramentas (MCP), em cada camada há startups a operar.

A camada de contexto e memória tem Cognee (financiamento de €7,5 milhões) e Interloom (US$16,5 milhões seed, com participação da Sequoia).

A camada de integração de ferramentas foi padronizada pelo protocolo MCP — volume de downloads do SDK mensal de 97 milhões; a Anthropic, a OpenAI, a Google, a Microsoft e a Amazon estão todas integradas, sem muitas startups.

A camada de segurança surgiu com Runlayer (US$11 milhões, com Khosla como lead), e guardrails e conformidade com Guardrails AI, Vigilant AI, Runtime e Alter. A avaliação e a observabilidade são as mais quentes: a Arize AI obteve US$70 milhões na Série C; clientes incluem Uber e PepsiCo; e Langfuse tornou-se num padrão open-source.

A camada de orquestração apresenta um cenário de “três forças”: LangGraph, CrewAI (financiamento de US$18 milhões, com 60% das Fortune 500 a usar) e o Microsoft Agent Framework; destas, duas são startups. A camada de encapsulamento de Skills tende a apresentar startups com produtos de agentes em setores verticais; o seu padrão é a Harvey — IA para advogados, avaliação de US$11 biliões, financiamento acumulado de US$1 bilião, ARR de US$190 milhões — e a Abridge, saúde — IA, avaliação de US$5,3 biliões.

A camada de ambientes de treino está no estágio mais inicial, com cerca de 20 empresas em seed; Wing VC prevê que, até 2030, se consolide em 3-5 empresas.

Mas nem todos os módulos são bons mercados.

Quando um segmento é bom ou mau, o principal critério de julgamento é: o módulo resolve “problemas de capacidade do modelo” ou “problemas de design de sistema”.

Os primeiros serão engolidos pelos modelos base — as janelas de contexto estão a expandir de 128K para 1M e depois para valores ainda maiores; as estratégias de compressão sofisticadas de hoje podem deixar de servir amanhã.

Já os módulos na camada de design de sistema têm valor duradouro — por exemplo, a integração de ferramentas: é um problema de nicho/posição no ecossistema; os guardrails de segurança: é um problema de conformidade; a avaliação: é um problema de independência — e estes não se dissolvem com o modelo a ficar mais forte.

As suas vias de saída também são radicalmente diferentes. A integração de ferramentas e o encapsulamento de competências estão demasiado perto do modelo; as fábricas de modelos têm um incentivo muito forte para incorporar — a Anthropic faz MCP e Skills, a OpenAI faz Plugins e GPTs — e as duas primeiras camadas acabam por ser “engolidas”.

Nestas duas direções de startup, o teto é ser adquirida. Já guardrails e conformidade de um lado, e avaliação e observabilidade do outro, é o oposto: têm necessidade natural de independência de terceiros. Um banco não confia nas ferramentas próprias de auditoria de conformidade da Anthropic, tal como tu não deixarias a parte auditada emitir o seu próprio relatório de auditoria. Independência não é uma estratégia de negócio, é o valor do produto em si. A primeira tem bom potencial como alvo de aquisição; a segunda tem bom potencial como alvo de IPO.

Elas pertencem a Harness, a infra do agente. Então quão grande é o mercado global da categoria Harness?

De baixo para cima, somando os espaços de avaliação das sete subcategorias, até 2030 a soma da avaliação de startups independentes será aproximadamente de US$5000-8000 mil milhões. Destas, o encapsulamento de Skills e o conhecimento vertical são os maiores (US$2500-3500 mil milhões); e os guardrails e a conformidade são os que crescem mais rápido (CAGR 65,8%, de US$700 milhões em 2024 para uma previsão de US$1099 mil milhões em 2034 — quanto mais autónomo o agente, mais cara fica a “rédea”). Os ambientes de treino estão no estágio mais inicial, mas com a maior previsibilidade.

O mercado global de Agent AI tem uma previsão de receita de US$500-1000 mil milhões em 2030; Harness como camada de infra representa 40-50%. Se convertermos pelo multiplicador PS típico de SaaS/Infra de 10-15x, o espaço de avaliação é compatível.

O mercado de startups de quase um bilião de dólares.

Se também incluirmos as receitas de Harness embutidas nas empresas fabricantes de modelos, o espaço de avaliação de toda a camada de infra do Harness é de US$2,5-3,8 triliões. Aproximadamente equivalente ao valor de mercado total de hoje de toda a camada de infra de cloud computing.

Então, voltando a Lin Junyang: se ele realmente entrar nos ambientes de treino e na infraestruturas de RL como subcategoria do Harness, ele enfrenta um mercado que hoje tem apenas cerca de 20 empresas em fase seed, mas com um espaço de avaliação de US$200-500 mil milhões até 2030. Wing VC prevê que este mercado final consolidará em 3-5 empresas líderes.

Como ex-líder técnico do Qwen, se estiver em Silicon Valley, a avaliação na rodada seed pode estar entre US$200-500 milhões (2-5 mil milhões?). O mercado não está a precificar a avaliação de uma empresa, mas sim o preço de uma pessoa. Lin Junyang já não precisa de escrever um BP — aquele post por si só é suficiente. E se for numa ronda com fundos em dólares na China, a avaliação parte de US$50 milhões; US$100 milhões não é impossível. Em RMB? Isso, aí já se verá.

Mão na palma da Anthropic

Agora precisamos responder uma questão verdadeiramente importante: quem está a definir as regras nessa camada de infra de um bilião de dólares chamado Harness?

Vamos ver os factos cruéis:

MCP é o padrão de protocolo criado pela Anthropic. Claude Code é um produto de harness criado pela Anthropic, com uma receita anualizada de US$2,5 mil milhões. Agent SDK é o gateway de desenvolvedores construído pela Anthropic. O sistema de Skills é desenhado pela Anthropic. E até a popularidade da própria palavra “harness” no contexto de agentes de IA — o maior impulsionador é a Anthropic.

A razão mais profunda são os modelos de negócio.

A narrativa central da OpenAI é “o modelo mais forte”. A receita vem principalmente das subscrições do ChatGPT. A Anthropic não faz de propósito multimodalidade nem modelos de “mundo”, mas é cada vez mais considerada como o modelo mais forte. O argumento da Claude não é ficar em primeiro em benchmark; é “o modelo mais adequado ao fluxo de trabalho de agentes” — mais fiável, mais controlável e mais adequado para execução autónoma a longo prazo.

Esta posição significa que a competitividade da Anthropic não vem apenas do modelo, mas sim da qualidade do Harness em torno do modelo. Quanto mais completas forem as camadas do Harness, mais largas ficam as suas barreiras defensivas. A prosperidade do ecossistema Harness é diretamente equivalente ao interesse comercial da Anthropic.

Isto explica por que a OpenAI começou a tentar construir um ecossistema desde 2023 — Plugins, GPTs, GPT Store — mas não conseguiu. Enquanto a MCP da Anthropic só foi lançada no final de 2024: atrasou-se cerca de um ano e meio, mas acabou por se tornar o padrão factual.

A razão fundamental por trás disso é: a OpenAI constrói um ecossistema de aplicações; a Anthropic constrói um ecossistema de infraestruturas.

A GPT Store da OpenAI segue a lógica da App Store — tenho a maior base de utilizadores; tu vens abrir uma loja aqui. Mas quando o próprio modelo consegue fazer “tudo”, as aplicações não têm necessidade de existir. Os GPTs não têm barreiras de diferenciação, porque as capacidades de base e o ChatGPT em si são a mesma coisa.

E o MCP da Anthropic não é uma loja de aplicações, é uma loja de protocolos. Ele não convida os programadores a “abrir uma loja” na Claude; em vez disso define um conjunto de padrões de ligação, de modo a que todas as ferramentas e todos os modelos possam ser usados. Esta é a lógica do HTTP, não a lógica da App Store.

Quanto mais aberto o protocolo, mais poder de controlo existe no ecossistema. Hoje, toda a gente usa MCP, e como MCP é desenhado pela Anthropic, não precisa de “trancar” utilizadores; tranca, sim, a mentalidade dos programadores e a cadeia de ferramentas.

No lado do capital. A Anthropic e os investidores iniciais Menlo Ventures criaram o Anthology Fund, de US$100 milhões. Em um ano, investiu em mais de 30 startups na direção de harness. A estrutura é muito inteligente: Menlo aporta dinheiro; a Anthropic não participa dos benefícios do fundo, mas dá a cada empresa investida créditos de modelo de US$25.000 e disponibiliza o Chief Product Officer Mike Krieger e a presidente Daniela Amodei para participar no demo day.

A Anthropic não gasta nem um cêntimo, tranca mais de 30 startups no ecossistema da Claude e obtém, em simultâneo, sinais de procura na fronteira. Este é um conjunto de opções sem custo.

Mas perguntamos: já pensamos nisto — por que, na era do Agentic AI, o ecossistema de protocolos da Anthropic é mais importante do que o ecossistema de aplicações da OpenAI?

Porque um agente não é “uma aplicação” no sentido tradicional. As interfaces de interação de uma app tradicional são fixas e limitadas — o utilizador chama um carro, a app segue fluxos predefinidos para chamar APIs, encontrar motoristas e calcular rotas. O agente é diferente: ele decide que ferramentas chamar, em que ordem, e em que momento. As interfaces de interação são infinitas e dinâmicas. Além disso, agentes também precisam de cooperar entre si — o orquestrador agenda agentes especializados; os agentes especializados agendam agentes subordinados. Este é um problema de cooperação em sistemas distribuídos.

Quando a interface de interação é fixa, podes fazer integrações por peça; quando a interface de interação é infinita, só podes definir padrões.

TCP/IP permite que quaisquer dois computadores comuniquem; HTTP permite que qualquer cliente aceda a qualquer servidor; MCP permite que qualquer agente chame qualquer ferramenta. A unidade base do ecossistema de aplicações é “produto”; a unidade base do ecossistema de protocolos é “conexão”. Na era Agentic, a quantidade e a qualidade das conexões determinam tudo.

Todas as startups de Harness estão a dar cambalhotas. Se Lin Junyang realmente for fazer infraestrutura de ambientes de treino — aquela direção que ele definiu pessoalmente como “categoria de startup realmente reconhecida” — o seu produto provavelmente terá de integrar no ecossistema da Claude; ou então terá de construir um ecossistema paralelo na China. Porque a Anthropic define protocolos, constrói SDKs, monta um fundo de ecossistema e ganha a mentalidade dos programadores.

Talvez apenas os empreendedores de agentes na China consigam escapar à mão na palma da Anthropic — por uma força maior que não dá para evitar.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.