Introdução do DeepTech: Este artigo vem do pesquisador da a16z Oliver Hsu, e é o mapa de investimento mais sistemático em “IA física” desde 2026. Sua avaliação é: a linha principal de escala de linguagem/código ainda está em expansão, mas as verdadeiras capacidades revolucionárias da próxima geração estão nas três áreas próximas — robótica geral, ciência autônoma (cientistas de IA), interfaces cérebro-máquina e outros novos interfaces homem-máquina. O autor desmembra as cinco capacidades fundamentais que as sustentam e argumenta que essas três frentes formarão um ciclo de feedback estrutural que se alimenta mutuamente. Para quem quer entender a lógica de investimento em IA física, este é atualmente o quadro mais completo.

O paradigma dominante em IA hoje gira em torno de linguagem e código. A lei de escala de grandes modelos de linguagem já está bem definida, o ciclo de negócios de dados, poder computacional e melhorias de algoritmos está em movimento, e os retornos de cada avanço de capacidade ainda são significativos, sendo em grande parte visíveis. Essa abordagem justifica o capital e atenção que atrai.

Por outro lado, um conjunto de áreas adjacentes já está em fase de gestação, com avanços substanciais. Incluem-se aqui rotas como VLA (modelo de visão-linguagem-ação), WAM (modelo de ação do mundo), além de IA para ciência física e científica, e novas interfaces de interação humano-máquina (incluindo interfaces cérebro-máquina e neurotecnologia). Além da tecnologia em si, esses campos estão começando a atrair talentos, capital e fundadores. As linguagens de tecnologia de ponta estendem-se ao mundo físico, e os avanços dos últimos 18 meses indicam que esses domínios logo entrarão em suas fases de escala.

Em qualquer paradigma tecnológico, os pontos de maior delta entre capacidade atual e potencial de médio prazo geralmente apresentam duas características: primeiro, podem se beneficiar da mesma rodada de escala que impulsiona a fronteira atual; segundo, estão a uma etapa de distância do paradigma mainstream — o suficiente para herdar sua infraestrutura e impulso de pesquisa, mas ainda exigindo trabalho adicional substancial. Essa distância tem um duplo efeito: cria uma barreira de entrada para seguidores rápidos e também define um espaço de problema mais escasso e menos saturado, aumentando a probabilidade de surgimento de novas capacidades — justamente porque os atalhos ainda não foram totalmente percorridos.

Legenda: Relação entre o paradigma atual de IA (linguagem/código) e os sistemas de fronteira adjacentes

Hoje, três áreas se encaixam nessa descrição: aprendizado de robôs, ciência autônoma (especialmente materiais e ciências da vida), e novas interfaces homem-máquina (incluindo interfaces cérebro-máquina, fala silenciosa, wearables neurais, e novos canais sensoriais como olfato digital). Elas não operam de forma totalmente independente, mas compartilham um conjunto de primitivas fundamentais: representação de dinâmica física, arquiteturas para ações corporais, infraestrutura de simulação e dados sintéticos, canais sensoriais em expansão contínua, e sistemas de agentes em ciclo fechado. Essas áreas se reforçam mutuamente por meio de feedback intersetorial. São também os locais mais propensos a emergir capacidades de mudança de paradigma — resultado da interação entre escala de modelos, implementação física e novos tipos de dados, que juntos geram uma inovação de ruptura.

Este artigo irá detalhar essas primitivas tecnológicas, explicar por que esses três campos representam oportunidades de ponta, e propor que sua interação reforçada forma um ciclo de feedback que impulsiona a IA para o mundo físico.

Cinco primitivas fundamentais

Antes de explorar aplicações específicas, é importante entender as bases tecnológicas compartilhadas por esses sistemas de ponta. Para levar IA de ponta ao mundo físico, dependemos de cinco primitivas principais. Essas tecnologias não são exclusivas de um único campo de aplicação; são componentes — capazes de construir sistemas que estendam a IA ao mundo físico. Sua maturidade simultânea é a razão pela qual este momento é particularmente especial.

Legenda: As cinco primitivas fundamentais que sustentam a IA física

Primitiva 1: Representação de dinâmica física aprendida

A primitiva mais fundamental é a capacidade de aprender uma representação compacta e geral do comportamento do mundo físico — como objetos se movem, deformam, colidem, reagem às forças. Sem essa camada, cada sistema de IA física teria que aprender as leis físicas de seu domínio do zero, o que é inviável.

Várias abordagens estão se aproximando desse objetivo por diferentes caminhos. O modelo VLA parte do topo: usando modelos pré-treinados de visão-linguagem — que já possuem compreensão semântica de objetos, relações espaciais e linguagem — adicionando um decodificador de ações que gera comandos de controle de movimento. O ponto-chave é que o custo de aprender a “ver” e “entender o mundo” pode ser diluído pelo pré-treinamento em escala de internet de imagens e textos. Physical Intelligence π₀, Google DeepMind Gemini Robotics, NVIDIA GR00T N1 — todos estão validando essa arquitetura em escalas cada vez maiores.

O modelo WAM parte de baixo: usando um Transformer de difusão de vídeo treinado em vídeos em escala de internet, herdando fortes priors sobre dinâmica física (como objetos caem, são ocultados, interagem sob força), e combinando esses priors com geração de ações. A NVIDIA DreamZero demonstra generalização zero-shot para tarefas e ambientes novos, com adaptação a poucos dados a partir de demonstrações humanas, melhorando a generalização ao mundo real.

Uma terceira rota, talvez a mais inspiradora para o futuro, pula toda a pré-treinamento de VLM e difusão de vídeo. O modelo GEN-1 da Generalist é um modelo de base com corpo físico treinado do zero, usando mais de 500 mil horas de dados de interação física real coletados principalmente por dispositivos vestíveis de baixo custo, de pessoas realizando tarefas cotidianas. Não é um VLA padrão (sem backbone de visão-linguagem ajustado), nem WAM. É um modelo de base projetado especificamente para interação física, aprendendo não as estatísticas de imagens, textos ou vídeos da internet, mas as estatísticas de contato humano com objetos.

Empresas como World Labs trabalham com inteligência espacial, que é valiosa para essa primitiva, pois preenche uma lacuna comum a VLA, WAM e modelos de corpo nativo: todos eles não modelam explicitamente a estrutura tridimensional do ambiente. VLA herda características visuais 2D de pré-treinamento; WAM aprende dinâmica de vídeos, que são projeções 2D de ambientes 3D; modelos treinados com sensores vestíveis capturam força e cinemática, mas não a geometria do cenário. Modelos de inteligência espacial podem ajudar a reconstruir e gerar a estrutura completa 3D do ambiente físico, permitindo raciocínio sobre geometria, iluminação, oclusões, relações entre objetos e disposição espacial.

A convergência dessas rotas é um ponto central. Independentemente de a representação vir de VLM, de treinamento colaborativo em vídeos ou de dados de interação física nativos, a primitiva fundamental é a mesma: um modelo de comportamento físico do mundo, compacto e transferível. Os dados que alimentam essa representação — incluindo vídeos de internet, trajetórias de robôs e, em breve, vastos dados de experiência humana coletados por dispositivos vestíveis — são enormes. Essa representação pode servir tanto um robô aprendendo a dobrar toalhas quanto um laboratório autônomo prevendo reações químicas, ou um neurodecodificador interpretando intenções de agarrar no córtex motor.

Primitiva 2: Arquitetura para ações corporais

Ter apenas representação física não basta. Para traduzir “compreensão” em ações físicas confiáveis, é preciso uma arquitetura que resolva questões interligadas: mapear intenções de alto nível em comandos de movimento contínuos, manter consistência em sequências longas, operar com baixa latência em tempo real, e evoluir com a experiência.

A arquitetura em camadas com dois sistemas já se tornou padrão para tarefas corporais complexas: um sistema lento, forte, de compreensão de cena e raciocínio (Sistema 2), responsável por interpretação e planejamento; e um sistema rápido, leve, de controle de movimento (Sistema 1). GR00T N1, Gemini Robotics, Helix da Figure adotam variações dessa abordagem, resolvendo a tensão entre modelos grandes de raciocínio e controle em milissegundos. O modelo Generalist usa uma abordagem de “raciocínio ressonante”, onde pensamento e ação ocorrem simultaneamente.

Os mecanismos de geração de ações também evoluem rapidamente. π₀, baseado em correspondência de fluxo e difusão, tornou-se o método padrão para gerar movimentos suaves e contínuos, substituindo tokenização discreta herdada de modelos de linguagem. Essas abordagens tratam a geração de ações como um processo de remoção de ruído semelhante à síntese de imagens, produzindo trajetórias mais suaves e robustas a erros, superando previsões autoregressivas de tokens.

A evolução mais importante na arquitetura pode ser a expansão do aprendizado por reforço (RL) para modelos pré-treinados de VLA — um modelo treinado em demonstrações, que pode continuar a melhorar por prática autônoma, como humanos que refinam habilidades com repetição e autoajuste. O trabalho π*₀.₆ da Physical Intelligence demonstra essa ideia em escala: usando RECAP (Aprendizado por Reforço com Correções Baseado em Vantagem), que resolve o problema de crédito em sequências longas. Por exemplo, se um robô tenta pegar uma alavanca de café expresso com um ângulo ligeiramente errado, a falha pode só se manifestar após várias etapas. O RL permite atribuir crédito a ações anteriores, ajustando a estratégia. RECAP treina uma função de valor que estima a probabilidade de sucesso a partir de qualquer estado intermediário, e usa essa estimativa para selecionar ações de alta vantagem. Integra dados heterogêneos — demonstrações, experiências autônomas, correções remotas — em um pipeline único de treinamento.

Essa abordagem é uma notícia promissora para o futuro do RL em ações físicas. π*₀.₆ consegue, em ambientes domésticos reais, empilhar 50 tipos de roupas nunca vistos, montar caixas de papelão com confiabilidade, fazer café expresso em máquinas profissionais por horas sem intervenção. Em tarefas difíceis, o método dobrou a taxa de sucesso em relação a baselines de imitação pura, e reduziu a taxa de falha pela metade. Além disso, demonstra que o treinamento pós-RL gera comportamentos qualitativamente superiores à imitação: movimentos de recuperação mais suaves, estratégias de agarrar mais eficientes, correções adaptativas que não estavam nos dados de demonstração.

Esses resultados indicam uma coisa: o impulso de escala computacional de GPT-2 a GPT-4, que impulsionou a escala de modelos, começa a operar também na área de ações corporais — embora ainda em uma fase inicial, com espaços de ação contínuos, de alta dimensionalidade, e com as duras restrições do mundo físico.

Primitiva 3: Infraestrutura de simulação e dados sintéticos para escala

Na linguagem, o problema de dados foi resolvido pela internet: trilhões de tokens de texto gerados naturalmente e de acesso gratuito. No mundo físico, o problema é várias ordens de magnitude maior — e essa é uma constatação amplamente aceita. A fonte mais direta de sinal é o crescimento de startups de fornecimento de dados físicos. Coletar trajetórias reais de robôs é caro, arriscado e limitado em diversidade. Modelos de linguagem podem aprender com bilhões de diálogos; robôs, por enquanto, não podem ter bilhões de interações físicas.

A geração de dados sintéticos e simulações é a infraestrutura fundamental para superar essa limitação. Sua maturidade é uma das razões principais pelas quais a IA física está acelerando agora, e não há cinco anos. Os stacks modernos combinam motores de simulação baseados em física, renderização fotorrealista por ray tracing, geração procedural de ambientes, e modelos de mundo que geram vídeos fotorrealistas a partir de entradas simuladas — fechando o ciclo sim-to-real. Desde reconstruções neurais de ambientes reais (que podem ser feitas com um smartphone) até a criação de ativos 3D precisos, e geração de grandes volumes de dados sintéticos anotados automaticamente.

A melhoria na infraestrutura de simulação muda a economia da IA física. Se o gargalo passa de “coletar dados reais” para “projetar ambientes virtuais diversos”, os custos despencam. A simulação escala com poder computacional, sem depender de hardware físico ou mão de obra. Essa mudança é análoga à transformação do treinamento de modelos de linguagem com dados de texto na internet, e representa um grande potencial de alavancagem para o ecossistema de IA física.

Mas simulação não é só para primitivas de robótica. A mesma infraestrutura serve para ciência autônoma (digital twins de laboratórios, simulações para hipóteses), novas interfaces (treinamento de decodificadores BCI, sensores sintéticos), e outros domínios de interação IA-mundo físico. A simulação é a engine de dados universal para IA física.

Primitiva 4: Ampliação dos canais sensoriais

Os sinais do mundo físico são muito mais ricos do que visão e linguagem. Tato transmite propriedades de materiais, estabilidade de pegada, geometria de contato — informações invisíveis a câmeras. Os sinais neurais, com largura de banda muito maior que qualquer interface humano-máquina atual, codificam intenções de movimento, estados cognitivos, experiências sensoriais. Atividades subglóticos (como atividade muscular) já codificam intenções de fala antes mesmo de gerar som. A quarta primitiva é a rápida expansão de canais sensoriais acessíveis à IA — não só por pesquisa, mas por uma ecologia de dispositivos, softwares e infraestrutura de consumo.

Legenda: Canais sensoriais de IA em expansão, de AR e EMG a interfaces cérebro-máquina

O indicador mais direto é o surgimento de novos dispositivos. Dispositivos de AR melhoraram muito em experiência e forma nos últimos anos (com aplicações comerciais e industriais já em uso); wearables focados em voz permitem que IA de linguagem tenha contexto físico mais completo — eles realmente acompanham o usuário no ambiente. A longo prazo, interfaces neurais podem abrir canais de interação mais completos. A mudança na computação trazida pela IA cria uma oportunidade de elevar drasticamente a interação humano-máquina, com empresas como Sesame desenvolvendo novos canais e dispositivos.

A fala, como canal mais maduro, também impulsiona novas formas de interação. Produtos como Wispr Flow priorizam a fala como entrada principal (devido à alta densidade de informação e vantagens naturais), e o mercado de interfaces de fala silenciosa também melhora. Dispositivos de fala silenciosa usam sensores para captar movimentos da língua e das cordas vocais, reconhecendo linguagem sem som — uma modalidade de interação humano-máquina com maior densidade de informação.

Interfaces cérebro-máquina (implantáveis e não invasivas) representam uma fronteira mais avançada, com ecossistemas comerciais em rápida evolução. Sinais aparecem em validações clínicas, aprovações regulatórias, plataformas integradas e investimentos institucionais — uma evolução que há poucos anos era exclusivamente acadêmica.

A percepção tátil também está entrando na arquitetura de IA corporal, com alguns modelos de robótica começando a tratar o tato como uma capacidade fundamental. Interfaces olfativas estão se tornando produtos reais: dispositivos vestíveis com geradores de odores em escala de milissegundos, demonstrados em aplicações de realidade mista; modelos de olfato começando a se combinar com sistemas de IA visual para monitoramento químico.

O padrão comum dessas evoluções é a convergência em limites extremos. Óculos de AR geram continuamente dados visuais e espaciais do usuário e do ambiente; pulseiras EMG captam intenções de movimento; interfaces silenciosas captam a relação entre atividade subglótica e fala; BCI de alta resolução decodificam atividade neural; sensores táteis captam dinâmica de contato. Cada novo dispositivo também é uma plataforma de geração de dados, alimentando múltiplos domínios de modelos. Um robô treinado com dados de EMG para inferir intenções de movimento é diferente de um treinado apenas com dados de controle remoto; uma interface de laboratório que responde a comandos subglóticos é diferente de uma controlada por teclado; um decodificador neural treinado com dados de alta densidade produz representações de movimento que outros canais não podem fornecer.

A disseminação desses dispositivos expande o espaço de dados acessível para sistemas de IA física, impulsionada em grande parte por empresas de consumo com forte capital, e não apenas por laboratórios acadêmicos. Isso cria um ciclo de dados que acompanha a adoção de mercado.

Primitiva 5: Sistemas de agentes em ciclo fechado

Por fim, uma primitiva mais de nível arquitetural: sistemas que integram percepção, raciocínio e ação de forma contínua, autônoma e em ciclo fechado, operando por longos períodos sem intervenção humana.

No domínio de modelos de linguagem, isso se traduz na emergência de agentes inteligentes — com raciocínio em múltiplas etapas, uso de ferramentas, auto-correção — levando o modelo de uma ferramenta de perguntas e respostas a um solucionador autônomo de problemas. No mundo físico, uma transformação semelhante está ocorrendo, mas com requisitos muito mais rigorosos. Um agente de linguagem pode cometer erros e retroceder sem custo; um agente físico que derruba uma garrafa de reagentes não pode simplesmente desfazer o erro.

Sistemas de agentes físicos diferenciam-se de seus equivalentes digitais por três características: primeiro, precisam estar integrados a experimentos ou operações em ciclo fechado, conectando-se diretamente a fluxos de dados de instrumentos, sensores de estado físico e primitivas de execução, para que o raciocínio seja aplicado à realidade física, não apenas a descrições textuais; segundo, requerem persistência em sequências longas — memória, rastreamento, segurança, recuperação — conectando múltiplos ciclos de operação; terceiro, precisam de adaptação em ciclo fechado — ajustando estratégias com base nos resultados físicos, não apenas em feedback textual.

Essa primitiva integra capacidades independentes (bons modelos de mundo, arquiteturas confiáveis de ação, sensores diversos) em um sistema completo capaz de operar de forma autônoma no mundo físico. É a camada de integração, cuja maturidade é condição prévia para que esses três campos possam ser implantados no mundo real, não apenas como demonstrações de pesquisa isoladas.

Três domínios

As primitivas acima são habilitadoras universais, não determinando onde os principais aplicativos se desenvolverão. Muitos campos envolvem ações físicas, medições ou percepções físicas. A distinção entre “sistemas de ponta” e “sistemas aprimorados existentes” está na profundidade do efeito composto — não apenas desempenho melhor, mas a emergência de novas capacidades antes impossíveis, por efeito de escala e modelagem.

Robótica, ciência impulsionada por IA, e novas interfaces homem-máquina são os três domínios onde esse efeito de composição é mais forte. Cada um combina as primitivas de forma única, cada um ainda limitado pelas restrições atuais, mas também gerando, como subproduto, uma estrutura de dados física estruturada — que alimenta e melhora as primitivas, criando um ciclo de feedback que acelera o sistema. Não são os únicos campos de IA física, mas são os mais densos em interação com a realidade física, e também os mais distantes do paradigma de linguagem/código atual, com maior potencial de surgimento de novas capacidades — além de serem altamente complementares e capazes de se beneficiar dos seus avanços.

Robótica

Robótica é a manifestação mais literal de IA física: um sistema que precisa perceber, raciocinar e exercer ações físicas em tempo real. Cada primitiva é testada ao extremo.

Imagine o que um robô geral precisa fazer para dobrar uma toalha. Precisa de uma representação aprendida de como materiais deformáveis se comportam sob força — uma prior física que a pré-treinamento de linguagem não fornece. Precisa de uma arquitetura que traduza comandos de alto nível em sequências contínuas de controle a mais de 20Hz. Precisa de dados de treinamento gerados por simulação, pois ninguém coletou milhões de demonstrações reais de dobrar toalhas. Precisa de feedback tátil para detectar escorregamento e ajustar a força de pegada, pois visão sozinha não distingue uma pegada firme de uma instável. E precisa de um controlador em ciclo fechado que reconheça erros ao dobrar e recupere, ao invés de seguir cegamente uma trajetória memorizada.

Legenda: Chamadas simultâneas às cinco primitivas em tarefas robóticas

Por isso, robótica é um sistema de ponta, não apenas uma disciplina de engenharia mais madura. Essas primitivas não apenas aprimoram capacidades existentes, mas desbloqueiam operações, movimentos e interações que antes eram impossíveis fora de ambientes industriais controlados.

Nos últimos anos, houve avanços significativos — já escrevemos sobre isso. A primeira geração de VLA mostrou que modelos de base podem controlar robôs em tarefas variadas. Avanços na arquitetura conectaram raciocínio de alto nível com controle de baixo nível. A inferência em borda tornou-se viável, e a transferência entre diferentes plataformas é possível com poucos dados. O desafio central ainda é confiabilidade em escala, que limita a implantação. Taxas de sucesso de 95% por passo, apenas 60% em tarefas de 10 passos, não são aceitáveis em produção. O RL pós-treinamento tem potencial para elevar esses limites, atingindo os requisitos de robustez necessários.

Esses avanços impactam a estrutura de mercado. Décadas de valor na robótica estavam na mecânica, que continua fundamental, mas com estratégias de aprendizado mais padronizadas, o valor migra para modelos, infraestrutura de treinamento e ciclo de dados. Cada trajeto real no mundo fornece dados para melhorar o modelo de mundo, cobre lacunas de simulação, e amplia a diversidade de experiências físicas disponíveis para pré-treinamento. Robótica é tanto consumidora quanto geradora de sinais de melhoria para as primitivas.

Ciência autônoma

Se robótica testa as primitivas com ações físicas em tempo real, a ciência autônoma avalia a capacidade de raciocínio contínuo sobre sistemas físicos complexos — com intervalos de horas ou dias, interpretando resultados, ajustando hipóteses e estratégias.

Legenda: Como a ciência autônoma (cientista de IA) integra as cinco primitivas

A IA na ciência é o campo de maior integração de primitivas. Um laboratório autônomo (SDL) precisa aprender representações de dinâmica física-química para prever resultados; usar ações corporais para manipular amostras e instrumentos; usar simulação para pré-seleção de experimentos e otimização de uso de recursos escassos; ampliar canais sensoriais — espectroscopia, cromatografia, espectrometria de massa, sensores químicos e biológicos — para caracterizar resultados. Requer uma orquestração de agentes em ciclo fechado, capaz de manter múltiplas etapas de “hipótese-experimento-análise-ajuste” sem intervenção humana, com rastreamento, segurança e adaptação contínua.

Nenhum outro campo usa essas primitivas com tanta profundidade. Essa é a razão pela qual a ciência autônoma é um sistema de ponta, não apenas automação laboratorial. Empresas como Periodic Labs e Medra combinam capacidades de raciocínio científico e validação física, acelerando a inovação e gerando dados de treinamento experimental.

O valor dessas plataformas é intuitivamente claro. Descobertas de materiais, que levam anos para chegar ao mercado, podem ser aceleradas por IA. A mudança de foco de hipóteses para fabricação e validação é crucial — requer instrumentos físicos, robôs, ciclo de otimização. SDL é uma resposta a esse gargalo.

Outra característica fundamental da ciência autônoma é seu papel como geradora de dados. Cada experimento gera não só um resultado científico, mas um sinal de treinamento validado, estruturado, causal. Uma medição de cristalização de polímeros sob condições específicas enriquece o modelo de materiais; uma rota sintética validada alimenta raciocínio físico; uma falha detectada informa o sistema sobre limites de previsão. Dados de um cientista de IA que realiza experimentos reais são qualitativamente diferentes de textos na internet ou saídas de simulação — são estruturados, causais, validados empiricamente. Essa é a fonte de dados mais valiosa para modelos de raciocínio físico, que nenhuma outra origem fornece. A ciência autônoma transforma a realidade física em conhecimento estruturado, impulsionando o ecossistema de IA física.

Novos interfaces

Robótica estende IA às ações físicas; ciência autônoma estende IA à pesquisa física. Novos interfaces conectam IA à percepção, sinais corporais e experiências sensoriais humanas — de óculos AR, pulseiras EMG, até interfaces cerebrais implantáveis. O que une esses dispositivos não é uma tecnologia única, mas uma função comum: ampliar o canal de comunicação entre humanos e IA, gerando dados de interação direta com o mundo físico.

Legenda: Das óculos AR às interfaces cérebro-máquina, o espectro de novos interfaces

A distância do paradigma principal é tanto um desafio quanto uma oportunidade. Modelos de linguagem conhecem esses canais conceitualmente, mas não dominam naturalmente os movimentos silenciosos, a geometria de receptores olfativos ou a dinâmica temporal de sinais EMG. Decodificar esses sinais exige aprendizado a partir de novos canais sensoriais. Muitos desses canais não têm uma vasta base de dados na internet; os dados vêm principalmente das próprias interfaces — o que significa que o sistema e seus dados evoluem juntos, algo sem paralelo na IA de linguagem.

Recentemente, a rápida ascensão de dispositivos vestíveis de consumo mostra esse potencial. Óculos de AR, wearables de fala silenciosa, sensores de EMG — todos criam uma nova infraestrutura de coleta de dados do mundo físico, que registra experiências humanas em escala sem precedentes. Assim como smartphones revolucionaram a percepção do mundo, esses dispositivos criam um novo canal de interação, potencializando a IA no mundo físico.

Interfaces cerebrais representam uma fronteira mais avançada. Neuralink já implantou múltiplos pacientes, com robôs cirúrgicos e decodificadores em evolução. Synchron usa Stentrode para controle de usuários paralisados. Echo Neurotechnologies trabalha com decodificadores de fala cortical de alta resolução. Novas startups atraem talentos e capital para plataformas de interfaces neurais. Tecnologias de ponta incluem chips com dezenas de milhares de eletrodos (BISC) e decodificação direta de linguagem interna pelo BrainGate.

A linha comum entre óculos AR, wearables, fala silenciosa e BCI não é apenas “são interfaces”, mas uma escala crescente de banda de comunicação entre experiência física e IA — cada ponto na escala sustenta o avanço das primitivas discutidas. Um robô treinado com milhões de vídeos de óculos inteligentes é diferente de um treinado apenas com controle remoto; um decodificador neural de alta densidade produz representações de movimento que outros canais não podem fornecer.

Essa expansão de canais sensoriais amplia o espaço de dados acessível para IA física, impulsionada por empresas de consumo com forte capital, criando um ciclo de dados que acompanha a adoção de mercado.

Primitiva 5: Sistemas de agentes em ciclo fechado

Por último, uma primitiva mais de arquitetura: sistemas que integram percepção, raciocínio e ação de forma contínua, autônoma e em ciclo fechado, operando por longos períodos sem intervenção humana.

Na IA de linguagem, isso se manifesta na emergência de agentes inteligentes — com raciocínio em múltiplas etapas, uso de ferramentas, auto-correção — que evoluem de ferramentas de Q&A para solucionadores autônomos. No mundo físico, uma mudança semelhante ocorre, mas com requisitos muito mais rigorosos. Um erro em uma ação física pode ser irreversível; um agente que derruba reagentes não pode simplesmente desfazer.

Sistemas físicos de agentes diferenciam-se por três características: primeiro, precisam estar integrados a experimentos ou operações em ciclo fechado, conectando-se diretamente a sensores e primitivas de execução, para que o raciocínio seja aplicado à realidade física; segundo, requerem memória e persistência ao longo do tempo, conectando múltiplos ciclos de operação; terceiro, precisam de adaptação em ciclo fechado, ajustando estratégias com base nos resultados físicos, não apenas em feedback textual.

Essa primitiva integra capacidades independentes — modelos de mundo, arquiteturas de ação confiáveis, sensores diversos — formando um sistema completo de operação autônoma. É a camada de integração, cuja maturidade é condição prévia para implantação no mundo real, não apenas demonstrações de pesquisa.

Três domínios

Essas primitivas são habilitadoras universais, não determinando onde os principais aplicativos se desenvolverão. Muitos campos envolvem ações físicas, medições ou percepções físicas. A distinção entre “sistemas de ponta” e “sistemas aprimorados” está na profundidade do efeito composto — não apenas desempenho melhor, mas a emergência de novas capacidades, por escala e modelagem.

Robótica, ciência impulsionada por IA, e novas interfaces homem-máquina são os três domínios onde esse efeito de composição é mais forte. Cada um combina primitivas de forma única, cada um ainda limitado por restrições atuais, mas também gerando, como subproduto, uma estrutura de dados física estruturada — que alimenta e melhora as primitivas, criando um ciclo de feedback. São os locais mais densos em interação com a realidade física, com maior potencial de surgimento de novas capacidades, e altamente complementares ao paradigma de linguagem/código, beneficiando-se de seus avanços.

Robótica

Robótica é a manifestação mais literal de IA física: um sistema que precisa perceber, raciocinar e exercer ações físicas em tempo real. Cada primitiva é testada ao máximo.

Imagine o que um robô geral precisa fazer para dobrar uma toalha. Precisa de uma representação aprendida de como materiais deformáveis se comportam sob força — uma prior física que a pré-treinamento de linguagem não fornece. Precisa de uma arquitetura que traduza comandos de alto nível em movimentos contínuos a mais de 20Hz. Precisa de dados de treinamento por simulação, pois não há milhões de demonstrações reais de dobrar toalhas. Precisa de feedback tátil para detectar escorregamento e ajustar força de pegada, pois visão não distingue uma pegada firme de uma instável. E precisa de um controlador em ciclo fechado que reconheça erros e recupere, ao invés de seguir cegamente uma trajetória memorizada.

Legenda: Chamadas simultâneas às cinco primitivas em tarefas robóticas

Por isso, robótica é um sistema de ponta, não apenas uma disciplina de engenharia avançada. Essas primitivas não apenas aprimoram capacidades existentes, mas desbloqueiam operações, movimentos e interações antes impossíveis fora de ambientes industriais controlados.

Nos últimos anos, houve avanços importantes — já discutidos. A primeira geração de VLA mostrou que modelos de base podem controlar robôs em tarefas variadas. Melhorias na arquitetura conectaram raciocínio de alto nível com controle de baixo nível. Inferência em borda tornou-se viável, e transferência entre plataformas com poucos dados é possível. O maior desafio ainda é confiabilidade em escala, que limita a implantação. Taxas de sucesso de 95% por passo, apenas 60% em tarefas de 10 passos, não são aceitáveis em produção. RL pós-treinamento tem potencial para elevar esses limites, atingindo os requisitos de robustez.

Esses avanços impactam a estrutura de mercado. Décadas de valor na robótica estavam na mecânica, que continua fundamental, mas com estratégias de aprendizado mais padronizadas, o valor migra para modelos, infraestrutura de treinamento e ciclo de dados. Cada trajeto real fornece dados para melhorar o modelo de mundo, cobre lacunas de simulação, e amplia a diversidade de experiências físicas disponíveis para pré-treinamento. Robótica é tanto consumidora quanto geradora de sinais de melhoria para as primitivas.

Ciência autônoma

Legenda: Como a ciência autônoma (cientista de IA) integra as cinco primitivas

Novos interfaces

Legenda: Das óculos AR às interfaces cérebro-máquina, o espectro de novos interfaces

Conclusão

Ver as cinco primitivas como um ciclo de feedback integrado — onde cada uma alimenta e melhora as outras — é fundamental para entender o avanço da IA física. Essas primitivas, combinadas, formam a base para sistemas autônomos, capazes de perceber, raciocinar e agir no mundo físico de forma contínua e autônoma, impulsionando uma nova era de inovação e aplicação prática.

Esses sistemas, por sua vez, alimentam o desenvolvimento de novos aplicativos, aceleram a pesquisa científica, e expandem as interfaces entre humanos e máquinas — criando um ciclo de progresso exponencial que conecta o paradigma de linguagem ao mundo físico, com potencial de transformar radicalmente a tecnologia e a sociedade.

Aviso legal: Este artigo é apenas para fins informativos e não constitui aconselhamento de investimento, jurídico, comercial, ou fiscal.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

2 Curtidas