A Ramp Labs apresenta uma nova solução para a partilha de memória entre múltiplos agentes, reduzindo o consumo de tokens em até 65%

GateNews

Notícias do Gate News, a 11 de abril, a empresa de infraestruturas de IA Ramp Labs publicou resultados de investigação «Latent Briefing», permitindo uma partilha eficiente de memória entre sistemas multiagente através da compressão direta da cache KV de grandes modelos. Isto faz uma grande redução do consumo de Tokens sem perda de exatidão. Nas arquiteturas multiagente mais comuns, o orquestrador (Orchestrator) decompõe tarefas e chama repetidamente modelos de trabalhadores (Worker). À medida que a cadeia de inferência se vai tornando mais longa, a quantidade de Tokens cresce de forma exponencial. A ideia central do Latent Briefing é, com o auxílio do mecanismo de atenção, identificar as partes verdadeiramente essenciais no contexto e eliminar informação redundante diretamente na camada de representação, em vez de depender de resumos de LLM que são lentos ou de pesquisas RAG com baixa estabilidade. Nos testes de referência do LongBench v2, o método teve um desempenho notável: o consumo de Tokens do modelo Worker diminuiu 65%, a mediana de Tokens poupados em documentos de comprimento médio (32k a 100k) atingiu 49%, a exatidão global melhorou cerca de 3 pontos percentuais face à linha de base e o tempo adicional para cada compressão foi apenas de cerca de 1,7 segundos, o que equivale a acelerar aproximadamente 20 vezes em relação ao algoritmo original. O experimento usou Claude Sonnet 4 como orquestrador e Qwen3-14B como modelo de trabalhador, cobrindo cenários de documentos variados, como artigos académicos, documentos jurídicos, romances e relatórios governamentais. O estudo também descobriu que o limiar de compressão ideal varia em função da dificuldade da tarefa e do comprimento do documento — para tarefas difíceis, é mais adequado uma compressão mais agressiva para filtrar ruído de inferência oportunista; para documentos longos, é mais apropriada uma compressão mais ligeira para preservar informação-chave dispersa.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Ecossistema FLOA lança suíte de IA FloaClaw com matriz de habilidades multi-cenários

Mensagem da Gate News, 27 de abril — O ecossistema FLOA lançou oficialmente a FloaClaw, seu kit de ferramentas de IA central, com uma matriz de habilidades de IA multi-cenários. O acesso às funções da FloaClaw é limitado a usuários do Agent no nível 3 e acima. FloaClaw opera em um sistema baseado em tokens em que os usuários compram

GateNews7m atrás

Singapore's Foreign Minister Deploys Custom AI Assistant on Raspberry Pi Using Claude Code

Mensagem do Gate News, 27 de abril — O ministro das Relações Exteriores de Singapura, Vivian Balakrishnan, anunciou recentemente que construiu um sistema personalizado de assistente de IA, que ele chama de "segundo cérebro do diplomata", rodando em um Raspberry Pi 5 (um microcomputador do tamanho de um cartão de crédito). O sistema se integra ao WhatsApp e ao Gmail dele, permitindo a transcrição de notas de voz, a sumarização de artigos, a redação de discursos, o fornecimento de respostas a perguntas e a acumulação contínua de conhecimento. Balakrishnan afirmou que "não se atreve a desligá-lo". Ele esclareceu no X que nunca usou uma IDE ambiente de desenvolvimento integrado, com toda a edição de código feita pelo Claude Code, descrevendo o trabalho como "montagem de ferramentas" para diferenciá-lo do conceito de "vibe coding" de Andrej Karpathy. O sistema é construído sobre o framework de agentes de código aberto NanoClaw e roda o Claude Agent SDK dentro de contêineres Docker isolados, com cada grupo de chat operando de forma independente. A integração com o WhatsApp usa Baileys, uma implementação de código aberto do protocolo do WhatsApp Web, evitando depender de APIs comerciais. A transcrição de voz é tratada localmente via whisper.cpp, sem fazer upload para serviços em nuvem. O armazenamento de conhecimento emprega uma arquitetura em três camadas inspirada no modelo da LLM Wiki de Karpathy. A primeira camada armazena materiais brutos discursos, artigos sem modificação; a segunda camada usa mnemon, um grafo de conhecimento baseado em SQLite que extrai fatos como nós independentes e realiza recuperação semântica via nomic-embed-text, um modelo local de embeddings de 274MB; a terceira camada compila fatos em páginas Wiki legíveis por humanos organizadas por entidades, conceitos e cronologias, sincronizadas com o Obsidian no telefone dele via iCloud. Ao receber mensagens, o sistema consulta automaticamente o grafo de conhecimento e injeta fatos relevantes no contexto. As medidas de segurança incluem acesso a APIs por meio de proxies de credenciais do OneCLI, sem expor chaves brutas, montagem de caminhos restrita por lista de permissões que bloqueia diretórios sensíveis como .ssh e .aws, e processamento local de toda a transcrição de voz e embeddings vetoriais. Balakrishnan publicou a documentação completa da arquitetura no GitHub, afirmando "diplomatas que aprendem a colaborar com IA terão uma vantagem real, e acredito que essa janela de vantagem agora está aberta."

GateNews1h atrás

Plataformas de e-commerce indianas lançam lojas de IA para ChatGPT, Perplexity e Gemini

Mensagem do Gate News, 27 de abril — As plataformas de e-commerce indianas Flipkart, BigBasket, Ajio e FirstCry estão construindo lojas de IA para ChatGPT, Perplexity e Google Gemini para dar suporte ao comércio agente, onde ferramentas de IA compram em nome dos usuários. A empresa de quick commerce Swiggy também construiu conectores para o ChatGP

GateNews1h atrás

O Telegram lança ferramentas de robôs de IA para criação sem necessidade de código, com suporte aos modelos GPT e Llama

De acordo com a Techiexpert em 27 de abril, o Telegram lançou uma ferramenta de criação de bots de IA sem necessidade de programação. Os usuários não precisam de nenhuma habilidade de programação para criar e implantar bots de IA por meio de operações de clique. A nova ferramenta oferece suporte a vários modelos de IA, como GPT e Llama, e é integrada ao Telegram Business.

MarketWhisper2h atrás

Índia lança projeto de $650M Cidade de IA em Bengaluru mirando 25.000 pesquisadores até 2030

Mensagem de notícias do Gate, 27 de abril — A Índia está desenvolvendo uma cidade de IA de $650 milhões em Bengaluru, com uma instalação de 500.000 pés quadrados projetada para servir como o primeiro laboratório físico do mundo para IA agentic. O projeto oferece conectividade de 400 Gbps para quatro grandes provedores de nuvem de IA e planeja dar suporte a

GateNews2h atrás

OpenAI recruta principais talentos de software corporativo enquanto agentes de fronteira perturbam a indústria

Mensagem do Gate News, 26 de abril — A OpenAI e a Anthropic têm recrutado executivos seniores e engenheiros especializados de grandes empresas de software corporativo, incluindo Salesforce, Snowflake, Datadog e Palantir. Denise Dresser, ex-CEO do Slack pela Salesforce, ingressou na OpenAI como diretora de receitas, enquanto Jennifer Majlessi, também da Salesforce, recentemente se tornou a chefe de go-to-market da OpenAI. A OpenAI também recrutou, em silêncio, engenheiros com atuação antecipada na Palantir, funções consideradas entre as mais especializadas do setor.

GateNews14h atrás
Comentário
0/400
Sem comentários