Mila Jovovich Vicky usa IA para criar um “projeto de pontuação máxima”? Teste dos desenvolvedores: é realmente algo de valor ou exagero e promoção?

CryptoCity

O sistema de memória por IA MemPalace, desenvolvido pela Milla Jovovich, alegou ter obtido nota máxima nos testes e tornou-se rapidamente viral, mas acabou por ser posto em causa pela comunidade, que denunciou indícios de batota nos testes e desinformação nos dados. Na prática, verificou-se que os resultados foram exagerados e que há inúmeros erros. A equipa já admitiu as falhas e está a trabalhar na sua correção.

A Milla Jovovich criou um “palácio de memória” de IA, suscitando interesse no exterior

Ontem (4/7), houve uma grande notícia na comunidade de IA: a estrela de Hollywood Milla Jovovich (conhecida por《Resident Evil》e《O Quinto Elemento》), em parceria com o programador Ben Sigman e com o apoio do Claude Code, desenvolveu o sistema de memória por IA open source “MemPalace”.

De um momento para o outro, espalhou-se a ideia de “uma estrela de Hollywood a fazer um projeto perfeito, com nota máxima” e, até hoje, o MemPalace conta no GitHub com mais de 20k estrelas, mas rapidamente levantou dúvidas na comunidade de programadores: há mesmo conteúdo, ou é apenas promoção?

Vamos primeiro explicar a motivação por trás do nascimento do MemPalace. A documentação oficial afirma que pretende resolver a limitação atual dos sistemas de IA, em que o conteúdo das conversas do utilizador com a IA, os processos de decisão e as discussões sobre a arquitetura normalmente desaparecem após o fim de cada sessão de trabalho, fazendo com que meses de esforço se percam.

Para resolver este problema, o MemPalace usa uma arquitetura espacial para armazenar memórias: organiza explicitamente as informações em zonas de ala que representam pessoas ou projetos, bem como em estruturas de diferentes níveis como corredores, salas e gavetas, preservando o texto original das conversas para pesquisa semântica posterior.

A equipa de desenvolvimento afirma que o MemPalace obteve 100% de pontuação perfeita no benchmark de memória de longo prazo LongMemEval e, além disso, atingiu 96,6% de precisão sem chamar nenhuma API externa. Afirma ainda que pode ser executado completamente no dispositivo local, sem necessidade de subscrever serviços de cloud, e que incorpora um sistema de dialeto AAAK que se diz capaz de alcançar uma compressão sem perdas 30x.

Fonte da imagem: GitHub A estrela de cinema de Hollywood, Milla Jovovich, criou um palácio de memória de IA, suscitando interesse no exterior

Os pares e a comunidade levantam dúvidas em massa; métodos de teste e omissões na divulgação

No entanto, o desempenho que o MemPalace diz ter obtido no LongMemEval rapidamente atraiu críticas dos seus pares.

A PenfieldLabs, que também desenvolve sistemas de memória por IA, aponta que é matematicamente impossível que o MemPalace tenha obtido nota máxima no conjunto de dados LoCoMo, porque as respostas padrão desse conjunto de dados já incluem 99 erros.

A PenfieldLabs analisou e descobriu que a pontuação de 100% do MemPalace resulta de configurar o número de ocorrências de pesquisa para 50 vezes, mas o nível máximo de etapas das conversas no conjunto de teste é apenas de 32. Isto significa que o sistema contorna diretamente a fase de pesquisa e entrega todos os dados ao modelo de IA para leitura.

No que toca à pontuação de 100% no LongMemEval, a equipa de desenvolvimento foi identificada como tendo focado-se em 3 problemas específicos em que houve erro ao preparar a configuração, escrevendo código de correção dedicado, o que levanta suspeitas de batota no conjunto de testes.

Fonte da imagem: Reddit A PenfieldLabs, de entre os pares, aponta que é matematicamente impossível que o MemPalace tenha obtido nota máxima no conjunto de dados LoCoMo

Testes reais no GitHub: o benchmark tem componentes de indução em erro

O utilizador do GitHub hugooconnor comentou após testes práticos: apesar de o MemPalace alegar uma taxa de precisão de pesquisa de 96,6%, na realidade não usa de todo a arquitetura de palácio de memória que o MemPalace promove. hugooconnor diz que os testes consistiram apenas em chamar a funcionalidade predefinida da base de dados subjacente ChromaDB, sem envolver qualquer lógica de categorização, como zonas de ala, salas ou gavetas, que o projeto enfatiza.

Após testar, hugooconnor concluiu que, quando o sistema realmente ativa a lógica de categorização exclusiva desses “palácios de memória”, o desempenho de pesquisa piora. Por exemplo, no modo de “sala”, a precisão desce para 89,4%; e, ao ativar a tecnologia de compressão AAAK, a precisão cai ainda mais para 84,2%, ambas abaixo do desempenho da base de dados predefinida.

hugooconnor também criticou o método de teste: o ambiente de testes do MemPalace reduz deliberadamente a área de pesquisa de cada problema, limitando-a a cerca de 50 etapas de conversação, o que torna demasiado fácil encontrar respostas numa base de amostras muito pequena.

Se o âmbito for alargado para mais de 19.000 etapas de conversação no cenário real, a precisão da pesquisa tradicional por palavras-chave cai para 30%, o que sugere que o método de testes atual do MemPalace está a ocultar as verdadeiras dificuldades de pesquisa.

Fonte da imagem: GitHub Testes reais do GitHub no MemPalace: o benchmark tem componentes de indução em erro

Entretanto, embora a equipa de desenvolvimento já tenha publicado uma declaração de correção, reconhecendo que a tecnologia AAAK foi de facto validada como compressão com perdas, e se tenha comprometido a ajustar a documentação e o desenho do sistema em função das críticas severas da comunidade, o documento principal do projeto continua a manter várias alegações exageradas por corrigir, incluindo a afirmação de compressão sem perdas 30x e aumento de 34% na pesquisa, e as tabelas comparativas com outros concorrentes também não apresentam completamente fontes e origem.

O código-fonte do MemPalace enfrenta vários bugs

À medida que cada vez mais programadores descarregam os testes, surgiram no GitHub inúmeros relatos de bugs sobre o código-fonte do MemPalace.

O utilizador cktang88 enumerou várias falhas graves. Incluem instruções de compressão que não conseguem funcionar e que fazem o sistema colapsar, erros na lógica de contagem de palavras do resumo, dados estatísticos da “escavação” das salas imprecisos, e ainda o facto de o servidor carregar todos os dados de interpretação na memória em cada chamada, causando sérios problemas de consumo de recursos.

Outros problemas apontados incluem ainda que o sistema escreve à força o nome de um familiar do programador nas definições predefinidas e que existe um limite máximo forçado de exibição de 10k registos ao consultar o estado.

Perante estes problemas, a comunidade open source já começou a reparar ativamente. O utilizador adv3nt3 apresentou várias solicitações de correção**, incluindo correções nos dados estatísticos da escavação, remoção do nome do familiar predefinido e adiamento do tempo de inicialização do conhecimento do grafo.** A equipa de desenvolvimento também reconheceu posteriormente estes erros e está a resolver gradualmente os problemas de código através da colaboração com a comunidade.

A Vibe Coding da Milla Jovovich é fixe; o modo de marketing não é

Quanto a este projeto MemPalace, um utilizador do Hacker News chamado darkhanakh chegou a uma conclusão: o MemPalace dá a sensação de OpenClaw — ou seja, manipula artificialmente os resultados do benchmark para os fazer parecer perfeitos e, depois, embrulha-os como uma espécie de grande avanço para fins de marketing.

Ele considera que a tecnologia de base do MemPalace pode, de facto, ser algo interessante, mas, com falhas deste tipo no método de teste, e ainda por cima a promover-se com “a pontuação pública mais alta de sempre”, não é muito apropriado. “Mas, quanto a estar a brincar com Vibe Coding, penso que ainda é bastante fixe.”

Leitura adicional:
A IA falha a escrever código! Problemas de segurança numa app de “caçador de desperdício” que usa produtos de prazo curto de um supermercado; o GPS em casa fica totalmente exposto

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários