Notícias do site CoinWorld, mensagem do ME News, 10 de abril (UTC+8), o laboratório Tongyi da Alibaba (Tongyi Lab) lançou oficialmente a nova geração do framework multimodal RAG VimRAG, com foco em resolver o problema de “zona cega de estado” que persiste há muito tempo nos sistemas existentes. VimRAG atualiza o histórico linear tradicional para um gráfico de memória multimodal (Multimodal Memory Graph), organizando o processo de raciocínio em uma estrutura de gráfico direcionado acíclico dinâmico (DAG), eliminando efetivamente buscas redundantes e rastreando todo o percurso de exploração. Introduzindo a codificação de memória visual modulada por gráfico (Graph-Modulated Visual Memory Encoding), que realiza uma alocação adaptativa de tokens para dados visuais de alta carga, como imagens, com suporte ao mecanismo GGPO, alcançando uma distribuição de crédito de granularidade fina e melhorando a precisão na atribuição de raciocínio. De acordo com os dados de avaliação publicados, VimRAG destacou-se em várias provas de benchmark multimodal, como SlideVQA, MMLongBench, LVBench, com a versão Qwen3-VL-8B-Instruct liderando a pontuação geral entre soluções similares. O objetivo do VimRAG é levar o RAG multimodal de uma “simples busca” para um “raciocínio estruturado confiável”, oferecendo uma solução de sistema mais robusta para lidar com documentos longos complexos e cenários híbridos multimodais.