Como arquiteturas de IA híbridas gerenciam milhões de atributos de produtos de forma consistente

O problema escondido da escalabilidade do E-Commerce

A maioria fala sobre pesquisa distribuída e motores de recomendação quando se discute escalabilidade no E-Commerce. Mas, por baixo da superfície, espreita um problema mais persistente, muitas vezes negligenciado: a gestão de atributos nos catálogos de produtos. Com mais de 3 milhões de SKUs, isto rapidamente se torna um problema sistémico.

Os valores de atributos são a base da descoberta de produtos. Impulsionam filtros, comparações e rankings de pesquisa. Mas, na prática, eles estão fragmentados: “XL”, “Small”, “12cm” e “Large” misturados num campo. Ou cores como “RAL 3020”, “Crimson”, “Red” e “Dark Red” sem uma estrutura consistente. Multiplicando estas inconsistências por dezenas de atributos por produto, o problema torna-se exponencial.

Filtros comportam-se de forma imprevisível, a pesquisa perde relevância, e a navegação do cliente torna-se frustrante. Ao mesmo tempo, os comerciantes afogam-se em limpeza manual de dados.

A resposta: pipelines híbridos inteligentes com mecanismos de controlo

Em vez de uma IA de caixa preta, que classifica dados aleatoriamente, surgiu uma arquitetura com três pilares:

  • Explicabilidade: Cada decisão é compreensível
  • Previsibilidade: O sistema comporta-se de forma consistente
  • Controlo humano: Os merchandisers podem definir manualmente atributos críticos

O resultado foi uma pipeline híbrida que combina inteligência LLM com regras claras e persistência de dados. Ela age de forma inteligente, mas permanece controlável—IA com limites, não descontrolada.

Processamento offline em vez de pipelines em tempo real

Uma decisão de design crítica foi optar por tarefas em background em vez de sistemas ao vivo. Parece um compromisso, mas foi uma escolha estratégica:

Processamento em tempo real significaria:

  • Latência imprevisível
  • Dependências frágeis do sistema
  • Picos de custo elevados
  • Complicações operacionais

Tarefas offline ofereceram:

  • Alto throughput sem afetar o tráfego de clientes
  • Resiliência: falhas nunca afetaram sistemas ao vivo
  • Controle de custos através de processamento agendado
  • Isolamento da latência do LLM
  • Atualizações atômicas e previsíveis

A separação entre sistemas orientados ao cliente e pipelines de processamento de dados é crucial em escala de milhões de SKUs.

Arquitetura com persistência e consistência

Toda a persistência de dados foi feita via MongoDB, como armazenamento operacional central:

  • Extração de atributos: a primeira tarefa coletava valores brutos e contexto de categoria
  • Serviço de IA: o LLM recebia dados limpos mais informações de contexto (Breadcrumbs de categoria, metadados)
  • Fallbacks determinísticos: intervalos numéricos e conjuntos simples eram reconhecidos automaticamente e classificados com regras
  • Persistência: valores classificados, nomes de atributos refinados e tags de ordenação eram armazenados no MongoDB
  • Integração de pesquisa: dados atualizados fluíam para Elasticsearch (Pesquisa por palavras-chave) e Vespa (Pesquisa semântica)

Esta estrutura de persistência permitia verificações simples, sobrescritas e re-sincronizações com outros sistemas.

Controlo híbrido: IA encontra decisões do comerciante

Nem todos os atributos precisam de inteligência IA. Assim, cada categoria podia ser marcada como:

  • LLM_SORT: o modelo decide a ordenação
  • MANUAL_SORT: os comerciantes definem a ordem manualmente

Este sistema de etiquetas duplas criou confiança. Os humanos mantinham controlo sobre atributos críticos para o negócio, enquanto a IA cuidava do trabalho rotineiro—sem interromper a pipeline.

Limpeza de dados como base

Antes de aplicar IA, um passo de pré-processamento crítico foi realizado:

  • Remover espaços em branco
  • Eliminar valores vazios
  • Deduplicar duplicados
  • Padronizar contextos de categoria

Esta limpeza aparentemente simples melhorou drasticamente a precisão do LLM. Entradas limpas resultaram em resultados consistentes—um princípio fundamental em grande escala.

Transformação na prática

A pipeline transformava dados brutos caóticos em saídas estruturadas:

Atributo Valores brutos Saída ordenada
Tamanho XL, Small, 12cm, Large, M, S Small, M, Large, XL, 12cm
Cor RAL 3020, Crimson, Red, Dark Red Red, Dark Red, Crimson, Red (RAL 3020)
Material Steel, Carbon Steel, Stainless, Stainless Steel Steel, Stainless Steel, Carbon Steel
Numérico 5cm, 12cm, 2cm, 20cm 2cm, 5cm, 12cm, 20cm

Impacto nos negócios

Os resultados foram substanciais:

  • Ordenação consistente de atributos em mais de 3M SKUs
  • Ordenação numérica previsível por lógica determinística
  • Relevância de pesquisa melhorada
  • Filtros intuitivos nas páginas de produto
  • Maior confiança do cliente e melhor taxa de conversão

Não foi apenas uma vitória técnica—foi uma melhoria na experiência do utilizador e nas vendas.

Conclusões principais

  • Híbrido supera IA pura: limites são essenciais em grande escala
  • Contexto é rei: melhor contexto = resultados muito melhores do LLM
  • Arquitetura offline cria resiliência: tarefas em background são fundamentais para throughput
  • Persistência sem perda de controlo: mecanismos humanos de sobrescrita constroem confiança
  • Dados limpos = resultados fiáveis: qualidade dos dados decide o sucesso da IA

Conclusão

Ordenar valores de atributos parece trivial, mas torna-se um problema real com milhões de produtos. Combinando inteligência LLM, regras explícitas, persistência e controlo do comerciante, criou-se um sistema que resolve elegantemente desafios complexos e escondidos. Lembra-nos que os maiores sucessos muitas vezes vêm de resolver problemas entediantes e negligenciados—aqueles que impactam cada página de produto.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar

Negocie criptomoedas a qualquer hora e em qualquer lugar
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)