O problema escondido da escalabilidade do E-Commerce
A maioria fala sobre pesquisa distribuída e motores de recomendação quando se discute escalabilidade no E-Commerce. Mas, por baixo da superfície, espreita um problema mais persistente, muitas vezes negligenciado: a gestão de atributos nos catálogos de produtos. Com mais de 3 milhões de SKUs, isto rapidamente se torna um problema sistémico.
Os valores de atributos são a base da descoberta de produtos. Impulsionam filtros, comparações e rankings de pesquisa. Mas, na prática, eles estão fragmentados: “XL”, “Small”, “12cm” e “Large” misturados num campo. Ou cores como “RAL 3020”, “Crimson”, “Red” e “Dark Red” sem uma estrutura consistente. Multiplicando estas inconsistências por dezenas de atributos por produto, o problema torna-se exponencial.
Filtros comportam-se de forma imprevisível, a pesquisa perde relevância, e a navegação do cliente torna-se frustrante. Ao mesmo tempo, os comerciantes afogam-se em limpeza manual de dados.
A resposta: pipelines híbridos inteligentes com mecanismos de controlo
Em vez de uma IA de caixa preta, que classifica dados aleatoriamente, surgiu uma arquitetura com três pilares:
Explicabilidade: Cada decisão é compreensível
Previsibilidade: O sistema comporta-se de forma consistente
Controlo humano: Os merchandisers podem definir manualmente atributos críticos
O resultado foi uma pipeline híbrida que combina inteligência LLM com regras claras e persistência de dados. Ela age de forma inteligente, mas permanece controlável—IA com limites, não descontrolada.
Processamento offline em vez de pipelines em tempo real
Uma decisão de design crítica foi optar por tarefas em background em vez de sistemas ao vivo. Parece um compromisso, mas foi uma escolha estratégica:
Processamento em tempo real significaria:
Latência imprevisível
Dependências frágeis do sistema
Picos de custo elevados
Complicações operacionais
Tarefas offline ofereceram:
Alto throughput sem afetar o tráfego de clientes
Resiliência: falhas nunca afetaram sistemas ao vivo
Controle de custos através de processamento agendado
Isolamento da latência do LLM
Atualizações atômicas e previsíveis
A separação entre sistemas orientados ao cliente e pipelines de processamento de dados é crucial em escala de milhões de SKUs.
Arquitetura com persistência e consistência
Toda a persistência de dados foi feita via MongoDB, como armazenamento operacional central:
Extração de atributos: a primeira tarefa coletava valores brutos e contexto de categoria
Serviço de IA: o LLM recebia dados limpos mais informações de contexto (Breadcrumbs de categoria, metadados)
Fallbacks determinísticos: intervalos numéricos e conjuntos simples eram reconhecidos automaticamente e classificados com regras
Persistência: valores classificados, nomes de atributos refinados e tags de ordenação eram armazenados no MongoDB
Integração de pesquisa: dados atualizados fluíam para Elasticsearch (Pesquisa por palavras-chave) e Vespa (Pesquisa semântica)
Esta estrutura de persistência permitia verificações simples, sobrescritas e re-sincronizações com outros sistemas.
Controlo híbrido: IA encontra decisões do comerciante
Nem todos os atributos precisam de inteligência IA. Assim, cada categoria podia ser marcada como:
LLM_SORT: o modelo decide a ordenação
MANUAL_SORT: os comerciantes definem a ordem manualmente
Este sistema de etiquetas duplas criou confiança. Os humanos mantinham controlo sobre atributos críticos para o negócio, enquanto a IA cuidava do trabalho rotineiro—sem interromper a pipeline.
Limpeza de dados como base
Antes de aplicar IA, um passo de pré-processamento crítico foi realizado:
Remover espaços em branco
Eliminar valores vazios
Deduplicar duplicados
Padronizar contextos de categoria
Esta limpeza aparentemente simples melhorou drasticamente a precisão do LLM. Entradas limpas resultaram em resultados consistentes—um princípio fundamental em grande escala.
Transformação na prática
A pipeline transformava dados brutos caóticos em saídas estruturadas:
Atributo
Valores brutos
Saída ordenada
Tamanho
XL, Small, 12cm, Large, M, S
Small, M, Large, XL, 12cm
Cor
RAL 3020, Crimson, Red, Dark Red
Red, Dark Red, Crimson, Red (RAL 3020)
Material
Steel, Carbon Steel, Stainless, Stainless Steel
Steel, Stainless Steel, Carbon Steel
Numérico
5cm, 12cm, 2cm, 20cm
2cm, 5cm, 12cm, 20cm
Impacto nos negócios
Os resultados foram substanciais:
Ordenação consistente de atributos em mais de 3M SKUs
Ordenação numérica previsível por lógica determinística
Relevância de pesquisa melhorada
Filtros intuitivos nas páginas de produto
Maior confiança do cliente e melhor taxa de conversão
Não foi apenas uma vitória técnica—foi uma melhoria na experiência do utilizador e nas vendas.
Conclusões principais
Híbrido supera IA pura: limites são essenciais em grande escala
Contexto é rei: melhor contexto = resultados muito melhores do LLM
Arquitetura offline cria resiliência: tarefas em background são fundamentais para throughput
Persistência sem perda de controlo: mecanismos humanos de sobrescrita constroem confiança
Dados limpos = resultados fiáveis: qualidade dos dados decide o sucesso da IA
Conclusão
Ordenar valores de atributos parece trivial, mas torna-se um problema real com milhões de produtos. Combinando inteligência LLM, regras explícitas, persistência e controlo do comerciante, criou-se um sistema que resolve elegantemente desafios complexos e escondidos. Lembra-nos que os maiores sucessos muitas vezes vêm de resolver problemas entediantes e negligenciados—aqueles que impactam cada página de produto.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Como arquiteturas de IA híbridas gerenciam milhões de atributos de produtos de forma consistente
O problema escondido da escalabilidade do E-Commerce
A maioria fala sobre pesquisa distribuída e motores de recomendação quando se discute escalabilidade no E-Commerce. Mas, por baixo da superfície, espreita um problema mais persistente, muitas vezes negligenciado: a gestão de atributos nos catálogos de produtos. Com mais de 3 milhões de SKUs, isto rapidamente se torna um problema sistémico.
Os valores de atributos são a base da descoberta de produtos. Impulsionam filtros, comparações e rankings de pesquisa. Mas, na prática, eles estão fragmentados: “XL”, “Small”, “12cm” e “Large” misturados num campo. Ou cores como “RAL 3020”, “Crimson”, “Red” e “Dark Red” sem uma estrutura consistente. Multiplicando estas inconsistências por dezenas de atributos por produto, o problema torna-se exponencial.
Filtros comportam-se de forma imprevisível, a pesquisa perde relevância, e a navegação do cliente torna-se frustrante. Ao mesmo tempo, os comerciantes afogam-se em limpeza manual de dados.
A resposta: pipelines híbridos inteligentes com mecanismos de controlo
Em vez de uma IA de caixa preta, que classifica dados aleatoriamente, surgiu uma arquitetura com três pilares:
O resultado foi uma pipeline híbrida que combina inteligência LLM com regras claras e persistência de dados. Ela age de forma inteligente, mas permanece controlável—IA com limites, não descontrolada.
Processamento offline em vez de pipelines em tempo real
Uma decisão de design crítica foi optar por tarefas em background em vez de sistemas ao vivo. Parece um compromisso, mas foi uma escolha estratégica:
Processamento em tempo real significaria:
Tarefas offline ofereceram:
A separação entre sistemas orientados ao cliente e pipelines de processamento de dados é crucial em escala de milhões de SKUs.
Arquitetura com persistência e consistência
Toda a persistência de dados foi feita via MongoDB, como armazenamento operacional central:
Esta estrutura de persistência permitia verificações simples, sobrescritas e re-sincronizações com outros sistemas.
Controlo híbrido: IA encontra decisões do comerciante
Nem todos os atributos precisam de inteligência IA. Assim, cada categoria podia ser marcada como:
Este sistema de etiquetas duplas criou confiança. Os humanos mantinham controlo sobre atributos críticos para o negócio, enquanto a IA cuidava do trabalho rotineiro—sem interromper a pipeline.
Limpeza de dados como base
Antes de aplicar IA, um passo de pré-processamento crítico foi realizado:
Esta limpeza aparentemente simples melhorou drasticamente a precisão do LLM. Entradas limpas resultaram em resultados consistentes—um princípio fundamental em grande escala.
Transformação na prática
A pipeline transformava dados brutos caóticos em saídas estruturadas:
Impacto nos negócios
Os resultados foram substanciais:
Não foi apenas uma vitória técnica—foi uma melhoria na experiência do utilizador e nas vendas.
Conclusões principais
Conclusão
Ordenar valores de atributos parece trivial, mas torna-se um problema real com milhões de produtos. Combinando inteligência LLM, regras explícitas, persistência e controlo do comerciante, criou-se um sistema que resolve elegantemente desafios complexos e escondidos. Lembra-nos que os maiores sucessos muitas vezes vêm de resolver problemas entediantes e negligenciados—aqueles que impactam cada página de produto.