Quando os retalhistas falam em escalabilidade, pensam em motores de busca, inventário em tempo real e otimização do checkout. Estes são problemas visíveis. Mas abaixo repousa um mais persistente: valores de atributos que simplesmente não combinam. Nos catálogos de produtos reais, estes valores raramente são consistentes. Estão formatados de forma diferente, semanticamente ambíguos ou simplesmente incorretos. E quando multiplicados por milhões de produtos, de um pequeno incômodo torna-se um desastre sistémico.
O problema: Pequeno isoladamente, grande na escala
Cor: “RAL 3020”, “Crimson”, “Red”, “Dark Red” — às vezes padrões, às vezes linguagem coloquial
Material: “Steel”, “Carbon Steel”, “Stainless”, “Stainless Steel” — redundante e pouco claro
Cada um destes exemplos parece inofensivo isoladamente. Mas assim que trabalha com mais de 3 milhões de SKUs, cada um com dezenas de atributos, surge um problema real:
Os filtros comportam-se de forma imprevisível
Os motores de busca perdem relevância
A pesquisa do cliente torna-se frustrante
As equipas atolam-se na limpeza manual de dados
Este é o sofrimento silencioso que se esconde por trás de quase todo grande catálogo de e-commerce.
A abordagem: IA com limites, não algoritmos de caos
Não queria uma caixa preta que ordena coisas misteriosas e ninguém entende. Em vez disso, foquei numa pipeline híbrida que:
permanece explicável
funciona de forma previsível
realmente escala
pode ser controlada por humanos
O resultado: IA que pensa de forma inteligente, mas sempre de forma transparente.
A arquitetura: Jobs offline em vez de loucura em tempo real
Todo o processamento de atributos ocorre em segundo plano—não em tempo real. Isto não foi uma solução de emergência, mas uma decisão de design estratégica.
Pipelines em tempo real parecem atraentes, mas levam a:
atrasos imprevisíveis
picos de computação caros
dependências frágeis
caos operacional
Jobs offline oferecem:
throughput massivo (grandes volumes de dados sem sobrecarregar sistemas ao vivo)
tolerância a falhas (falhas nunca atingem clientes)
controlo de custos (cálculos em períodos de baixo tráfego)
consistência (atualizações atômicas e previsíveis)
A separação entre sistemas orientados ao cliente e processamento de dados é crucial nesta escala.
O processo: De lixo a dados limpos
Antes de a IA trabalhar nos dados, há uma etapa crítica de limpeza:
remover espaços em branco
eliminar valores vazios
remover duplicados
formatar o contexto de categorias como strings limpas
Isto garante que o LLM trabalhe com entradas limpas. O princípio é simples: lixo entra, lixo sai. Pequenos erros nesta escala levam a grandes problemas mais tarde.
O serviço LLM: Mais inteligente que apenas ordenar
O LLM não funciona de forma estúpida, alfabeticamente. Ele pensa de forma contextual.
Recebe:
valores de atributos limpos
breadcrumbs de categorias
metadados de atributos
Com este contexto, o modelo entende:
Que “Spannung” em ferramentas elétricas é numérico
Que “Tamanho” em vestuário segue uma progressão conhecida
Que “Cor” pode seguir padrões RAL
Que “Material” tem relações semânticas
E devolve:
valores ordenados
nomes de atributos refinados
uma decisão: ordenação determinística ou orientada por IA
Isto permite lidar com diferentes tipos de atributos, sem precisar codificar cada categoria individualmente.
Fallbacks determinísticos: Nem tudo precisa de IA
Muitos atributos funcionam melhor sem inteligência artificial:
intervalos numéricos (5cm, 12cm, 20cm ordenam-se por si próprios)
valores baseados em unidades
quantidades simples
Estes oferecem:
processamento mais rápido
ordenação previsível
custos menores
zero ambiguidade
A pipeline reconhece automaticamente estes casos e usa lógica determinística. Assim, mantém-se eficiente e evita chamadas desnecessárias ao LLM.
Homem vs Máquina: Controlo duplo
Retalhistas precisaram de controlo sobre atributos críticos. Por isso, cada categoria pode ser marcada como:
LLM_SORT — o modelo decide
MANUAL_SORT — os retalhistas definem a ordem
Este sistema distribui o trabalho: a IA faz a maior parte, os humanos tomam as decisões finais. Também gera confiança, pois as equipas podem desativar o modelo quando necessário.
A infraestrutura: Simples, central, escalável
Todos os resultados vão diretamente para uma base de dados MongoDB—o único armazenamento operacional para:
valores de atributos ordenados
nomes de atributos refinados
tags de categorias
ordem de classificação específica do produto
Facilita verificar alterações, sobrescrever valores, reprocessar categorias e sincronizar com outros sistemas.
A integração na pesquisa: Onde a qualidade se revela
Após a ordenação, os valores alimentam dois ativos de pesquisa:
Elasticsearch para pesquisa por palavras-chave
Vespa para pesquisa semântica e baseada em vetores
Assim garante-se:
filtros aparecem em ordem lógica
páginas de produto mostram atributos consistentes
os motores de busca classificam com maior precisão
os clientes navegam mais facilmente pelas categorias
Aqui, na pesquisa, a boa ordenação de atributos torna-se visível.
Os resultados: Do caos à clareza
Atributo
Valores brutos
Saída ordenada
Tamanho
XL, Small, 12cm, Large, M, S
Small, M, Large, XL, 12cm
Cor
RAL 3020, Crimson, Red, Dark Red
Red, Dark Red, Crimson, RAL 3020 (
Material
Steel, Carbon Steel, Stainless, Stainless Steel
Steel, Stainless Steel, Carbon Steel
Numérico
5cm, 12cm, 2cm, 20cm
2cm, 5cm, 12cm, 20cm
Os efeitos foram mensuráveis:
ordenação consistente em mais de 3M+ SKUs
sequências numéricas previsíveis
controlo total pelos retalhistas via tagging
filtros mais intuitivos e páginas mais limpas
melhor relevância na pesquisa
maior conversão de clientes
Lições principais
Híbrido supera IA pura: limites são essenciais na escalabilidade
Contexto é ouro: melhora drasticamente a precisão do modelo
Processamento offline é obrigatório: para throughput e fiabilidade
Controlo humano gera confiança: mecanismos de sobrescrição não são bugs, são features
Entradas limpas são a base: sem atalhos na limpeza de dados
Ordenar valores de atributos parece trivial, mas torna-se um verdadeiro desafio com milhões de produtos. Combinando inteligência do LLM com regras claras e controlo humano, cria-se um sistema que transforma o caos invisível numa clareza escalável.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
O caos invisível: Como atributos de produto inconsistentes sabotam o comércio eletrónico em grande escala
Quando os retalhistas falam em escalabilidade, pensam em motores de busca, inventário em tempo real e otimização do checkout. Estes são problemas visíveis. Mas abaixo repousa um mais persistente: valores de atributos que simplesmente não combinam. Nos catálogos de produtos reais, estes valores raramente são consistentes. Estão formatados de forma diferente, semanticamente ambíguos ou simplesmente incorretos. E quando multiplicados por milhões de produtos, de um pequeno incômodo torna-se um desastre sistémico.
O problema: Pequeno isoladamente, grande na escala
Vamos a exemplos concretos:
Cada um destes exemplos parece inofensivo isoladamente. Mas assim que trabalha com mais de 3 milhões de SKUs, cada um com dezenas de atributos, surge um problema real:
Este é o sofrimento silencioso que se esconde por trás de quase todo grande catálogo de e-commerce.
A abordagem: IA com limites, não algoritmos de caos
Não queria uma caixa preta que ordena coisas misteriosas e ninguém entende. Em vez disso, foquei numa pipeline híbrida que:
O resultado: IA que pensa de forma inteligente, mas sempre de forma transparente.
A arquitetura: Jobs offline em vez de loucura em tempo real
Todo o processamento de atributos ocorre em segundo plano—não em tempo real. Isto não foi uma solução de emergência, mas uma decisão de design estratégica.
Pipelines em tempo real parecem atraentes, mas levam a:
Jobs offline oferecem:
A separação entre sistemas orientados ao cliente e processamento de dados é crucial nesta escala.
O processo: De lixo a dados limpos
Antes de a IA trabalhar nos dados, há uma etapa crítica de limpeza:
Isto garante que o LLM trabalhe com entradas limpas. O princípio é simples: lixo entra, lixo sai. Pequenos erros nesta escala levam a grandes problemas mais tarde.
O serviço LLM: Mais inteligente que apenas ordenar
O LLM não funciona de forma estúpida, alfabeticamente. Ele pensa de forma contextual.
Recebe:
Com este contexto, o modelo entende:
E devolve:
Isto permite lidar com diferentes tipos de atributos, sem precisar codificar cada categoria individualmente.
Fallbacks determinísticos: Nem tudo precisa de IA
Muitos atributos funcionam melhor sem inteligência artificial:
Estes oferecem:
A pipeline reconhece automaticamente estes casos e usa lógica determinística. Assim, mantém-se eficiente e evita chamadas desnecessárias ao LLM.
Homem vs Máquina: Controlo duplo
Retalhistas precisaram de controlo sobre atributos críticos. Por isso, cada categoria pode ser marcada como:
Este sistema distribui o trabalho: a IA faz a maior parte, os humanos tomam as decisões finais. Também gera confiança, pois as equipas podem desativar o modelo quando necessário.
A infraestrutura: Simples, central, escalável
Todos os resultados vão diretamente para uma base de dados MongoDB—o único armazenamento operacional para:
Facilita verificar alterações, sobrescrever valores, reprocessar categorias e sincronizar com outros sistemas.
A integração na pesquisa: Onde a qualidade se revela
Após a ordenação, os valores alimentam dois ativos de pesquisa:
Assim garante-se:
Aqui, na pesquisa, a boa ordenação de atributos torna-se visível.
Os resultados: Do caos à clareza
Os efeitos foram mensuráveis:
Lições principais
Ordenar valores de atributos parece trivial, mas torna-se um verdadeiro desafio com milhões de produtos. Combinando inteligência do LLM com regras claras e controlo humano, cria-se um sistema que transforma o caos invisível numa clareza escalável.