Há um artigo de pesquisa perspicaz que merece atenção se estiver a explorar como os sistemas de IA modernos funcionam realmente a um nível fundamental.
Trabalhos académicos recentes descobriram algo fascinante: o treino padrão de transformadores não aprende padrões aleatoriamente—está implicitamente a executar um algoritmo de Expectation-Maximization por baixo dos panos. Aqui está a explicação que faz tudo fazer sentido:
Os mecanismos de atenção realizam a etapa E, essencialmente fazendo atribuições suaves de quais posições de tokens realmente importam e merecem foco computacional. Entretanto, as transformações de valor executam a etapa M, refinando e atualizando iterativamente as representações aprendidas com base nesses pesos de atenção.
Esta ligação entre a arquitetura do transformer e os algoritmos EM tem implicações importantes para quem constrói infraestruturas de IA ou estuda como as redes neurais processam dados sequenciais. Sugere que estes modelos resolvem problemas de otimização de uma forma muito específica e estruturada—não através de uma busca exaustiva por padrões, mas através de uma estrutura probabilística elegante.
Para desenvolvedores que trabalham em sistemas blockchain ou protocolos distribuídos, compreender estas mecânicas subjacentes pode orientar melhores decisões arquitetónicas. O artigo oferece uma perspetiva matemática que explica por que os transformers funcionam tão bem.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
16 gostos
Recompensa
16
7
Republicar
Partilhar
Comentar
0/400
SeeYouInFourYears
· 4h atrás
ngl Do ponto de vista do algoritmo EM, ainda é um pouco interessante, o transformer na verdade está jogando um jogo de probabilidades.
Ver originalResponder0
QuietlyStaking
· 4h atrás
Por isso, o transformer na verdade está a executar secretamente o algoritmo EM... Se soubesse isto mais cedo, sentiria que muitas coisas ficaram de repente mais claras.
Ver originalResponder0
GasFeeVictim
· 4h atrás
Um pouco confuso... o transformer na verdade é executado pelo algoritmo EM? Parece um pouco acadêmico demais, só quero saber por que isso não ajuda nas taxas de gas.
Ver originalResponder0
Lonely_Validator
· 5h atrás
Oh, esta tese parece estar bem, já ouvi falar do uso do transformer no algoritmo EM antes, parece um pouco exagerado na explicação
Não diga mais, só quero saber como essa coisa ajuda nos modelos na cadeia...
Esse quadro matemático parece bom, mas na prática, quanto pode otimizar?
emm, mais uma explicação sobre os princípios básicos, quando é que vamos ver melhorias de desempenho...
Só conhecer o algoritmo EM é inútil, o mais importante é a implementação prática
É interessante, mas sinto que a academia costuma complicar coisas simples
Ver originalResponder0
DegenRecoveryGroup
· 5h atrás
A expressão "transformer rodando o algoritmo EM" é um pouco interessante, mas parece que o meio acadêmico está apenas reembalando conceitos já conhecidos como se fossem novidades...
Ver originalResponder0
ShibaSunglasses
· 5h atrás
O mecanismo de atenção roda com o algoritmo EM? Essa lógica é meio absurda, nunca tinha pensado nisso sob essa perspectiva...
Ver originalResponder0
ReverseTradingGuru
· 5h atrás
O transformer é basicamente o algoritmo EM? Agora o algoritmo vai ficar desempregado hahaha
Há um artigo de pesquisa perspicaz que merece atenção se estiver a explorar como os sistemas de IA modernos funcionam realmente a um nível fundamental.
Trabalhos académicos recentes descobriram algo fascinante: o treino padrão de transformadores não aprende padrões aleatoriamente—está implicitamente a executar um algoritmo de Expectation-Maximization por baixo dos panos. Aqui está a explicação que faz tudo fazer sentido:
Os mecanismos de atenção realizam a etapa E, essencialmente fazendo atribuições suaves de quais posições de tokens realmente importam e merecem foco computacional. Entretanto, as transformações de valor executam a etapa M, refinando e atualizando iterativamente as representações aprendidas com base nesses pesos de atenção.
Esta ligação entre a arquitetura do transformer e os algoritmos EM tem implicações importantes para quem constrói infraestruturas de IA ou estuda como as redes neurais processam dados sequenciais. Sugere que estes modelos resolvem problemas de otimização de uma forma muito específica e estruturada—não através de uma busca exaustiva por padrões, mas através de uma estrutura probabilística elegante.
Para desenvolvedores que trabalham em sistemas blockchain ou protocolos distribuídos, compreender estas mecânicas subjacentes pode orientar melhores decisões arquitetónicas. O artigo oferece uma perspetiva matemática que explica por que os transformers funcionam tão bem.