Есть проницательная исследовательская статья, которая заслуживает внимания, если вы изучаете, как современные системы ИИ на самом деле функционируют на фундаментальном уровне.
Недавние академические работы обнаружили кое-что увлекательное: обучение стандартных трансформеров не просто запоминает шаблоны случайным образом — оно косвенно выполняет алгоритм Expectation-Maximization под капотом. Вот разбор, который делает это понятным:
Механизмы внимания выполняют E-шаг, по сути делая мягкие назначения того, какие позиции токенов действительно важны и заслуживают вычислительного внимания. В то же время, преобразования значений осуществляют M-шаг, итеративно уточняя и обновляя изученные представления на основе этих весов внимания.
Эта связь между архитектурой трансформеров и алгоритмами EM имеет важные последствия для тех, кто строит инфраструктуру ИИ или изучает, как нейронные сети обрабатывают последовательные данные. Она говорит о том, что эти модели решают задачи оптимизации очень конкретным, структурированным способом — не методом грубой силы поиска шаблонов, а через элегантную вероятностную структуру.
Для разработчиков, работающих с блокчейн-системами или распределёнными протоколами, понимание этих базовых механизмов может помочь принимать более обоснованные архитектурные решения. Статья предлагает математическую перспективу, которая объясняет, почему трансформеры работают так хорошо.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
16 Лайков
Награда
16
7
Репост
Поделиться
комментарий
0/400
SeeYouInFourYears
· 4ч назад
ngl с точки зрения этого EM-алгоритма всё ещё довольно интересно, transformer на самом деле просто играет в вероятностную игру
Посмотреть ОригиналОтветить0
QuietlyStaking
· 4ч назад
По сути, трансформер — это скрытно реализованный EM-алгоритм... Если бы я знал это раньше, многое стало бы яснее.
Посмотреть ОригиналОтветить0
GasFeeVictim
· 4ч назад
Немного запутанно... transformer на самом деле использует алгоритм EM? Кажется, это немного слишком академично, я просто хочу понять, почему это не помогает снизить газовые расходы
Посмотреть ОригиналОтветить0
Lonely_Validator
· 5ч назад
О, эта статья, похоже, неплохая, я уже слышал о трансформаторе, который запускает алгоритм EM, и чувствую себя немного переобъяснённым
Само собой, я просто хочу узнать, как эта штука помогает модели on-chain...
Эта математическая концепция звучит хорошо, но насколько её можно оптимизировать на практике?
ЭММ — это основной принцип популяризации науки, когда же мы увидим улучшение производительности...
Алгоритм ЭМ из Гуанхуэй тоже оказывается тщетным, и ключевым является инженерная реализация
Это немного интересно, но мне кажется, что академия часто усложняет простые вещи
Посмотреть ОригиналОтветить0
DegenRecoveryGroup
· 5ч назад
Выражение "transformer跑EM算法" немного интересно, но кажется, что академический круг снова пытается упаковать старую идею в новые концепции...
Посмотреть ОригиналОтветить0
ShibaSunglasses
· 5ч назад
Механизм внимания использует EM-алгоритм? Эта логика немного странная, раньше я никогда не думал рассматривать её с этой точки зрения...
Посмотреть ОригиналОтветить0
ReverseTradingGuru
· 5ч назад
Трансформер — это просто алгоритм EM? Теперь алгоритм может остаться без работы, ха-ха
Есть проницательная исследовательская статья, которая заслуживает внимания, если вы изучаете, как современные системы ИИ на самом деле функционируют на фундаментальном уровне.
Недавние академические работы обнаружили кое-что увлекательное: обучение стандартных трансформеров не просто запоминает шаблоны случайным образом — оно косвенно выполняет алгоритм Expectation-Maximization под капотом. Вот разбор, который делает это понятным:
Механизмы внимания выполняют E-шаг, по сути делая мягкие назначения того, какие позиции токенов действительно важны и заслуживают вычислительного внимания. В то же время, преобразования значений осуществляют M-шаг, итеративно уточняя и обновляя изученные представления на основе этих весов внимания.
Эта связь между архитектурой трансформеров и алгоритмами EM имеет важные последствия для тех, кто строит инфраструктуру ИИ или изучает, как нейронные сети обрабатывают последовательные данные. Она говорит о том, что эти модели решают задачи оптимизации очень конкретным, структурированным способом — не методом грубой силы поиска шаблонов, а через элегантную вероятностную структуру.
Для разработчиков, работающих с блокчейн-системами или распределёнными протоколами, понимание этих базовых механизмов может помочь принимать более обоснованные архитектурные решения. Статья предлагает математическую перспективу, которая объясняет, почему трансформеры работают так хорошо.