В 2017 году статья “Attention is All You Need” произвела фурор, впервые представив модель Transformer, основанную на механизме самовнимания, освободившись от традиционных ограничений RNN и CNN, и эффективно преодолев проблему долгосрочной зависимости благодаря параллельной обработке. На конференции GTC 2024 года генеральный директор Nvidia Жэньсюнь Хуанг пригласил семерых авторов Transformer на совместное выступление.
! [Trasnformer семь авторов появляются вместе](https://img-cdn.gateio.im/webp-social/moments-87a9b3933a-6d9a39f012-153d09-cd5cc0.webp019283746574839201
(Источник:NVIDIA)
Жэньсюнь Хуанг спросил, с какими проблемами они столкнулись в начале и что вдохновило команду на создание Transformer. Иллия Полосухин ответил: «Если вы хотите выпустить модель, которая действительно может читать результаты поиска, например, обрабатывать кучи документов, вам нужны модели, которые могут быстро обрабатывать эту информацию. Рекуррентные нейронные сети (RNN) в то время не могли удовлетворить эту потребность.»
Якоб Ушкорейт добавил: «Мы генерируем данные для обучения гораздо быстрее, чем способны обучать наши самые современные архитектуры. На самом деле мы используем более простые архитектуры, такие как сети с прямой связью с n-граммами в качестве входных признаков. Эти архитектуры, по крайней мере в масштабах Google и при большом количестве данных для обучения, благодаря более быстрой скорости обучения, обычно превосходят более сложные и современные модели.»
Ноам Шазир предоставил ключевые идеи: «Похоже, это проблема, требующая решения. Мы начали замечать эти законы масштабирования примерно в 2015 году, и вы можете видеть, что с увеличением масштаба модели, её уровень интеллекта также повышается. И одно огромное разочарование заключается в том, что RNN обрабатывать действительно очень сложно. Затем я случайно услышал, как эти парни обсуждают: эй, давайте заменим это сверткой или механизмом внимания. Я подумал, здорово, давайте так и сделаем. Я люблю сравнивать Transformer с прыжком от парового двигателя к двигателю внутреннего сгорания. Мы могли бы завершить промышленную революцию с помощью парового двигателя, но это было бы очень мучительно, а двигатель внутреннего сгорания сделал все гораздо лучше.»
)# Три основные проблемы, решаемые Transformer
Параллельная обработка: избавиться от ограничений последовательной обработки RNN и реализовать настоящие параллельные вычисления
Долгосрочная зависимость: Эффективное улавливание отношений между словами на дальнем расстоянии с помощью механизма самовнимания.
Эффективность обучения: Значительное увеличение скорости обучения модели, что делает возможным масштабное предварительное обучение.
Эти технологические прорывы сделали Transformer основой современного ИИ. Такие крупные языковые модели, как ChatGPT, BERT, GPT-4, основаны на архитектуре Transformer. Однако через семь лет создатели считают, что пора сделать прорыв.
Айдан Гомес признался: «Я думаю, что этому миру нужно что-то лучшее, чем Transformer, и я думаю, что все мы здесь надеемся, что это может быть заменено чем-то, что приведет нас к новому плато производительности.» Ллион Джонс добавил: «Мы застряли на исходных моделях, хотя с технической точки зрения, возможно, это не самое мощное, что у нас есть сейчас. Но все знают, какими личными инструментами они хотят пользоваться: вы хотите сделать лучшее контекстное окно, вам нужна более быстрая способность генерировать токены. В настоящее время они используют слишком много вычислительных ресурсов. Я думаю, что все сделали много бесполезных вычислений.»
Яков Ушкорейт указал на основную проблему: «Но я думаю, что это в основном связано с тем, как распределяются ресурсы, а не с тем, сколько ресурсов было потрачено всего. Например, мы не хотим тратить слишком много денег на простую задачу или слишком мало на слишком сложную задачу, в результате чего мы не получим решения.»
Иллия Полосухин привёл яркий пример: «Этот пример как 2+2, если вы правильно введёте его в эту модель, она будет использовать триллион параметров. Поэтому я считаю, что адаптивные вычисления — это одна из вещей, которые должны появиться дальше, мы знаем, сколько вычислительных ресурсов следует потратить на конкретные задачи.» Эта критика выявляет основный недостаток современных ИИ-моделей: отсутствие адаптивности, затраты одинаковых вычислительных ресурсов на простые и сложные задачи, что приводит к огромным потерям.
Ноам Шазир анализирует с экономической точки зрения: «Я считаю, что текущие модели слишком экономичны и их масштаб еще слишком мал. Стоимость вычислений за каждую операцию составляет примерно от 10 до 18 долларов. Если вы посмотрите на модель с пятью триллионами параметров и каждую токен выполнять триллион вычислений, это около одного доллара за миллион токенов, что в 100 раз дешевле, чем купить бумажную книгу и прочитать её». Эта точка зрения противоречит здравому смыслу, но глубока: ИИ сейчас слишком дешев, что приводит к тому, что люди злоупотребляют, а не ценят вычислительные ресурсы.
Лукаш Кайзер раскрыл важный факт: «Мы не достигли первоначальной цели, мы начали Transformer с намерением смоделировать процесс эволюции токена. Это не просто линейный процесс генерации, а постепенная эволюция текста или кода.» Это признание показывает, что, хотя Transformer и успешен, он не полностью реализовал видение своих создателей.
Якоб Ужкорейт указал на следующий шаг: «Следующий шаг — это рассуждение. Мы все осознаем важность рассуждения, но многие работы в настоящее время все еще выполняются инженерами вручную. Мы надеемся, что модель сможет генерировать контент, который нам нужен, будь то видео, текст или 3D-сообщения — всё это должно быть интегрировано вместе». Это подразумевает, что будущая архитектура ИИ требует более высокой способности к рассуждению и мультимодальной интеграции.
Эйдан Гомес добавил: «Сможем ли мы реализовать многозадачность и параллелизм? Если вы действительно хотите создать такую модель, помогите нам спроектировать такую модель, это очень хороший способ.» Лукаш Кайзер считает: «Выводы на самом деле исходят из данных, нам нужно сделать данные более полными.» Эти дискуссии указывают на несколько ключевых направлений для архитектур ИИ после Transformer: адаптивные вычисления, улучшенное резюмирование, мульти-модальное слияние и более эффективное использование данных.