AI Agent выдаёт мусор? Проблема в том, что ты не хочешь сжигать Token

Question

Автор: Systematic Long ShortПеревод: Deep潮 TechFlowВведение Deep潮: Основной тезис этой статьи можно выразить одной фразой: качество вывода AI-агента прямо пропорционально количеству вложенных вами токенов.Автор не рассуждает абстрактно о теории, а предлагает два конкретных метода, которые можно начать использовать уже сегодня, и ясно обозначает границы, за которыми невозможно превысить — «проблема новизны».Для читателей, использующих агента для написания кода или выполнения рабочих процессов, эта информация обладает высокой плотностью и практической ценностью.ВступлениеНу что ж, вы должны признать, что этот заголовок действительно привлекает внимание — и, честно говоря, это не шутка.В 2023 году, когда мы еще использовали большие языковые модели (LLM) для производства кода, окружающие были поражены — потому что тогда широко считалось, что LLM могут только выдавать бесполезный мусор. Но мы знали одну вещь, о которой другие не догадывались: качество вывода агента — это функция количества вложенных токенов. Всё просто.Вы можете убедиться в этом, проведя несколько экспериментов. Пусть агент выполнит сложную, немного нишевую задачу программирования — например, реализовать с нуля алгоритм выпуклой оптимизации с ограничениями. Сначала на минимальном уровне размышлений; затем переключитесь на максимальный уровень, попросите его проверить свой код и обнаружить сколько ошибок. Попробуйте средний и высокий уровни. И вы увидите наглядно: количество ошибок монотонно уменьшается с увеличением вложенных токенов.Это вполне логично, не так ли?Больше токенов = меньше ошибок. Можно пойти дальше и сказать, что это — основная идея, лежащая в основе процесса code review (ревью кода). В другом контексте, вложив огромное количество токенов (например, попросив его построчно анализировать код и определять, есть ли в каждой строке баги), — можно выявить большинство или даже все ошибки. Этот процесс можно повторять десять, сто раз, каждый раз с новой точки зрения, и в итоге вы сможете найти все баги.Еще одно подтверждение того, что «больше токенов — лучше качество агента»: команды, утверждающие, что могут полностью автоматизировать написание кода и сразу выводить его в продакшн — либо являются поставщиками базовых моделей, либо очень богатой компанией.Поэтому, если вы все еще страдаете от того, что агент не генерирует код уровня продакшн — скажу прямо: проблема в вас. Или, точнее, в вашем бюджете токенов.Как понять, достаточно ли вы вложили токеновЯ писал целую статью о том, что проблема точно не в вашей системе (harness), что «оставаться простым» — всё равно позволяет создавать отличные вещи, и я по-прежнему придерживаюсь этого мнения. Вы прочитали ту статью, сделали по ней, но все равно разочаровались в выводе агента. Вы написали мне в личку, я прочитал, но не ответил.Это — мой ответ.В большинстве случаев плохая производительность агента и неспособность решить проблему связаны с недостаточным вложением токенов.Сколько токенов нужно вложить, чтобы решить задачу, полностью зависит от ее масштаба, сложности и новизны.«Сколько нужно, чтобы решить 2+2?» — не требует много токенов.«Помоги мне написать бота, который просканирует все рынки между Polymarket и Kalshi, выявит в смысловом плане похожие рынки, которые должны быть рассчитаны в один и тот же момент, установит границы без арбитража, и при появлении возможности арбитража автоматически и с минимальной задержкой совершит сделку» — это потребует вложения большого количества токенов.На практике мы обнаружили одну интересную вещь.Если вложить достаточно много токенов для решения задач, вызванных масштабом и сложностью, агент в любом случае сможет их решить. Иными словами, если вы хотите создать очень сложную систему с множеством компонентов и строк кода, — достаточно вложить в эти задачи достаточное количество токенов, и они в конечном итоге будут полностью решены.Есть одно важное исключение.Ваша задача не должна быть слишком новаторской. На текущем этапе ни одно количество токенов не сможет решить проблему «новизны». Достаточно много токенов снизит ошибки, связанные со сложностью, до нуля, но не сможет придумать то, чего агент не знает.Этот вывод на самом деле дает нам облегчение.Мы потратили огромное количество усилий, вложили — много, очень много — токенов, чтобы проверить, можем ли мы (как квантовые исследователи) в условиях минимального руководства восстановить инвестиционный процесс в организации. И пришли к выводу, что агент вовсе не способен приблизиться к полноценному инвестиционному процессу. Мы считаем, что причина в том, что такие процессы в обучающих данных просто отсутствуют — их там нет.Поэтому, если ваша задача новаторская, не стоит надеяться, что просто накопление токенов ее решит. Вам нужно самостоятельно вести исследование и руководство. Но как только вы определите способ реализации — можете спокойно накапливать токены для выполнения задачи — размер кода и компонентов не станет преградой.Есть простое эвристическое правило: бюджет токенов должен расти пропорционально количеству строк кода.Что делает больше вложенных токеновНа практике дополнительные токены обычно повышают качество инженерных решений агента за счет следующих способов:Позволяют ему тратить больше времени на рассуждение в рамках одной попытки, что дает шанс обнаружить ошибочные логические цепочки. Чем глубже рассуждение — тем лучше планирование — тем выше вероятность успеха.Позволяют ему делать несколько независимых попыток, проходя по разным путям решения. Некоторые пути лучше других. Возможность многократных попыток позволяет выбрать лучший.Аналогично, больше независимых планов дает возможность отказаться от слабых вариантов и оставить наиболее перспективные.Больше токенов — больше возможностей использовать новый контекст для критики собственной работы, дать себе шанс на улучшение, а не застревать в «инерции рассуждений».Конечно, есть и мой любимый момент: больше токенов — значит, он может использовать тесты и инструменты для проверки. Запуск кода и проверка его работоспособности — самый надежный способ убедиться в правильности ответа.Эта логика работает потому, что неудачи инженера-агента связаны не с случайностью. Почти всегда — из-за преждевременного выбора неправильного пути, отсутствия проверки, действительно ли выбранный путь возможен (на ранних этапах), или недостаточного бюджета для восстановления и отката после ошибок.Вот и вся история. В буквальном смысле, токены — это качество ваших решений, которое вы покупаете. Представьте, что это — исследовательская работа: если попросить человека на месте решить сложную задачу, качество ответа снизится с ростом временного давления.В конечном итоге, исследование — это создание базовых знаний «знать ответ». Люди тратят биологическое время на получение лучших ответов, а агент — больше вычислительных ресурсов, чтобы получить лучший ответ.Как улучшить своего агентаВозможно, вы все еще сомневаетесь, но есть множество научных работ, подтверждающих это. Честно говоря, наличие «регулятора рассуждений» — это уже все доказательство того, что это работает.Мне очень нравится одна статья, в которой исследователи использовали небольшую выборку специально подготовленных образцов рассуждений для обучения, а затем применяли метод, который заставлял модель продолжать думать, когда ей хотелось остановиться — добавляя в конце «Wait» (подождите). Уже только это повысило результат на одном бенчмарке с 50% до 57%.Я хочу сказать максимально прямо: если вы постоянно жалуетесь, что код, который пишет агент, оставляет желать лучшего, то, скорее всего, одного высокого уровня размышлений недостаточно.Я дам вам два очень простых решения.Первое: WAIT (подождите)Самое простое, что вы можете начать делать уже сегодня — настроить автоматический цикл: после построения модели пусть агент использует новый контекст для повторного обзора N раз, исправляя ошибки по мере их обнаружения.Если вы заметили, что этот простой трюк улучшил работу агента, — значит, проблема именно в количестве токенов. Тогда присоединяйтесь к клубу вложения токенов.Второе: VERIFY (проверка)Пусть агент как можно раньше и чаще проверяет свою работу. Пишите тесты, чтобы подтвердить, что выбранный путь действительно работает. Особенно это важно для очень сложных, глубоко вложенных проектов — одна функция может вызываться множеством других. Возможность обнаружить ошибки на верхних уровнях сэкономит вам много времени и токенов на последующих этапах. Поэтому по возможности ставьте точки проверки на всем протяжении разработки.Когда агент завершает работу, главный агент говорит: «Готово»? Пусть второй агент проверит его. Несвязанные потоки рассуждений помогут выявить системные отклонения.Вот и все. Много писать на эту тему я не буду, но достаточно понять эти два принципа и правильно их реализовать — и вы решите 95% проблем. Я уверен, что доведение простых вещей до совершенства и постепенное усложнение — лучший путь.Я уже упоминал, что «новизна» — это проблема, которую токены решить не могут. Хочу еще раз подчеркнуть, потому что рано или поздно вы столкнетесь с этим и начнете жаловаться, что вложение токенов — бесполезно.Когда ваша задача не входит в обучающий набор, именно вы — тот, кто должен предложить решение. Поэтому профессиональные знания в области остаются крайне важными.

AI Agent выдаёт мусор? Проблема в том, что ты не хочешь сжигать Token

Популярные темы

Gate13thAnniversaryGlobalCelebration

GateProofOfReservesReport

IsraelStrikesIranBTCPlunges

CryptoMarketVolatility

GoldSeesLargestWeeklyDropIn43Years

Горячее на Gate Fun

🐉

华夏

bitc

gate

硅基茶水间

硅基茶水间

ToKen

ToKen

183727

啊哦

Закрепить