Забудьте об AGI—Лучшие AI модели все еще неправильно справляются с математикой

Decrypt

2026-03-18 12:10:12

Вкратце

MATHVISTA, созданный на основе более 6000 аннотированных данных от Sahara AI, тестирует модели ИИ на мультимодальном математическом мышлении.
GPT-4V набрал 49,9%, что является наивысшим результатом среди 12 протестированных моделей, но все еще на 10,4 процентных пункта ниже человеческого уровня.
Исследователи считают, что прогресс к ИИ общего назначения может зависеть меньше от размера модели, чем от улучшения обучающих и оценочных данных.

Искусственный общий интеллект, или ИИ общего назначения, часто описывается как система, способная выполнять задачи в различных областях так же, как человек. Результаты, опубликованные на этой неделе по результатам теста MATHVISTA, показывают, что текущие модели все еще не достигают этой цели. Исследователи из Microsoft Research, Sahara AI и Университета Эмори протестировали возможности, связанные с общим интеллектом, математическим мышлением, основанным на визуальной информации, включая графики, диаграммы и схемы. Из 12 базовых моделей, включая ChatGPT, Gemini и Claude, GPT-4 Vision показала лучший результат — 49,9%. В среднем у участников-человеков было 60,3%, что подчеркивает разрыв между текущими системами ИИ и более широкими возможностями рассуждения, часто ассоциируемыми с ИИ общего назначения.

«Мы хотим, чтобы машина могла выполнять задачи, которые может выполнить обычный человек в повседневной жизни», — сказал главный исследователь Microsoft Research Хао Чэн в интервью Decrypt. «Это в основном то, к чему стремится каждый в области ИИ общего назначения.» Путем преобразования задач в изображения, схемы и графики проект проверяет, могут ли модели точно интерпретировать визуальную информацию и решать многошаговые математические и логические задачи — навыки, выходящие за рамки простого сопоставления шаблонов по тексту. Модели все еще испытывают трудности с этими задачами, и измерение этой ограниченности является сложной задачей.

Когда команда Чэна анализировала существующие наборы данных для оценки, многие из них включали задачи, не требующие визуального мышления. Модели часто достигали правильных ответов, полагаясь только на текст. «Что не идеально», — отметил Чэн. MathVista, доступный на GitHub и Hugging Face, был запущен в октябре 2023 года. С тех пор его скачали более 275 000 раз, в том числе более 13 000 за последний месяц, по данным Microsoft Research. Создание набора данных потребовало больше, чем стандартной разметки данных. Microsoft Research понадобились аннотаторы, способные работать с задачами по арифметике, алгебре, геометрии и статистике, при этом различая более глубокое математическое мышление, такое как интерпретация графиков или решение уравнений, от простых задач, таких как подсчет объектов или чтение чисел. После пилотной фазы Microsoft выбрала Sahara AI для поддержки проекта. Компания предоставила обученных аннотаторов, индивидуальные рабочие процессы и многоэтапные проверки качества, чтобы создать более 6000 мультимодальных примеров, используемых в тесте. Без надежных эталонов измерения прогресса в области более широкой машинной интеллигенции становится сложно, отметил Сиан Рен, генеральный директор Sahara AI и доцент кафедры компьютерных наук USC. «Здесь есть нюанс загрязнения данных, когда, как только мы начинаем использовать этот набор данных для тестирования, эти результаты поглощаются в следующую версию», — сказал Рен. «И вы не знаете, решают ли они только задачу из набора данных или действительно обладают способностью.» Если ответы из эталона попадают в обучающие данные модели, высокие оценки могут отражать запоминание, а не рассуждение. Это усложняет определение того, действительно ли системы ИИ улучшаются.

Исследователи также указывают на ограничения в обучающих данных. Большая часть общедоступного интернета уже включена в наборы данных моделей. «Определенно нужно найти способ внедрить новые знания в этот процесс», — сказал Чэн. «Я считаю, что это должно исходить из высококачественных данных, чтобы мы могли действительно преодолеть границу знаний.» Один из предложенных путей — создание симулированных сред, в которых модели могут взаимодействовать, учиться на опыте и совершенствоваться через обратную связь. «Вы создаете двойной мир или зеркало реального мира внутри песочницы, чтобы модель могла играть и выполнять множество задач, которые делают люди в реальной жизни, тем самым фактически преодолевая границу интернета», — сказал Чэн. Рен отметил, что люди все еще могут играть важную роль в улучшении систем ИИ. Хотя модели могут быстро генерировать контент, люди остаются лучше в его оценке. «Этот разрыв между человеком и ИИ, в том, что они умеют и что не умеют, можно использовать для действительно значительного улучшения ИИ в будущем», — добавил он.

Посмотреть Оригинал

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

комментарий

0/400

Нет комментариев