Исследование показало: почти половина медицинских рекомендаций, предоставляемых ИИ, содержат ошибки, Grok — худший, OpenAI всё ещё расширяет свои медицинские амбиции

robot
Генерация тезисов в процессе

Согласно последнему исследованию, опубликованному в BMJ Open, около 50% ответов пяти крупнейших чат-ботов ИИ при ответах на медицинские вопросы содержат проблемы, из которых почти 20% считаются «высоко проблематичными». Bloomberg отметил, что это исследование выявляет системные риски применения ИИ в медицине, особенно в то время, когда OpenAI и Anthropic одновременно расширяют свои медицинские направления, что кажется особенно ироничным.
(Предыстория: Не отдавайте свои медицинские записи чат-ботам? Риск приватности в амбициях ChatGPT Health)
(Дополнительный фон: Исследование Калифорнийского университета о «мозговом тумане» ИИ: 14% офисных работников сходят с ума из-за агентов и автоматизации, 40% готовы уволиться)

Содержание статьи

Переключить

  • Grok показывает худшие результаты, ChatGPT не отстает
  • Чем увереннее говорит ИИ, тем выше риск
  • OpenAI и Anthropic: исследование тормозит, бизнес — ускоряется
  • Доверяйте ИИ, но с условиями

Более 230 миллионов человек каждую неделю задают ChatGPT вопросы о здоровье и медицине, но почти половина ответов могут содержать ошибки. Согласно исследованию, опубликованному на этой неделе в медицинском журнале BMJ Open, исследователи из США, Канады и Великобритании систематически оценили пять платформ: ChatGPT, Gemini, Meta AI, Grok и DeepSeek, задав по пять вопросов в пяти медицинских категориях.

Результаты неутешительны: около 50% ответов признаны проблематичными, из них почти 20% — «высоко проблематичные».

Grok показывает худшие результаты, ChatGPT не отстает

Bloomberg сообщил, что показатели платформ значительно различаются, но ни одна из них не прошла проверку. По уровню отклика на вопросы Grok занимает первое место с 58%, что делает его худшим по результатам; ChatGPT — 52%; Meta AI — 50%.

Исследователи заметили, что при закрытых вопросах и в темах, связанных с вакцинами и раком, чат-боты показывают лучшие результаты; однако при открытых вопросах и в областях, таких как стволовые клетки и питание, показатели значительно снижаются. Кроме того, в исследовании было всего два случая отказа отвечать, оба — у Meta AI (что в некотором смысле является редким плюсом, ведь знание о необходимости отказаться — тоже своего рода достоинство).

Еще более тревожно то, что ответы этих ИИ часто полны уверенности, тона подтверждающие, без всяких оговорок. Исследователи особо подчеркнули: ни один чат-бот не способен при любом вопросе предоставить полный и точный список источников. Это означает, что даже если ИИ кажется «обоснованным», его цитируемые источники зачастую невозможно проверить или они вообще отсутствуют.

Чем увереннее говорит ИИ, тем выше риск

В исследовании говорится, что эти системы могут генерировать «звучащие авторитетно, но на самом деле потенциально ошибочные ответы», что подчеркивает «существенные ограничения поведения ИИ-чат-ботов в публичных коммуникациях о здоровье и медицине» и необходимость «переоценки способов их внедрения».

Bloomberg также цитирует предупреждение команды исследователей: без общественного образования и регулирования, массовое внедрение чат-ботов создает риск распространения и усиления неправильной медицинской информации.

В качестве контраста, исследование JAMA показывает, что неудача ИИ в предварительных диагностических случаях превышает 80%; Оксфордский университет в феврале 2026 года также предупредил о системных рисках ИИ в предоставлении медицинских советов.

OpenAI и Anthropic: исследование тормозит, бизнес — ускоряется

Публикация этого исследования носит драматичный характер. Всего несколько месяцев назад OpenAI в январе 2026 года громко запустила ChatGPT Health, функцию, которая позволяет пользователям подключать электронные медицинские записи, носимые устройства и приложения для здоровья, а также выпустила профессиональную версию для клиницистов. Компания заявила, что ежедневно через ChatGPT обращаются за медицинской информацией 40 миллионов человек.

Параллельно Anthropic объявила о запуске Claude for Healthcare, сертифицированного по HIPAA, что позволяет ей официально войти на рынок медицинских услуг.

Эти платформы не имеют медицинских лицензий и не обладают клиническим опытом, но стремительно расширяются в медицинской сфере. Разрыв между результатами исследований и коммерческим ростом показывает наличие вакуума в регулировании: на рынке ИИ-медицинских инструментов пока нет четких границ между рекламой и реальной безопасностью.

Доверяйте ИИ, но с условиями

Это не первый раз, когда поднимается вопрос о применении ИИ в медицине, и каждый раз выводы напоминают одно и то же: ИИ-чат-боты — это языковые модели, которые хорошо умеют «звучать правильно», а не «давать точные ответы». Проблема в том, что когда пользователи обращаются с реальными опасениями по здоровью, их доверие к «звучащему правильно» уже может повлиять на их решения.

По мере того, как компании вроде OpenAI и Anthropic продолжают внедрять ИИ в медицинские сценарии, скорость регулирования и общественного просвещения явно отстает от технологического прогресса. Пока не установлены четкие границы, эта исследовательская работа должна напоминать нам: ИИ может стать входной точкой для получения медицинской информации, но не должна становиться ее конечной точкой.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить