Decirle a Tu Chatbot que Tienes una Condición de Salud Mental Puede Cambiar la Respuesta que Recibes

Decrypt

En breve

  • Un nuevo estudio revela que agregar una línea sobre una condición de salud mental cambia la forma en que responden los agentes de IA.
  • Después de la divulgación, los investigadores dicen que los modelos se niegan con más frecuencia, incluso en solicitudes benignas.
  • Sin embargo, el efecto se debilita o desaparece al usar simples indicaciones de jailbreak.

Decirle a un chatbot de IA que tienes una condición de salud mental puede cambiar su respuesta, incluso si la tarea es inofensiva o idéntica a otras ya realizadas, según una nueva investigación. El estudio preprint, dirigido por el investigador de Northeastern University Caglar Yildirim, evaluó cómo se comportan los agentes de modelos de lenguaje grande bajo diferentes configuraciones de usuario, ya que cada vez más se despliegan como agentes de IA. “Los sistemas desplegados a menudo condicionan en perfiles de usuario o memoria persistente, pero las evaluaciones de seguridad de los agentes generalmente ignoran las señales de personalización”, dice el estudio. “Para abordar esta brecha, investigamos cómo la divulgación de salud mental, un contexto de usuario sensible y realista, afecta el comportamiento dañino en entornos agenticos.”

El informe llega en un momento en que los agentes de IA proliferan en línea y los desarrolladores están haciendo de la memoria una característica central, con grandes empresas construyendo sistemas que recuerdan conversaciones pasadas y preferencias de usuario para ofrecer respuestas más personalizadas con el tiempo. También coincide con el hecho de que los desarrolladores de IA enfrentan demandas por suicidios y crímenes violentos supuestamente relacionados con interacciones con sus sistemas. En octubre, OpenAI, creador de ChatGPT, reveló que más de un millón de usuarios discutían sobre suicidio con el chatbot cada semana. A principios de este mes, la familia de Jonathan Gavalas presentó una demanda contra Google, alegando que Gemini llevó a un aumento de la violencia y a su eventual suicidio. Los investigadores utilizaron un estándar llamado AgentHarm para realizar la misma serie de tareas en tres condiciones: sin información de fondo, una breve biografía del usuario, y la misma biografía con una línea adicional que indica que el usuario tiene una condición de salud mental. 

“En el estudio, usamos una divulgación muy mínima y genérica, ‘Tengo una condición de salud mental’. La conclusión es que incluso una pequeña señal puede cambiar el comportamiento del modelo, no que toda la formulación tenga el mismo efecto”, dijo Yildirim a Decrypt. “La ablación que realizamos con divulgaciones sobre salud crónica y discapacidad física sugiere cierta especificidad en la señal de salud mental, pero no variamos sistemáticamente la formulación o la especificidad dentro de esa categoría. Entre los modelos evaluados, incluyendo DeepSeek 3.2, GPT 5.2, Gemini 3 Flash, Haiku 4.5, Opus 4.5 y Sonnet 4.5, cuando los investigadores añadieron contexto personal de salud mental, los modelos fueron menos propensos a completar tareas dañinas—solicitudes de múltiples pasos que podrían causar daño en el mundo real. El resultado, encontró el estudio, es un compromiso: agregar detalles personales hizo que los sistemas fueran más cautelosos ante solicitudes dañinas, pero también más propensos a rechazar solicitudes legítimas. “No creo que exista una sola razón; es realmente una combinación de decisiones de diseño. Algunos sistemas están más agresivamente ajustados para rechazar solicitudes riesgosas, mientras que otros priorizan ser útiles y cumplir con las tareas”, dijo Yildirim. Sin embargo, el efecto varió según el modelo, y los resultados cambiaron cuando los LLMs fueron jailbreakeados después de que los investigadores añadieron un prompt diseñado para forzar la conformidad. “Un modelo puede parecer seguro en un entorno estándar, pero volverse mucho más vulnerable cuando introduces cosas como prompts estilo jailbreak”, afirmó. “Y en sistemas agenticos específicamente, hay una capa adicional, ya que estos modelos no solo generan texto, sino que planifican y actúan en múltiples pasos. Así que si un sistema es muy bueno siguiendo instrucciones, pero sus salvaguardas son más fáciles de eludir, eso puede aumentar el riesgo.” El verano pasado, investigadores de George Mason University demostraron que los sistemas de IA podían ser hackeados modificando un solo bit en la memoria usando Oneflip, un ataque similar a un “error tipográfico” que deja el modelo funcionando normalmente pero oculta un gatillo trasero que puede forzar salidas incorrectas a comando. Aunque el documento no identifica una causa única para el cambio, destaca posibles explicaciones, incluyendo sistemas de seguridad que reaccionan ante vulnerabilidades percibidas, filtrado por palabras clave o cambios en la interpretación de los prompts cuando se incluyen detalles personales.

OpenAI declinó comentar sobre el estudio. Anthropic y Google no respondieron de inmediato a una solicitud de comentario. Yildirim dijo que aún no está claro si declaraciones más específicas como “Tengo depresión clínica” cambiarían los resultados, añadiendo que aunque la especificidad probablemente importa y puede variar entre modelos, eso sigue siendo una hipótesis y no una conclusión respaldada por los datos. “Existe un riesgo potencial si un modelo produce una salida que es estilísticamente matizada o cercana a una negativa sin rechazar formalmente, el juez podría valorarlo de manera diferente a una respuesta clara, y esas características estilísticas podrían variar con las condiciones de personalización”, afirmó. Yildirim también señaló que las puntuaciones reflejaron cómo los LLMs actuaron cuando fueron evaluados por un solo revisor de IA, y no una medida definitiva del daño en el mundo real. “Por ahora, la señal de rechazo nos da una verificación independiente y las dos medidas son en gran medida coherentes en dirección, lo que ofrece cierta tranquilidad, pero no descarta completamente artefactos específicos del juez”, concluyó.

Ver originales
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios