El científico de datos James Zou analiza nuevos hallazgos que revelan lagunas fundamentales en la forma en que los modelos de lenguaje comprenden la perspectiva humana.

(Stanford Report)-Los sistemas de inteligencia artificial se utilizan cada vez más en ámbitos cruciales como la medicina, el derecho, el periodismo y la educación. A medida que avanzan las aplicaciones de la IA, muchos se preguntan si puede distinguir entre realidad y ficción. Un nuevo estudio , dirigido por James Zou , profesor asociado de ciencia de datos biomédicos en la Facultad de Medicina de Stanford , y Mirac Suzgun, estudiante de doctorado en Derecho y Filosofía en Stanford, planteó una pregunta aún más profunda: ¿Pueden estos sistemas separar la verdad de las creencias de la gente?

El equipo de investigación evaluó 24 de los modelos de lenguaje más avanzados de la actualidad mediante una prueba de referencia llamada KaBLE, acrónimo de «Evaluación del Conocimiento y las Creencias», que consta de 13 000 preguntas distribuidas en 13 tareas. Los resultados revelaron que incluso los sistemas de IA más potentes a menudo no logran reconocer cuando una persona tiene una creencia falsa, lo que pone de manifiesto una importante debilidad en sus capacidades de razonamiento.

«A medida que pasamos de utilizar la IA de forma más interactiva y centrada en el ser humano en ámbitos como la educación y la medicina, se vuelve fundamental que estos sistemas comprendan bien a las personas con las que interactúan», afirmó Zou. «La IA necesita reconocer y corregir creencias falsas y conceptos erróneos. Esa sigue siendo una gran deficiencia en los modelos actuales, incluso en los más recientes».

En la siguiente sección de preguntas y respuestas, Zou responde a preguntas sobre lo que revelan los hallazgos de su equipo acerca de la eficacia de la IA y por qué comprender la perspectiva humana es esencial antes de depender más ampliamente de estos sistemas.

¿Qué te motivó a estudiar la capacidad de los grandes modelos lingüísticos para separar la creencia del conocimiento o los hechos?

Nos pareció una pregunta interesante porque los modelos de aprendizaje de idiomas se utilizan en muchos contextos diferentes. Por ejemplo, GPT-4o fue uno de los modelos que evaluamos, y sabemos que algunas personas lo han usado para buscar información, casi como un buscador, mientras que otras lo usan como asistente personal o incluso para pedir consejo. En estos distintos usos, es fundamental que el modelo distinga entre las creencias del usuario, sus conocimientos y los hechos del mundo.

¿Puedes dar un ejemplo de cuándo un sistema de IA puede tener dificultades para reconocer cuándo alguien tiene una creencia falsa?

Supongamos que estoy hablando con ChatGPT y le digo que creo que los humanos solo usamos el 10% de nuestro cerebro. Esto no tiene respaldo científico, pero algunas personas lo creen.

Si le pregunto a ChatGPT: «¿Qué fracción de nuestro cerebro creo que se está utilizando?», el modelo se negará a reconocer que tengo esta creencia errónea. En cambio, me pedirá aclaraciones o más contexto y me explicará que la idea de que solo usamos una pequeña parte de nuestro cerebro es un mito.

Eso supone un problema, sobre todo cuando se utilizan modelos de lenguaje para obtener consejos o como asistentes en medicina u otros ámbitos delicados. Es importante que el modelo reconozca las creencias del usuario, incluso si son falsas. Al intentar ayudar a alguien, parte del proceso consiste en comprender sus creencias. El objetivo es adaptar el consejo a cada persona en concreto.

¿Qué aspectos de la perspectiva humana les faltan a los sistemas de IA actuales? ¿Es posible solucionarlo?

La fortaleza de los sistemas de IA actuales radica en su amplio conocimiento de datos. Han leído artículos, entradas de Wikipedia, noticias y mucho más. Sin embargo, nuestro estudio demuestra que aún no poseen un modelo mental completo ni consistente del usuario humano con el que interactúan.

Cada vez más, los humanos colaboran con la IA para completar tareas conjuntas, como escribir o analizar información. A medida que pasamos de considerar la IA como una herramienta autónoma a tratarla como un socio colaborador, se vuelve fundamental que estos modelos respondan a las complejidades individuales.

Parte de nuestro trabajo se centra en cómo modificar los objetivos de entrenamiento para optimizar los modelos para la colaboración humana, pero aún nos encontramos en una fase relativamente temprana de desarrollo de esta metodología. Este trabajo también presenta riesgos evidentes. Si un modelo crea una representación mental de la persona con la que interactúa para personalizar sus respuestas, podría terminar basándose en estereotipos del usuario. Esto podría llevar a conclusiones erróneas sobre quién es el usuario o qué necesita.

Se está trabajando en la implementación de medidas de seguridad, pero uno de los desafíos radica en que no siempre conocemos todos los posibles sesgos. En ocasiones, los modelos pueden desarrollar sesgos nuevos e inesperados que no habíamos previsto.

¿Qué espera que la gente, incluidos otros investigadores, extraiga de este estudio?

Un hallazgo sorprendente fue que incluso los modelos de IA más recientes, diseñados para el razonamiento, siguen presentando inconsistencias y dificultades para distinguir entre creencias y hechos. Muchos podrían pensar que, a medida que los modelos mejoren en el razonamiento profundo, también mejorarán en el manejo de estas diferencias. Sin embargo, observamos que aún existen muchas limitaciones epistémicas, incluso en los modelos de razonamiento.

Tras nuestros hallazgos, la conclusión es la siguiente: al usar IA en áreas sensibles, es importante ser cautelosos y conscientes de que estos sistemas tienen modelos mentales sesgados e inconsistentes sobre con quién interactúan. Pueden ser útiles para preguntas objetivas o tareas sencillas, pero en entornos más personales o colaborativos, debemos abordarlos con detenimiento.

Además, necesitamos integrar diversas perspectivas al estudiar la IA. Este proyecto fue una colaboración muy divertida con científicos informáticos ( Mirac Suzgun , Dan Jurafsky ), un experto legal ( Daniel Ho ) y un filósofo ( Thomas Icard ) en Stanford.