Si el lenguaje es lo que nos hace humanos, ¿qué significa ahora que los grandes modelos lingüísticos hayan adquirido capacidades “metalingüísticas”?
Por: Robert Neubecker-Revista Quanta
Introducción
Entre la miríada de habilidades que poseen los humanos, ¿cuáles son exclusivamente humanas? El lenguaje ha sido una de las principales candidatas al menos desde Aristóteles, quien escribió que la humanidad era «el animal que posee lenguaje». Si bien grandes modelos lingüísticos como ChatGPT replican superficialmente el habla cotidiana, los investigadores quieren saber si existen aspectos específicos del lenguaje humano que simplemente no tienen paralelo en los sistemas de comunicación de otros animales o dispositivos de inteligencia artificial.
En particular, los investigadores han estado explorando hasta qué punto los modelos de lenguaje pueden razonar sobre el lenguaje mismo. Para algunos miembros de la comunidad lingüística, los modelos de lenguaje no solo carecen de capacidad de razonamiento, sino que son incapaces de razonar. Esta opinión fue resumida por Noam Chomsky, un destacado lingüista, y dos coautores en 2023, cuando escribieron en The New York Times que «las explicaciones correctas del lenguaje son complejas y no se pueden aprender simplemente analizando grandes cantidades de datos». Los modelos de IA pueden ser hábiles en el uso del lenguaje, argumentaron estos investigadores, pero no son capaces de analizarlo de manera sofisticada.
Esa perspectiva fue cuestionada en un artículo reciente de Gašper Beguš , lingüista de la Universidad de California, Berkeley; Maksymilian Dąbkowski , doctor en lingüística por la misma universidad; y Ryan Rhodes, de la Universidad de Rutgers. Los investigadores sometieron varios modelos de lenguaje complejos (MLC) a una serie de pruebas lingüísticas, incluyendo, en un caso, la generalización de las reglas de un idioma inventado. Si bien la mayoría de los MLC no lograron analizar las reglas lingüísticas como lo hacen los humanos, uno de ellos demostró capacidades impresionantes que superaron con creces las expectativas. Fue capaz de analizar el lenguaje de forma muy similar a como lo haría un estudiante de posgrado en lingüística: diagramando oraciones, resolviendo múltiples significados ambiguos y utilizando características lingüísticas complejas como la recursión. Este hallazgo, según Beguš, «desafía nuestra comprensión de las capacidades de la IA».
Este nuevo trabajo es oportuno y de suma importancia, según Tom McCoy , lingüista computacional de la Universidad de Yale, quien no participó en la investigación. «A medida que la sociedad se vuelve más dependiente de esta tecnología, resulta fundamental comprender sus puntos fuertes y débiles». El análisis lingüístico, añadió, es el banco de pruebas ideal para evaluar hasta qué punto estos modelos de lenguaje pueden razonar como los humanos.
Complejidad infinita
Uno de los retos de someter a los modelos lingüísticos a una prueba rigurosa es asegurarse de que no conozcan de antemano las respuestas. Estos sistemas se entrenan normalmente con enormes cantidades de información escrita: no solo la mayor parte de internet, en decenas, si no cientos, de idiomas, sino también con textos como libros de texto de lingüística. En teoría, los modelos podrían simplemente memorizar y repetir la información que se les ha proporcionado durante el entrenamiento.
Para evitar esto, Beguš y sus colegas crearon una prueba lingüística en cuatro partes. Tres de ellas consistían en pedirle al modelo que analizara oraciones especialmente diseñadas mediante diagramas arbóreos, introducidos por primera vez en la obra fundamental de Chomsky de 1957, Estructuras sintácticas . Estos diagramas descomponen las oraciones en sintagmas nominales y verbales, y luego las subdividen en sustantivos, verbos, adjetivos, adverbios, preposiciones, conjunciones, etc.
Una parte del examen se centró en la recursión: la capacidad de insertar frases dentro de otras. «El cielo es azul» es una oración simple en inglés. «Jane dijo que el cielo es azul» inserta la oración original en una ligeramente más compleja. Es importante destacar que este proceso de recursión puede continuar indefinidamente: «María se preguntó si Sam sabía que Omar había oído que Jane dijo que el cielo es azul» también es una oración recursiva gramaticalmente correcta, aunque algo forzada.
Chomsky y otros han considerado la recursión como una de las características definitorias del lenguaje humano, e incluso, quizás, una característica definitoria de la mente humana. Los lingüistas han argumentado que su potencial ilimitado es lo que otorga a las lenguas humanas la capacidad de generar un número infinito de oraciones posibles a partir de un vocabulario y un conjunto de reglas finitos. Hasta el momento, no existe evidencia convincente de que otros animales puedan utilizar la recursión de forma sofisticada.
La recursión puede ocurrir al principio o al final de una oración, pero la forma más difícil de dominar, llamada incrustación central, se produce en el medio; por ejemplo, al pasar de “el gato murió” a “el gato al que mordió el perro murió”.
La prueba de Beguš alimentó los modelos de lenguaje con 30 oraciones originales que incluían ejemplos complejos de recursión. Por ejemplo: «La astronomía que estudiaron los antiguos a quienes veneramos no estaba separada de la astrología». Mediante un árbol sintáctico, uno de los modelos de lenguaje —o1 de OpenAI— pudo determinar que la oración tenía la siguiente estructura:
La astronomía [que estudiaban los antiguos [a quienes veneramos] ] no estaba separada de la astrología.
El modelo fue entonces más allá y añadió otra capa de recursión a la frase:
La astronomía [que estudiaban los antiguos [a quienes veneramos [que vivieron en tierras que apreciamos] ] ] no estaba separada de la astrología.
Beguš, entre otros, no anticipó que este estudio encontraría un modelo de IA con una capacidad “metalingüística” de nivel superior – “la capacidad no solo de usar un lenguaje sino de pensar sobre el lenguaje”, como él lo expresó.
Ese es uno de los aspectos más llamativos de su artículo, según David Mortensen, lingüista computacional de la Universidad Carnegie Mellon, quien no participó en el estudio. Se ha debatido si los modelos de lenguaje se limitan a predecir la siguiente palabra (o token lingüístico) en una oración, lo cual difiere cualitativamente de la profunda comprensión del lenguaje que poseen los humanos. «Algunos lingüistas han afirmado que los modelos de lenguaje no procesan realmente el lenguaje», señaló. «Esto parece refutar esas afirmaciones».
¿Qué quieres decir?
McCoy se mostró sorprendido por el rendimiento de o1 en general, en particular por su capacidad para reconocer la ambigüedad, algo que, según él, «es notoriamente difícil de capturar para los modelos computacionales del lenguaje». Los humanos «tenemos mucho sentido común que nos permite descartar la ambigüedad. Pero a las computadoras les resulta difícil tener ese nivel de sentido común».
Una oración como «Rowan alimentó a su gallina mascota» podría describir la gallina que Rowan tiene como mascota, o bien la comida de pollo que le dio a su (presumiblemente, más tradicional) mascota. El modelo o1 generó correctamente dos árboles sintácticos distintos: uno que corresponde a la primera interpretación de la oración y otro a la segunda.
Los investigadores también realizaron experimentos relacionados con la fonología: el estudio del patrón de los sonidos y de cómo se organizan las unidades más pequeñas de sonido, llamadas fonemas. Para hablar con fluidez, como un hablante nativo, las personas siguen reglas fonológicas que pueden haber adquirido mediante la práctica, sin haber recibido enseñanza explícita. En inglés, por ejemplo, añadir una «s» a una palabra que termina en «g» crea un sonido similar a la «z», como en «dogs» (perros). Pero una «s» añadida a una palabra que termina en «t» suena más como una «s» estándar, como en «cats» (gatos).
En la tarea de fonología, el grupo creó 30 minilenguajes nuevos, como los denominó Beguš, para comprobar si los modelos de lenguaje podían inferir correctamente las reglas fonológicas sin ningún conocimiento previo. Cada idioma constaba de 40 palabras inventadas. A continuación, se muestran algunos ejemplos de palabras de uno de los idiomas:
θalp
ʃebre
ð i̤ z ṳ
g a̤ rb o̤ nd a̤
ʒ i̤ z ṳ ð e̤ jo
Luego, pidieron a los modelos de lenguaje que analizaran los procesos fonológicos de cada idioma. Para este idioma, o1 escribió correctamente que «una vocal se convierte en una vocal aspirada cuando está inmediatamente precedida por una consonante que es a la vez sonora y obstruyente» —un sonido formado al restringir el flujo de aire, como la «t» en «top».
Los idiomas eran de reciente invención, por lo que era imposible que o1 hubiera estado expuesto a ellos durante su entrenamiento. «No esperaba que los resultados fueran tan contundentes ni tan impresionantes», declaró Mortensen.
¿Singularmente humanos o no?
¿Hasta dónde pueden llegar estos modelos de lenguaje? ¿Mejorarán indefinidamente solo aumentando su tamaño, incrementando su potencia de cálculo, su complejidad y sus datos de entrenamiento? ¿O acaso algunas características del lenguaje humano son el resultado de un proceso evolutivo exclusivo de nuestra especie?
Los resultados recientes demuestran que estos modelos pueden, en principio, realizar análisis lingüísticos sofisticados. Sin embargo, ningún modelo ha aportado aún nada original ni nos ha enseñado nada nuevo sobre el lenguaje.
Si la mejora se reduce simplemente a aumentar tanto la potencia computacional como los datos de entrenamiento, entonces Beguš cree que los modelos de lenguaje acabarán superándonos en habilidades lingüísticas. Mortensen afirmó que los modelos actuales son algo limitados. «Están entrenados para hacer algo muy específico: dado un historial de tokens [o palabras], predecir el siguiente token», explicó. «Tienen ciertas dificultades para generalizar debido a la forma en que se les entrena».
Pero, en vista de los avances recientes, Mortensen afirmó que no ve por qué los modelos lingüísticos no acabarán demostrando una comprensión de nuestro idioma superior a la nuestra. «Es solo cuestión de tiempo que podamos crear modelos que generalicen mejor con menos datos y de una forma más creativa».
Los nuevos resultados muestran una progresiva erosión de propiedades que se consideraban dominio exclusivo del lenguaje humano, afirmó Beguš. «Parece que somos menos únicos de lo que creíamos».

