¿Cómo funcionan los potentes sistemas de IA generativa como ChatGPT y qué los diferencia de otros tipos de inteligencia artificial?

Adán Zewe | Noticias del MIT

Un vistazo rápido a los titulares hace que parezca que la inteligencia artificial generativa está en todas partes estos días. De hecho, es posible que algunos de esos titulares hayan sido escritos por IA generativa, como ChatGPT de OpenAI, un chatbot que ha demostrado una asombrosa habilidad para producir texto que parece haber sido escrito por un humano.

Pero, ¿qué quiere decir realmente la gente cuando dice «IA generativa»?

Antes del auge de la IA generativa de los últimos años, cuando la gente hablaba de IA, normalmente se refería a modelos de aprendizaje automático que pueden aprender a hacer una predicción basada en datos. Por ejemplo, estos modelos se entrenan, utilizando millones de ejemplos, para predecir si una determinada radiografía muestra signos de un tumor o si es probable que un prestatario en particular no pague un préstamo.

La IA generativa puede considerarse como un modelo de aprendizaje automático entrenado para crear nuevos datos, en lugar de hacer una predicción sobre un conjunto de datos específico. Un sistema de IA generativa es aquel que aprende a generar más objetos que se parecen a los datos con los que fue entrenado.

“Cuando se trata de la maquinaria real que subyace a la IA generativa y otros tipos de IA, las distinciones pueden ser un poco borrosas. A menudo, se pueden utilizar los mismos algoritmos para ambos”, afirma Phillip Isola, profesor asociado de ingeniería eléctrica e informática en el MIT y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL).

Y a pesar del revuelo que generó el lanzamiento de ChatGPT y sus contrapartes, la tecnología en sí no es nueva. Estos potentes modelos de aprendizaje automático se basan en investigaciones y avances computacionales que se remontan a más de 50 años.

Un aumento de la complejidad

Un ejemplo temprano de IA generativa es un modelo mucho más simple conocido como cadena de Markov. La técnica lleva el nombre de Andrey Markov, un matemático ruso que en 1906 introdujo este método estadístico para modelar el comportamiento de procesos aleatorios. En el aprendizaje

automático, los modelos de Markov se han utilizado durante mucho tiempo para tareas de predicción de la siguiente palabra, como la función de autocompletar en un programa de correo electrónico.

En la predicción de texto, un modelo de Markov genera la siguiente palabra de una oración mirando la palabra anterior o algunas palabras anteriores. Pero como estos modelos simples sólo pueden retroceder hasta ese punto, no son buenos para generar texto plausible, dice Tommi Jaakkola, profesor Thomas Siebel de Ingeniería Eléctrica y Ciencias de la Computación en el MIT, quien también es miembro de CSAIL y del Instituto de Datos, Sistemas y Sociedad (IDSS).

«Estábamos generando cosas mucho antes de la última década, pero la principal distinción aquí está en términos de la complejidad de los objetos que podemos generar y la escala a la que podemos entrenar estos modelos», explica.

Hace apenas unos años, los investigadores tendían a centrarse en encontrar un algoritmo de aprendizaje automático que hiciera el mejor uso de un conjunto de datos específico. Pero ese enfoque ha cambiado un poco, y muchos investigadores ahora están utilizando conjuntos de datos más grandes, quizás con cientos de millones o incluso miles de millones de puntos de datos, para entrenar modelos que puedan lograr resultados impresionantes.

Los modelos base subyacentes a ChatGPT y sistemas similares funcionan de manera muy similar al modelo de Markov. Pero una gran diferencia es que ChatGPT es mucho más grande y complejo, con miles de millones de parámetros. Y se ha entrenado con una enorme cantidad de datos; en este caso, gran parte del texto disponible públicamente en Internet.

En este enorme corpus de texto, las palabras y oraciones aparecen en secuencias con ciertas dependencias. Esta recurrencia ayuda al modelo a comprender cómo cortar el texto en fragmentos estadísticos que tengan cierta previsibilidad. Aprende los patrones de estos bloques de texto y utiliza este conocimiento para proponer lo que podría venir a continuación.

Arquitecturas más potentes

Si bien los conjuntos de datos más grandes son un catalizador que condujo al auge de la IA generativa, una variedad de importantes avances en la investigación también llevaron a arquitecturas de aprendizaje profundo más complejas.

En 2014, investigadores de la Universidad de Montreal propusieron una arquitectura de aprendizaje automático conocida como red generativa adversarial (GAN). Las GAN utilizan dos modelos que funcionan en conjunto: uno aprende a generar una salida objetivo (como una imagen) y el otro aprende a discriminar los datos verdaderos de la salida del generador. El generador intenta engañar al discriminador y en el proceso aprende a generar resultados más realistas. El generador de imágenes StyleGAN se basa en este tipo de modelos. 

Los modelos de difusión fueron introducidos un año después por investigadores de la Universidad de Stanford y la Universidad de California en Berkeley. Al refinar iterativamente su salida, estos modelos aprenden a generar nuevas muestras de datos que se asemejan a muestras en un conjunto de datos de entrenamiento y se han utilizado para crear imágenes de apariencia realista. Un modelo de difusión es el núcleo del sistema de generación de texto a imagen Stable Diffusion.

En 2017, investigadores de Google introdujeron la arquitectura transformadora, que se ha utilizado para desarrollar grandes modelos de lenguaje, como los que impulsan ChatGPT. En el procesamiento del lenguaje natural, un transformador codifica cada palabra en un corpus de texto como un token y luego genera un mapa de atención, que captura las relaciones de cada token con todos los demás tokens. Este mapa de atención ayuda al transformador a comprender el contexto cuando genera texto nuevo.

Estos son sólo algunos de los muchos enfoques que se pueden utilizar para la IA generativa.

Una gama de aplicaciones

Lo que todos estos enfoques tienen en común es que convierten las entradas en un conjunto de tokens, que son representaciones numéricas de fragmentos de datos. Siempre que sus datos se puedan convertir a este formato de token estándar, entonces, en teoría, podría aplicar estos métodos para generar nuevos datos que parezcan similares.

“Su kilometraje puede variar, dependiendo de cuán ruidosos sean sus datos y cuán difícil sea extraer la señal, pero realmente se está acercando a la forma en que una CPU de propósito general puede tomar cualquier tipo de datos y comenzar a procesarlos de una manera unificada. manera”, dice Isola.

Esto abre una enorme variedad de aplicaciones para la IA generativa.

Por ejemplo, el grupo de Isola está utilizando IA generativa para crear datos de imágenes sintéticas que podrían usarse para entrenar otro sistema inteligente, por ejemplo, enseñando a un modelo de visión por computadora cómo reconocer objetos.

El grupo de Jaakkola está utilizando IA generativa para diseñar estructuras proteicas novedosas o estructuras cristalinas válidas que especifiquen nuevos materiales. De la misma manera que un modelo generativo aprende las dependencias del lenguaje, si en su lugar se le muestran estructuras cristalinas, puede aprender las relaciones que hacen que las estructuras sean estables y realizables, explica.

Pero si bien los modelos generativos pueden lograr resultados increíbles, no son la mejor opción para todo tipo de datos. Para tareas que implican hacer predicciones sobre datos estructurados, como los datos tabulares en una hoja de cálculo, los modelos generativos de IA tienden a ser superados por los métodos tradicionales de aprendizaje automático, dice Devavrat Shah, profesor Andrew y Erna Viterbi de Ingeniería Eléctrica e Informática en el MIT. y miembro del IDSS y del Laboratorio de Sistemas de Información y Decisión.

“En mi opinión, el mayor valor que tienen es convertirse en esta excelente interfaz para las máquinas que sea amigable para los humanos. Anteriormente, los humanos tenían que hablar con las máquinas en el lenguaje de las máquinas para que las cosas sucedieran. Ahora, esta interfaz ha descubierto cómo comunicarse tanto con humanos como con máquinas”, afirma Shah.

Levantando banderas rojas

Los chatbots de IA generativa se están utilizando ahora en los centros de llamadas para responder preguntas de clientes humanos, pero esta aplicación subraya una posible señal de alerta en la implementación de estos modelos: el desplazamiento de trabajadores.

Además, la IA generativa puede heredar y propagar sesgos que existen en los datos de entrenamiento o amplificar el discurso de odio y las declaraciones falsas. Los modelos tienen la capacidad de plagiar y pueden generar contenido que parece haber sido producido por un creador humano específico, lo que plantea posibles problemas de derechos de autor.

Por otro lado, Shah propone que la IA generativa podría empoderar a los artistas, quienes podrían utilizar herramientas generativas para ayudarlos a crear contenido creativo que de otro modo no tendrían los medios para producir.

En el futuro, ve que la IA generativa cambiará la economía en muchas disciplinas.

Una dirección futura prometedora que Isola ve para la IA generativa es su uso para la fabricación. En lugar de que un modelo haga una imagen de una silla, tal vez se podría generar un plan para una silla que podría producirse.

También ve usos futuros para los sistemas de IA generativa en el desarrollo de agentes de IA más inteligentes en general.

“Hay diferencias en cómo funcionan estos modelos y en cómo pensamos que funciona el cerebro humano, pero creo que también hay similitudes. Tenemos la capacidad de pensar y soñar en nuestras cabezas, de proponer ideas o planes interesantes, y creo que la IA generativa es una de las herramientas que permitirá a los agentes hacer eso también”, dice Isola.