¿Por qué los investigadores se interesan por los modelos de lenguaje pequeños?

Los modelos más grandes pueden lograr una mayor variedad de tareas, pero el tamaño reducido de los modelos más pequeños los convierte en herramientas atractivas

Por: Esteban Ornes-Quanta

Los modelos de lenguaje de gran tamaño funcionan bien porque son muy grandes. Los modelos más recientes de OpenAI, Meta y DeepSeek utilizan cientos de miles de millones de «parámetros»: los botones ajustables que determinan las conexiones entre los datos y se modifican durante el proceso de entrenamiento. Con más parámetros, los modelos pueden identificar mejor los patrones y las conexiones, lo que a su vez los hace más potentes y precisos.

Pero este poder tiene un costo. Entrenar un modelo con cientos de miles de millones de parámetros requiere enormes recursos computacionales. Para entrenar su modelo Gemini 1.0 Ultra, por ejemplo, Google supuestamente gastó 191 millones de dólares. Los modelos de lenguaje grandes (LLM) también requieren una considerable potencia computacional cada vez que responden a una solicitud, lo que los convierte en notorios devoradores de energía. Una sola consulta a ChatGPT consume aproximadamente 10 veces tanta energía como una sola búsqueda en Google, según el Instituto de Investigación de Energía Eléctrica.

En respuesta, algunos investigadores están pensando ahora en pequeño. IBM, Google, Microsoft y OpenAI han lanzado recientemente modelos de lenguaje pequeños (SLM, por sus siglas en inglés) que utilizan unos pocos miles de millones de parámetros, una fracción de sus contrapartes LLM.

Los modelos pequeños no se utilizan como herramientas de uso general como sus primos más grandes, pero pueden sobresalir en tareas específicas y más definidas, como resumir conversaciones, responder preguntas de pacientes como un chatbot de atención médica y recopilar datos en dispositivos inteligentes. “Para muchas tareas, un modelo de 8 mil millones de parámetros es bastante bueno”, dijo Zico Kolter, un científico informático de la Universidad Carnegie Mellon. También pueden funcionar en un ordenador portátil o un teléfono móvil, en lugar de en un enorme centro de datos. (No hay consenso sobre la definición exacta de «pequeño», pero los nuevos modelos alcanzan un máximo de unos 10 mil millones de parámetros).

Para optimizar el proceso de entrenamiento de estos modelos pequeños, los investigadores utilizan algunos trucos. Los modelos grandes suelen extraer datos de entrenamiento sin procesar de Internet, y estos datos pueden estar desorganizados, desordenados y ser difíciles de procesar. Pero estos modelos grandes pueden generar un conjunto de datos de alta calidad que se puede utilizar para entrenar un modelo pequeño. El enfoque, llamado destilación de conocimiento, hace que el modelo más grande transmita eficazmente su entrenamiento, como un maestro que da lecciones a un estudiante. “La razón por la que [los SLM] son tan buenos con modelos tan pequeños y tan pocos datos es que utilizan datos de alta calidad en lugar de material desordenado”, dijo Kolter.

Los investigadores también han explorado formas de crear modelos pequeños comenzando con modelos grandes y recortándolos. Un método, conocido como poda, implica eliminar partes innecesarias o ineficientes de una red neuronal , la extensa red de puntos de datos conectados que subyace a un modelo grande.

La poda se inspiró en una red neuronal de la vida real, el cerebro humano, que gana eficiencia al cortar las conexiones entre las sinapsis a medida que una persona envejece. Los métodos de poda actuales se remontan a un artículo de 1989. En este artículo, el informático Yann LeCun, que ahora trabaja en Meta, argumentó que se podría eliminar hasta el 90% de los parámetros de una red neuronal entrenada sin sacrificar la eficiencia. Llamó al método “daño cerebral óptimo”. La poda puede ayudar a los investigadores a ajustar un pequeño modelo de lenguaje para una tarea o un entorno en particular.

Para los investigadores interesados en cómo los modelos lingüísticos hacen lo que hacen, los modelos más pequeños ofrecen una forma económica de probar ideas novedosas. Y como tienen menos parámetros que los modelos grandes, su razonamiento puede ser más transparente. “Si quieres crear un nuevo modelo, necesitas probar cosas”, dijo Leshem Choshen, investigador científico del Laboratorio de Inteligencia Artificial Watson del MIT-IBM. “Los modelos pequeños permiten a los investigadores experimentar con riesgos menores”.

Los modelos grandes y costosos, con sus parámetros cada vez mayores, seguirán siendo útiles para aplicaciones como chatbots generalizados, generadores de imágenes y descubrimiento de fármacos. Pero para muchos usuarios, un modelo pequeño y específico funcionará igual de bien, y además será más fácil para los investigadores entrenarlo y construirlo. “Estos modelos eficientes pueden ahorrar dinero, tiempo y computación”, dijo Choshen.