Un grupo de más de 1000 investigadores de IA ha creado un modelo de lenguaje grande multilingüe más grande que GPT-3, y lo están distribuyendo de forma gratuita

PorMelissa Heikkilapágina de archivo

PARÍS: esto es lo más cerca que puede estar de un concierto de rock en la investigación de IA. Dentro del centro de supercomputación del Centro Nacional Francés para la Investigación Científica, en las afueras de París, filas y filas de lo que parecen ser refrigeradores negros zumban a una velocidad ensordecedora de 100 decibelios.

Forman parte de una supercomputadora que ha pasado 117 días gestando un nuevo modelo de lenguaje grande (LLM) llamado BLOOM que sus creadores esperan que represente una desviación radical de la forma en que se suele desarrollar la IA.

A diferencia de otros modelos de lenguaje grande más famosos, como GPT-3 de OpenAI y LaMDA de Google, BLOOM (que significa BigScience Large Open-science Open-access Multilingual Language Model) está diseñado para ser lo más transparente posible, con investigadores que comparten detalles sobre el datos en los que fue capacitado, los desafíos en su desarrollo y la forma en que evaluaron su desempeño. OpenAI y Google no han compartido su código ni han puesto sus modelos a disposición del público, y los investigadores externos tienen muy poca comprensión de cómo se entrenan estos modelos.

BLOOM fue creado durante el último año por más de 1000 investigadores voluntarios en un proyecto llamado BigScience, que fue coordinado por la empresa emergente de inteligencia artificial Hugging Face con fondos del gobierno francés. Se lanzó oficialmente el 12 de julio. Los investigadores esperan que el desarrollo de un LLM de acceso abierto que funcione tan bien como otros modelos líderes genere cambios duraderos en la cultura del desarrollo de IA y ayude a democratizar el acceso a tecnología de IA de vanguardia para investigadores de todo el mundo. el mundo.

La facilidad de acceso del modelo es su mayor punto de venta. Ahora que está disponible, cualquiera puede descargarlo y jugar con él de forma gratuita en el sitio web de Hugging Face. Los usuarios pueden elegir entre una selección de idiomas y luego escribir solicitudes para que BLOOM realice tareas como escribir recetas o poemas, traducir o resumir textos o escribir código de programación. Los desarrolladores de IA pueden usar el modelo como base para crear sus propias aplicaciones.

Con 176 mil millones de parámetros (variables que determinan cómo los datos de entrada se transforman en la salida deseada), es más grande que el GPT-3 de 175 mil millones de parámetros de OpenAI, y BigScience afirma que ofrece niveles similares de precisión y toxicidad que otros modelos de la mismo tamaño. Para idiomas como el español y el árabe, BLOOM es el primer modelo de idioma grande de este tamaño.

Pero incluso los creadores del modelo advierten que no solucionará los problemas profundamente arraigados en torno a los grandes modelos de lenguaje, incluida la falta de políticas adecuadas sobre el gobierno y la privacidad de los datos y la tendencia de los algoritmos a arrojar contenido tóxico, como lenguaje racista o sexista.

A la intemperie

Los modelos de lenguaje grande son algoritmos de aprendizaje profundo que se entrenan en cantidades masivas de datos. Son una de las áreas más candentes de la investigación en IA . Modelos poderosos como GPT-3 y LaMDA, que producen texto que se lee como si lo hubiera escrito un humano, tienen un enorme potencial para cambiar la forma en que procesamos la información en línea. Se pueden usar como chatbots o para buscar información, moderar contenido en línea, resumir libros o generar pasajes de texto completamente nuevos basados ​​en indicaciones. Pero también están plagados de problemas. Solo se necesita un poco de presión antes de que estos modelos comiencen a producir contenido dañino.

Los modelos también son extremadamente exclusivos. Deben estar capacitados en cantidades masivas de datos utilizando una gran cantidad de poder de cómputo costoso, que es algo que solo las grandes (y en su mayoría estadounidenses) empresas de tecnología como Google pueden permitirse.

La mayoría de las grandes empresas de tecnología que desarrollan LLM de vanguardia restringen su uso por parte de personas externas y no han publicado información sobre el funcionamiento interno de sus modelos. Esto hace que sea difícil hacerlos responsables. El secreto y la exclusividad son lo que los investigadores que trabajan en BLOOM esperan cambiar.

Meta ya se ha alejado del statu quo: en mayo de 2022, la compañía lanzó su propio modelo de lenguaje grande, Open Pretrained Transformer (OPT-175B), junto con su código y un libro de registro que detalla cómo se entrenó el modelo.

Pero el modelo de Meta está disponible solo a pedido y tiene una licencia que limita su uso con fines de investigación. Hugging Face va un paso más allá. Las reuniones que detallan su trabajo durante el último año se graban y cargan en línea, y cualquiera puede descargar el modelo de forma gratuita y utilizarlo para la investigación o para crear aplicaciones comerciales. 

Un gran enfoque para BigScience fue incorporar consideraciones éticas en el modelo desde su inicio, en lugar de tratarlas como una ocurrencia tardía. Los LLM están capacitados en toneladas de datos recopilados mediante el raspado de Internet. Esto puede ser problemático, porque estos conjuntos de datos incluyen mucha información personal y, a menudo, reflejan sesgos peligrosos. El grupo desarrolló estructuras de gobierno de datos específicamente para LLM que deberían dejar más claro qué datos se utilizan y a quién pertenecen, y obtuvo diferentes conjuntos de datos de todo el mundo que no estaban disponibles en línea. 

El grupo también está lanzando una nueva Licencia de IA responsable , que es algo así como un acuerdo de términos de servicio. Está diseñado para disuadir el uso de BLOOM en sectores de alto riesgo, como la aplicación de la ley o la atención médica, o para dañar, engañar, explotar o hacerse pasar por personas. La licencia es un experimento para autorregular los LLM antes de que las leyes se pongan al día, dice Danish Contractor, un investigador de IA que se ofreció como voluntario en el proyecto y co-creó la licencia. Pero, en última instancia, no hay nada que impida a nadie abusar de BLOOM.

El proyecto tuvo sus propias pautas éticas desde el principio, que funcionaron como principios rectores para el desarrollo del modelo, dice Giada Pistilli, especialista en ética de Hugging Face, quien redactó la carta ética de BLOOM . Por ejemplo, se aseguró de reclutar voluntarios de diversos orígenes y lugares, asegurándose de que personas ajenas pudieran reproducir fácilmente los hallazgos del proyecto y publicar sus resultados abiertamente.

Todos a bordo

Esta filosofía se traduce en una gran diferencia entre BLOOM y otros LLM disponibles en la actualidad: la gran cantidad de idiomas humanos que el modelo puede comprender. Puede manejar 46 de ellos, incluidos francés, vietnamita, mandarín, indonesio, catalán, 13 idiomas índicos (como el hindi) y 20 idiomas africanos. Un poco más del 30% de sus datos de capacitación estaban en inglés. El modelo también comprende 13 lenguajes de programación.

Esto es muy inusual en el mundo de los grandes modelos lingüísticos, donde domina el inglés. Esa es otra consecuencia del hecho de que los LLM se crean extrayendo datos de Internet: el inglés es el idioma más utilizado en línea.

La razón por la que BLOOM pudo mejorar esta situación es que el equipo reunió a voluntarios de todo el mundo para crear conjuntos de datos adecuados en otros idiomas, incluso si esos idiomas no estaban tan bien representados en línea. Por ejemplo, Hugging Face organizó talleres con investigadores africanos de inteligencia artificial para tratar de encontrar conjuntos de datos, como registros de autoridades locales o universidades, que podrían usarse para entrenar el modelo en idiomas africanos, dice Chris Emezue, pasante de Hugging Face e investigador en Masakhane. , una organización que trabaja en el procesamiento de lenguaje natural para lenguas africanas.

Incluir tantos idiomas diferentes podría ser de gran ayuda para los investigadores de IA en los países más pobres, que a menudo tienen dificultades para acceder al procesamiento del lenguaje natural porque utiliza una gran cantidad de poder informático costoso. BLOOM les permite saltarse la parte costosa de desarrollar y entrenar los modelos para centrarse en crear aplicaciones y ajustar los modelos para tareas en sus idiomas nativos.

“Si desea incluir idiomas africanos en el futuro del [procesamiento del lenguaje natural]… es un paso muy bueno e importante incluirlos mientras entrena modelos de lenguaje”, dice Emezue.

Manipular con precaución

BigScience ha hecho un trabajo «fenomenal» al construir una comunidad alrededor de BLOOM, y su enfoque de involucrar la ética y la gobernanza desde el principio es reflexivo, dice Percy Liang, director del Centro de Investigación de Modelos de Fundación de Stanford.

Sin embargo, Liang no cree que conduzca a cambios significativos en el desarrollo de LLM. “OpenAI, Google y Microsoft siguen avanzando”, dice.

En última instancia, BLOOM sigue siendo un gran modelo de lenguaje y aún presenta todos los defectos y riesgos asociados . Compañías como OpenAI no han hecho públicos sus modelos o códigos porque, argumentan, el lenguaje sexista y racista que se les ha aplicado los hace demasiado peligrosos para usarlos de esa manera.

También es probable que BLOOM incorpore inexactitudes y lenguaje sesgado, pero dado que todo sobre el modelo está a la vista, las personas podrán cuestionar las fortalezas y debilidades del modelo, dice Margaret Mitchell, investigadora de inteligencia artificial y ética en Hugging Face.

La mayor contribución de BigScience a la IA podría terminar no siendo BLOOM en sí mismo, sino los numerosos proyectos de investigación derivados en los que participan sus voluntarios. Por ejemplo, dichos proyectos podrían reforzar las credenciales de privacidad del modelo y encontrar formas de usar la tecnología en diferentes campos. como la investigación biomédica . 

“Un nuevo modelo de lenguaje grande no va a cambiar el curso de la historia”, dice Teven Le Scao, investigador de Hugging Face que codirigió la capacitación de BLOOM. “Pero tener un buen modelo de lenguaje abierto en el que las personas puedan realmente investigar tiene un fuerte impacto a largo plazo”.

Cuando se trata de los daños potenciales de los LLM, «la caja de Pandora ya está abierta», dice Le Scao. “Lo mejor que puedes hacer es crear las mejores condiciones posibles para que los investigadores los estudien”.