Las redes neuronales ópticas, que utilizan fotones en lugar de electrones, tienen ventajas sobre los sistemas tradicionales. También enfrentan obstáculos importantes

Por: Amos Zeeberg

La ley de Moore ya es bastante rápida. Sostiene que los chips de computadora incorporan el doble de transistores cada dos años aproximadamente, lo que produce importantes saltos en velocidad y eficiencia. Pero las demandas informáticas de la era del aprendizaje profundo están creciendo incluso más rápido que eso, a un ritmo que probablemente no sea sostenible. La Agencia Internacional de Energía predice que la inteligencia artificial consumirá 10 veces más energía en 2026 que en 2023, y que los centros de datos de ese año utilizarán tanta energía como Japón. «La cantidad de [potencia informática] que la IA necesita se duplica cada tres meses», dijo Nick Harris , fundador y director ejecutivo de la empresa de hardware informático Lightmatter , mucho más rápido de lo que predice la ley de Moore. «Va a quebrar empresas y economías».

Una de las formas más prometedoras de avanzar implica procesar información no con los confiables electrones, que han dominado la informática durante más de 50 años, sino utilizando el flujo de fotones, minúsculos paquetes de luz. Resultados recientes sugieren que, para ciertas tareas computacionales fundamentales para la inteligencia artificial moderna, las “computadoras ópticas” basadas en luz pueden ofrecer una ventaja.

El desarrollo de la computación óptica está “allanando el camino para avances en campos que exigen procesamiento de alta velocidad y alta eficiencia, como la inteligencia artificial”, afirmó la física de la Universidad de Cambridge Natalia Berloff .

Óptica Óptima

En teoría, la luz ofrece atractivos beneficios potenciales. Por un lado, las señales ópticas pueden transportar más información que las eléctricas: tienen más ancho de banda. Las frecuencias ópticas también son mucho más altas que las eléctricas, por lo que los sistemas ópticos pueden ejecutar más pasos informáticos en menos tiempo y con menos latencia.

Y luego está el problema de la eficiencia. Además de los costos ambientales y económicos de los chips electrónicos relativamente derrochadores, también se calientan tanto que sólo una pequeña fracción de los transistores (los diminutos interruptores en el corazón de todas las computadoras) pueden estar activos en cualquier momento. En teoría, las computadoras ópticas podrían funcionar con más operaciones simultáneamente, procesando más datos y usando menos energía. «Si pudiéramos aprovechar» estas ventajas, dijo Gordon Wetzstein , ingeniero eléctrico de la Universidad de Stanford, «esto abriría muchas posibilidades nuevas».

Al ver las ventajas potenciales, los investigadores han intentado durante mucho tiempo utilizar la luz para la IA, un campo con grandes necesidades computacionales. En las décadas de 1980 y 1990, por ejemplo, los investigadores utilizaron sistemas ópticos para construir algunas de las primeras redes neuronales. Demetri Psaltis y dos colegas del Instituto de Tecnología de California crearon un sistema inteligente de reconocimiento facial utilizando una de estas primeras redes neuronales ópticas (ONN). Almacenaron imágenes de un sujeto (de hecho, uno de los investigadores) como hologramas en un cristal fotorrefractivo. Los investigadores utilizaron los hologramas para entrenar un ONN, que luego podría reconocer nuevas imágenes del investigador y distinguirlo de sus colegas.

 

Pero la luz también tiene sus defectos. Fundamentalmente, los fotones generalmente no interactúan entre sí, por lo que es difícil para una señal de entrada controlar otra señal, que es la esencia de lo que hacen los transistores comunes. Los transistores también funcionan excepcionalmente bien. Ahora se encuentran en chips del tamaño de una moneda por miles de millones, producto de décadas de mejoras incrementales.

Pero en los últimos años, los investigadores han encontrado una aplicación excelente para la computación óptica: la multiplicación de matrices.

Algunas matemáticas ligeras

El proceso de multiplicar matrices, o conjuntos de números, sustenta gran parte de la informática pesada. En las redes neuronales, específicamente, la multiplicación de matrices es un paso fundamental tanto en cómo se entrenan las redes con datos antiguos como en cómo se procesan los datos nuevos en las redes entrenadas. Y la luz podría ser un mejor medio para la multiplicación de matrices que la electricidad.

Este enfoque de la computación con IA explotó en 2017, cuando un grupo liderado por Dirk Englund y Marin Soljačić del Instituto de Tecnología de Massachusetts describió cómo crear una red neuronal óptica construida sobre un chip de silicio. Los investigadores codificaron las diversas cantidades que querían multiplicar en haces de luz, luego enviaron los haces a través de una serie de componentes que alteraron la fase del haz (la forma en que oscilaban sus ondas de luz), y cada alteración de fase representaba un paso de multiplicación. Al dividir repetidamente los rayos, cambiar su fase y recombinarlos, podrían hacer que la luz realizara de manera efectiva la multiplicación de matrices. Al final del chip, los investigadores colocaron fotodetectores que midieron los haces de luz y revelaron el resultado.

Los investigadores enseñaron a su dispositivo experimental a reconocer vocales habladas, una tarea de referencia común para las redes neuronales. Con las ventajas de la luz, podría hacerlo de forma más rápida y eficiente que un dispositivo electrónico. Otros investigadores sabían que la luz tenía potencial para ser buena para la multiplicación de matrices; el artículo de 2017 mostró cómo ponerlo en práctica.

El estudio «catalizó un interés renovado y masivo en las ONN», dijo Peter McMahon , experto en fotónica de la Universidad de Cornell. «Ese ha sido muy influyente».

Ideas brillantes

Desde ese artículo de 2017, el campo ha experimentado una mejora constante, a medida que varios investigadores han ideado nuevos tipos de computadoras ópticas. Englund y varios colaboradores dieron a conocer recientemente una nueva red óptica a la que llaman HITOP, que combina múltiples avances. Lo más importante es que su objetivo es aumentar el rendimiento de los cálculos en función del tiempo, el espacio y la longitud de ondaZaijun Chen , ex postdoctorado del MIT y ahora basado en la Universidad del Sur de California, dijo que esto ayuda a HITOP a superar uno de los inconvenientes de las redes neuronales ópticas: se necesita una gran cantidad de energía para transferir datos de componentes electrónicos a ópticos, y viceversa. Pero al empaquetar la información en tres dimensiones de luz, dijo Chen, se envían más datos a través del ONN más rápido y se distribuye el costo de energía entre muchos cálculos. Esto reduce el costo por cálculo. Los investigadores informaron que HITOP podría ejecutar modelos de aprendizaje automático 25.000 veces más grandes que los ONN anteriores basados ​​en chips.

Para ser claros, el sistema aún está lejos de igualar a sus predecesores electrónicos; HITOP realiza alrededor de 1 billón de operaciones por segundo, mientras que los chips sofisticados de Nvidia pueden procesar 300 veces más datos, dijo Chen, quien espera ampliar la tecnología para hacerla más competitiva. Pero la eficiencia del chip óptico es convincente. «El juego aquí es que reducimos el costo de la energía 1.000 veces», dijo Chen.

Otros grupos han creado ordenadores ópticos con diferentes ventajas. El año pasado, un equipo de la Universidad de Pensilvania describió un nuevo tipo de ONN que ofrece una flexibilidad inusual. Este sistema basado en chips hace brillar un láser sobre parte del semiconductor que forma el chip electrónico, lo que cambia las propiedades ópticas del semiconductor. El láser traza de manera efectiva la ruta que debe tomar la señal óptica y, por lo tanto, el cálculo que realiza. Esto permite a los investigadores reconfigurar fácilmente lo que hace el sistema. Esta es una marcada diferencia con la mayoría de los otros sistemas basados ​​en chips, ópticos y eléctricos, donde la ruta se establece cuidadosamente en la planta de fabricación y es muy difícil de cambiar.

«Lo que tenemos aquí es algo increíblemente simple», dijo Tianwei Wu , autor principal del estudio. «Podemos reprogramarlo, cambiando los patrones láser sobre la marcha». Los investigadores utilizaron el sistema para diseñar una red neuronal que discriminaba con éxito los sonidos de las vocales. La mayoría de los sistemas fotónicos necesitan ser entrenados antes de construirse, ya que el entrenamiento implica necesariamente reconfigurar conexiones. Pero como este sistema se reconfigura fácilmente, los investigadores entrenaron el modelo después de instalarlo en el semiconductor. Ahora planean aumentar el tamaño del chip y codificar más información en diferentes colores de luz, lo que debería aumentar la cantidad de datos que puede manejar.

Es un progreso que incluso Psaltis, que construyó el sistema de reconocimiento facial en los años 90, considera impresionante. “Nuestros sueños más locos de hace 40 años eran muy modestos en comparación con lo que realmente sucedió”.

Primeros rayos de luz

Si bien la computación óptica ha avanzado rápidamente en los últimos años, todavía está lejos de desplazar a los chips electrónicos que ejecutan redes neuronales fuera de los laboratorios. Los artículos anuncian sistemas fotónicos que funcionan mejor que los electrónicos, pero generalmente ejecutan modelos pequeños utilizando diseños de redes antiguos y pequeñas cargas de trabajo. Y muchas de las cifras reportadas sobre la supremacía fotónica no cuentan toda la historia, dijo Bhavin Shastri de la Queen’s University en Ontario. «Es muy difícil hacer una comparación de manzanas con manzanas con la electrónica», dijo. «Por ejemplo, cuando usan láseres, en realidad no hablan de la energía para alimentarlos».

Los sistemas de laboratorio deben ampliarse antes de que puedan mostrar ventajas competitivas. “¿Qué tan grande tienes que llegar para ganar?” -Preguntó McMahon. La respuesta: excepcionalmente grande. Es por eso que nadie puede igualar un chip fabricado por Nvidia, cuyos chips impulsan muchos de los sistemas de inteligencia artificial más avanzados de la actualidad. Hay una lista enorme de acertijos de ingeniería que resolver a lo largo del camino: cuestiones que la parte electrónica ha resuelto durante décadas. «La electrónica está empezando con una gran ventaja», dijo McMahon.

Algunos investigadores creen que los sistemas de IA basados ​​en ONN tendrán éxito primero en aplicaciones especializadas donde proporcionen ventajas únicas. Shastri dijo que un uso prometedor es contrarrestar la interferencia entre diferentes transmisiones inalámbricas, como las torres de telefonía celular 5G y los altímetros de radar que ayudan a los aviones a navegar. A principios de este año, Shastri y varios colegas crearon una ONN que puede clasificar diferentes transmisiones y seleccionar una señal de interés en tiempo real y con un retraso de procesamiento de menos de 15 picosegundos (15 billonésimas de segundo), menos de una milésima de segundo. el tiempo que tardaría un sistema electrónico, utilizando menos de 1/70 de la energía.

Pero McMahon dijo que vale la pena perseguir la gran visión: una red neuronal óptica que pueda superar a los sistemas electrónicos para uso general. El año pasado, su grupo  realizó simulaciones que mostraban que, dentro de una década, un sistema óptico suficientemente grande podría hacer que algunos modelos de IA sean más de 1.000 veces más eficientes que los futuros sistemas electrónicos. “Muchas empresas se están esforzando ahora por obtener un beneficio 1,5 veces mayor. Un beneficio mil veces mayor, eso sería increíble”, afirmó. «Este es quizás un proyecto de 10 años, si tiene éxito».

Fuente: Quanta Magazine