Este nuevo dispositivo utiliza luz para realizar las operaciones clave de una red neuronal profunda en un chip, abriendo la puerta a procesadores de alta velocidad que pueden aprender en tiempo real
Adam Zewe | Noticias del MIT
Los modelos de redes neuronales profundas que impulsan las aplicaciones de aprendizaje automático más exigentes de la actualidad se han vuelto tan grandes y complejos que están superando los límites del hardware informático electrónico tradicional.
El hardware fotónico, que puede realizar cálculos de aprendizaje automático con luz, ofrece una alternativa más rápida y con mayor eficiencia energética. Sin embargo, existen algunos tipos de cálculos de redes neuronales que un dispositivo fotónico no puede realizar, lo que requiere el uso de electrónica fuera del chip u otras técnicas que obstaculizan la velocidad y la eficiencia.
Tras una década de investigación, científicos del MIT y de otros lugares han desarrollado un nuevo chip fotónico que supera estos obstáculos. Demostraron un procesador fotónico totalmente integrado que puede realizar todos los cálculos clave de una red neuronal profunda de forma óptica en el chip.
El dispositivo óptico pudo completar los cálculos clave para una tarea de clasificación de aprendizaje automático en menos de medio nanosegundo y logró una precisión de más del 92 por ciento: un rendimiento comparable al del hardware tradicional.
El chip, compuesto de módulos interconectados que forman una red neuronal óptica, se fabrica mediante procesos de fundición comerciales, lo que podría permitir el escalado de la tecnología y su integración en la electrónica.
A largo plazo, el procesador fotónico podría conducir a un aprendizaje profundo más rápido y con mayor eficiencia energética para aplicaciones computacionalmente exigentes como el lidar, la investigación científica en astronomía y física de partículas, o las telecomunicaciones de alta velocidad.
“Hay muchos casos en los que no solo importa el rendimiento del modelo, sino también la rapidez con la que se puede obtener una respuesta. Ahora que tenemos un sistema de extremo a extremo que puede ejecutar una red neuronal en óptica, a una escala de tiempo de nanosegundos, podemos empezar a pensar en aplicaciones y algoritmos de un nivel superior”, afirma Saumil Bandyopadhyay ’17, MEng ’18, PhD ’23, científico visitante en el Grupo de Fotónica Cuántica e Inteligencia Artificial dentro del Laboratorio de Investigación en Electrónica (RLE) y posdoctorado en NTT Research, Inc., que es el autor principal de un artículo sobre el nuevo chip.
Bandyopadhyay cuenta con la colaboración de Alexander Sludds ’18, MEng ’19, PhD ’23; Nicholas Harris PhD ’17; Darius Bunandar PhD ’19; Stefan Krastanov, un ex científico investigador de RLE que ahora es profesor asistente en la Universidad de Massachusetts en Amherst; Ryan Hamerly, científico visitante en RLE y científico senior en NTT Research; Matthew Streshinsky, ex líder de fotónica de silicio en Nokia que ahora es cofundador y CEO de Enosemi; Michael Hochberg, presidente de Periplous, LLC; y Dirk Englund, profesor en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación, investigador principal del Grupo de Fotónica Cuántica e Inteligencia Artificial y de RLE, y autor principal del artículo.
Aprendizaje automático con luz
Las redes neuronales profundas se componen de muchas capas interconectadas de nodos, o neuronas, que operan sobre datos de entrada para producir un resultado. Una operación clave en una red neuronal profunda implica el uso de álgebra lineal para realizar la multiplicación de matrices, que transforma los datos a medida que pasan de una capa a otra.
Pero además de estas operaciones lineales, las redes neuronales profundas realizan operaciones no lineales que ayudan al modelo a aprender patrones más complejos. Las operaciones no lineales, como las funciones de activación, brindan a las redes neuronales profundas el poder de resolver problemas complejos.
En 2017, el grupo de Englund, junto con investigadores del laboratorio de Marin Soljačić, profesor de Física Cecil e Ida Green, demostró una red neuronal óptica en un solo chip fotónico que podía realizar la multiplicación de matrices con luz.
Pero en ese momento, el dispositivo no podía realizar operaciones no lineales en el chip. Los datos ópticos debían convertirse en señales eléctricas y enviarse a un procesador digital para realizar operaciones no lineales.
“La no linealidad en la óptica es un gran desafío porque los fotones no interactúan entre sí con mucha facilidad. Eso hace que sea muy costoso activar no linealidades ópticas, por lo que resulta complicado construir un sistema que pueda hacerlo de manera escalable”, explica Bandyopadhyay.
Superaron ese desafío diseñando dispositivos llamados unidades de función óptica no lineal (NOFU), que combinan electrónica y óptica para implementar operaciones no lineales en el chip.
Los investigadores construyeron una red neuronal profunda óptica en un chip fotónico utilizando tres capas de dispositivos que realizan operaciones lineales y no lineales.
Una red totalmente integrada
En primer lugar, su sistema codifica los parámetros de una red neuronal profunda en luz. Luego, una serie de divisores de haz programables, que se demostraron en el artículo de 2017, realiza la multiplicación de matrices sobre esas entradas.
Los datos pasan luego a NOFU programables, que implementan funciones no lineales al desviar una pequeña cantidad de luz hacia fotodiodos que convierten las señales ópticas en corriente eléctrica. Este proceso, que elimina la necesidad de un amplificador externo, consume muy poca energía.
“Permanecemos en el dominio óptico todo el tiempo, hasta el final, cuando queremos leer la respuesta. Esto nos permite lograr una latencia ultrabaja”, afirma Bandyopadhyay.
Lograr una latencia tan baja les permitió entrenar de manera eficiente una red neuronal profunda en el chip, un proceso conocido como entrenamiento in situ que normalmente consume una enorme cantidad de energía en hardware digital.
“Esto es especialmente útil para sistemas en los que se realiza un procesamiento en el dominio de señales ópticas, como navegación o telecomunicaciones, pero también en sistemas que se desea aprender en tiempo real”, afirma.
El sistema fotónico logró una precisión de más del 96 por ciento durante las pruebas de entrenamiento y más del 92 por ciento durante la inferencia, lo que es comparable al hardware tradicional. Además, el chip realiza cálculos clave en menos de medio nanosegundo.
“Este trabajo demuestra que la computación —en su esencia, la correlación de entradas y salidas— se puede compilar en nuevas arquitecturas de física lineal y no lineal que permiten una ley de escalamiento fundamentalmente diferente de la computación en función del esfuerzo necesario”, afirma Englund.
Todo el circuito se fabricó utilizando la misma infraestructura y los mismos procesos de fundición que se utilizan para producir chips informáticos CMOS. Esto podría permitir que el chip se fabricara a gran escala, utilizando técnicas probadas que introducen muy pocos errores en el proceso de fabricación.
Bandyopadhyay afirma que el objetivo principal de su trabajo futuro será ampliar el tamaño de su dispositivo e integrarlo con dispositivos electrónicos del mundo real, como cámaras o sistemas de telecomunicaciones. Además, los investigadores quieren explorar algoritmos que puedan aprovechar las ventajas de la óptica para entrenar sistemas más rápido y con una mejor eficiencia energética.