Cuando se completen las actualizaciones al láser de rayos X en el Laboratorio Nacional Acelerador SLAC del Departamento de Energía, la nueva y poderosa máquina capturará hasta 1 terabyte de datos por segundo; esa es una velocidad de datos equivalente a transmitir alrededor de mil películas de larga duración en solo un segundo y analizar cada fotograma de cada película a medida que avanzan en este modo de avance súper rápido.

POR NIBA AUDREY NIRMAL

Los expertos en datos del laboratorio están encontrando formas de manejar esta enorme cantidad de información a medida que las actualizaciones de la fuente de luz coherente Linac (LCLS) se pongan en marcha durante los próximos años.

LCLS acelera los electrones a casi la velocidad de la luz para generar haces de rayos X extremadamente brillantes. Esos rayos X sondean una muestra, como una proteína o un material cuántico, y un detector captura una serie de imágenes que revelan el movimiento atómico de la muestra en tiempo real. Al unir estas imágenes, los químicos, biólogos y materiales, los científicos pueden crear películas moleculares de eventos como cómo las plantas absorben la luz solar o cómo nuestros medicamentos ayudan a combatir las enfermedades.

A medida que se actualiza LCLS , los científicos pasan de 120 pulsos por segundo a hasta 1 millón de pulsos por segundo. Eso creará un haz de rayos X 10.000 veces más brillante que permitirá estudios novedosos de sistemas que no se podían estudiar antes. Pero también supondrá un enorme desafío de datos: el láser de rayos X producirá de cientos a miles de veces más datos por período de tiempo determinado que antes.

Para manejar estos datos, un grupo de científicos dirigido por la Directora de la División de Sistemas de Datos de LCLS, Jana Thayer, está desarrollando nuevas herramientas computacionales, incluidos algoritmos informáticos y formas de conectarse a supercomputadoras. El grupo de Thayer utiliza una combinación de informática, análisis de datos y aprendizaje automático para determinar los patrones en las imágenes de rayos X y luego encadenar una película molecular.

Siguiendo la corriente

En LCLS, los datos fluyen continuamente. “Cuando los científicos tienen acceso para ejecutar un experimento, es un día de 12 horas o una noche de 12 horas, y se limita a unos pocos turnos antes de que llegue el siguiente equipo”, dice Ryan Coffee, científico senior de SLAC. Para hacer un uso eficiente del valioso tiempo experimental, deben evitarse por completo los cuellos de botella para preservar el flujo de datos y su análisis.

La transmisión y el almacenamiento de los datos presentan un desafío importante para los recursos informáticos y de red, y poder monitorear la calidad de los datos casi en tiempo real significa que los datos deben procesarse de inmediato. Un paso vital para hacer esto posible es reducir la cantidad de datos tanto como sea posible antes de almacenarlos para su análisis posterior.

Para permitir esto, el equipo de Thayer ha implementado la reducción de datos sobre la marcha utilizando varios tipos de compresión para reducir el tamaño de los datos registrados sin afectar la calidad del resultado científico. Una forma de compresión, llamada veto, arroja datos no deseados, como imágenes en las que los rayos X no alcanzaron su objetivo. Otro, llamado extracción de características, guarda solo la información que es importante científicamente, como la ubicación y el brillo de un punto en una imagen de rayos X.

“Si guardáramos todos los datos sin procesar, como lo hemos estado haciendo hasta ahora, nos costaría un cuarto de billón de dólares al año”, dice Thayer. “Nuestra misión es descubrir cómo reducir los datos antes de escribirlos. Una de las partes realmente ingeniosas e innovadoras del nuevo sistema de datos que desarrollamos es la tubería de reducción de datos, que elimina la información irrelevante y reduce los datos que deben transferirse y almacenarse «.

Coffee dice: “Entonces ahorra mucho en energía, pero lo que es más importante, ahorra en rendimiento. Si tiene que enviar los datos sin procesar a través de la red, la abrumará por completo al intentar enviar imágenes cada microsegundo «.

El grupo también creó un lugar intermedio para colocar los datos antes de que se almacenen. Thayer explica: “No podemos escribir directamente en el almacenamiento, porque si hay una falla en el sistema, tiene que pausar y esperar. O si hay un problema en la red, puede perder datos por completo. Entonces, tenemos un búfer pequeño pero confiable en el que podemos escribir; entonces podemos mover los datos a un almacenamiento permanente «.

Impulsando la innovación

Thayer enfatiza que el sistema de datos está construido para proporcionar a los investigadores los resultados de su trabajo tan pronto como el sistema actual, para que obtengan información en tiempo real. También está diseñado para adaptarse a la expansión de la ciencia LCLS durante los próximos 10 años. El gran desafío es mantenerse al día con el enorme salto en la velocidad de datos.

“Si imagina pasar de analizar 120 imágenes por segundo a 1 millón por segundo, requiere mucho más desplazamiento”, dice. «La informática no es mágica, todavía funciona de la misma manera, simplemente aumentamos la cantidad de cerebros que trabajan en cada una de las imágenes».

Con el respaldo de un premio reciente del DOE , y trabajando con colegas de todo el complejo de laboratorios nacionales del DOE, el equipo también busca incorporar inteligencia artificial y técnicas de aprendizaje automático para reducir aún más la cantidad de datos que se procesarán y marcar características interesantes. en los datos a medida que surgen.

Para comprender el desafío de los datos de LCLS, Coffee establece una analogía con los automóviles autónomos: «Deben calcular en tiempo real: no pueden analizar un lote de imágenes recién grabadas y luego decir ‘Prevemos que debería haber girado a la izquierda en el número de imagen 10. ‘ La velocidad de datos de SLAC es mucho más alta que la que experimentará cualquiera de estos autos, pero el problema es el mismo: ¡los investigadores deben dirigir su experimento para encontrar los destinos más emocionantes! »

Las actualizaciones que impulsan este salto masivo en la velocidad de datos y el rendimiento vendrán en dos fases durante los próximos años, incluido LCLS-II y una actualización de alta energía que sigue. El trabajo de los expertos en datos garantizará que los científicos puedan aprovechar al máximo ambos. «Al final, tendrá un efecto dramático en el tipo de ciencia que podemos hacer, abriendo oportunidades que no son posibles hoy», dice Coffee.

LCLS es una instalación para usuarios de la Oficina de Ciencias del DOE.

Fuente: stanford university