Los investigadores de Stanford desarrollan métodos de aprendizaje automático que predicen con precisión las formas 3D de los objetivos de los fármacos y otras moléculas biológicas importantes, incluso cuando solo se dispone de datos limitados.

POR ISABEL SWAFFORD
Fuente: Stanford University

Determinar las formas tridimensionales de las moléculas biológicas es uno de los problemas más difíciles de la biología moderna y los descubrimientos médicos. Las empresas y las instituciones de investigación a menudo gastan millones de dólares para determinar una estructura molecular, e incluso esfuerzos tan masivos con frecuencia no tienen éxito.

Utilizando nuevas e inteligentes técnicas de aprendizaje automático, los estudiantes de doctorado de la Universidad de Stanford Stephan Eismann y Raphael Townshend, bajo la dirección de Ron Dror , profesor asociado de ciencias de la computación, han desarrollado un enfoque que supera este problema al predecir estructuras precisas computacionalmente.

En particular, su enfoque tiene éxito incluso cuando se aprende de solo unas pocas estructuras conocidas, lo que lo hace aplicable a los tipos de moléculas cuyas estructuras son más difíciles de determinar experimentalmente.

Su trabajo se demuestra en dos artículos que detallan las aplicaciones de moléculas de ARN y complejos de múltiples proteínas, publicados en Science el 27 de agosto de 2021 y en Proteins en diciembre de 2020, respectivamente. El artículo en Science es una colaboración con el laboratorio de Stanford de Rhiju Das , profesor asociado de bioquímica.

«La biología estructural, que es el estudio de las formas de las moléculas, tiene este mantra de que la estructura determina la función», dijo Townshend, coautor principal de ambos artículos.

El algoritmo diseñado por los investigadores predice estructuras moleculares precisas y, al hacerlo, puede permitir a los científicos explicar cómo funcionan las diferentes moléculas, con aplicaciones que van desde la investigación biológica fundamental hasta las prácticas informadas de diseño de fármacos.

“Las proteínas son máquinas moleculares que realizan todo tipo de funciones. Para ejecutar sus funciones, las proteínas a menudo se unen a otras proteínas ”, dijo Eismann, coautor principal de ambos artículos. «Si sabe que un par de proteínas está implicado en una enfermedad y sabe cómo interactúan en 3D, puede intentar apuntar a esta interacción de manera muy específica con un fármaco».

Eismann y Townshend son coautores principales del artículo de Science con el becario postdoctoral de Stanford Andrew Watkins del laboratorio Das, y también coautores principales del  artículo de Proteins con el ex estudiante de doctorado de Stanford Nathaniel Thomas.

 

Diseñando el algoritmo

 

En lugar de especificar qué hace que una predicción estructural sea más o menos precisa, los investigadores dejan que el algoritmo descubra estas características moleculares por sí mismo. Hicieron esto porque encontraron que la técnica convencional de proporcionar tal conocimiento puede influir en un algoritmo a favor de ciertas características, evitando así que encuentre otras características informativas.

“El problema con estas características hechas a mano en un algoritmo es que el algoritmo se inclina hacia lo que la persona que elige estas características piensa que es importante, y es posible que se pierda información que necesitaría mejorar”, dijo Eismann.

“La red aprendió a encontrar conceptos fundamentales que son clave para la formación de estructuras moleculares, pero sin que se les diga explícitamente”, dijo Townshend. «El aspecto interesante es que el algoritmo claramente ha recuperado cosas que sabíamos que eran importantes, pero también ha recuperado características que no conocíamos antes».

Después de haber demostrado éxito con las proteínas, los investigadores aplicaron su algoritmo a otra clase de moléculas biológicas importantes, los ARN. Probaron su algoritmo en una serie de «Rompecabezas de ARN» de una competencia de larga data en su campo y, en todos los casos, la herramienta superó a todos los demás participantes del rompecabezas y lo hizo sin haber sido diseñada específicamente para estructuras de ARN.

 

Aplicaciones más amplias

 

Los investigadores están emocionados de ver dónde más se puede aplicar su enfoque, ya que han tenido éxito con complejos de proteínas y moléculas de ARN.

“La mayoría de los dramáticos avances recientes en el aprendizaje automático han requerido una enorme cantidad de datos para el entrenamiento. El hecho de que este método tenga éxito con muy pocos datos de entrenamiento sugiere que los métodos relacionados podrían abordar problemas no resueltos en muchos campos donde los datos son escasos ”, dijo Dror, autor principal del artículo sobre proteínas y, con Das, coautor principal del Papel científico .

Específicamente para la biología estructural, el equipo dice que solo están rascando la superficie en términos de progreso científico por lograr.

“Una vez que tenga esta tecnología fundamental, estará aumentando su nivel de comprensión un paso más y podrá comenzar a hacer el siguiente conjunto de preguntas”, dijo Townshend. «Por ejemplo, puede comenzar a diseñar nuevas moléculas y medicamentos con este tipo de información, que es un área que entusiasma mucho a la gente».

 


El erudito postdoctoral Andrew Watkins del laboratorio Das y el ex estudiante de doctorado de Stanford Nathaniel Thomas también son coautores principales de los artículos de Ciencia y Proteínas, respectivamente. Otros coautores del artículo de Science incluyen a los estudiantes de doctorado de Stanford Ramya Rangan y Maria Karelina. Otros coautores del artículo de Proteins incluyen a los exalumnos de Stanford Milind Jagota y Bowen Jing. Das también es miembro de Stanford Bio-X y del Instituto de Neurociencias Wu Tsai . Dror también es miembro de Stanford Bio-X, el Instituto de Ingeniería Computacional y Matemática (ICME) , el Instituto de Neurociencias Wu Tsai y el Laboratorio de Inteligencia Artificial de Stanford , una facultad afiliada a laInstitute for Human-Centered Artificial Intelligence (HAI) y miembro de la facultad de Stanford ChEM-H .

La investigación fue financiada por la National Science Foundation, el Departamento de Energía de EE. UU., Una beca Stanford Bio-X Bowes Fellowship , la Oficina de Investigación del Ejército, la Oficina de Investigación Científica de la Fuerza Aérea, Intel Corporation, una subvención de semillas Stanford Bio-X y la National Institutos de Salud.