El marco RL evolutivo profundo demuestra la inteligencia incorporada a través del aprendizaje y la evolución

El DERL (aprendizaje de refuerzo evolutivo profundo) de los investigadores de Stanford es un marco computacional novedoso que permite a los agentes de IA evolucionar morfologías y aprender tareas desafiantes de locomoción y manipulación en entornos complejos utilizando solo información sensorial egocéntrica de bajo nivel.

(synced)-Los investigadores de la Universidad de Stanford han propuesto DERL (Aprendizaje por refuerzo evolutivo profundo), un marco computacional novedoso que permite a los agentes de IA evolucionar morfologías y aprender tareas desafiantes de locomoción y manipulación en entornos complejos utilizando solo información sensorial egocéntrica de bajo nivel. El equipo dice que DERL es la primera demostración del efecto Darwiniano Baldwin realizada a través del aprendizaje morfológico.

En 1953 , el paleontólogo estadounidense George Gaylord Simpson acuñó el término « Efecto Baldwin» en referencia al artículo de 1896 del filósofo y psicólogo estadounidense JM Baldwin A New Factor in Evolution. En biología evolutiva, el efecto Baldwin propone que los comportamientos aprendidos inicialmente a lo largo de la vida en las primeras generaciones de un proceso evolutivo se convertirán gradualmente en instintivos y potencialmente incluso genéticamente transmitidos a generaciones posteriores.

Estudios previos sobre el aprendizaje y los procesos evolutivos en entornos complejos con una diversidad de formas morfológicas han identificado muchos aspectos de la inteligencia animal que están incorporados en estas morfologías evolucionadas. Hasta ahora, sin embargo, ningún estudio ha demostrado el efecto Baldwin en la evolución morfológica, ya sea in vivo (organismos vivos) o in silico (modelado por computadora o simulaciones).

Fei-Fei Li, profesor de ciencias de la computación de Stanford y codirector del Instituto de IA centrado en el ser humano (HAI) de Stanford, es coautor del artículo Embodied Intelligence via Learning and Evolution . “Realmente emocionado por este trabajo conjunto con [Agrim Gupta, Silvio Savarese y Surya Ganguli] – conozca DERL (Deep Evolutionary RL) y la primera demostración de un efecto Baldwin darwiniano a través del aprendizaje morfológico, un truco esencial de la naturaleza para la evolución animal, ahora mostrado en nuestros agentes de inteligencia artificial ”, tuiteó Li sobre el comunicado del periódico.

Los investigadores identifican la gran cantidad combinatoria de morfologías posibles y el tiempo computacional requerido para evaluar la aptitud a través del aprendizaje de por vida como los principales desafíos que enfrentaron al crear sus agentes encarnados de IA.

A diferencia del trabajo anterior que se centró en identificar agentes evolucionados en espacios de búsqueda morfológicos limitados o en encontrar parámetros óptimos basados en una morfología fija diseñada a mano, DERL es un marco computacional que permite a los investigadores escalar simultáneamente la creación de agentes incorporados en tres tipos de complejidad: ambiental , morfológica y de control. El equipo construyó UNIMAL (UNIversal aniMAL), un espacio de diseño que permite morfologías controlables altamente expresivas y útiles en agentes, y analizó los agentes encarnados resultantes en tres ambientes: colinas, escalones y escombros.

El equipo dice que DERL demuestra varias relaciones entre la complejidad ambiental, la inteligencia morfológica y la capacidad de aprendizaje del control:

La complejidad ambiental fomenta la evolución de la inteligencia morfológica cuantificada por la capacidad de una morfología para facilitar el aprendizaje de tareas novedosas.
La evolución selecciona rápidamente morfologías que aprenden más rápido, lo que permite que los comportamientos aprendidos al final de la vida de los primeros antepasados se expresen al principio de la vida de sus descendientes.
Los experimentos sugieren una base mecanicista tanto para el efecto Baldwin como para la aparición de la inteligencia morfológica a través de la evolución de morfologías que son más estables físicamente y eficientes energéticamente, y pueden facilitar el aprendizaje y el control.

El equipo espera que las simulaciones a gran escala de DERL puedan fomentar más exploraciones científicas sobre el aprendizaje y la evolución que podrían conducir a comportamientos inteligentes de aprendizaje rápido en agentes de RL.

El documento Embodied Intelligence via Learning and Evolution está disponible en arXiv .

Reportero : Fangyu Cai