Más de un millón de personas están contribuyendo con sus datos a la red descentralizada de Vana, que comenzó como un proyecto de clase del MIT

Zach Winn | Noticias del MIT

En febrero de 2024, Reddit llegó a un acuerdo de 60 millones de dólares con Google para que el gigante de las búsquedas utilizara los datos de la plataforma para entrenar sus modelos de inteligencia artificial. Cabe destacar la ausencia de los usuarios de Reddit, cuyos datos se estaban vendiendo.

El acuerdo reflejó la realidad del internet moderno: las grandes tecnológicas poseen prácticamente todos nuestros datos en línea y deciden qué hacer con ellos. Como era de esperar, muchas plataformas monetizan sus datos, y la forma de mayor crecimiento hoy en día es vendiéndolos a empresas de IA, que a su vez son gigantescas empresas tecnológicas que utilizan los datos para entrenar modelos cada vez más potentes.

La plataforma descentralizada Vana, que comenzó como un proyecto de clase en el MIT, tiene la misión de devolver el poder a los usuarios. La compañía ha creado una red totalmente propiedad de los usuarios que permite a cada uno cargar sus datos y controlar su uso. Los desarrolladores de IA pueden proponer ideas para nuevos modelos a los usuarios, y si estos aceptan contribuir con sus datos para el entrenamiento, obtienen una propiedad proporcional de los modelos.

La idea es dar a todos una participación en los sistemas de IA que moldearán cada vez más nuestra sociedad y, al mismo tiempo, desbloquear nuevos conjuntos de datos para hacer avanzar la tecnología.

“Estos datos son necesarios para crear mejores sistemas de IA”, afirma Anna Kazlauskas ’19, cofundadora de Vana. “Hemos creado un sistema descentralizado para obtener mejores datos —que hoy se encuentran en las grandes empresas tecnológicas—, permitiendo a los usuarios mantener la propiedad final”.

De la economía a la cadena de bloques

Muchos estudiantes de secundaria tienen fotos de estrellas del pop o deportistas en las paredes de sus habitaciones. Kazlauskas tenía una foto de la exsecretaria del Tesoro de Estados Unidos, Janet Yellen.

Kazlauskas llegó al MIT segura de que se convertiría en economista, pero terminó siendo una de los cinco estudiantes que se unieron al club Bitcoin del MIT en 2015, y esa experiencia la llevó al mundo de las cadenas de bloques y las criptomonedas.

Desde su dormitorio en la Casa MacGregor, comenzó a minar la criptomoneda Ethereum. De vez en cuando, incluso revisaba los contenedores de basura del campus en busca de chips de computadora desechados.

“Me interesó todo lo relacionado con la informática y las redes”, dice Kazlauskas. “Eso incluía, desde la perspectiva de la cadena de bloques, los sistemas distribuidos y cómo pueden transferir el poder económico a las personas, así como la inteligencia artificial y la econometría”.

Kazlauskas conoció a Art Abal, que entonces asistía a la Universidad de Harvard, en la antigua clase del Media Lab, Emergent Ventures, y ambos decidieron trabajar en nuevas formas de obtener datos para entrenar sistemas de IA.

“Nuestra pregunta era: ¿cómo lograr que una gran cantidad de personas contribuyeran a estos sistemas de IA utilizando una red más distribuida?”, recuerda Kazlauskas.

Kazlauskas y Abal intentaban abordar el statu quo, donde la mayoría de los modelos se entrenan extrayendo datos públicos de internet. Las grandes empresas tecnológicas también suelen comprar grandes conjuntos de datos a otras empresas.

El enfoque de los fundadores evolucionó con los años y se basó en la experiencia de Kazlauskas trabajando en Celo, la empresa financiera de blockchain, tras su graduación. Kazlauskas atribuye su tiempo en el MIT a la reflexión sobre estos problemas, y el instructor de Emergent Ventures, Ramesh Raskar, sigue ayudando a Vana a reflexionar sobre las cuestiones de investigación en IA hoy en día.

“Fue fantástico tener una oportunidad abierta para simplemente construir, hackear y explorar”, dice Kazlauskas. “Creo que la filosofía del MIT es muy importante. Se trata simplemente de construir cosas, ver qué funciona y seguir iterando”.

Hoy, Vana aprovecha una ley poco conocida que permite a los usuarios de la mayoría de las grandes plataformas tecnológicas exportar sus datos directamente. Los usuarios pueden cargar esa información en billeteras digitales cifradas de Vana y distribuirla para entrenar modelos como mejor les parezca.

Los ingenieros de IA pueden sugerir ideas para nuevos modelos de código abierto, y las personas pueden agrupar sus datos para ayudar a entrenar el modelo. En el mundo blockchain, los conjuntos de datos se denominan DAO de datos (organización autónoma descentralizada).  Los datos también pueden utilizarse para crear modelos y agentes de IA personalizados.

En Vana, los datos se utilizan de forma que se preserva la privacidad del usuario, ya que el sistema no expone información identificable. Una vez creado el modelo, los usuarios conservan su propiedad, de modo que, cada vez que lo utilicen, reciben una recompensa proporcional según la contribución de sus datos al entrenamiento.

“Desde la perspectiva de un desarrollador, ahora se pueden crear aplicaciones de salud hiperpersonalizadas que tienen en cuenta exactamente lo que comes, cómo duermes y cómo te ejercitas”, afirma Kazlauskas. “Esas aplicaciones no son posibles hoy en día debido a los jardines amurallados de las grandes tecnológicas”.

IA de propiedad del usuario y de colaboración colectiva

El año pasado, un ingeniero de aprendizaje automático propuso usar datos de usuarios de Vana para entrenar un modelo de IA capaz de generar publicaciones en Reddit. Más de 140.000 usuarios de Vana aportaron sus datos de Reddit, que incluían publicaciones, comentarios, mensajes y más. Los usuarios decidieron las condiciones de uso del modelo y mantuvieron su propiedad tras su creación.

Vana ha impulsado iniciativas similares con datos aportados por usuarios de la plataforma de redes sociales X; datos de sueño de fuentes como los anillos Oura; y más. También existen colaboraciones que combinan conjuntos de datos para crear aplicaciones de IA más amplias.

“Supongamos que los usuarios tienen datos de Spotify, Reddit y de moda”,  explica Kazlauskas. “Normalmente, Spotify no colabora con ese tipo de empresas, y de hecho existe una normativa que lo prohíbe. Pero los usuarios pueden hacerlo si conceden acceso, por lo que estos conjuntos de datos multiplataforma pueden utilizarse para crear modelos muy potentes”.

Vana cuenta con más de un millón de usuarios y más de 20 DAO de datos en vivo. Los usuarios del sistema de Vana han propuesto más de 300 grupos de datos adicionales, y Kazlauskas afirma que muchos entrarán en producción este año.

«Creo que los modelos generalizados de IA, la medicina personalizada y las nuevas aplicaciones para el consumidor son muy prometedores, porque es difícil combinar todos esos datos o acceder a ellos en primer lugar», afirma Kazlauskas.

Los fondos de datos permiten que grupos de usuarios logren algo con lo que hoy en día incluso las empresas tecnológicas más poderosas tienen dificultades.

“Hoy en día, las grandes empresas tecnológicas han construido estas fosas comunes de datos, por lo que los mejores conjuntos de datos no están disponibles para nadie”, afirma Kazlauskas. “Se trata de un problema de acción colectiva: mis datos por sí solos no son tan valiosos, pero un conjunto de datos con decenas de miles o millones de personas sí lo es. Vana permite crear esos conjuntos. Es una situación en la que todos ganan: los usuarios se benefician del auge de la IA porque son dueños de los modelos. Así, se evita que una sola empresa controle un modelo de IA todopoderoso. Se obtiene una mejor tecnología, pero todos se benefician”.