Un estudio muestra que la IA puede identificar la raza autoinformada a partir de imágenes médicas que no contienen indicaciones de raza detectables por expertos humanos
Raquel Gordon | MIT CSAIL
La mala educación de los algoritmos es un problema crítico; cuando la inteligencia artificial refleja los pensamientos inconscientes, el racismo y los prejuicios de los humanos que generaron estos algoritmos, puede provocar daños graves. Los programas de computadora, por ejemplo, han señalado erróneamente que los acusados negros tienen el doble de probabilidades de reincidir que los blancos. Cuando una IA usó el costo como indicador de las necesidades de salud, nombró falsamente a los pacientes negros como más saludables que los blancos igualmente enfermos, ya que se gastó menos dinero en ellos. Incluso AI solía escribir una obra de teatro basada en el uso de estereotipos dañinos para el casting.
La eliminación de características confidenciales de los datos parece un ajuste viable. Pero, ¿qué sucede cuando no es suficiente?
Los ejemplos de sesgo en el procesamiento del lenguaje natural son ilimitados, pero los científicos del MIT han investigado otra modalidad importante, en gran parte poco explorada: las imágenes médicas. Usando conjuntos de datos privados y públicos, el equipo descubrió que la IA puede predecir con precisión la raza de pacientes autoinformada solo a partir de imágenes médicas. Usando datos de imágenes de radiografías de tórax, radiografías de extremidades, tomografías computarizadas de tórax y mamografías, el equipo entrenó un modelo de aprendizaje profundo para identificar la raza como blanca, negra o asiática, aunque las imágenes en sí no contenían una mención explícita de la raza. raza del paciente. Esta es una hazaña que incluso los médicos más experimentados no pueden hacer, y no está claro cómo el modelo pudo hacer esto.
En un intento por desentrañar y dar sentido al enigmático «cómo» de todo, los investigadores realizaron una serie de experimentos. Para investigar los posibles mecanismos de detección de razas, observaron variables como las diferencias en la anatomía, la densidad ósea, la resolución de las imágenes, y muchas más, y los modelos aún prevalecían con una alta capacidad para detectar razas a partir de radiografías de tórax. «Estos resultados inicialmente fueron confusos, porque los miembros de nuestro equipo de investigación no pudieron acercarse a identificar un buen proxy para esta tarea», dice el coautor del artículo Marzyeh Ghassemi, profesor asistente en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT. y el Instituto de Ingeniería y Ciencias Médicas (IMES), que es una filial del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y de la Clínica MIT Jameel. “Incluso cuando filtra imágenes médicas más allá de donde las imágenes son reconocibles como imágenes médicas, los modelos profundos mantienen un rendimiento muy alto. Eso es preocupante porque las capacidades sobrehumanas son generalmente mucho más difíciles de controlar, regular y evitar que dañen a las personas”.
En un entorno clínico, los algoritmos pueden ayudarnos a decirnos si un paciente es candidato para la quimioterapia, dictar el triaje de los pacientes o decidir si es necesario un traslado a la UCI. «Creemos que los algoritmos solo analizan los signos vitales o las pruebas de laboratorio, pero es posible que también analicen su raza, etnia, sexo, si está encarcelado o no, incluso si toda esa información está oculta». dice el coautor del artículo Leo Anthony Celi, científico investigador principal en IMES en el MIT y profesor asociado de medicina en la Escuela de Medicina de Harvard. “El hecho de que tenga representación de diferentes grupos en sus algoritmos no garantiza que no perpetúe o amplíe las disparidades e inequidades existentes. Alimentar los algoritmos con más datos con representación no es una panacea.
El estudio, » Reconocimiento de la IA de la raza del paciente en imágenes médicas: un estudio de modelado «, se publicó en Lancet Digital Health el 11 de mayo. Celi y Ghassemi escribieron el artículo junto con otros 20 autores en cuatro países.
Para configurar las pruebas, los científicos primero demostraron que los modelos podían predecir la carrera en múltiples modalidades de imágenes, varios conjuntos de datos y diversas tareas clínicas, así como en una variedad de centros académicos y poblaciones de pacientes en los Estados Unidos. Utilizaron tres grandes conjuntos de datos de rayos X de tórax y probaron el modelo en un subconjunto invisible del conjunto de datos utilizado para entrenar el modelo y en uno completamente diferente. Luego, entrenaron los modelos de detección de identidad racial para imágenes de rayos X que no son de tórax de múltiples ubicaciones del cuerpo, incluidas radiografías digitales, mamografías, radiografías laterales de la columna cervical y tomografías computarizadas de tórax para ver si el rendimiento del modelo se limitaba a las radiografías de tórax.
El equipo cubrió muchas bases en un intento de explicar el comportamiento del modelo: diferencias en las características físicas entre diferentes grupos raciales (habitus corporales, densidad mamaria), distribución de enfermedades (estudios anteriores han demostrado que los pacientes negros tienen una mayor incidencia de problemas de salud como enfermedades cardíacas ), diferencias específicas de la ubicación o del tejido, los efectos del sesgo social y el estrés ambiental, la capacidad de los sistemas de aprendizaje profundo para detectar la raza cuando se combinaron múltiples factores demográficos y del paciente, y si regiones específicas de la imagen contribuyeron a reconocer la raza.
Lo que surgió fue realmente asombroso: la capacidad de los modelos para predecir la raza solo a partir de las etiquetas de diagnóstico fue mucho menor que la de los modelos basados en imágenes de rayos X de tórax.
Por ejemplo, la prueba de densidad ósea utilizó imágenes en las que la parte más gruesa del hueso aparecía blanca y la parte más delgada aparecía más gris o translúcida. Los científicos asumieron que, dado que las personas negras generalmente tienen una mayor densidad mineral ósea, las diferencias de color ayudaron a los modelos de IA a detectar la raza. Para cortar eso, recortaron las imágenes con un filtro, para que el modelo no pudiera diferenciar el color. Resultó que cortar el suministro de color no desconcertó al modelo; todavía podía predecir con precisión las carreras. (El valor del «Área bajo la curva», es decir, la medida de la precisión de una prueba de diagnóstico cuantitativa, fue de 0,94 a 0,96). Como tal, las características aprendidas del modelo parecían depender de todas las regiones de la imagen, lo que significa que controlar este tipo de comportamiento algorítmico presenta un problema confuso y desafiante.
Los científicos reconocen la disponibilidad limitada de etiquetas de identidad racial, lo que los llevó a centrarse en las poblaciones asiáticas, negras y blancas, y que su verdad básica fue un detalle autoinformado. Otro trabajo próximo incluirá la posibilidad de buscar el aislamiento de diferentes señales antes de la reconstrucción de la imagen porque, al igual que con los experimentos de densidad ósea, no pudieron explicar el tejido óseo residual que estaba en las imágenes.
En particular, otro trabajo de Ghassemi y Celi dirigido por el estudiante del MIT Hammaad Adam descubrió que los modelos también pueden identificar la raza autoinformada por el paciente a partir de notas clínicas, incluso cuando esas notas están despojadas de indicadores explícitos de raza. Al igual que en este trabajo, los expertos humanos no pueden predecir con precisión la raza del paciente a partir de las mismas notas clínicas redactadas.
“Necesitamos traer a los científicos sociales a la escena. Los expertos en el dominio, que suelen ser médicos, profesionales de la salud pública, informáticos e ingenieros, no son suficientes. El cuidado de la salud es un problema sociocultural tanto como un problema médico. Necesitamos otro grupo de expertos para opinar y proporcionar información y comentarios sobre cómo diseñamos, desarrollamos, implementamos y evaluamos estos algoritmos”, dice Celi. “También debemos preguntar a los científicos de datos, antes de cualquier exploración de los datos, ¿hay disparidades? ¿Qué grupos de pacientes están marginados? ¿Cuáles son los impulsores de esas disparidades? ¿Es el acceso a la atención? ¿Es desde la subjetividad de los cuidadores? Si no entendemos eso, no tendremos la oportunidad de ser capaces de identificar las consecuencias no deseadas de los algoritmos, y hay
“El hecho de que los algoritmos ‘vean’ la raza, como documentan convincentemente los autores, puede ser peligroso. Pero un hecho importante y relacionado es que, cuando se usan con cuidado, los algoritmos también pueden funcionar para contrarrestar el sesgo”, dice Ziad Obermeyer, profesor asociado de la Universidad de California en Berkeley, cuya investigación se centra en la IA aplicada a la salud. “En nuestro propio trabajo , dirigido por la científica informática Emma Pierson en Cornell, mostramos que los algoritmos que aprenden de las experiencias de dolor de los pacientes pueden encontrar nuevas fuentes de dolor de rodilla en las radiografías que afectan de manera desproporcionada a los pacientes negros, y que los radiólogos pasan por alto de manera desproporcionada. Entonces, como cualquier herramienta, los algoritmos pueden ser una fuerza para el mal o una fuerza para el bien, cuál depende de nosotros y de las elecciones que hacemos cuando construimos algoritmos”.
El trabajo es apoyado, en parte, por los Institutos Nacionales de Salud.