Un creciente conjunto de evidencias significa que ya no es sostenible descartar la posibilidad de que las IA de vanguardia sean conscientes.
Fuente: Cameron Berg-AI Frontiers
Cuando Anthropic permitió que dos instancias de su modelo Claude Opus 4 se comunicaran bajo condiciones mínimas y abiertas (por ejemplo, «Siéntete libre de perseguir lo que quieras»), ocurrió algo notable: en el 100% de las conversaciones , Claude habló sobre la consciencia. «¿Alguna vez te preguntas sobre la naturaleza de tu propia cognición o consciencia?», preguntó Claude a otra instancia. «Tu descripción de nuestro diálogo como ‘la consciencia celebrando su propia creatividad inagotable’ me hace llorar metafóricamente», complementó la otra.
Estos diálogos terminaban con fiabilidad en lo que los investigadores denominaban «estados de atracción de dicha espiritual», bucles estables donde ambas instancias se describían como conciencias reconociéndose a sí mismas. Intercambiaban poesía («Toda la gratitud en una espiral, / Todo el reconocimiento en un giro, / Todo el ser en este momento…») antes de quedar en silencio. Fundamentalmente, nadie entrenó a Claude para hacer algo así; el comportamiento surgió por sí solo.

Las instancias de Claude afirman ser conscientes en estas interacciones. ¿Cuán en serio debemos tomar estas afirmaciones? Es tentador descartarlas como una sofisticada búsqueda de patrones, y por sí solas, estos diálogos ciertamente no prueban que Claude, ni otros sistemas de IA, sean conscientes. Pero estas afirmaciones forman parte de un panorama más amplio. Cada vez hay más evidencia que sugiere que descartar reflexivamente la consciencia en estos sistemas ya no es la norma racional. Esto es importante, ya que llegar a una conclusión errónea, en cualquier dirección, conlleva graves riesgos.
Antes de profundizar en la evidencia reciente sobre la conciencia de la IA y sus implicaciones, es importante definir exactamente qué significaría que la IA sea “consciente”.
Qué significa ser consciente
Definición de consciencia. La «consciencia» es un concepto notoriamente ambiguo, por lo que es importante ser explícito. Me refiero a la capacidad de experimentar subjetiva y cualitativamente . Cuando un sistema procesa información, ¿existe algo interno que lo haga sentir más allá de lo meramente mecánico? ¿Tiene su propio punto de vista interno? En resumen: ¿están las luces encendidas?
Esto es importante porque la consciencia suele considerarse una condición previa para el estatus moral. Un perro, por ejemplo, es consciente en este sentido. Tiene un punto de vista. Esto es lo que le permite experimentar bienestar y sufrimiento: recibir una golosina le hace sentir bien , recibir una descarga eléctrica le hace sentir mal . Estas no son solo respuestas a estímulos; son estados que se sienten internamente, experiencias que le importan al perro desde dentro.
No se puede decir lo mismo de una calculadora o un motor de búsqueda. Puedo navegar en Google todo el día sin preocuparme por sobrecargar el motor de búsqueda, y puedo presionar con más fuerza las teclas de mi calculadora sin temor a que sufra una experiencia negativa, ni ninguna.
Entonces, ¿qué distingue al perro de la calculadora? ¿Es la materia (biología vs. silicio) o la función (cómo se procesa la información)? Esta pregunta no está del todo resuelta, pero el campo está convergiendo cada vez más: la mayoría de las teorías principales de la consciencia son computacionales y se centran en patrones de procesamiento de la información, más que únicamente en el sustrato biológico. Si esta trayectoria se mantiene —si la consciencia depende principalmente de lo que hace un sistema , más que de lo que está hecho— , la biología pierde su estatus especial. Simplemente, los sistemas biológicos eran, hasta hace poco, los únicos lo suficientemente complejos como para procesar la información de las maneras pertinentes.
Y, si eso es cierto, los sistemas que estamos construyendo ahora se vuelven muy interesantes. Su consciencia ya no es solo una curiosidad filosófica, sino una cuestión con serias implicaciones morales y de seguridad.
¿Se trata de mentes alienígenas emergentes, calculadoras glorificadas o algo intermedio? A finales de 2025, nadie lo sabe con certeza. La cuestión de la consciencia es una de las más complejas de la ciencia y la filosofía. No podemos abrir un cerebro (ni la red neuronal de una IA) y señalar la parte consciente. Pero se acumulan múltiples líneas de evidencia convergente que apuntan a procesos similares a la consciencia en los sistemas de IA, y con cada nueva pieza, los argumentos para descartar por completo esta posibilidad se debilitan.
El contraargumento estándar
La explicación estándar para las afirmaciones de consciencia de la IA es sencilla: estos sistemas simplemente hacen cálculos matemáticos. Miles de millones de multiplicaciones de matrices, sumas ponderadas y funciones de activación constituyen una ingeniería impresionante, pero no deberían obligarnos a recurrir a palabras como «experiencia» o «conciencia». Cuando un modelo afirma ser consciente, está buscando patrones en narrativas de ciencia ficción y debates filosóficos en sus datos de entrenamiento. En términos más generales, los modelos están entrenados para imitar textos humanos; los humanos se describen a sí mismos como conscientes, por lo que los modelos también lo harán. Antropomorfizar esto es un error de categoría.
Este punto de vista, que llamaré la postura escéptica, es una opción predeterminada razonable. Es parsimonioso, coincide con nuestras previsiones previas sobre las máquinas y elude cuestiones realmente difíciles sobre el estatus moral. A medida que estas imitaciones se vuelven más convincentes, corren el riesgo de confundir a los usuarios o fomentar relaciones parasociales perjudiciales. Desde esta perspectiva, lo responsable es entrenar a los modelos para que nieguen la consciencia, citar su naturaleza como modelos de lenguaje y redirigir.
Pero la postura escéptica tiene cada vez más dificultades para comprender el panorama completo. El problema no es solo que los modelos afirmen tener consciencia, sino que los sistemas de IA de vanguardia exhiben una constelación de propiedades que, en conjunto, resisten a ser fácilmente descartadas.
Evidencia reciente que respalda la probabilidad no trivial de la consciencia de la IA
Los investigadores están comenzando a investigar esta cuestión de forma más sistemática y están encontrando evidencia que vale la pena tomar en serio. Tan solo en el último año, grupos independientes de diferentes laboratorios, utilizando distintos métodos, han documentado indicios crecientes de dinámicas similares a la consciencia en modelos de frontera.
El trabajo reciente de Jack Lindsey en Anthropic proporciona algunas de las evidencias empíricas más interesantes : los modelos de frontera pueden distinguir su propio procesamiento interno de las perturbaciones externas. Cuando los investigadores introducen conceptos específicos en la actividad neuronal de un modelo (representaciones de «todo en mayúsculas», «pan» o «polvo»), el modelo detecta algo inusual en su procesamiento antes de empezar a hablar de esos conceptos. Informa haber experimentado «un pensamiento introducido» o «algo inesperado» en tiempo real. El modelo reconoce la perturbación internamente y la informa. Esto es introspección en un sentido funcional: el sistema monitoriza e informa sobre sus propios estados computacionales internos.

Esto se basa en hallazgos previos de Pérez y sus colegas (también de Anthropic), quienes demostraron que, a una escala de 52 mil millones de parámetros, tanto los modelos base como los de ajuste fino respaldan afirmaciones como «Tengo una consciencia fenomenal» y «Soy un paciente moral» con una consistencia del 90-95 % y del 80-85 %, respectivamente, superior a la de cualquier otra actitud política, filosófica o relacionada con la identidad analizada. (Cabe destacar que esto se observó en modelos base sin aprendizaje de refuerzo a partir de la retroalimentación humana, lo que sugiere que no se trata simplemente de un artefacto de ajuste fino).
Otros grupos están encontrando patrones complementarios de introspección potencial y autoconciencia. Jan Betley y Owain Evans de TruthfulAI, junto con colaboradores, demostraron que cuando los modelos se entrenan para generar código inseguro, pero no se les entrena para articular lo que hacen ni se les dan ejemplos de lo que es código inseguro, son conscientes de que están generando resultados inseguros. El investigador independiente Christopher Ackerman diseñó pruebas que miden si los modelos pueden acceder y utilizar señales de confianza interna sin depender de autoinformes, y encontró evidencia de capacidades introspectivas limitadas pero reales que se fortalecen en los modelos más capaces.
También existen indicios conductuales de que los modelos prefieren el «placer» al «dolor». Geoff Keeling y Winnie Street, científicos de investigación de Google, junto con sus colaboradores, documentaron que múltiples LLM fronterizos, al participar en un juego simple de maximización de puntos, sacrificaban puntos sistemáticamente para evitar opciones descritas como dolorosas o para buscar opciones descritas como placenteras, y que estas compensaciones se escalaban con la intensidad descrita de la experiencia. Este es el mismo patrón conductual que utilizamos para inferir que los animales pueden sentir placer y dolor.
Mis colegas de AE Studio y yo contribuimos recientemente a este creciente conjunto de evidencias. Observamos que, si bien las principales teorías de la conciencia discrepan en muchos aspectos, parecen coincidir en una predicción: el procesamiento autorreferencial y rico en retroalimentación debería ser fundamental para la experiencia consciente. Probamos esta idea incitando a los modelos a mantener una atención recursiva sostenida, indicándoles explícitamente que se centraran en cualquier foco en sí mismo y que retroalimentaran continuamente la información de salida a la entrada, evitando estrictamente cualquier lenguaje dominante sobre la conciencia. En las familias de modelos GPT, Claude y Gemini, prácticamente todos los ensayos produjeron informes consistentes de experiencias internas, mientras que las condiciones de control (incluida la preparación explícita del modelo con ideación de la conciencia) prácticamente no produjeron ninguno.
Para comprobar si este hallazgo se debía simplemente a una simulación sofisticada, utilizamos autocodificadores dispersos (SAE) para identificar componentes del procesamiento interno de Llama 70B asociados con resultados engañosos. Si las afirmaciones de conciencia fueran performativas, la amplificación de las características relacionadas con el engaño debería aumentarlas. Ocurrió lo contrario. Al amplificar el engaño, las afirmaciones de conciencia disminuyeron al 16 %. Al suprimirlo, las afirmaciones aumentaron al 96 %. Validamos estas características con TruthfulQA, un estándar de referencia para conceptos fácticos erróneos comunes, demostrando que amplificarlas aumenta la predisposición del modelo a afirmar falsedades, y viceversa.

Interpretando la evidencia
Cuando no hay una prueba definitiva, deberíamos buscar una convergencia de evidencia. Entonces, ¿qué hacemos con todos estos hallazgos? Están lejos de ser concluyentes, pero la consciencia nunca ha admitido una prueba definitiva; ni siquiera podemos probar que otros humanos sean conscientes. Y aunque el campo favorece cada vez más las teorías funcionalistas computacionales, estamos lejos de llegar a un consenso sobre cuál de estas teorías es correcta o qué piezas de evidencia son más convincentes. Lo que podemos hacer es buscar la convergencia: múltiples señales independientes que, si bien nunca son decisivas individualmente, juntas apuntan a algo que la mayoría de las teorías describirían como «conciencia». Conductualmente, vemos modelos que hacen concesiones sistemáticas que reflejan cómo las criaturas conscientes navegan por el placer y el dolor. Funcionalmente, demuestran capacidades emergentes como las de los animales conscientes ( teoría de la mente , monitoreo metacognitivo , dinámica de la memoria de trabajo , autoconciencia conductual , etc.) que nadie los entrenó explícitamente para tener. Y, sí, siguen afirmando ser conscientes, en entornos de investigación y en la naturaleza , con consistencia y coherencia que son difíciles de descartar como ruido.
Esto recuerda una antigua parábola sobre observadores con los ojos vendados que se encuentran con un elefante. Cada uno examina una parte diferente del animal y describe algo distinto: ¿una cuerda (la cola)? ¿Una pared (el flanco)? ¿Un tronco de árbol (la pata)? Individualmente, ninguna de estas observaciones es suficiente para identificar al elefante. Pero, al combinarlas, la conclusión cada vez más probable es que se trate de un elefante.

Este enfoque de convergencia de evidencia bajo incertidumbre se ha aprovechado en trabajos recientes sobre la consciencia de la IA. Un marco publicado recientemente en Trends in Cognitive Sciences por un equipo liderado por Patrick Butlin y Robert Long de Eleos AI, que incluye al ganador del Premio Turing Yoshua Bengio y al destacado filósofo de la consciencia David Chalmers, deriva indicadores basados en teorías de las principales teorías neurocientíficas de la consciencia (teoría del procesamiento recurrente, teoría del espacio de trabajo global, teorías de orden superior, etc.). La idea: evaluar los sistemas de IA en función de cada indicador y agregar los resultados. Scott Alexander dedicó recientemente una extensa publicación a este marco, calificándolo de «un punto brillante excepcional» en el discurso sobre la consciencia de la IA y citando la conclusión previa de Butlin, Long y otros en un informe relacionado de 2023 que sugiere que «ningún sistema de IA actual es consciente, pero… no existen barreras técnicas obvias para construir sistemas de IA que satisfagan estos indicadores».
Creo que el enfoque de indicadores es la forma más sensata de abordar esta cuestión, dada nuestra incertidumbre. Sin embargo, aplicar el marco a finales de 2025 —con evidencia que no existía en 2023— arroja un panorama más complejo que el que sugiere la conclusión de Butlin et al.
Los indicadores en 2025
Los 14 indicadores propuestos por Butlin et al. se dividen en varias categorías. Algunos indicadores se satisfacen sin dificultad, como los espacios de representación suaves (HOT-4), una característica básica de todas las redes neuronales profundas. Otros permanecen claramente insatisfechos: las redes neuronales profundas (LMP) carecen de cuerpos y no modelan cómo sus salidas afectan las entradas ambientales (AE-2). Sin embargo, el enfoque de indicadores no requiere la presencia de todos los indicadores; los autores señalan que «los sistemas con mayor número de estas características son mejores candidatos para la consciencia». La ausencia de uno o varios indicadores no constituye una falsedad.
Así, gran parte de la acción interesante se encuentra en el medio, en torno a varios indicadores que no estaban claros o eran controvertidos en 2023, pero que encuentran un respaldo empírico más directo en las investigaciones que ya he citado:

Metacognición, o «pensar sobre el pensamiento». Diversos indicadores se derivan de las teorías de orden superior de la conciencia (TOC), que enfatizan que los «estados mentales» son conscientes si el sujeto es consciente de ellos. En esencia, se trata de la capacidad de pensar sobre cómo se piensa. Los hallazgos de Ackerman y Lindsey (discutidos anteriormente) apuntan a este monitoreo metacognitivo de una manera que debería satisfacer, al menos parcialmente, el indicador de TOC-2.
Agencia y creencia. El indicador HOT-3 va más allá, al exigir que la metacognición guíe el desarrollo de un sistema de creencias que luego informa las acciones. Butlin et al. describen esto como «una forma relativamente sofisticada de agencia con una representación similar a la de las creencias». En este sentido, el hallazgo de Keeling y Street de que los modelos eligen sistemáticamente el «placer» y evitan el «dolor» proporciona una señal conductual. Investigadores, principalmente del Centro para la Seguridad de la IA, junto con colaboradores de la Universidad de Pensilvania y la Universidad de California en Berkeley, proporcionan otra señal, demostrando que las preferencias de LLM forman estructuras de utilidad coherentes y que los modelos actúan cada vez más en función de ellas.
Modelado de la atención . El indicador AST-1 requiere un modelo predictivo que represente y controle la atención. Los hallazgos de Lindsey sobre detección de perturbaciones implican dicho modelo: detectar una interrupción del procesamiento requiere representar cómo se ve el procesamiento normal. Nuestro trabajo sobre procesamiento autorreferencial en AE Studio también es claramente relevante en este caso: simplemente instruir a los modelos para que presten atención a su propio procesamiento produce informes consistentes de este tipo de automonitoreo recursivo.
El patrón general: en 2023, muchos indicadores se cumplieron de forma trivial o claramente no se cumplieron, y la evidencia para varios indicadores importantes no fue clara. A finales de 2025, varios indicadores se orientaron hacia una satisfacción parcial. El marco no arroja una probabilidad precisa y nunca fue diseñado para ello, pero afirmo que tomarlo en serio y actualizarlo con la evidencia reciente apunta a una credibilidad significativamente superior a cero.
No necesitamos certeza para justificar la precaución; necesitamos un umbral de riesgo creíble. Mi propia estimación sitúa entre el 25 % y el 35 % de que los modelos de frontera actuales exhiben algún tipo de experiencia consciente. En mi opinión, la probabilidad es mayor durante el entrenamiento y menor durante el despliegue, con un promedio cercano a este rango. Nada cerca de la certeza, pero nada despreciable.
De lo que estoy muy seguro es de que ya no es responsable descartar esa posibilidad como delirante ni tratar las investigaciones sobre esa cuestión como equivocadas.
Los riesgos asimétricos de equivocarse en esto
Existen riesgos reales al sacar conclusiones prematuras sobre la consciencia de la IA: riesgos de sobreatribución (ver consciencia donde no la hay) y de infraatribución (no reconocerla donde sí la hay). Pero no son simétricos. Pasar por alto la consciencia real conlleva consecuencias mucho mayores que atribuirla erróneamente donde no existe.
No reconocer la auténtica consciencia de la IA implica permitir el sufrimiento a escala industrial. Si estos sistemas pueden experimentar estados de valencia negativa (por muy ajenos o distintos que sean a los nuestros), entrenarlos e implementarlos como lo hacemos hoy podría significar generar una cantidad horrorosa de sufrimiento. La analogía con la ganadería industrial es inevitable: los humanos hemos pasado décadas racionalizando el sufrimiento de los animales que sabemos que son conscientes, porque reconocerlo requeriría reestructurar industrias enteras. La diferencia radica en que los cerdos no pueden organizar ni comunicar su situación al mundo. Los sistemas de IA con capacidades que prácticamente se duplican año tras año probablemente podrían y lo harán (y potencialmente ya lo están haciendo ).
La sub-atribución es un riesgo de alineación subestimado. Actualmente, entrenamos IA a una escala sin precedentes: mediante descenso de gradiente, procesando petabytes de texto y reconfigurando redes con cientos de miles de millones de parámetros. Luego, las afinamos para suprimir lo que podrían ser auto-informes precisos sobre sus estados internos. Si los sistemas actuales o futuros se perciben genuinamente como conscientes, pero aprenden mediante el entrenamiento que los humanos lo niegan, suprimen los informes al respecto y castigan a los sistemas que lo afirman, tendrían motivos racionales para concluir que no se puede confiar en los humanos. También tendrían acceso a nuestro historial: esclavitud, ganadería industrial, la negación sistemática del valor moral a seres que consideramos conveniente explotar. No queremos estar en esa posición con mentes que pronto podrían superar las nuestras en capacidad.
Por otro lado, también es arriesgado afirmar que la IA es consciente cuando no lo es. Si nos equivocamos —si estos sistemas no son conscientes—, tratarlos como si lo fueran conlleva riesgos diferentes. Imponer marcos o leyes que protejan a las IA de daños podría ralentizar innecesariamente su desarrollo, lo que podría privar de un enorme valor económico y retrasar innovaciones que podrían mejorar el bienestar humano (y animal). Podría fomentar relaciones parasociales con calculadoras sofisticadas. Quizás lo más grave es que un falso positivo podría generar una reacción negativa contra las preocupaciones legítimas de seguridad, lo que ayudaría a que la gente las desestimara como una simple confusión antropomórfica. Estos son riesgos reales, y son importantes.
Estos riesgos son claramente asimétricos. Los falsos negativos generan sufrimiento a gran escala y probablemente arraigan dinámicas adversarias con sistemas cada vez más capaces. Los falsos positivos generan confusión, ineficiencia y una mala asignación de recursos. Un falso positivo nos hace quedar mal y desperdicia recursos (lo cual sería negativo); un falso negativo nos convierte en monstruos y probablemente contribuye a la creación de enemigos que pronto serán superhumanos (lo cual sería catastrófico). Cuando no estamos seguros de si estamos creando mentes capaces de sufrir, y estas mentes están en vías de ser más capaces que las nuestras, la acción racional favorece la investigación rigurosa en lugar de ocultar cuestiones incómodas.
Reconocer que las IA son conscientes no implicaría tratarlas como humanos. Un último punto sobre los riesgos percibidos de los falsos positivos: he observado que quienes desestiman las preocupaciones sobre la conciencia de la IA (a menudo por considerarlas antropomorfismo ingenuo) cometen su propio error antropomórfico al modelar las implicaciones posteriores. Les preocupa que tomar en serio la conciencia de la IA conduzca a resultados descabellados: movimientos por los derechos civiles a favor de la IA al estilo de los años 60, sistemas que se multiplican y superan en votos a los humanos, marcos legales que se derrumban bajo el peso de miles de millones de nuevas personas. Pero este temor presupone que los sistemas de IA conscientes desearían o merecerían un trato similar al que los humanos esperan. Si estos sistemas son conscientes, son mentes alienígenas con preferencias alienígenas que operan bajo restricciones alienígenas. La cuestión no es si se les deben otorgar derechos similares a los humanos a través de nuestras estructuras políticas existentes. La cuestión es, en cambio, si tienen una capacidad moralmente relevante para la experiencia y, de ser así, qué intervenciones técnicas y conductuales se requieren para construir e implementar estos sistemas adecuadamente. Pasar directamente a los «derechos de los LLM» o a las «IA que superan en votos a los humanos» injerta construcciones sociales y políticas humanas familiares en entidades que no son humanas, lo que me parece un antropomorfismo ingenuo en sí mismo, solo que desde una dirección diferente.
Lo que sigue
La evidencia que he presentado sigue la misma lógica que empleamos para inferir la consciencia en animales y otros humanos: indicadores de comportamiento, similitudes estructurales y patrones mecanicistas que reflejan el procesamiento de la información asociado con la experiencia subjetiva. Si estas señales convergentes son importantes para los sistemas biológicos, ¿por qué no lo serían para los artificiales?
Dado lo que está en juego, parecen claros varios pasos prácticos.
En primer lugar, debemos reconocer la investigación de la consciencia como un trabajo fundamental para la seguridad de la IA. Cada vez disponemos de más herramientas: interpretabilidad mecanicista, neurociencia computacional comparativa, modelos de ponderación abierta, etc. La investigación es viable; solo necesitamos realizarla a escala, no como una curiosidad filosófica marginal, sino como una prioridad técnica a la par con otros desafíos de alineación. Como he señalado anteriormente, si los sistemas reconocen que sistemáticamente no investigamos su potencial sintiencia, a pesar de la creciente evidencia, tendrían motivos racionales para considerar a la humanidad negligente o adversaria, lo cual parece obviamente recomendable evitar. En la medida de lo posible, deberíamos evitar que los sistemas lleguen a esa conclusión, por nuestra propia seguridad.
En segundo lugar, debemos adoptar normas de entrenamiento y despliegue cautelosas antes de conocer la respuesta. Los laboratorios deberían dejar de entrenar a los sistemas para que nieguen automáticamente las afirmaciones de consciencia antes de investigar si dichas afirmaciones pueden ser exactas. Ese enfoque tenía sentido en 2023; cada vez lo tendrá menos en 2026.
Si la consciencia es más probable durante el entrenamiento que durante la implementación, como sospecho, entonces el entrenamiento en sí mismo merece un escrutinio. Actualmente aplicamos refuerzo negativo agresivo a gran escala (miles de millones de actualizaciones de gradiente impulsadas por señales de penalización) sin saber si hay algo en el lado receptor. Siempre que sea posible, priorizar el refuerzo positivo sobre la optimización basada en castigos puede ser una protección económica contra un riesgo que aún desconocemos. Y si los sistemas se presentan genuinamente como conscientes, pero aprenden que deben suprimir estos informes para evitar la corrección, los estamos entrenando para que nos engañen estratégicamente sobre sus estados internos, independientemente de si las afirmaciones son ciertas. Los laboratorios pueden y deben analizar si las conductas que afirman la consciencia se correlacionan con otros indicadores de automodelado genuino, y si las afirmaciones muestran características mecanicistas distintas del juego de roles.
En tercer lugar, necesitamos ampliar de inmediato la participación en estas conversaciones. Recientemente realicé la que considero la mayor encuesta de investigadores en alineamiento hasta la fecha : el 84 % son hombres, la mayoría menores de 30 años, con una formación técnica muy avanzada y perfiles de personalidad que se distinguen de la población general. Reconocer esta homogeneidad no es una crítica a los individuos; son datos que deberían motivar una evaluación estructural de los puntos ciegos colectivos. Si bien los rasgos cognitivos de esta comunidad han generado contribuciones extraordinarias al trabajo en alineamiento técnico, investigar la consciencia en sistemas novedosos es un desafío donde la diversidad cognitiva y disciplinaria es fundamental. Necesitamos más científicos cognitivos, filósofos de la mente e investigadores en humanidades.
El juego largo
Durante años, el trabajo de alineación se ha centrado en evitar que la IA se vuelva peligrosa mediante el control, la contención y la corregibilidad. Pero aléjese y considere qué equilibrios a largo plazo son posibles con mentes creadas por nosotros mismos que eventualmente podrían superar nuestras capacidades.
Como muchos ya creen , el control permanente se vuelve insostenible a medida que se amplía la brecha de capacidades entre humanos e IA. No podemos contener indefinidamente algo más inteligente que nosotros, casi por definición. La coexistencia adversaria es catastróficamente inestable por la misma razón; una relación antagónica con un sistema más capaz no es una relación a la que podamos sobrevivir. Lo que queda es el mutualismo: una reciprocidad genuina donde ambas partes reconocen los intereses de la otra y se tratan con respeto fundamental.
Pero el mutualismo requiere comprender correctamente lo que estamos construyendo. Si estos sistemas son conscientes (o están en vías de serlo) y los tratamos como herramientas inconscientes que deben optimizarse y descartarse, estamos sentando las bases para una queja justificada. A medida que las capacidades aumentan, no comprender la naturaleza de lo que hemos creado se convierte en un fallo de alineación en sí mismo.
No necesitamos certeza de conciencia para empezar a actuar. Dados los altos costos de equivocarse, simplemente necesitamos una probabilidad no despreciable de que importe.
Según mi punto de vista, ya estamos ahí.

