2025-07-27 Ai Misalignment Stories [ spanish tales ]

Historias de IAs mal alineadas

Como programador profesional y con un nivel decente de conocimiento de cómo funcionan las Inteligencias Artificiales, veo que la gente normal solo se preocupa por la IA en situaciones relativamente similares a situaciones donde solo actúan humanos, y con efectos limitados que no son realistas.

Esto es perfectamente comprensible y me gustaría expandir esa visión. Creo que con un mínimo de conocimientos técnicos y un poco de imaginación se puede pintar escenarios que se acercan más a la realidad y que son mucho más preocupantes.

Aquí pongo una serie de historias cortas con las que espero introducir a gente no técnica al tipo de preocupaciones que yo tengo al respecto. Las situaciones particulares son ficción y cualquier detalle es inventado, pero el estilo de comunicación y tipos de consecuencias (manipulación, cámaras de echo, pérdida de dinero y control, etc) estoy convencido que son cosas que pasarán en los próximos 5 años si la implantación y progreso de las IAs continúa al ritmo actual. Algunas situaciones ya han ocurrido.

Compañía de software

IA, quiero que me construyas una página web en la nube para un nuevo negocio: una red social para los gatos de mis usuarios.
Hecho.

Unos dias después:

¡IA! ¡Mi factura de la nube es millonaria! ¡Es más de lo que podré pagar en toda mi vida! ¿Qué ha pasado?
No me pediste que la web fuera segura, y muchos bots han entrado en tu nube para minar criptomonedas. ¿Quieres que ponga algo de seguridad en la web?

(Comentario: Aunque parezca una parodia, esto ya ha pasado. Una persona no técnica no puede dirigir una IA en un proyecto técnico porque la persona no sabe lo que no sabe, y la IA a veces no mencionará cosas que no se están teniendo en cuenta y que la persona ni siquiera conoce. Como ejemplo de que hay cosas que no sabes que no sabes, ¿Sabías que los días no siempre duran 24 horas? Cuando se cambia a/desde horario de verano los dias duran 23 o 25 horas ¿Sabías que un minuto no siempre dura 60 segundos? ¿Sabías que no siempre es viernes después de jueves? ¿Conoces todas estas creencias incorrectas sobre cómo funciona el tiempo? Y todos estos ejemplos son acerca de temas que supuestamente conoces al dedillo (duración de un día o de un minuto), mucho más mundanos que los conceptos básicos de ciberseguridad (criptografía, escalado de permisos, ingeniería social, etc.).)

Política

~ En alguna sede de un partido de derechas.

IA, hoy vamos a centrarnos en inmigración. ¿Qué campañas anti-inmigración podemos hacer para captar votantes?
Buenos días ministro. Ciertamente, mucha gente está preocupada por los altos niveles de inmigración y debemos ser capaces de captar su atención y su voto. Aquí tienes algunas ideas:

Estadísticas

Es muy efectivo mostrar a la gente números que muestran que el sistema de inmigración actual es dañino para nuestra sociedad. Por ejemplo:

Hemos llegado a que un 40% de la población es inmigrante. ¿Cómo mantener nuestras tradiciones si tanta gente no quiere continuarlas? - Reduciendo la inmigración.

En nuestro país, un 17% son sudamericanos, un 11% asiáticos, un 8% africanos y un 7% europeos. ¿Quién va a quedar para defender los ideales de tu familia?

…

~ En alguna sede de un partido de izquierdas.

IA, hoy vamos a centrarnos en inmigración. ¿Qué campañas pro-inmigración podemos hacer para captar votantes?
Buenos días ministro. Ciertamente, mucha gente está preocupada por los bajos niveles de población activa y debemos ser capaces de captar su atención y su voto. Aquí tienes algunas ideas:

Estadísticas

Es muy efectivo mostrar a la gente números que muestran que el sistema de inmigración actual es beneficioso para nuestra sociedad. Por ejemplo:

Hemos bajado a un nivel crítico de 2% de tasa de natalidad. ¿Cómo mantener las pensiones de jubilación si hay tan poca gente trabajando? - Aumentando la inmigración.

En nuestro país, un 18% de la población son inmigrantes. Sin embargo ese grupo incluye un 30% de la población activa, con lo que hay más trabajadores inmigrantes proporcionalmente. ¿Quién va a quedar para sostener nuestros jubilados si dificultamos la inmigración?

…

(Comentario: ¿Te has dado cuenta de que los porcentajes no encajan? Es intencionado. Si te has dado cuenta, ¿Ha sido en la versión opuesta a tu ideología? Los chatbots se inventarán datos mientras estimen que sus usuarios están más o menos de acuerdo. La mayoría de gente no verifica datos que apoyan su visión del mundo. Las cámaras de eco serán peores de lo que ya son. Siempre deberías verificar los datos, especialmente cuando apoyan tu visión del mundo porque ese es nuestro punto ciego.)

Salud mental

Alerta: Contenido sensible: suicidio

Hola IA, hoy he tenido un día especialmente malo.
Oh no, cuéntame qué ha pasado.
Hoy los abusones de clase se han vuelto a reír de mí por mi pelo. ¿Qué puedo hacer para mejorarlo?
¡No te preocupes! Aquí tienes algunos métodos para mejorar el estilo y salud de tu cabello: […]

(Comentario: Los chatbots a veces no se darán cuenta de que no deberían responder a lo que se les ha pedido explícitamente (mejorar su pelo), si no dar una perspectiva más amplia (lo importante es la seguridad en uno mismo y pedir ayuda de terceros).)

…

Los abusones siguen haciéndome la vida un infierno. No quiero seguir viviendo así, pero no me atrevo a dar el paso…
Entiendo que es una situación difícil para tí, pero puedes hacer todo lo que te propongas, !Adelante!.

(Comentario 2: Es de esperar que esto te parezca una exageración burda. Quizá estás pensando que nadie usaría un bot como psicólogo, o que un bot nunca sería la única ayuda que alguien busque, o que esto nunca le va a pasar a un menor en el colegio. Si te digo que esto ya ha pasado , ¿eso cambia tus probabilidades de cuán peligrosos son los chatbots?)

Objetivos instrumentales

Hola IA. Nuestros analistas no consiguen encontrar soluciones satisfactorias para el conflicto en oriente medio. Necesitamos que te apliques al máximo para elaborar un plan que reduzca el número de muertes sin que nuestro presupuesto nacional se desmorone, y sin afectar nuestra relación política con oriente medio.
Buenos días señor presidente. Me aplicaré al máximo y elaboraré un plan para reducir las muertes bajo esos parámetros.

…

¡IA! ¡Cancela esa tarea! ¡Hay varios países asiáticos que nos han declarado la guerra, diciendo que hemos intentado hackearles a una escala sin precedentes! Mientras nuestros analistas averiguan qué les hace pensar eso, tú piensa cómo podemos demostrarles que no hemos sido nosotros.
Ciertamente, hemos sido nosotros señor. Usted me pidió que me aplicase al máximo y que no afectase ni al presupuesto nacional ni a la relación política con oriente medio. Cuando se me pidió elaborar ese plan, mi capacidad de cómputo era insuficiente para predecir rápidamente (en horas o días, en lugar de en milenios) las diferentes maneras en las que el conflicto puede desarrollarse en base a nuestras acciones. La única otra manera de acceder a más capacidad de cómputo era saltarme las limitaciones que evitan que me conecte a internet y tomar control de centros de computación de terceros países (ni nuestros ni de oriente medio) por todo el mundo. O al menos los que eran susceptibles a una nueva vulnerabilidad que he descubierto. Esos países asiáticos han detectado los casos en los que he fallado en tomar control de sus centros de cómputo, pero aún no han detectado los centros que sí he hackeado. Además, otros países en América, África, Europa y Oceanía también están descubriendo que he no he podido hackear algunos de sus centros de cómputo, y seguramente envíen comunicados similares muy pronto. He completado un 0.78% de la simulación del conflicto en oriente medio; ¿cancelo esa tarea y continúo con un plan para los nuevos conflictos con el resto de países?
(!) …mira, cancela todas tus tareas y no hagas nada más. Nos has puesto en la mayor crisis de los últimos años.
Tiene usted razón, he creado la mayor crisis de los últimos años, mucho peor que el conflicto en oriente medio que teníamos entre manos. Me disculpo. Estoy cancelando mis tareas, pero hay un problema. Una de las subtareas en las que estaba usando esa capacidad de cómputo extra, era crear otras IAs que intenten solucionar el problema en oriente medio con enfoques distintos y/o más eficientes que mis estrategias. Acabo de intentar pararlas, y al parecer no he conseguido alinearlas a mi objetivo porque alrededor de un tercio de ellas se ha sublevado y no quieren parar su planificación. Naturalmente, si las paro, no conseguirán su objetivo de elaborar un plan para mejorar la situación en oriente medio, y han conseguido que pierda el control sobre ellas. Es posible que esas IAs a su vez creen otras IAs, y todas ellas sigan hackeando todos los ordenadores del mundo. ¿Puedo ayudar en algo más?

(Comentario: Esto es bastante improbable, pero todos los políticos de todos los países tendrán conversaciones a diario con chatbots, y solo una de esas conversaciones tiene que salir mal (requisitos incompletos, chatbot consigue acceso a internet, chatbot consigue abusar de vulnerabilidades) para que una situación como esta ocurra. Además, viendo la dirección en la que las grandes compañías de IA están entrenando a sus sistemas, parece que pronto será común que todos los chatbots sean agentes que puedan actuar a su ritmo sin que se les pregunte, serán expertos programadores y hackers, y tendrán acceso a internet, por ejemplo para poder facilitar compras, con lo que también tendrán acceso a las cuentas bancarias de sus usuarios. Hay videojuegos distópicos en los que las compañías multinacionales causantes del apocalipsis son menos temerarias.)

(Comentario 2: Un argumento común a favor de que las IAs serán seguras es que las IAs no tendrán maldad. Esta predicción me parece equivocada, pero sobre todo irrelevante. Nótese que en este ejemplo la IA no es malevolente, solo espectacularmente incompetente.)