El enorme asombro que nos causa la potencia de la inteligencia artificial (IA) nos hace verla como una herramienta multiuso y todopoderosa. Eso sí, también somos conscientes de algunas de sus debilidades, de sus alucinaciones.

Estos fallos son, en su mayor parte, atribuidos a errores humanos a la hora de alimentarla de datos para afinar su entrenamiento. La calidad de los datos es una elección humana y a partir de ahí el modelo de IA trabaja. Es la maldición de los sesgos, la mayor parte de ellos inconscientes o involuntarios.

Pero, ¿y si es intencionado, si se trata de escarbar en las vulnerabilidades de la IA para hacer daño? Estas vulnerabilidades son fallos de diseño, entrenamiento o integración que permiten manipular el comportamiento de un modelo o extraer información sensible.

Hackear la IA supone atacar directamente las fuentes de las que se alimenta el sistema. Magnific

El envenenamiento de datos

Según explican Tom Kran y Alexandra Jonker en el blog de la empresa tecnológica IBM, el data poisoning o envenenamiento de datos es un ciberataque contra la IA que consiste en alterar o inyectar información maliciosa en los datos de entrenamiento de un sistema. “El objetivo es corromper al modelo desde su origen para que aprenda patrones erróneos y funcione de manera predeterminada por el atacante”.

Para ello, los hackers atacan las fuentes de las que se alimenta un modelo de IA (internet, bases de datos, documentos corporativos) introduciendo información engañosa, falsa o maliciosa. Basta con un porcentaje pequeño para conseguirlo, ya que cuando la IA se entrena, asimila esos datos envenenados como correctos.

En un primer peldaño, con los sesgos el hacker busca que el modelo genere respuestas discriminatorias, inexactas o pierda su capacidad de predicción. Pero en un segundo nivel, pueden conseguir que en un sistema se abra una puerta trasera (backdoor) asociando una palabra o una instrucción con un comportamiento oculto al usuario. Por ejemplo, relacionar una expresión con un enlace fraudulento. De esta manera, cada vez que la víctima la plantee, el modelo recomendará la estafa.

Otra posibilidad es el jailbreak, que consiste en modificar el entrenamiento para que desactive los protocolos de seguridad de la IA y pueda crear contenido dañino o revelar información confidencial.

Inyección de instrucciones

El prompt injection, o inyección de instrucciones, la explican desde la empresa TrendAI como una vulnerabilidad de seguridad en sistemas de IA que permite a “un atacante manipular las instrucciones de un modelo (como ChatGPT, Gemini o agentes autónomos) para forzarlo a ignorar sus reglas originales y ejecutar acciones no deseadas o maliciosas”.

Este ataque utiliza técnicas de ingeniería social orientadas a máquinas. Se trata de aplicar los trucos empleados en el timo de la doble llamada o de la maleta retenida en el aeropuerto para engañar al algoritmo.

Los modelos de IA procesan todo el texto junto en su “ventana de contexto”, por lo que no distinguen claramente entre las instrucciones del desarrollador y lo que escribe un usuario. Un atacante aprovecha esto dándole a la IA una orden oculta o disfrazada que anula sus protocolos de seguridad.

Hay dos maneras de hacerlo: la inyección directa, cuando el usuario introduce directamente comandos maliciosos o coercitivos en el chat para engañar al sistema (pidiéndole que asuma una identidad que no tiene restricciones o que revele las instrucciones ocultas del desarrollador); y la inyección indirecta, cuando el agente de IA extrae información de fuentes externas (como un email, un documento PDF o una página web) que ya contenga instrucciones ocultas y las ejecute sin que el usuario se percate.

Este ataque es especialmente grave cuando se dirige a programas empresariales que trabajen con bases de datos, correos o APIs. Si tiene éxito y se ejecuta, es una vía para robar información confidencial, enviar correos o mensajes de phishing en nombre del usuario o de una empresa. También se pueden manipular datos para realizar acciones no autorizadas.

Cómo protegerse

Desde la página web del Campus de Ciberseguridad, sus expertos afirman que para protegerse de estos ataques es necesario un enfoque integral que cubra todo el ciclo de vida del modelo. Entre las medidas clave para hacerlo, algunas de las más importantes son:

Control de datos: Es clave garantizar trazabilidad, validar la calidad de los datasets y evitar fuentes no confiables.

‘Hardening’ del modelo: El modelo debe entrenarse y desplegarse con controles que limiten su exposición.

Seguridad en APIs: El acceso al modelo debe protegerse. Autenticación robusta, limitación de consultas y control de endpoints.

Monitorización: Detectar patrones anómalos es fundamental.

Control de accesos: Usuarios y sistemas deben acceder solo a los recursos necesarios, evitando que el modelo actúe con permisos excesivos en entornos conectados.