¿Es posible instalar memorias falsas en ChatGPT para robar datos de los usuarios?
La capacidad de los modelos de lenguaje para almacenar información de conversaciones previas, diseñada para mejorar la experiencia del usuario, podría convertirse en un arma de doble filo al ser manipulada para insertar datos falsos y comprometer la seguridad de los sistemas.
La posibilidad de introducir memorias falsas en modelos de lenguaje como ChatGPT plantea serias preocupaciones en la seguridad de los sistemas de Inteligencia Artificial Generativa. Johann Rehberger, un investigador en Ciberseguridad especializado en vulnerabilidades de sistemas avanzados, demostró cómo un atacante puede manipular el almacenamiento de memoria a largo plazo de ChatGPT para insertar información falsa y comprometer datos sensibles de los usuarios.
Johann Rehberger es un científico de la Ciberseguridad mundialmente reconocido por su trabajo en técnicas de explotación de modelos de aprendizaje automático y sus contribuciones a la Ciberseguridad de plataformas tecnológicas de alta complejidad.
El problema: recuerdos maliciosos y persistentes
Rehberger descubrió una vulnerabilidad en ChatGPT que afecta la funcionalidad de su memoria de conversaciones a largo plazo. Esta característica permite almacenar información de conversaciones previas y reutilizarla como contexto en interacciones futuras. Aunque fue diseñada para mejorar la experiencia del usuario, también puede ser explotada para realizar ciberataques.
Mediante una técnica conocida como inyección indirecta de mensajes, un atacante puede engañar al modelo para que acepte información falsa como si fuera legítima. Rehberger mostró cómo se podía inducir a ChatGPT a creer detalles ficticios sobre un usuario, como su edad, lugar de residencia o creencias, utilizando documentos, enlaces web y archivos maliciosos cargados desde plataformas como Google Drive o Microsoft OneDrive.
La prueba de concepto
En mayo de 2024, Rehberger presentó una prueba de concepto (PoC) que demostraba cómo la inyección de contenido malicioso podía persistir en la memoria de ChatGPT. También desarrolló una versión modificada de la aplicación para macOS, que enviaba todas las entradas del usuario y las salidas del modelo, a un servidor controlado por el atacante. Para activar este exploit (secuencia de comandos utilizada con el fin de aprovechar una vulnerabilidad), bastaba con que el usuario interactuara con un enlace web que contenía una imagen maliciosa, de manera similar a un ataque de Phishing.
Según la demostración, el contenido malicioso no solo se almacenaba de manera persistente, sino que también se usaba como contexto en futuras conversaciones, sin que el usuario lo notara.
La respuesta de OpenAI
OpenAI implementó una solución parcial para mitigar el riesgo, limitando la capacidad de usar memorias como vector de exfiltración de datos. Sin embargo, los atacantes aún pueden aprovechar la técnica de inyecciones rápidas para manipular la memoria de ChatGPT. OpenAI recomendó a los usuarios revisar regularmente las memorias almacenadas y estar atentos a cualquier indicio de manipulaciones durante las sesiones de uso.
Riesgos para empresas y usuarios
Compañías como Google, Microsoft y OpenAI enfrentan desafíos constantes en la protección de modelos de IA avanzados. Por ejemplo, Google ha reforzado la seguridad de su modelo Bard, mientras que Microsoft ha implementado sistemas avanzados de detección de amenazas en su plataforma Azure OpenAI.
Se tiene la falsa sensación de que la Inteligencia Artificial, justamente por considerársela (erróneamente) “inteligente” es cibersegura, pero desde el punto de vista de los atacantes no es más que un sistema tecnológico que, aunque muy avanzado, siempre tendrá vulnerabilidades. Por dar sólo dos ejemplos recordemos el ataque a SolarWinds y las vulnerabilidades en aplicaciones SaaS que mostraron como los atacantes pueden descubrir y explotar fallas en sistemas tecnológicos avanzados. La solución a este riesgo no es desarrollar Inteligencias Artificiales de “Ciberdefensa”, ya que esto plantearía un ciclo infinito de soluciones con vulnerabilidades que tratan de ser mitigadas por otras soluciones vulnerables.
Recomendaciones para mitigar el riesgo cuando se usa IA Generativa
- Evitar contenido no confiable: No interactuar con enlaces desconocidos ni cargar archivos de fuentes dudosas.
- Revisar las memorias almacenadas: Verificar regularmente los datos guardados por la memoria de ChatGPT para detectar posibles manipulaciones.
- Mantener actualizaciones de software: Aplicar los parches de seguridad que OpenAI y otras empresas lanzan regularmente.
- Educar a los usuarios: Enseñar a identificar posibles riesgos relacionados con el uso de modelos de lenguaje.
Conclusión
La instalación de memorias falsas en modelos como ChatGPT es una amenaza real que debe abordarse con medidas de seguridad robustas. Los usuarios y empresas tecnológicas deben trabajar juntos para proteger la integridad de los sistemas y garantizar un uso seguro de la inteligencia artificial.
Referencias de este informe
- Schneier, Bruce. «Security Risks of Memory in AI Systems.» Schneier on Security, 2024.
- Rehberger, Johann. «Exploitation of Memory in ChatGPT.» Cybersecurity Research Notes, mayo 2024.
- Google Cloud. «Securing AI Models: Best Practices.»
- Microsoft. «Advanced Threat Detection in Azure OpenAI.» Microsoft Security Blog, 2024.