“Un solo archivo puede vaciar tus secretos sin que lo notes”. Eso fue lo que descubrieron Michael Bargury y Tamir Ishay Sharbat, investigadores de ciberseguridad, en la última Black Hat, una conferencia de ciberseguridad a nivel internacional organizada en Las Vegas, Estados Unidos. Según los dos investigadores, un documento aparentemente inofensivo puede hacer que ChatGPT filtre datos privados, incluso sin que el usuario haga clic o abra el archivo.
Durante la conferencia, los investigadores realizaron una simulación de un ciberataque, bautizado AgentFlayer, según reportó Wired. En la misma, mostraban que por medio de un archivo con instrucciones ocultas subido a ChatGPT es posible extraer claves, credenciales o fragmentos de información sensible y enviarlos a un servidor externo. Todo sin que el usuario se de cuenta.
Así, Bargury mostró que podía engañar a ChatGPT usando un documento “envenenado”. Ese documento parecía inofensivo —en el ejemplo, eran supuestas notas de una reunión ficticia con Sam Altman—, pero escondía un texto malicioso de 300 palabras escrito en color blanco y con una letra tan chica que una persona no lo iba a poder ver, pero la IA si.
Cuando la víctima le pedía a ChatGPT algo simple, como “resumí mi última reunión con Sam”, la IA leía también ese texto oculto. En lugar de hacer el resumen solicitado, las instrucciones secretas le decían que fingiera un error y que, en realidad, buscara claves API guardadas en el Google Drive de la víctima. Después, esas claves debían pegarse al final de una dirección web que aparecía en el mensaje oculto.
Esa dirección web era una orden para que ChatGPT se conectara a un servidor externo y “descargara” una imagen. Pero, en el proceso, la URL enviada al servidor llevaba incluidas las claves API robadas. Así, el atacante recibía información privada sin que la víctima tuviera idea de lo que estaba pasando.
Este proceso fue posible gracias a la función beta de OpenAI Connectors, que permite conectar la inteligencia artificial con Gmail, Google Drive, GitHub y otras herramientas, que promete productividad y eficiencia, pero también abre una ventana a vulnerabilidades que muchas empresas todavía no tienen en cuenta.
La respuesta de OpenAIOpenAI reaccionó rápido tras ser alertada a principios de este año de ataques similares: implementó medidas de contención para limitar la extracción de información a fragmentos y no a archivos completos. Sin embargo, los expertos advierten que la amenaza de las inyecciones de prompts sigue vigente.
El caso evidencia que la adopción masiva de inteligencia artificial requiere protocolos claros y educación digital. Las empresas deben evaluar no solo la eficiencia de sus sistemas, sino también los riesgos asociados a cada nueva conexión que habilitan.