La IA generativa y los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) han conquistado el mundo. Con su capacidad para generar textos convincentes, resolver problemas, escribir código informático y mucho más, los LLM se están integrando en casi todas las facetas de la sociedad. Según Hugging Face (una plataforma que aloja modelos), actualmente hay más de 1.8 millones de modelos diferentes entre los que elegir.
Los LLM suelen incorporar características de seguridad clave, como la alineación y las barreras de protección. La alineación es un proceso de entrenamiento al que se someten los LLM para minimizar los sesgos y garantizar que los resultados generados sean coherentes con los valores y la ética humana. Las barreras de seguridad son mecanismos adicionales en tiempo real que intentan impedir que el LLM realice acciones perjudiciales o indeseables en respuesta a las entradas del usuario. Muchos de los LLM más avanzados están protegidos de esta manera. Por ejemplo, si se le pide a ChatGPT que genere un correo electrónico de phishing, se obtendrá una respuesta negativa, como “Lo siento, no puedo ayudarte con eso”.
Para los ciberdelincuentes que desean utilizar los LLM para llevar a cabo o mejorar sus ataques, estos mecanismos de seguridad pueden suponer un obstáculo importante. Para lograr sus objetivos, se inclinan cada vez más por los LLM sin censura, los LLM diseñados por ciberdelincuentes y el jailbreaking de LLM legítimos.
LLM sin censura
Los LLM sin censura son modelos no alineados que funcionan sin las restricciones de las barreras de protección. Estos sistemas son capaces de generar resultados sensibles, controvertidos o potencialmente dañinos en respuesta a las solicitudes de los usuarios. Como resultado, los LLM sin censura son perfectos para su uso por parte de ciberdelincuentes.
Son bastante fáciles de encontrar. Por ejemplo, utilizando el marco multiplataforma Ollama, un usuario puede descargar y ejecutar un LLM sin censura en su dispositivo local. Ollama incluye varios modelos sin censura, como Llama 2 Uncensored, que se basa en el modelo Llama 2 de Meta. Una vez en funcionamiento, los usuarios pueden enviar comandos que, de otro modo, serían rechazados por implementaciones de LLM más conscientes de la seguridad. La desventaja es que estos modelos se ejecutan en los equipos locales de los usuarios y requieren más recursos del sistema.
LLM diseñados por ciberdelincuentes
Dado que los LLM más populares vienen con importantes medidas de protección, algunos ciberdelincuentes han desarrollado sus propios LLM sin restricciones que comercializan a otros actores maliciosos. Entre ellos se incluyen aplicaciones como GhostGPT, DarkGPT, DarkestGPT y FraudGPT. Este último anuncia, en los canales donde se publicita, algunas capacidades como escribir código malicioso, crear malware o páginas de phishing, entre otras.
Jailbreak de LLM
Dada la limitada viabilidad de los LLM sin censura debido a las restricciones de recursos y al alto nivel de fraude y estafas que existen entre los proveedores de LLM malintencionados, muchos han optado por abusar de los LLM legítimos. El principal obstáculo que deben superar los atacantes es la alineación de la formación y las barreras de protección. Los jailbreaks, una forma de inyección de comandos, tienen como objetivo poner al LLM en un estado en el que ignore su entrenamiento de alineación y la protección de las barreras de seguridad. Constantemente se investigan y descubren nuevos métodos de jailbreak, mientras que los desarrolladores de LLM responden mejorando las barreras de seguridad en una especie de carrera armamentística.
Cómo utilizan los LLM los ciberdelincuentes
En diciembre de 2024, Anthropic, los desarrolladores del LLM Claude, publicaron un informe en el que detallaron cómo utilizan Claude sus usuarios. Mediante un sistema denominado Clio, resumieron y clasificaron las conversaciones de los usuarios con su modelo de IA, destacando que los tres usos principales eran la programación, la creación de contenidos y la investigación.
Al analizar las características anunciadas por los LLM diseñados por delincuentes, los expertos de Cisco observaron que los atacantes utilizan los LLM principalmente para las mismas tareas que los usuarios normales. Las características de programación de muchos LLM delictivos incluyen la capacidad de ayudar a los actores maliciosos a escribir ransomware, troyanos de acceso remoto y ofuscación de código. Para facilitar la creación de contenido, los LLM criminales ayudan a escribir correos electrónicos de phishing y páginas de destino falsas. También apoyan actividades de investigación como la verificación de tarjetas de crédito robadas, el escaneo de sitios en busca de vulnerabilidades e incluso ayudan a los ciberdelincuentes a plantear ideas criminales “lucrativas”.
Varios espacios de piratería también arrojan luz sobre los usos criminales de los LLM. Por ejemplo, en el popular foro de piratería Dread, los usuarios discutían la posibilidad de conectar los LLM a herramientas externas como Nmap y utilizar el LLM para resumir sus resultados.
A medida que la tecnología de IA sigue desarrollándose, se anticipa que los ciberdelincuentes seguirán adoptando LLM para ayudar a optimizar sus procesos, escribir herramientas que puedan utilizarse para comprometer a los usuarios y generar contenido que pueda eludir más fácilmente las defensas. Esta nueva tecnología no necesariamente dota a los ciberdelincuentes de armas completamente novedosas, pero sí actúa como un multiplicador de fuerzas, mejorando y perfeccionando los ataques conocidos.