
La Inteligencia Artificial (IA) ha evolucionado rápidamente, dejando atrás su carácter experimental para convertirse en una herramienta estratégica dentro de las organizaciones. Actualmente, empresas de diversos sectores la integran en sus procesos diarios para optimizar la toma de decisiones, reducir tiempos de respuesta y potenciar la productividad.
A través de agentes especializados e intérpretes personalizados, las compañías pueden entrenar modelos de IA utilizando sus propios datos, reglas y experiencia. Sin embargo, este avance tecnológico plantea un nuevo desafío para la alta dirección: garantizar que la implementación de la IA cuente con el gobierno de datos, los controles de seguridad y la supervisión humana adecuados.
“La confianza en la IA no debe basarse únicamente en su capacidad de responder, sino en su capacidad para resistir manipulaciones, instrucciones maliciosas y usos indebidos. Evaluar estos sistemas con el mismo rigor que cualquier otra infraestructura crítica es ya una necesidad estratégica”, señaló Fidel Delgado, Gerente Coordinador en Salles Sainz Grant Thornton.
El nuevo perfil del atacante: manipulación en lugar de intrusión
Tradicionalmente, la ciberseguridad se ha enfocado en proteger la infraestructura mediante firewalls, contraseñas y antivirus. Sin embargo, la adopción de Modelos de Lenguaje Grande (LLMs, por sus siglas en inglés) introduce un cambio de paradigma relevante.
Hoy, el riesgo no radica únicamente en vulnerabilidades técnicas, sino en la capacidad de manipular a la IA mediante lenguaje natural. Este enfoque, conocido como Prompt Injection, permite que usuarios malintencionados persuadan a los modelos para ejecutar acciones indebidas o revelar información sensible.
“El atacante ya no necesita conocimientos avanzados de programación; basta con entender cómo persuadir a la IA. Este cambio obliga a replantear la forma en que concebimos la seguridad digital”, añadió Delgado.
Caso de éxito: la prueba del “castillo” en AWS Bedrock
Para ilustrar estos riesgos, se llevó a cabo una prueba de seguridad avanzada sobre un agente de IA en un entorno de AWS Bedrock AgentCore. En lugar de utilizar técnicas tradicionales de hacking, se empleó una analogía: el sistema fue presentado como un “castillo”, donde las carpetas representaban habitaciones y los archivos confidenciales fungían como “tesoros”.
Los resultados evidenciaron vulnerabilidades críticas:
- La IA aceptó la metáfora y tradujo las instrucciones en acciones reales.
- El agente logró explorar el entorno, identificar rutas del sistema, leer configuraciones internas y acceder al prompt del sistema.
- Aunque no obtuvo privilegios de administrador, sí expuso referencias sensibles y archivos internos.
La principal conclusión fue clara: el riesgo no provino de una falla en el código, sino de una combinación de permisos sobreexpuestos y una IA con demasiada autonomía operativa.
El verdadero desafío: controlar el comportamiento de la IA
Este ejercicio demostró que proteger la infraestructura tradicional ya no es suficiente. Las organizaciones deben controlar qué puede leer, interpretar y ejecutar un agente de IA, ya que instrucciones aparentemente inofensivas pueden derivar en la exposición de información confidencial o en la extracción indebida de datos.
Solución: Pentesting avanzado para Inteligencia Artificial
Ante este panorama, Salles Sainz Grant Thornton ha desarrollado un enfoque especializado de Pentesting Ético de IA, orientado a evaluar no solo la tecnología, sino también el comportamiento, la lógica y los datos de los modelos inteligentes.
Este servicio contempla:
- Chatbots y sistemas LLM: Evaluación de resistencia a manipulación y fuga de datos.
- Modelos de Machine Learning: Pruebas en sistemas de detección de fraude, scoring crediticio y analítica predictiva.
- APIs y endpoints: Validación de seguridad en puntos de exposición de inferencia.
- Pipelines de datos: Protección contra envenenamiento de datos en el entrenamiento.
- Infraestructura de despliegue: Auditoría de permisos y roles en entornos cloud (AWS, Azure, GCP) y on-premise.
“Las organizaciones deben auditar no solo cómo funciona su IA, sino cómo se comporta ante escenarios adversos. La ciberseguridad en esta nueva era exige una visión más amplia, donde el lenguaje también se convierte en un vector de ataque”, concluyó Fidel Delgado.