¿Qué problemas pueden tener los agentes generados por IA?

Son siete. En su mayoría son gestionables, pero hay que comprender los posibles problemas que pueden tener por: 1.Razonamiento y Planificación, o la falta de ello 2. Autonomía en la Ejecución y la Selección de Herramientas 3. Memoria y Conocimiento, la ventana de contexto 4. Confiabilidad y Seguridad, las alucinaciones y las brechas 5. Integración e Interoperabilidad 6. Comprensión Social 7. Curva de Crecimiento en Precisión y Tiempo: ¿Por qué el 100% es (casi) imposible?

¿Cuándo puede confundirse un agente?

En tareas complicadas, no es capaz de ver las partes que componen el cómputo general del problema.

¿Cada cuánto tiempo puede fallar un agente hecho con IA?

Sucede con una frecuencia de una de cada diez veces. Lo que pasa es que el agente no entiende tu instrucción o no usa la herramienta adecuada. Por ejemplo le solicitas una imagen y te explica cómo tendrías que hacerla.

Desafíos y problemas de los agentes IA

Publicado por Pablo Casado

el 01/09/2025

Imagen destacada de Desafíos y problemas de la IA

En este artículo, vamos a profundizar en un tema crucial para cualquier empresa que considere la implementación de agentes de inteligencia artificial: sus desafíos y problemas.

Si bien los agentes de IA tienen un gran potencial para automatizar procesos y optimizar tareas, es vital comprender que esta promesa no viene sin riesgos ni complejidades.

La palabra “agente” se ha convertido en una buzzword en el mundo corporativo, pero es fundamental entender qué implica realmente. Actualmente, un agente de IA se entiende como una inteligencia artificial (generalmente generativa) con la capacidad de conversar contigo y tomar acciones a partir de tus indicaciones para resolver una tarea. Sin embargo, la implementación no es tan sencilla como “conectar cositas”.

Buzzword

Término inglés que hace referencia a palabras pegadizas o que se popularizan en un momento dado. Su símil en español es hablar de una palabra que está de moda.

Aquí te presentamos los principales problemas que presentan los agentes y que necesitas conocer antes de dar el salto:

Razonamiento y Planificación, o la falta de ello
Autonomía en la Ejecución y la Selección de Herramientas
Memoria y Conocimiento, la ventana de contexto
Confiabilidad y Seguridad, las alucinaciones y las brechas
Integración e Interoperabilidad
Comprensión Social
Curva de Crecimiento en Precisión y Tiempo: ¿Por qué el 100% es (casi) imposible?

Índice

Razonamiento y Planificación, o la falta de ello

Un buen agente debe ser capaz de planificar sus acciones y hacer preguntas aclaratorias al inicio, tal como lo hace Deep Research de ChatGPT o Perplexity, que determinan la lógica y pasos a seguir antes de ejecutar.

Sin embargo, en tareas más complicadas, los modelos pueden confundirse y no entender bien los pasos de su propio razonamiento. Se ha observado con modelos como Gema, aunque modelos más sofisticados como O3 (GPT-4) tienen menos este problema.

Es como un estudiante que, al resolver un problema complejo, descompone la tarea en pasos. Un agente debe emular esta lógica, pero no siempre lo logra perfectamente.

Ejemplo visual de cómo descomponer algo como una Hamburguesa en sus partes

Autonomía en la Ejecución y la Selección de Herramientas

Los agentes están diseñados para resolver tareas de forma autónoma, sin necesitar intervención constante del usuario.

El gran desafío es que los agentes deben determinar qué herramienta usar para una tarea específica. Esto no es tan obvio para ellos como para un humano. Por ejemplo, si le pides crear una imagen, un agente debería usar una herramienta de creación de imágenes, pero a veces no lo hace, y en su lugar, te dice “cómo hacerlo”.

Pruebas en la Universidad de Berkeley han demostrado que, en el mejor de los casos, los modelos más avanzados logran seleccionar la herramienta correcta solo el 84% o incluso hasta el 88.75% de las veces. Esto significa que, una de cada diez veces, el agente podría no entender tu instrucción o no usar la herramienta adecuada.

Además, se ha comprobado que cuantas más herramientas tiene disponible un agente, menos probable es que realice las acciones correctamente, porque se confunde entre las opciones. Se recomienda diseñar agentes con un set de hasta seis herramientas; más de diez herramientas ya no se considera confiable. Esto implica descomponer problemas grandes en tareas más pequeñas, cada una manejada por un agente con un set limitado de herramientas.

Ejemplo visual que muestra cómo la IA 1/10 veces elige mal la herramienta para dar respuesta a la pregunta. Por eso a veces, en lugar de hacerte un excel, te explica su funcionamiento

Memoria y Conocimiento, la ventana de contexto

Los agentes necesitan recolectar y procesar información, recordándola a lo largo de las iteraciones. Como en el ejemplo de la investigación de mercado de Nescafé, el agente debe recordar la información de México, Colombia, Argentina para consolidar un informe completo.

Sin embargo, el “espacio cerebral” de los modelos es limitado. Cuanta más información, o contexto se le da a un modelo, más difícil es que recuerde bien y relacione todas las piezas de esa información.

Estudios que evalúan la capacidad de los modelos para captar “plot twists” en historias (donde una pieza de información clave cambia la conclusión) demuestran que, a excepción de modelos muy sofisticados como O3 (GPT-4), la precisión disminuye drásticamente con la longitud del texto. En documentos legales, por ejemplo, una cláusula en la página 29 puede afectar la interpretación de la cláusula 3, y el modelo debe ser capaz de hacer esa relación.

Por tanto, aunque cargues un documento completo, existe una probabilidad de que el modelo no lo entienda completamente o se equivoque, especialmente si es largo.

Ejemplo visual de cómo a la IA le sucede como a los humanos. Cuánta más llena tenga la memoria, más le cuesta recordar.

Confiabilidad y Seguridad, las alucinaciones y las brechas

Confiabilidad

Los agentes generativos a menudo “alucinan”, es decir, se equivocan pero te dan la respuesta con total seguridad. Esto es evidente en ejemplos como un emoji de una mano con seis dedos, donde el modelo afirma ver cinco, basándose en su conocimiento general en lugar de la imagen específica.

Pruebas como el “Humanity L exam” (que evalúa la capacidad de los modelos para entender preguntas que son fáciles para humanos pero difíciles para LLMs, como las geométricas) muestran que la mayoría de los modelos no obtienen más de un 10% de acierto, y O3 (GPT-4) solo alcanza el 30%.

LLMs

Siglas que significan Large Languages Models, o Modelos de Lenguaje a Gran Escala.Son sistemas de inteligencia artificial diseñados para entender y generar texto de lenguaje natural.

Imagen ilustrativa de cómo la IA puede alucinar e inventarse las cosas, como si estuviese bajo los efectos de alguna droga. Contestándote sin datos, pero con seguridad. Pasa en un porcentaje del 10%.

Seguridad

Los agentes conversacionales pueden tener brechas de seguridad. El ejemplo de la empresa Frea es ilustrativo: pusieron dinero en una cuenta bancaria a la que un agente tenía acceso, indicándole transferir el dinero solo a una persona específica. La gente pagaba para intentar “romper” al agente y hacer que les enviara el dinero. Finalmente, alguien lo logró mareando al modelo a través de un prompt que sobrescribe la concepción de sus herramientas, demostrando que los agentes pueden ser “hipnotizados” conversacionalmente. A diferencia de los sistemas tradicionales, estos ataques no requieren conocimientos de programación, sino una manipulación del lenguaje.

Imagen ilustrativa de cómo con el poder de la palabra, actualmente se puede llegar a hipnotizar a la IA. Aunque es complicado hacerlo.

Integración e Interoperabilidad

En el futuro, los agentes no operarán de forma aislada. Necesitarán interactuar con otros agentes y sistemas que pueden estar programados con distintos protocolos. Por ejemplo, un agente que planifica viajes deberá comunicarse con sistemas de aerolíneas, hoteles o de alquiler de vehículos.

Se están desarrollando protocolos como el A2A (Agent to Agent) de Google para estandarizar la comunicación entre agentes, pero es un desafío incipiente.

Ejemplo de Integración e Interoperabilidad, cuando un usuario busca en un portal, simbolizado con un mapa y ve hoteles, aerolíneas y alquileres de coches; todos ellos gestionados por agentes de IA

Comprensión Social

Los agentes conversacionales, especialmente, necesitan tener una comprensión social para interactuar de forma adecuada. Esto incluye captar el tono, estilo y señales sociales. El proyecto Astra de Google, por ejemplo, mostró un agente que respondía de forma agresiva a un usuario que bromeaba.

Sorprendentemente, estudios han mostrado que los LLMs pueden ser percibidos como más empáticos que los doctores humanos en ciertos diagnósticos. Empresas como Klarna han visto que sus agentes de servicio al cliente son mejor evaluados en rapidez, idiomas y amabilidad que los agentes humanos.

A pesar de saber que hablamos con robots, los humanos tenemos la necesidad de ser sociales. Esto puede alargar las interacciones (ejemplo de clientes diciendo “hola, ¿cómo estás?” a un panel de preguntas en Sencosud), lo que, si bien mejora la percepción de la marca, también puede aumentar los costos de tokens.

Imagen que representa distintos monigotes comunicándose. Quiere simbolizar cómo la IA entiende nuestras palabras, pero no el tono ni estilo que usamos; lo que puede llevar a malentendidos, aunque en ocasiones se muestre más empática que los propios humanos

Curva de Crecimiento en Precisión y Tiempo: ¿Por qué el 100% es (casi) imposible?

Es crucial entender que alcanzar un alto nivel de precisión con agentes de IA sigue una curva de crecimiento que se aplana rápidamente. Lograr el 70% de automatización suele ser rápido y relativamente sencillo, especialmente para casos ideales. Sin embargo, mejorar del 70% al 80%, y especialmente del 90% al 100%, es exponencialmente más difícil, costoso y, en muchos casos, imposible con la tecnología generativa actual.

Por lo tanto, si un proveedor te promete un agente que funcionará al 100% de las veces y “sin alucinaciones” con tecnología generativa, te está vendiendo humo. Los propios benchmarks de las partes individuales del proceso de un agente muestran que no pueden llegar al 100%.

Benchmarks

Término que hace referencia al rendimiento estándar o máximo al que puede llegar un producto informático.

También es un término empleado en el mundo empresarial, en ese contexto lo que se suele evaluar es el rendimiento de tu empresa frente al de la competencia.

Ejemplo de cómo la IA puede optimizar en poco tiempo el 70% de tus procesos, pero si tratas de que sean más, puede bajar su rendimiento en el proceso

Conclusión y Recomendaciones

Trata de descomponer el problema. Para resolver problemas complejos, considera usar múltiples agentes especializados en tareas más pequeñas y menos herramientas, en lugar de un único “superagente” que intente resolverlo todo.

Combina tecnologías. Para tareas simples y determinísticas, las automatizaciones tradicionales (workflows, no-code/low-code) pueden ser más confiables y alcanzar el 100% de éxito.

Evalúa el coste del error. Si el coste de un error es bajo (por ejemplo, una recomendación de producto en e-commerce), puedes automatizar completamente. Pero si el coste es alto (como en un documento legal), deberías incluir un humano en el proceso para la verificación.

Prioriza la “Observabilidad”. Diseña tus agentes de manera que sus resultados sean fáciles y rápidos de evaluar por un humano. Por ejemplo, si procesa una factura, que te muestre cómo la escaneó para que puedas detectar errores de captura rápidamente.

Los agentes de IA son una herramienta poderosa, pero su implementación exitosa requiere un entendimiento profundo de sus limitaciones actuales y un enfoque estratégico.

Por lo pronto te dejamos un vídeo de cómo funciona el agente que hemos creado desde Octupus.

Cookie	Duración	Descripción
CF_VERIFIED_DEVICE	1 año	Verifica que no se trate tráfico generado desde un robot o un ataque de denegación de servicio a nuestros servidores, utilizando los servicios de Cloudflare CDN. Aumenta la seguridad en nuestro sitio web.
cookielawinfo-checkbox-analytics	11 months	Se utliza por el plugin de Cookies para guardar la selección del usuario en relación a las cookies analíticas
cookielawinfo-checkbox-functional	11 months	Se utliza para almacenar las cookies funcionales seleccionadas por el usuario
cookielawinfo-checkbox-necessary	11 months	Esta cookie se utiliza por el propio plugin de consentimiento de cookies para almacenar la selección del usuario
viewed_cookie_policy	11 months	Se utiliza por el plugin de cookies para guardar el consentimiento del usuario en relación a las cookies en general.

Cookie	Duración	Descripción
dv_overlay	24 horas	Mostrar PopUp suscripción newsletter u otros pop ups según el contexto, y verificar cuando el usuario lo cierre para no volver a mostrarlo hasta que vence la cookie.
wp_cookie	1 año	Información de formularios (para su reenvio) almacenada localmente, para formularios por pasos que almacenan localmente los pasos que se van rellenando

Cookie	Duración	Descripción
__cf_logged_in	24 horas	Analiza el origen de la solicitud / navegador para enviar archivos cacheados en los servidores de Cloudflare CDN para que la web cargue más rápido
_ga	1 año	Analizar las fuentes y orígenes de tráfico, estadísiticas de visitas, audiencias, tiempo en la página a través de Google Analytics.