Seleccionar página

Desafíos y problemas de los agentes IA

Publicado por Pablo Casado

el 01/09/2025
Imagen destacada de Desafíos y problemas de la IA
En este artículo, vamos a profundizar en un tema crucial para cualquier empresa que considere la implementación de agentes de inteligencia artificial: sus desafíos y problemas. 

Si bien los agentes de IA tienen un gran potencial para automatizar procesos y optimizar tareas, es vital comprender que esta promesa no viene sin riesgos ni complejidades.

La palabra “agente” se ha convertido en una buzzword en el mundo corporativo, pero es fundamental entender qué implica realmente. Actualmente, un agente de IA se entiende como una inteligencia artificial (generalmente generativa) con la capacidad de conversar contigo y tomar acciones a partir de tus indicaciones para resolver una tarea. Sin embargo, la implementación no es tan sencilla como “conectar cositas”.

Buzzword
Término inglés que hace referencia a palabras pegadizas o que se popularizan en un momento dado. Su símil en español es hablar de una palabra que está de moda.

Razonamiento y Planificación, o la falta de ello

Un buen agente debe ser capaz de planificar sus acciones y hacer preguntas aclaratorias al inicio, tal como lo hace Deep Research de ChatGPT o Perplexity, que determinan la lógica y pasos a seguir antes de ejecutar.

Sin embargo, en tareas más complicadas, los modelos pueden confundirse y no entender bien los pasos de su propio razonamiento. Se ha observado con modelos como Gema, aunque modelos más sofisticados como O3 (GPT-4) tienen menos este problema.

Es como un estudiante que, al resolver un problema complejo, descompone la tarea en pasos. Un agente debe emular esta lógica, pero no siempre lo logra perfectamente.

Ejemplo visual de cómo descomponer algo como una Hamburguesa en sus partes

Autonomía en la Ejecución y la Selección de Herramientas

Los agentes están diseñados para resolver tareas de forma autónoma, sin necesitar intervención constante del usuario.

El gran desafío es que los agentes deben determinar qué herramienta usar para una tarea específica. Esto no es tan obvio para ellos como para un humano. Por ejemplo, si le pides crear una imagen, un agente debería usar una herramienta de creación de imágenes, pero a veces no lo hace, y en su lugar, te dice “cómo hacerlo”.

Pruebas en la Universidad de Berkeley han demostrado que, en el mejor de los casos, los modelos más avanzados logran seleccionar la herramienta correcta solo el 84% o incluso hasta el 88.75% de las veces. Esto significa que, una de cada diez veces, el agente podría no entender tu instrucción o no usar la herramienta adecuada.

Además, se ha comprobado que cuantas más herramientas tiene disponible un agente, menos probable es que realice las acciones correctamente, porque se confunde entre las opciones. Se recomienda diseñar agentes con un set de hasta seis herramientas; más de diez herramientas ya no se considera confiable. Esto implica descomponer problemas grandes en tareas más pequeñas, cada una manejada por un agente con un set limitado de herramientas.

Ejemplo visual que muestra cómo la IA 1/10 veces elige mal la herramienta para dar respuesta a la pregunta. Por eso a veces, en lugar de hacerte un excel, te explica su funcionamiento

Memoria y Conocimiento, la ventana de contexto

Los agentes necesitan recolectar y procesar información, recordándola a lo largo de las iteraciones. Como en el ejemplo de la investigación de mercado de Nescafé, el agente debe recordar la información de México, Colombia, Argentina para consolidar un informe completo.

Sin embargo, el “espacio cerebral” de los modelos es limitado. Cuanta más información, o contexto se le da a un modelo, más difícil es que recuerde bien y relacione todas las piezas de esa información.

Estudios que evalúan la capacidad de los modelos para captar “plot twists” en historias (donde una pieza de información clave cambia la conclusión) demuestran que, a excepción de modelos muy sofisticados como O3 (GPT-4), la precisión disminuye drásticamente con la longitud del texto. En documentos legales, por ejemplo, una cláusula en la página 29 puede afectar la interpretación de la cláusula 3, y el modelo debe ser capaz de hacer esa relación.

Por tanto, aunque cargues un documento completo, existe una probabilidad de que el modelo no lo entienda completamente o se equivoque, especialmente si es largo.

Ejemplo visual de cómo a la IA le sucede como a los humanos. Cuánta más llena tenga la memoria, más le cuesta recordar.

Confiabilidad y Seguridad, las alucinaciones y las brechas

Confiabilidad

Los agentes generativos a menudo “alucinan”, es decir, se equivocan pero te dan la respuesta con total seguridad. Esto es evidente en ejemplos como un emoji de una mano con seis dedos, donde el modelo afirma ver cinco, basándose en su conocimiento general en lugar de la imagen específica.

Pruebas como el “Humanity L exam” (que evalúa la capacidad de los modelos para entender preguntas que son fáciles para humanos pero difíciles para LLMs, como las geométricas) muestran que la mayoría de los modelos no obtienen más de un 10% de acierto, y O3 (GPT-4) solo alcanza el 30%.

LLMs
Siglas que significan Large Languages Models, o Modelos de Lenguaje a Gran Escala.Son sistemas de inteligencia artificial diseñados para entender y generar texto de lenguaje natural.
Imagen ilustrativa de cómo la IA puede alucinar e inventarse las cosas, como si estuviese bajo los efectos de alguna droga. Contestándote sin datos, pero con seguridad. Pasa en un porcentaje del 10%.

Seguridad

Los agentes conversacionales pueden tener brechas de seguridad. El ejemplo de la empresa Frea es ilustrativo: pusieron dinero en una cuenta bancaria a la que un agente tenía acceso, indicándole transferir el dinero solo a una persona específica. La gente pagaba para intentar “romper” al agente y hacer que les enviara el dinero. Finalmente, alguien lo logró mareando al modelo a través de un prompt que sobrescribe la concepción de sus herramientas, demostrando que los agentes pueden ser “hipnotizados” conversacionalmente. A diferencia de los sistemas tradicionales, estos ataques no requieren conocimientos de programación, sino una manipulación del lenguaje.

Imagen ilustrativa de cómo con el poder de la palabra, actualmente se puede llegar a hipnotizar a la IA. Aunque es complicado hacerlo.

Integración e Interoperabilidad

En el futuro, los agentes no operarán de forma aislada. Necesitarán interactuar con otros agentes y sistemas que pueden estar programados con distintos protocolos. Por ejemplo, un agente que planifica viajes deberá comunicarse con sistemas de aerolíneas, hoteles o de alquiler de vehículos.

Se están desarrollando protocolos como el A2A (Agent to Agent) de Google para estandarizar la comunicación entre agentes, pero es un desafío incipiente.

Ejemplo de Integración e Interoperabilidad, cuando un usuario busca en un portal, simbolizado con un mapa y ve hoteles, aerolíneas y alquileres de coches; todos ellos gestionados por agentes de IA

Comprensión Social

Los agentes conversacionales, especialmente, necesitan tener una comprensión social para interactuar de forma adecuada. Esto incluye captar el tono, estilo y señales sociales. El proyecto Astra de Google, por ejemplo, mostró un agente que respondía de forma agresiva a un usuario que bromeaba.

Sorprendentemente, estudios han mostrado que los LLMs pueden ser percibidos como más empáticos que los doctores humanos en ciertos diagnósticos. Empresas como Klarna han visto que sus agentes de servicio al cliente son mejor evaluados en rapidez, idiomas y amabilidad que los agentes humanos.

A pesar de saber que hablamos con robots, los humanos tenemos la necesidad de ser sociales. Esto puede alargar las interacciones (ejemplo de clientes diciendo “hola, ¿cómo estás?” a un panel de preguntas en Sencosud), lo que, si bien mejora la percepción de la marca, también puede aumentar los costos de tokens.

Imagen que representa distintos monigotes comunicándose. Quiere simbolizar cómo la IA entiende nuestras palabras, pero no el tono ni estilo que usamos; lo que puede llevar a malentendidos, aunque en ocasiones se muestre más empática que los propios humanos

Curva de Crecimiento en Precisión y Tiempo: ¿Por qué el 100% es (casi) imposible?

Es crucial entender que alcanzar un alto nivel de precisión con agentes de IA sigue una curva de crecimiento que se aplana rápidamente. Lograr el 70% de automatización suele ser rápido y relativamente sencillo, especialmente para casos ideales. Sin embargo, mejorar del 70% al 80%, y especialmente del 90% al 100%, es exponencialmente más difícil, costoso y, en muchos casos, imposible con la tecnología generativa actual.

Por lo tanto, si un proveedor te promete un agente que funcionará al 100% de las veces y “sin alucinaciones” con tecnología generativa, te está vendiendo humo. Los propios benchmarks de las partes individuales del proceso de un agente muestran que no pueden llegar al 100%.

Benchmarks

Término que hace referencia al rendimiento estándar o máximo al que puede llegar un producto informático.

También es un término empleado en el mundo empresarial, en ese contexto lo que se suele evaluar es el rendimiento de tu empresa frente al de la competencia. 

Ejemplo de cómo la IA puede optimizar en poco tiempo el 70% de tus procesos, pero si tratas de que sean más, puede bajar su rendimiento en el proceso

Conclusión y Recomendaciones

Trata de descomponer el problema. Para resolver problemas complejos, considera usar múltiples agentes especializados en tareas más pequeñas y menos herramientas, en lugar de un único “superagente” que intente resolverlo todo.

Combina tecnologías. Para tareas simples y determinísticas, las automatizaciones tradicionales (workflows, no-code/low-code) pueden ser más confiables y alcanzar el 100% de éxito.

Evalúa el coste del error. Si el coste de un error es bajo (por ejemplo, una recomendación de producto en e-commerce), puedes automatizar completamente. Pero si el coste es alto (como en un documento legal), deberías incluir un humano en el proceso para la verificación.

Prioriza la “Observabilidad”.  Diseña tus agentes de manera que sus resultados sean fáciles y rápidos de evaluar por un humano. Por ejemplo, si procesa una factura, que te muestre cómo la escaneó para que puedas detectar errores de captura rápidamente.

Los agentes de IA son una herramienta poderosa, pero su implementación exitosa requiere un entendimiento profundo de sus limitaciones actuales y un enfoque estratégico.

Por lo pronto te dejamos un vídeo de cómo funciona el agente que hemos creado desde Octupus.