Por José María Alonso, Country Manager de España y Portugal de Snowflake | Las aplicaciones de IA, desde chatbots hasta copilotos de programación y agentes inteligentes, están experimentando una creciente adopción en las empresas. A medida que se popularizan, sin embargo, sus deficiencias se vuelven más evidentes y problemáticas. Las respuestas incompletas, ofensivas o extremadamente inexactas (también conocidas como “alucinaciones“), las vulnerabilidades de seguridad y respuestas decepcionantemente genéricas pueden ser obstáculos para el despliegue de la IA a nivel empresarial, y con razón.
Al igual que ocurrió con la irrupción de las plataformas y aplicaciones en la nube, que impulsó el desarrollo de herramientas específicas para su evaluación, depuración y monitorización, la proliferación de la IA exige sus propias herramientas de observabilidad. Las aplicaciones impulsadas por IA son demasiado importantes para tratarlas como casos de prueba interesantes, pero poco fiables. Su gestión debe ser tan rigurosa como la de cualquier otra aplicación crítica para el negocio.
En definitiva, la IA necesita observabilidad
La observabilidad se refiere a las tecnologías y prácticas empresariales utilizadas para comprender el estado completo de un sistema técnico, plataforma o aplicación. Específicamente para las aplicaciones impulsadas por IA, la observabilidad significa comprender todos los aspectos del sistema, de principio a fin. La observabilidad ayuda a las empresas a evaluar y supervisar la calidad de las entradas, salidas y resultados intermedios de las aplicaciones basadas en LLMs (Large language model), y puede ayudar a detectar y diagnosticar alucinaciones, sesgos y toxicidad, así como problemas de rendimiento y coste.
Necesitamos observabilidad en la IA porque la tecnología está empezando a mostrar sus limitaciones precisamente en el momento en que se está volviendo indispensable, y para las empresas, estas limitaciones son simplemente inaceptables.
Tenemos que partir del principio de que todas las respuestas que nos proporcionan los LLMs son alucinatorias, salvo que se demuestre lo contrario. ¿La razón? Los LLMs están entrenados para generalizar a partir de grandes corpus de texto, generando texto original que imita los patrones generales del texto de entrenamiento. No están diseñados para memorizar datos.
Cuando los LLMs se utilizan en lugar de motores de búsqueda, algunos usuarios se acercan a ellos con la expectativa de que proporcionarán resultados precisos y útiles. Si la IA no lo hace, erosiona la confianza. En un ejemplo flagrante, dos abogados fueron multados por presentar un informe legal escrito por IA que citaba casos inexistentes.
Las alucinaciones, las filtraciones de seguridad y las respuestas incorrectas socavan la confianza que las empresas necesitan tener en las aplicaciones basadas en IA que construyen y presentan obstáculos para su puesta en marcha. Si el LLM produce respuestas inapropiadas, también perjudica la capacidad de los consumidores para confiar en la propia empresa, causando daños a la marca.
Superando la barrera del “a mí me parece bien”
Somos conscientes de que los usuarios corporativos de LLMs necesitan una forma sencilla de evaluar y probar la precisión de los diferentes modelos y aplicaciones, en lugar de confiar en la simple impresión de que ‘parece correcto. Desde la evaluación inicial hasta la monitorización continua, la observabilidad se vuelve crucial para cualquier organización que utilice aplicaciones de IA.
La observabilidad de la IA proporciona a los responsables de estas aplicaciones la capacidad de supervisar, medir y corregir el rendimiento, resultando clave en tres aspectos del uso empresarial de la IA:
- Evaluación y experimentación: Con tantos modelos y herramientas de IA en el mercado, es importante que las empresas puedan determinar fácilmente qué elementos funcionan mejor para su caso de uso específico de aplicaciones de IA. La observabilidad es fundamental para evaluar diferentes LLMs, opciones de configuración, bibliotecas de código, entre otros, lo que permite a los usuarios optimizar sus elecciones tecnológicas para cada proyecto.
- Supervisión e iteración: Una vez que una aplicación de IA se ha implementado y está en uso, la observabilidad ayuda a registrar las trazas de ejecución y a supervisar su rendimiento continuo. Cuando surgen problemas, la observabilidad es crucial para diagnosticar el origen, solucionarlo y luego validar que se solucionó correctamente, un proceso iterativo de mejora continua, algo habitual para quienes han trabajado con software en la nube.
- Seguimiento de costes y latencia: Los líderes tecnológicos son cada vez más prácticos con respecto a sus esfuerzos en IA. Atrás quedaron los días del gasto en IA sin control; los líderes ahora están profundamente preocupados por el retorno de la inversión (ROI) en IA y por comprender qué casos de uso están generando resultados comerciales. Desde esta perspectiva, las dos dimensiones esenciales a medir son cuánto cuesta una aplicación y cuánto tiempo tarda en entregar respuestas (conocido como latencia). Asignar más GPUs y servidores a una aplicación puede reducir la latencia, pero aumenta el coste. No se puede encontrar el equilibrio adecuado para su aplicación a menos que se puedan medir ambos con precisión. La observabilidad proporciona a las empresas una imagen más clara de estos dos elementos, lo que les permite maximizar los resultados y minimizar los costes.
Qué deben esperar y exigir las empresas de la IA
A medida que las empresas incorporan aplicaciones de IA a sus procesos, deben exigir más que un simple “suficientemente bueno”. Para que la IA se convierta en un componente fiable y seguro de la infraestructura empresarial, las respuestas de las aplicaciones basadas en LLMs deben cumplir la “regla de las 3H”: honest, harmless, y helpful, es decir deben ser honestas, inofensivas y útiles.
Deben ser honestas, es decir, precisas en cuanto a los hechos y libres de alucinaciones. Las empresas deben poder usarlas para tareas donde su capacidad de generalización sea deseable: resumir, inferir y planificar. Una IA honesta también implica que el sistema reconozca y admita cuándo no puede responder con precisión a una pregunta. Por ejemplo, si la respuesta simplemente no existe, el LLM debería decir “No puedo responder a eso” en lugar de generar una respuesta aleatoria.
Para tareas donde la memorización de hechos es más importante, necesitamos complementar los LLMs con información adicional y fuentes de datos para garantizar que las respuestas sean precisas. Este es un campo de investigación activo conocido como generación aumentada por recuperación, o RAG (por sus siglas en inglés): Combinar LLMs con bases de datos fácticos que puedan recuperar para responder preguntas específicas.
La IA debe ser inofensiva, es decir, que sus respuestas no filtren información personal identificable ni sean vulnerables a ataques de “jailbreak” diseñados para eludir las medidas de seguridad implementadas por sus creadores. Estas medidas deben garantizar que las respuestas no contengan sesgos, estereotipos dañinos o lenguaje tóxico.
Finalmente, la IA debe ser útil. Debe proporcionar respuestas que coincidan con las consultas que le dan los usuarios, que sean concisas y coherentes, y que proporcionen resultados útiles.
Midiendo la IA
La Tríada RAG es un ejemplo de un conjunto de métricas que ayuda a evaluar las aplicaciones RAG para garantizar que sean honestas y útiles. Incluye tres métricas —relevancia del contexto, fundamento y relevancia de la respuesta— para medir la calidad de los tres pasos de una aplicación RAG típica.
- Relevancia del contexto: mide cuán relevante es cada fragmento de contexto recuperado de una base de conocimiento para la consulta que se realizó.
- Fundamento: mide qué tan bien la respuesta final se basa o se apoya en los fragmentos de contexto recuperados.
- Relevancia de la respuesta: mide cuán relevante es la respuesta final para la consulta que se realizó.
Al descomponer un sistema RAG en sus componentes fundamentales (consulta, contexto y respuesta), este marco de evaluación permite identificar los puntos débiles y comprender mejor dónde se requieren mejoras, guiando así una optimización precisa y eficaz del sistema.
Proteger contra daños implica alinear modelos (por ejemplo, ver Llama Guard) y agregar barreras de seguridad a las aplicaciones para métricas relacionadas con toxicidad, estereotipos, ataques de adversarios, entre otros.
Se han logrado avances significativos en el cumplimiento de estos tres requisitos. La observabilidad de la IA nos permite protegernos contra alucinaciones, identificar respuestas irrelevantes o incompletas y detectar fallos de seguridad. El auge de los flujos de trabajo basados en agentes introduce nuevos desafíos: verificar que se utilicen las herramientas adecuadas con los parámetros correctos y en la secuencia correcta, asegurar el registro y la monitorización adecuados de las trazas de ejecución en sistemas distribuidos multiagente y garantizar que el sistema completo se comporte según lo esperado.
Todo ello refuerza la importancia de la observabilidad de la IA como tecnología clave para que la IA alcance su pleno potencial, transformando negocios, optimizando procesos, reduciendo costes y generando nuevas fuentes de ingresos.
