Hay un problema que se repite en casi todos los productos de IA que llegan a nuestras manos para auditoría: el equipo ha invertido semanas en optimizar el modelo, en reducir el tiempo de inferencia, en medir latencias con métricas de laboratorio. Y el usuario sigue diciendo lo mismo: "Va muy lento".
No es un problema de rendimiento. Es un problema de percepción. Y son cosas distintas.
- La latencia real mide el tiempo que tarda el sistema. La latencia percibida mide el tiempo que siente el usuario. Rara vez coinciden.
- Optimizar solo la latencia real sin trabajar la percepción es como pintar el motor de un coche y dejar la carrocería oxidada: funciona mejor, pero nadie lo nota.
Experiencia: El Tiempo Vacío es el Enemigo
El cerebro humano no mide el tiempo en segundos. Lo mide en ausencia de información. Un spinner girando durante 800ms se percibe como eternidad. El mismo tiempo con una barra de progreso con texto descriptivo ("Analizando tu documento…") se percibe como instantáneo.
En las interfaces de IA, el problema se agrava porque los modelos de lenguaje generan respuestas de forma secuencial. El streaming —enviar texto token a token en cuanto se genera— no es un truco de diseño: es la diferencia entre una experiencia que se siente viva y una que se siente rota. Un producto que espera a tener la respuesta completa antes de mostrar nada está tomando la decisión equivocada, casi siempre por comodidad técnica, no por lógica de usuario.
Este tipo de decisiones de implementación que afectan directamente a la percepción del producto tienen el mismo origen que los errores de contexto en modelos grandes: se toman pensando en el sistema, no en quien lo usa.
Arquitectura: Diseñar para la Espera, no Contra Ella
La solución no es siempre "hacer el modelo más rápido". A veces es rediseñar el flujo para que la espera tenga sentido. Hay tres palancas concretas que marcamos en cualquier revisión de producto con IA:
Primera: anticipación. Si puedes predecir qué va a pedir el usuario a continuación, puedes precalentar la respuesta antes de que la pida. No es magia: es análisis del flujo de uso.
Segunda: feedback progresivo. No un spinner, sino información real sobre qué está pasando. "Buscando en tus documentos" es mejor que nada. "Encontré 3 referencias relevantes, generando respuesta…" es mejor aún.
Tercera: diseño optimista. Muestra inmediatamente el estado que esperas alcanzar y corrígelo si falla, en lugar de bloquear la interfaz hasta tener certeza. Esta estrategia, bien implementada, puede reducir la percepción de latencia a la mitad sin tocar una línea del modelo.
Un producto de IA lento que parece rápido siempre ganará a un producto rápido que parece lento. La percepción no es un problema de UX: es un problema de ingeniería.
Si estás midiendo el rendimiento de tu producto con IA solo desde el backend, tienes un punto ciego importante. En Room 714 revisamos toda la cadena, desde la arquitectura de inferencia hasta el primer píxel que ve el usuario. El problema suele estar en el medio.






