Saltar al contenido principal
GeneralVer solución Atención al cliente11 min lectura

15 preguntas que debes hacer antes de contratar un agente de voz IA [2026]

La guía del comprador inteligente: qué preguntar sobre latencia, idiomas, integraciones, privacidad, soporte, SLA y precio real. Incluye red flags que debes detectar.

Antes de contratar un agente de voz con IA, la mayoría de empresas se fijan en el precio y la demo. Error. Las preguntas realmente importantes —latencia, privacidad de datos, SLA garantizado, coste por minuto real— son las que diferencian una herramienta que funciona de un contrato que lamenta firmar durante dos años.

Esta guía cubre las 15 preguntas que debes formular a cualquier proveedor antes de tomar una decisión. No es una lista de comprobación cosmética: es el interrogatorio que haría alguien que ya ha cometido los errores que tú todavía puedes evitar.


Por qué la mayoría de compradores eligen mal a su proveedor de IA de voz

El mercado de agentes de voz con IA ha crecido con rapidez en España durante los últimos dos años. Con esa velocidad han llegado también proveedores con propuestas muy distintas en calidad, soporte y condiciones contractuales. Si no sabes qué preguntar, acabarás comparando cosas que no son comparables —una demo pulida con un sistema real en producción— y tomando decisiones basadas en la percepción en lugar de en datos.

Antes de entrar en las preguntas, ten en cuenta que si buscas un punto de partida para comparar opciones disponibles en España, el artículo Los 7 mejores agentes de voz IA para empresas en España [2026] te ofrece una visión panorámica útil del mercado actual.


Las 15 preguntas que debes hacer antes de contratar

1. ¿Cuál es la latencia real en producción, no en demo?

La latencia —el tiempo entre que el usuario termina de hablar y el agente responde— es el factor más determinante en la percepción de naturalidad de una conversación. Una latencia superior a 800 milisegundos provoca pausas incómodas que rompen la fluidez. En demo, los proveedores suelen mostrar condiciones óptimas. Pide el dato de latencia media en producción real, con carga de llamadas concurrentes.

Un agente con 400-600 ms de latencia en condiciones reales ofrece una experiencia comparable a una llamada humana. Por encima de 1.200 ms, los usuarios empiezan a repetir su pregunta creyendo que no han sido escuchados, lo que genera llamadas más largas y peor experiencia.

2. ¿Qué idiomas y acentos maneja realmente?

Un proveedor puede declarar que soporta "español", pero eso puede significar únicamente español neutro latinoamericano, con reconocimiento pobre del castellano peninsular y nulo del catalán, valenciano o euskera. Si tu negocio opera en España, pide una prueba específica con el acento y vocabulario de tu sector y tu región.

Lo mismo aplica a la comprensión de nombres propios, siglas o terminología técnica de tu industria. Un agente de voz para una clínica dental que no entiende "ortodoncia" o "apicoectomía" no está listo para producción.

3. ¿Cómo se gestiona el reconocimiento en entornos ruidosos?

Las llamadas reales no ocurren en silencio de estudio. Un cliente puede llamar desde la calle, desde un coche o con el televisor de fondo. Pregunta cuál es la tasa de error de reconocimiento (Word Error Rate) en condiciones de ruido ambiental moderado. Un buen sistema debe mantener una tasa de error inferior al 8% incluso con ruido de fondo a 60-70 dB.

4. ¿Con qué sistemas se integra y cómo?

Un agente de voz que no se conecta a tu CRM, a tu calendario, a tu sistema de reservas o a tu software de gestión es solo un contestador automático sofisticado. Pregunta explícitamente por las integraciones disponibles: Salesforce, HubSpot, Google Calendar, sistemas de gestión de citas, APIs propias, ERPs sectoriales.

Igualmente importante: ¿la integración está documentada y es nativa, o requiere un desarrollo a medida que tú pagas aparte? La diferencia en coste puede ser significativa.

5. ¿Dónde se almacenan y procesan los datos de voz?

Esta pregunta es especialmente relevante en sectores regulados. Los datos de voz contienen información personal y, en algunos casos, datos de salud o financieros. Debes saber si el procesamiento ocurre en servidores dentro de la Unión Europea y si el proveedor cumple con el RGPD.

Pide el nombre de los subencargados de tratamiento (los proveedores de infraestructura cloud que usa el proveedor). Si no pueden decírtelo, es una señal de alerta.

6. ¿Cómo se maneja la retención y eliminación de grabaciones?

Relacionada con la anterior: ¿cuánto tiempo se conservan las grabaciones de las llamadas? ¿Puedes solicitar la eliminación de datos de un usuario concreto? ¿Existe un proceso documentado para ejercer los derechos ARCO? Un proveedor serio debe tener respuestas claras y procesos definidos, no vagas promesas de cumplimiento.

7. ¿Qué SLA (Service Level Agreement) garantizan?

El SLA es el acuerdo de nivel de servicio: la disponibilidad garantizada del sistema y las consecuencias si no se cumple. El estándar mínimo aceptable para un servicio de atención al cliente es 99,5% de disponibilidad mensual, lo que equivale a menos de 3,6 horas de caída al mes. Algunos proveedores ofrecen 99,9%, lo que reduce esa ventana a 43 minutos.

Más importante que el porcentaje es qué ocurre cuando no se cumple. ¿Hay penalizaciones económicas reales o simplemente créditos simbólicos? ¿Cuál es el tiempo máximo de respuesta ante una incidencia crítica?

8. ¿Cuál es el coste real por minuto y qué se incluye?

El precio anunciado rara vez es el precio final. Muchos proveedores cobran por minuto de llamada, pero no incluyen en ese precio el coste de telefonía, el número de teléfono, las integraciones, el soporte técnico o el onboarding. Para entender el coste real de propiedad (TCO), necesitas desglosar cada concepto.

Si quieres profundizar en cómo funciona la estructura de precios del mercado español, el artículo ¿Cuánto cuesta un agente de voz con IA? Desglose real de precios [2026] analiza en detalle los modelos de tarificación más habituales y sus implicaciones reales.

9. ¿Existe un periodo de prueba real antes del compromiso contractual?

Una demo controlada por el proveedor no es una prueba. Pide acceso a un entorno de prueba con llamadas reales durante un periodo de al menos dos semanas, con el volumen y los casos de uso propios de tu negocio. Cualquier proveedor con confianza en su producto debería aceptarlo.

Si el proveedor evita las pruebas reales o las limita en exceso, pregúntate por qué.

10. ¿Cómo se entrena y personaliza el agente para mi sector?

Un agente de voz genérico no tiene el mismo rendimiento que uno entrenado con los flujos de conversación, el vocabulario y los procedimientos específicos de tu sector. Pregunta cuánto tiempo lleva el proceso de personalización, quién lo hace (tú, el proveedor, un tercero), y cuál es el coste adicional si necesitas ajustes posteriores al lanzamiento.

La personalización post-lanzamiento suele ser uno de los costes ocultos más frecuentes en el sector.

11. ¿Qué ocurre cuando el agente no sabe responder?

Todo agente de voz tiene límites. La pregunta relevante no es si el agente puede fallar —lo hará— sino cómo gestiona ese fallo. ¿Transfiere la llamada a un humano? ¿Recoge el mensaje y genera una tarea en tu CRM? ¿Simplemente cuelga? El comportamiento ante casos no contemplados es uno de los indicadores más fiables de la madurez del sistema.

Pide que te describan el flujo exacto de escalado y, si es posible, que te lo demuestren en vivo con una pregunta fuera del guion.

12. ¿Cuál es el modelo de soporte técnico y en qué horario?

Si tu negocio opera en horario de 9 a 21 horas y el agente de voz tiene una incidencia grave a las 18:00 de un viernes, ¿qué ocurre? Pregunta si el soporte es por email, por teléfono o por chat, cuáles son los tiempos de respuesta garantizados para incidencias críticas, y si existe soporte en español (no solo en inglés).

Algunos proveedores internacionales tienen soporte técnico solo en inglés y con horarios anglosajones, lo que puede generar fricciones operativas importantes.

13. ¿Qué métricas y analítica ofrece la plataforma?

Un agente de voz que no mide no sirve para mejorar. Debes poder acceder a métricas como: tasa de resolución en primera llamada, duración media de conversación, motivos de llamada más frecuentes, tasa de transferencia a humano y satisfacción post-llamada. Sin estos datos, no podrás optimizar el sistema ni justificar la inversión ante dirección.

Pregunta también cómo se exportan esos datos y si se pueden integrar con tu herramienta de analítica habitual.

14. ¿Cuáles son las condiciones de salida del contrato?

Esta pregunta incomoda a muchos proveedores, lo que es exactamente la razón por la que debes hacerla. Pregunta cuál es la duración mínima del contrato, qué ocurre si quieres cancelar antes del vencimiento, y si puedes exportar los datos y configuraciones del agente al salir. Una relación contractual sana no necesita cláusulas de permanencia agresivas para retenerte.

15. ¿Qué referencias reales pueden facilitarme?

Pide el contacto de dos o tres clientes actuales del proveedor en un sector similar al tuyo, con los que puedas hablar directamente. No referencias redactadas en la web: personas reales a las que puedas llamar. Si el proveedor no puede o no quiere facilitarlas, es información en sí misma.


Red flags que debes detectar durante el proceso de evaluación

Más allá de las respuestas a las preguntas anteriores, hay señales de alerta que debes identificar independientemente de lo que el proveedor diga.

Falta de documentación técnica accesible. Si para obtener información sobre la arquitectura, las integraciones o la política de datos necesitas pasar por tres capas de comerciales, el proveedor está priorizando la venta sobre la transparencia.

Promesas sin métricas. Frases como "nuestros agentes son los más naturales del mercado" o "resolvemos el 90% de las llamadas" sin metodología de medición ni contexto no dicen nada. Pide siempre la definición exacta de la métrica y cómo se calcula.

Contratos de larga duración desde el primer momento. Un proveedor que exige compromisos de 24 meses antes de haber demostrado valor real en tu operativa está protegiendo sus intereses, no los tuyos.

Ausencia de interlocutor técnico en el proceso de venta. Si solo hablas con comerciales durante todo el proceso y no puedes acceder a ningún técnico o especialista de implementación, el onboarding real probablemente será más complicado de lo que te están contando.


Cómo estructurar tu proceso de evaluación

Una vez tengas las respuestas a estas preguntas, la evaluación se vuelve mucho más objetiva. Puedes crear una matriz de decisión sencilla con cinco dimensiones: capacidad técnica, privacidad y cumplimiento, modelo de soporte, coste total y condiciones contractuales. Asigna un peso a cada una según las prioridades de tu negocio y puntúa a cada proveedor.

Este proceso te llevará tiempo, pero es el que evita decisiones basadas en el entusiasmo de una demo o en la presión de una oferta con fecha de caducidad.

Nolam.ai publica su documentación técnica, política de datos y condiciones de SLA de forma accesible antes de cualquier conversación comercial, precisamente porque estas preguntas son las que hacen los compradores más informados. Si quieres aplicar esta guía en una evaluación real, puedes solicitarles una sesión técnica sin compromiso.


Preguntas frecuentes

¿Qué latencia es aceptable en un agente de voz con IA para atención al cliente?

Una latencia inferior a 600 milisegundos en producción real se considera aceptable para conversaciones naturales. Por encima de 800 ms, los usuarios perciben pausas incómodas. Por encima de 1.200 ms, la experiencia se deteriora significativamente y aumentan las interrupciones y las llamadas abandonadas.

¿Qué datos personales tratan los agentes de voz con IA y cómo deben protegerse?

Los agentes de voz procesan grabaciones de audio, transcripciones y, en muchos casos, datos identificativos del llamante. El proveedor debe cumplir el RGPD, procesar los datos dentro de la UE, documentar los subencargados de tratamiento y ofrecer un proceso claro para ejercer los derechos de acceso, rectificación y supresión.

¿Cuánto tiempo lleva implementar un agente de voz con IA en una empresa?

Un agente de voz con IA puede estar operativo en un plazo de entre dos y seis semanas, dependiendo de la complejidad de las integraciones con sistemas existentes y del nivel de personalización requerido. Implementaciones con integraciones complejas en ERPs o CRMs sectoriales pueden extenderse hasta tres meses.

¿Qué ocurre si el agente de voz no sabe responder a una pregunta del cliente?

Un sistema maduro debe escalar la llamada a un agente humano, registrar la incidencia en el CRM y, en algunos casos, enviar un aviso al equipo responsable. La gestión de los casos fuera del flujo previsto es uno de los mejores indicadores de la robustez real de un sistema de voz con IA.

¿Cómo puedo comparar el precio real entre diferentes proveedores de agentes de voz IA?

Para comparar correctamente, debes calcular el coste total de propiedad (TCO): tarifa por minuto más costes de telefonía, número de teléfono, integraciones, onboarding, soporte y posibles desarrollos a medida. Dos proveedores con el mismo precio por minuto pueden tener costes totales muy distintos una vez se añaden todos los conceptos.

Descubre Nolam.ai para atención al cliente

Plan gratuito sin compromiso. Te configuramos todo en 48 horas.

Conoce más sobre Nolam Agents y Nolam Hub.