Proveedores

VOCALS utiliza un sistema modular de proveedores para cada etapa del pipeline de voz: Speech-to-Text (STT), Large Language Model (LLM) y Text-to-Speech (TTS). Puedes combinar proveedores por agente para optimizar latencia, precisión, coste o soporte de idiomas.

Añadir un Proveedor

Navega a Configuración > Proveedores en el panel de control.
Haz clic en Añadir Proveedor.
Selecciona el tipo de proveedor (STT, LLM o TTS) y el servicio específico.
Introduce tu API key y configura los ajustes específicos del proveedor.
Haz clic en Guardar.

Cada proveedor se valida al guardar -- VOCALS realiza una solicitud de prueba ligera para confirmar que tu API key y configuración son válidos.

Gestión de API Keys

Las API keys se cifran en reposo y nunca se muestran completas después de la entrada inicial.
Para rotar una key, haz clic en el botón Editar de cualquier proveedor e introduce la nueva key.
Si un proveedor devuelve errores de autenticación durante una llamada, la llamada realizará un fallback de forma elegante y el error aparecerá en los registros de llamadas.

tip

Crea API keys separadas para VOCALS en lugar de reutilizar keys de otros proyectos. Esto facilita el seguimiento del uso y la rotación de credenciales sin afectar otras integraciones.

Proveedores STT

Los proveedores Speech-to-Text transcriben el audio del llamante a texto en tiempo real.

Deepgram

Ajuste	Descripción	Predeterminado
Model	`nova-2`, `nova-2-general`, `nova-2-phonecall`, `nova-2-meeting`	`nova-2`
Language	Código de idioma BCP-47 (ej., `en-US`, `es`, `pt-BR`)	`en-US`
Smart Format	Habilita puntuación, mayúsculas y formato numérico	Habilitado
Endpointing	Duración del silencio (ms) antes de finalizar una frase	`300`
Interim Results	Transmite transcripciones parciales para una respuesta más rápida	Habilitado

Deepgram es el proveedor STT recomendado para la mayoría de casos de uso debido a su baja latencia y fuerte soporte de streaming.

OpenAI Whisper

Ajuste	Descripción	Predeterminado
Model	`whisper-1`	`whisper-1`
Language	Código ISO-639-1 (ej., `en`, `es`, `fr`)	Auto-detección
Temperature	Temperatura de muestreo para decodificación (0.0 - 1.0)	`0.0`

OpenAI Whisper opera en modo batch -- el audio se almacena en búfer y se envía en fragmentos en lugar de transmitirse continuamente. Esto añade algo de latencia pero puede mejorar la precisión en entornos ruidosos.

Alibaba Qwen

Ajuste	Descripción	Predeterminado
Model	`qwen-audio`	`qwen-audio`
Language	Código de idioma (ej., `en`, `zh`, `ja`)	`en`

Qwen ofrece un sólido soporte multilingüe, particularmente para chino e idiomas del este asiático.

Fish Audio

Ajuste	Descripción	Predeterminado
Model	`transcribe-1`	`transcribe-1`
Language	Código de idioma (opcional, auto-detección si está vacío)	Auto-detección

El modelo transcribe-1 de Fish Audio opera en modo batch con soporte para más de 30 idiomas. Actualmente en beta.

Proveedores LLM

Los proveedores LLM generan las respuestas conversacionales del agente basándose en la transcripción y el prompt del sistema.

OpenAI

Ajuste	Descripción	Predeterminado
Model	`gpt-4o`, `gpt-4o-mini`, `gpt-4-turbo`, `gpt-3.5-turbo`	`gpt-4o-mini`
Temperature	Controla la aleatoriedad (0.0 - 2.0)	`0.7`
Max Tokens	Tokens máximos en la respuesta	`256`

Los modelos de OpenAI ofrecen un buen equilibrio entre calidad y velocidad. Usa gpt-4o-mini para conversaciones generales con buena relación coste-eficiencia y gpt-4o cuando la calidad de respuesta es crítica.

Anthropic Claude

Ajuste	Descripción	Predeterminado
Model	`claude-sonnet-4-20250514`, `claude-haiku-4-20250414`	`claude-sonnet-4-20250514`
Temperature	Controla la aleatoriedad (0.0 - 1.0)	`0.7`
Max Tokens	Tokens máximos en la respuesta	`256`

Claude sobresale en seguir prompts de sistema detallados y mantener personas consistentes. Una opción sólida para agentes que necesitan adherirse estrictamente a guiones o requisitos de cumplimiento normativo.

Google Gemini

Ajuste	Descripción	Predeterminado
Model	`gemini-2.5-flash`, `gemini-2.5-pro`	`gemini-2.5-flash`
Temperature	Controla la aleatoriedad (0.0 - 2.0)	`0.7`
Max Tokens	Tokens máximos en la respuesta	`256`

Gemini Flash ofrece una latencia muy baja a un precio competitivo. Una buena opción para despliegues de alto volumen donde la velocidad importa.

Moonshot Kimi

Ajuste	Descripción	Predeterminado
Model	`moonshot-v1-8k`, `moonshot-v1-32k`	`moonshot-v1-8k`
Temperature	Controla la aleatoriedad (0.0 - 1.0)	`0.7`
Max Tokens	Tokens máximos en la respuesta	`256`

Kimi ofrece un sólido soporte del idioma chino y precios competitivos para despliegues en el mercado asiático.

Proveedores TTS

Los proveedores Text-to-Speech convierten la respuesta de texto del LLM en audio que el llamante escucha.

ElevenLabs

Ajuste	Descripción	Predeterminado
Voice ID	El ID de la voz a utilizar (de tu cuenta de ElevenLabs)	--
Model	`eleven_turbo_v2_5`, `eleven_turbo_v2`, `eleven_multilingual_v2`	`eleven_turbo_v2_5`
Stability	Consistencia de la voz (0.0 - 1.0). Valores más bajos suenan más expresivos.	`0.5`
Similarity Boost	Qué tan fielmente se reproduce la voz original (0.0 - 1.0)	`0.75`
Optimize Streaming Latency	Nivel de optimización de latencia (0 - 4, mayor = más rápido pero menor calidad)	`3`

ElevenLabs produce las voces con sonido más natural y soporta clonación de voz. Usa los modelos turbo para telefonía donde la latencia importa.

Cómo encontrar tu Voice ID

En tu panel de ElevenLabs, ve a Voices, selecciona una voz y copia el Voice ID desde el panel de detalles de la voz. También puedes usar la API de ElevenLabs para listar las voces disponibles.

OpenAI TTS

Ajuste	Descripción	Predeterminado
Model	`tts-1`, `tts-1-hd`	`tts-1`
Voice	`alloy`, `echo`, `fable`, `onyx`, `nova`, `shimmer`	`alloy`
Speed	Velocidad de reproducción (0.25 - 4.0)	`1.0`

OpenAI TTS es sencillo de configurar con seis voces integradas. Usa tts-1 para telefonía (menor latencia) y tts-1-hd solo cuando la calidad de audio sea la máxima prioridad.

Resemble AI

Ajuste	Descripción	Predeterminado
Voice UUID	El UUID de la voz de tu proyecto de Resemble	--
Project UUID	El identificador de tu proyecto de Resemble	--
Sample Rate	Frecuencia de muestreo de salida en Hz	`8000`

Resemble AI se especializa en clonación de voz personalizada. Si necesitas una voz de marca que suene como una persona específica, Resemble es la mejor opción.

Fish Audio

Ajuste	Descripción	Predeterminado
Model	`s2`, `s1`, `speech-1.6`, `speech-1.5`	`s2`
Reference ID	ID de referencia de voz de tu cuenta de Fish Audio	--
Temperature	Controla la expresividad (0.0 - 1.0)	`0.7`
Top P	Parámetro de muestreo nucleus (0.0 - 1.0)	`0.7`
Speed	Multiplicador de velocidad de reproducción	`1.0`
Latency	`low`, `balanced`, `normal`	`balanced`

Fish Audio produce habla de sonido natural con control de emociones en más de 30 idiomas. El modelo s2 es el más reciente y capaz, con latencia y calidad mejoradas respecto a s1. Usa latency: "balanced" para el mejor equilibrio entre velocidad y calidad en telefonía.

Recomendaciones de Proveedores por Caso de Uso

Caso de Uso	STT	LLM	TTS
Inglés general (baja latencia)	Deepgram nova-2	OpenAI gpt-4o-mini	ElevenLabs turbo v2.5
Conversaciones de alta calidad	Deepgram nova-2	Anthropic Claude Sonnet	ElevenLabs multilingual v2
Económico	Deepgram nova-2	Google Gemini Flash	OpenAI tts-1
Multilingüe (30+ idiomas)	Fish Audio transcribe-1	Google Gemini Flash	Fish Audio s2
Idioma chino	Alibaba Qwen	Moonshot Kimi	ElevenLabs multilingual v2
Voz de marca personalizada	Deepgram nova-2	OpenAI gpt-4o	Resemble AI

Añadir un Proveedor​

Gestión de API Keys​

Proveedores STT​

Deepgram​

OpenAI Whisper​

Alibaba Qwen​

Fish Audio​

Proveedores LLM​

OpenAI​

Anthropic Claude​

Google Gemini​

Moonshot Kimi​

Proveedores TTS​

ElevenLabs​

OpenAI TTS​

Resemble AI​

Fish Audio​

Recomendaciones de Proveedores por Caso de Uso​

Añadir un Proveedor

Gestión de API Keys

Proveedores STT

Deepgram

OpenAI Whisper

Alibaba Qwen

Fish Audio

Proveedores LLM

OpenAI

Anthropic Claude

Google Gemini

Moonshot Kimi

Proveedores TTS

ElevenLabs

OpenAI TTS

Resemble AI

Fish Audio

Recomendaciones de Proveedores por Caso de Uso