Proveedores
VOCALS utiliza un sistema modular de proveedores para cada etapa del pipeline de voz: Speech-to-Text (STT), Large Language Model (LLM) y Text-to-Speech (TTS). Puedes combinar proveedores por agente para optimizar latencia, precisión, coste o soporte de idiomas.
Añadir un Proveedor
- Navega a Configuración > Proveedores en el panel de control.
- Haz clic en Añadir Proveedor.
- Selecciona el tipo de proveedor (STT, LLM o TTS) y el servicio específico.
- Introduce tu API key y configura los ajustes específicos del proveedor.
- Haz clic en Guardar.
Cada proveedor se valida al guardar -- VOCALS realiza una solicitud de prueba ligera para confirmar que tu API key y configuración son válidos.
Gestión de API Keys
- Las API keys se cifran en reposo y nunca se muestran completas después de la entrada inicial.
- Para rotar una key, haz clic en el botón Editar de cualquier proveedor e introduce la nueva key.
- Si un proveedor devuelve errores de autenticación durante una llamada, la llamada realizará un fallback de forma elegante y el error aparecerá en los registros de llamadas.
Crea API keys separadas para VOCALS en lugar de reutilizar keys de otros proyectos. Esto facilita el seguimiento del uso y la rotación de credenciales sin afectar otras integraciones.
Proveedores STT
Los proveedores Speech-to-Text transcriben el audio del llamante a texto en tiempo real.
Deepgram
| Ajuste | Descripción | Predeterminado |
|---|---|---|
| Model | nova-2, nova-2-general, nova-2-phonecall, nova-2-meeting | nova-2 |
| Language | Código de idioma BCP-47 (ej., en-US, es, pt-BR) | en-US |
| Smart Format | Habilita puntuación, mayúsculas y formato numérico | Habilitado |
| Endpointing | Duración del silencio (ms) antes de finalizar una frase | 300 |
| Interim Results | Transmite transcripciones parciales para una respuesta más rápida | Habilitado |
Deepgram es el proveedor STT recomendado para la mayoría de casos de uso debido a su baja latencia y fuerte soporte de streaming.
OpenAI Whisper
| Ajuste | Descripción | Predeterminado |
|---|---|---|
| Model | whisper-1 | whisper-1 |
| Language | Código ISO-639-1 (ej., en, es, fr) | Auto-detección |
| Temperature | Temperatura de muestreo para decodificación (0.0 - 1.0) | 0.0 |
OpenAI Whisper opera en modo batch -- el audio se almacena en búfer y se envía en fragmentos en lugar de transmitirse continuamente. Esto añade algo de latencia pero puede mejorar la precisión en entornos ruidosos.
Alibaba Qwen
| Ajuste | Descripción | Predeterminado |
|---|---|---|
| Model | qwen-audio | qwen-audio |
| Language | Código de idioma (ej., en, zh, ja) | en |
Qwen ofrece un sólido soporte multilingüe, particularmente para chino e idiomas del este asiático.
Fish Audio
| Ajuste | Descripción | Predeterminado |
|---|---|---|
| Model | transcribe-1 | transcribe-1 |
| Language | Código de idioma (opcional, auto-detección si está vacío) | Auto-detección |
El modelo transcribe-1 de Fish Audio opera en modo batch con soporte para más de 30 idiomas. Actualmente en beta.
Proveedores LLM
Los proveedores LLM generan las respuestas conversacionales del agente basándose en la transcripción y el prompt del sistema.
OpenAI
| Ajuste | Descripción | Predeterminado |
|---|---|---|
| Model | gpt-4o, gpt-4o-mini, gpt-4-turbo, gpt-3.5-turbo | gpt-4o-mini |
| Temperature | Controla la aleatoriedad (0.0 - 2.0) | 0.7 |
| Max Tokens | Tokens máximos en la respuesta | 256 |
Los modelos de OpenAI ofrecen un buen equilibrio entre calidad y velocidad. Usa gpt-4o-mini para conversaciones generales con buena relación coste-eficiencia y gpt-4o cuando la calidad de respuesta es crítica.
Anthropic Claude
| Ajuste | Descripción | Predeterminado |
|---|---|---|
| Model | claude-sonnet-4-20250514, claude-haiku-4-20250414 | claude-sonnet-4-20250514 |
| Temperature | Controla la aleatoriedad (0.0 - 1.0) | 0.7 |
| Max Tokens | Tokens máximos en la respuesta | 256 |
Claude sobresale en seguir prompts de sistema detallados y mantener personas consistentes. Una opción sólida para agentes que necesitan adherirse estrictamente a guiones o requisitos de cumplimiento normativo.
Google Gemini
| Ajuste | Descripción | Predeterminado |
|---|---|---|
| Model | gemini-2.5-flash, gemini-2.5-pro | gemini-2.5-flash |
| Temperature | Controla la aleatoriedad (0.0 - 2.0) | 0.7 |
| Max Tokens | Tokens máximos en la respuesta | 256 |
Gemini Flash ofrece una latencia muy baja a un precio competitivo. Una buena opción para despliegues de alto volumen donde la velocidad importa.
Moonshot Kimi
| Ajuste | Descripción | Predeterminado |
|---|---|---|
| Model | moonshot-v1-8k, moonshot-v1-32k | moonshot-v1-8k |
| Temperature | Controla la aleatoriedad (0.0 - 1.0) | 0.7 |
| Max Tokens | Tokens máximos en la respuesta | 256 |
Kimi ofrece un sólido soporte del idioma chino y precios competitivos para despliegues en el mercado asiático.
Proveedores TTS
Los proveedores Text-to-Speech convierten la respuesta de texto del LLM en audio que el llamante escucha.
ElevenLabs
| Ajuste | Descripción | Predeterminado |
|---|---|---|
| Voice ID | El ID de la voz a utilizar (de tu cuenta de ElevenLabs) | -- |
| Model | eleven_turbo_v2_5, eleven_turbo_v2, eleven_multilingual_v2 | eleven_turbo_v2_5 |
| Stability | Consistencia de la voz (0.0 - 1.0). Valores más bajos suenan más expresivos. | 0.5 |
| Similarity Boost | Qué tan fielmente se reproduce la voz original (0.0 - 1.0) | 0.75 |
| Optimize Streaming Latency | Nivel de optimización de latencia (0 - 4, mayor = más rápido pero menor calidad) | 3 |
ElevenLabs produce las voces con sonido más natural y soporta clonación de voz. Usa los modelos turbo para telefonía donde la latencia importa.
En tu panel de ElevenLabs, ve a Voices, selecciona una voz y copia el Voice ID desde el panel de detalles de la voz. También puedes usar la API de ElevenLabs para listar las voces disponibles.
OpenAI TTS
| Ajuste | Descripción | Predeterminado |
|---|---|---|
| Model | tts-1, tts-1-hd | tts-1 |
| Voice | alloy, echo, fable, onyx, nova, shimmer | alloy |
| Speed | Velocidad de reproducción (0.25 - 4.0) | 1.0 |
OpenAI TTS es sencillo de configurar con seis voces integradas. Usa tts-1 para telefonía (menor latencia) y tts-1-hd solo cuando la calidad de audio sea la máxima prioridad.
Resemble AI
| Ajuste | Descripción | Predeterminado |
|---|---|---|
| Voice UUID | El UUID de la voz de tu proyecto de Resemble | -- |
| Project UUID | El identificador de tu proyecto de Resemble | -- |
| Sample Rate | Frecuencia de muestreo de salida en Hz | 8000 |
Resemble AI se especializa en clonación de voz personalizada. Si necesitas una voz de marca que suene como una persona específica, Resemble es la mejor opción.
Fish Audio
| Ajuste | Descripción | Predeterminado |
|---|---|---|
| Model | s2, s1, speech-1.6, speech-1.5 | s2 |
| Reference ID | ID de referencia de voz de tu cuenta de Fish Audio | -- |
| Temperature | Controla la expresividad (0.0 - 1.0) | 0.7 |
| Top P | Parámetro de muestreo nucleus (0.0 - 1.0) | 0.7 |
| Speed | Multiplicador de velocidad de reproducción | 1.0 |
| Latency | low, balanced, normal | balanced |
Fish Audio produce habla de sonido natural con control de emociones en más de 30 idiomas. El modelo s2 es el más reciente y capaz, con latencia y calidad mejoradas respecto a s1. Usa latency: "balanced" para el mejor equilibrio entre velocidad y calidad en telefonía.
Recomendaciones de Proveedores por Caso de Uso
| Caso de Uso | STT | LLM | TTS |
|---|---|---|---|
| Inglés general (baja latencia) | Deepgram nova-2 | OpenAI gpt-4o-mini | ElevenLabs turbo v2.5 |
| Conversaciones de alta calidad | Deepgram nova-2 | Anthropic Claude Sonnet | ElevenLabs multilingual v2 |
| Económico | Deepgram nova-2 | Google Gemini Flash | OpenAI tts-1 |
| Multilingüe (30+ idiomas) | Fish Audio transcribe-1 | Google Gemini Flash | Fish Audio s2 |
| Idioma chino | Alibaba Qwen | Moonshot Kimi | ElevenLabs multilingual v2 |
| Voz de marca personalizada | Deepgram nova-2 | OpenAI gpt-4o | Resemble AI |