Saltar al contenido principal

Proveedores

VOCALS utiliza un sistema modular de proveedores para cada etapa del pipeline de voz: Speech-to-Text (STT), Large Language Model (LLM) y Text-to-Speech (TTS). Puedes combinar proveedores por agente para optimizar latencia, precisión, coste o soporte de idiomas.

Añadir un Proveedor

  1. Navega a Configuración > Proveedores en el panel de control.
  2. Haz clic en Añadir Proveedor.
  3. Selecciona el tipo de proveedor (STT, LLM o TTS) y el servicio específico.
  4. Introduce tu API key y configura los ajustes específicos del proveedor.
  5. Haz clic en Guardar.

Cada proveedor se valida al guardar -- VOCALS realiza una solicitud de prueba ligera para confirmar que tu API key y configuración son válidos.

Gestión de API Keys

  • Las API keys se cifran en reposo y nunca se muestran completas después de la entrada inicial.
  • Para rotar una key, haz clic en el botón Editar de cualquier proveedor e introduce la nueva key.
  • Si un proveedor devuelve errores de autenticación durante una llamada, la llamada realizará un fallback de forma elegante y el error aparecerá en los registros de llamadas.
tip

Crea API keys separadas para VOCALS en lugar de reutilizar keys de otros proyectos. Esto facilita el seguimiento del uso y la rotación de credenciales sin afectar otras integraciones.

Proveedores STT

Los proveedores Speech-to-Text transcriben el audio del llamante a texto en tiempo real.

Deepgram

AjusteDescripciónPredeterminado
Modelnova-2, nova-2-general, nova-2-phonecall, nova-2-meetingnova-2
LanguageCódigo de idioma BCP-47 (ej., en-US, es, pt-BR)en-US
Smart FormatHabilita puntuación, mayúsculas y formato numéricoHabilitado
EndpointingDuración del silencio (ms) antes de finalizar una frase300
Interim ResultsTransmite transcripciones parciales para una respuesta más rápidaHabilitado

Deepgram es el proveedor STT recomendado para la mayoría de casos de uso debido a su baja latencia y fuerte soporte de streaming.

OpenAI Whisper

AjusteDescripciónPredeterminado
Modelwhisper-1whisper-1
LanguageCódigo ISO-639-1 (ej., en, es, fr)Auto-detección
TemperatureTemperatura de muestreo para decodificación (0.0 - 1.0)0.0

OpenAI Whisper opera en modo batch -- el audio se almacena en búfer y se envía en fragmentos en lugar de transmitirse continuamente. Esto añade algo de latencia pero puede mejorar la precisión en entornos ruidosos.

Alibaba Qwen

AjusteDescripciónPredeterminado
Modelqwen-audioqwen-audio
LanguageCódigo de idioma (ej., en, zh, ja)en

Qwen ofrece un sólido soporte multilingüe, particularmente para chino e idiomas del este asiático.

Fish Audio

AjusteDescripciónPredeterminado
Modeltranscribe-1transcribe-1
LanguageCódigo de idioma (opcional, auto-detección si está vacío)Auto-detección

El modelo transcribe-1 de Fish Audio opera en modo batch con soporte para más de 30 idiomas. Actualmente en beta.

Proveedores LLM

Los proveedores LLM generan las respuestas conversacionales del agente basándose en la transcripción y el prompt del sistema.

OpenAI

AjusteDescripciónPredeterminado
Modelgpt-4o, gpt-4o-mini, gpt-4-turbo, gpt-3.5-turbogpt-4o-mini
TemperatureControla la aleatoriedad (0.0 - 2.0)0.7
Max TokensTokens máximos en la respuesta256

Los modelos de OpenAI ofrecen un buen equilibrio entre calidad y velocidad. Usa gpt-4o-mini para conversaciones generales con buena relación coste-eficiencia y gpt-4o cuando la calidad de respuesta es crítica.

Anthropic Claude

AjusteDescripciónPredeterminado
Modelclaude-sonnet-4-20250514, claude-haiku-4-20250414claude-sonnet-4-20250514
TemperatureControla la aleatoriedad (0.0 - 1.0)0.7
Max TokensTokens máximos en la respuesta256

Claude sobresale en seguir prompts de sistema detallados y mantener personas consistentes. Una opción sólida para agentes que necesitan adherirse estrictamente a guiones o requisitos de cumplimiento normativo.

Google Gemini

AjusteDescripciónPredeterminado
Modelgemini-2.5-flash, gemini-2.5-progemini-2.5-flash
TemperatureControla la aleatoriedad (0.0 - 2.0)0.7
Max TokensTokens máximos en la respuesta256

Gemini Flash ofrece una latencia muy baja a un precio competitivo. Una buena opción para despliegues de alto volumen donde la velocidad importa.

Moonshot Kimi

AjusteDescripciónPredeterminado
Modelmoonshot-v1-8k, moonshot-v1-32kmoonshot-v1-8k
TemperatureControla la aleatoriedad (0.0 - 1.0)0.7
Max TokensTokens máximos en la respuesta256

Kimi ofrece un sólido soporte del idioma chino y precios competitivos para despliegues en el mercado asiático.

Proveedores TTS

Los proveedores Text-to-Speech convierten la respuesta de texto del LLM en audio que el llamante escucha.

ElevenLabs

AjusteDescripciónPredeterminado
Voice IDEl ID de la voz a utilizar (de tu cuenta de ElevenLabs)--
Modeleleven_turbo_v2_5, eleven_turbo_v2, eleven_multilingual_v2eleven_turbo_v2_5
StabilityConsistencia de la voz (0.0 - 1.0). Valores más bajos suenan más expresivos.0.5
Similarity BoostQué tan fielmente se reproduce la voz original (0.0 - 1.0)0.75
Optimize Streaming LatencyNivel de optimización de latencia (0 - 4, mayor = más rápido pero menor calidad)3

ElevenLabs produce las voces con sonido más natural y soporta clonación de voz. Usa los modelos turbo para telefonía donde la latencia importa.

Cómo encontrar tu Voice ID

En tu panel de ElevenLabs, ve a Voices, selecciona una voz y copia el Voice ID desde el panel de detalles de la voz. También puedes usar la API de ElevenLabs para listar las voces disponibles.

OpenAI TTS

AjusteDescripciónPredeterminado
Modeltts-1, tts-1-hdtts-1
Voicealloy, echo, fable, onyx, nova, shimmeralloy
SpeedVelocidad de reproducción (0.25 - 4.0)1.0

OpenAI TTS es sencillo de configurar con seis voces integradas. Usa tts-1 para telefonía (menor latencia) y tts-1-hd solo cuando la calidad de audio sea la máxima prioridad.

Resemble AI

AjusteDescripciónPredeterminado
Voice UUIDEl UUID de la voz de tu proyecto de Resemble--
Project UUIDEl identificador de tu proyecto de Resemble--
Sample RateFrecuencia de muestreo de salida en Hz8000

Resemble AI se especializa en clonación de voz personalizada. Si necesitas una voz de marca que suene como una persona específica, Resemble es la mejor opción.

Fish Audio

AjusteDescripciónPredeterminado
Models2, s1, speech-1.6, speech-1.5s2
Reference IDID de referencia de voz de tu cuenta de Fish Audio--
TemperatureControla la expresividad (0.0 - 1.0)0.7
Top PParámetro de muestreo nucleus (0.0 - 1.0)0.7
SpeedMultiplicador de velocidad de reproducción1.0
Latencylow, balanced, normalbalanced

Fish Audio produce habla de sonido natural con control de emociones en más de 30 idiomas. El modelo s2 es el más reciente y capaz, con latencia y calidad mejoradas respecto a s1. Usa latency: "balanced" para el mejor equilibrio entre velocidad y calidad en telefonía.

Recomendaciones de Proveedores por Caso de Uso

Caso de UsoSTTLLMTTS
Inglés general (baja latencia)Deepgram nova-2OpenAI gpt-4o-miniElevenLabs turbo v2.5
Conversaciones de alta calidadDeepgram nova-2Anthropic Claude SonnetElevenLabs multilingual v2
EconómicoDeepgram nova-2Google Gemini FlashOpenAI tts-1
Multilingüe (30+ idiomas)Fish Audio transcribe-1Google Gemini FlashFish Audio s2
Idioma chinoAlibaba QwenMoonshot KimiElevenLabs multilingual v2
Voz de marca personalizadaDeepgram nova-2OpenAI gpt-4oResemble AI