Crearé una pipeline personalizada de reconocimiento y síntesis de voz con whisper y elevenlabs

S
shhahhussain
S
shhahhussain
Shah

Level 1

4.8
4.8
Parte de la información se ha traducido automáticamente.

Acerca de este Servicio

Traducción automática

Descripción:

Asegura un procesamiento de voz preciso y en tiempo real con una pipeline personalizada de STT/TTS. Crearé un sistema de streaming de reconocimiento y síntesis de voz usando Whisper/Deepgram para STT y ElevenLabs/Azure/Google para TTS, con mecanismos de respaldo para mayor fiabilidad.

Lo que obtendrás:

  • Pipeline de streaming de STT/TTS completamente funcional para datos de voz
  • Integración de Whisper o Deepgram para transcripción
  • Integración de ElevenLabs, Azure o Google para TTS de alta calidad
  • Streaming de WebSocket con baja latencia para rendimiento en tiempo real
  • Manejo de errores y reintentos para garantizar fiabilidad

Cómo trabajo:

  • Discutir requisitos (idiomas, carga esperada, proveedores)
  • Diseñar la arquitectura de la pipeline para audio en streaming
  • Implementar la integración de STT/TTS en el código backend
  • Agregar proveedores de respaldo para failover y resiliencia
  • Probar de extremo a extremo con streams de muestra y métricas

Lo que necesito de ti:

  • Idiomas y acentos objetivo para la transcripción
  • Proveedores principales y de respaldo preferidos para STT/TTS
  • Archivos de audio de ejemplo para pruebas
  • Patrones de uso esperados (streams simultáneos, tráfico en ráfaga)
  • Metas y restricciones de latencia/precisión

Entregables:

  • Código en Python para la pipeline de STT/TTS con instrucciones de configuración
  • Configuración para los proveedores de STT y TTS seleccionados

Conoce a Shah

Shah

I build production grade Voice AI agents LiveKit Twilio Python deployed on AWS

5.0(9)

Level 1

  • DePakistán
  • Miembro desdejul 2022
  • Responde aprox. en:1 hora
  • Última entrega1 semana
  • Idiomas

    Inglés
I build production-grade Voice AI agents using LiveKit, Twilio, and Python. I’ve implemented real-time inbound/outbound call flows with low-latency streaming, clean turn-taking, and barge-in handling. I improve reliability by tuning VAD, handling jitter/packet loss, and adding retries plus consistent call-state. I containerize and deploy voice agents on AWS so they run stable in production with logging and monitoring.

Traducción automática

Mi porfolio

Reseñas

2 comentarios sobre este Servicio
4.8

(2)
(0)
(0)
(0)
(0)
Desglose de calificaciones
  • Nivel de comunicación del Freelancer
    5
  • Calidad de la entrega
    4.5
  • Valor de la entrega
    5
Ordenar por
Más relevante
  • C

    carsten_lemche

    DK

    Dinamarca

    4.7

    Just perfect ! Nice guy, this was a proof of concept quickly delivered and we will probably add more work in the future.

    USD200-USD400

    Precio

    1 día

    Tiempo

    Útil?
    No
  • P

    plaglobal

    Cliente recurrente

    US

    Estados Unidos

    5

    Shah is a professional and great to work with. I highly recommend him!

    USD100-USD200

    Precio

    2 días

    Tiempo

    Útil?
    No
Reseñas

2 comentarios sobre este Servicio
4.8

(2)
(0)
(0)
(0)
(0)
Desglose de calificaciones
  • Nivel de comunicación del Freelancer
    5
  • Calidad de la entrega
    4.5
  • Valor de la entrega
    5
Ordenar por
Más relevante
  • C

    carsten_lemche

    DK

    Dinamarca

    4.7

    Just perfect ! Nice guy, this was a proof of concept quickly delivered and we will probably add more work in the future.

    USD200-USD400

    Precio

    1 día

    Tiempo

    Útil?
    No
  • P

    plaglobal

    Cliente recurrente

    US

    Estados Unidos

    5

    Shah is a professional and great to work with. I highly recommend him!

    USD100-USD200

    Precio

    2 días

    Tiempo

    Útil?
    No