Saltar al contenido
Studeia Docs
AI-assisted translation — last updated 2026-05-31. For original (pt-BR or en-US), use the language switcher.

Avatar & TTS: un tutor IA con voz en tiempo real

El tutor IA de Studeia puede responder con avatar parlante en tiempo real (video + voz, lip-sync en vivo) mediante HeyGen LiveAvatar o D-ID. BYO key cifrada, configurado por curso, con degradación elegante.

2026-05-31 6 min
Resposta curta

El tutor IA de Studeia puede responder con avatar parlante en tiempo real — video + voz con lip-sync en vivo — mediante WebRTC, con HeyGen LiveAvatar o D-ID. La institución aporta su propia clave (cifrada AES-256-GCM) y configura avatar, voz y calidad por curso. Es single-provider (sin desincronización audio/labios), la master key nunca llega al cliente, el uso es metered con cuota mensual, y degrada full_avatar → audio_only → text_only. La voz de entrada (STT) está en el roadmap.

Cómo funciona (single-provider)

El avatar es opt-in por curso y usa un proveedor para voz y video, por lo que no hay desincronización audio/labios ni un paso de TTS separado:

  • HeyGen → LiveAvatar API (modo FULL): el backend crea un session token e inicia una sala LiveKit; el cliente se conecta en LiveKit para video y habla publicando un evento speak_text en el data channel de LiveKit. HeyGen hace TTS + video.
  • D-ID → clips/streams: el backend hace proxy de SDP/ICE; el tutor habla con texto y D-ID hace el TTS.

El cliente conecta WebRTC directamente al proveedor — el video nunca pasa por el servidor de Studeia. El backend solo crea la sesión, hace proxy de speak/sdp/ice (D-ID) y registra el uso al detener.

Configuración

  • Por tenant: conectar una clave HeyGen o D-ID (cifrada AES-256-GCM), probarla y definir la cuota mensual de minutos.
  • Por curso: Course.avatarProvider, avatarId, avatarVoiceId, avatarQuality y el flag avatarEnabled. Una clave → N avatares (el avatar es un parámetro por sesión).

Seguridad & cuota

  • La master API key nunca va al cliente; solo tokens efímeros de sesión/LiveKit. Speak/SDP/ICE son proxied server-side con verificación de AvatarSession.userId.
  • La cuota mensual (monthlyMinuteCap) se verifica antes de iniciar la sesión (fail-closed → quota_exceeded). El uso y el costo se registran en AvatarUsageLog.
  • Gate: avatarEnabled + proveedor/avatar configurado en el curso + matrícula activa + opt-in del alumno.

Degradación elegante

full_avatar → audio_only (TTS + imagen estática) → text_only, por lo que el tutor siempre responde incluso si el proveedor del avatar falla.

Móvil

En móvil el avatar se ejecuta en una WebView que carga la misma página /avatar-embed utilizada en la web (sin módulos WebRTC nativos en Expo); un bridge de React Native reenvía los mensajes de control.

Aún no (roadmap)

La voz de entrada — el alumno hablando con el tutor (voz → STT → chat) — no está implementada. Hoy el avatar es solo de salida (cabeza parlante + voz).

Ver también

FAQ

¿El tutor IA de Studeia tiene avatar parlante?

Sí. El tutor puede responder con avatar parlante en tiempo real — video más voz con lip-sync en vivo — mediante WebRTC. La institución conecta su propia cuenta HeyGen (LiveAvatar) o D-ID (BYO key cifrada en reposo), mapea avatar/voz por curso y lo habilita por curso. Es single-provider: el proveedor hace TTS y video, por lo que el audio y los labios quedan sincronizados.

¿El avatar es seguro y privado?

La master API key del proveedor nunca llega al cliente — la creación de sesión y el speak/SDP/ICE son proxied server-side con verificación de ownership de la sesión; solo tokens efímeros llegan al navegador. Las credenciales están cifradas con AES-256-GCM, el uso es metered (AvatarUsageLog) con cuota mensual, y el acceso depende de matrícula activa + opt-in del alumno.

¿Qué ocurre si el proveedor del avatar falla?

Degrada elegantemente: full_avatar → audio_only (TTS + imagen estática) → text_only. La voz de entrada (alumno hablando → speech-to-text) es una función separada, aún no implementada (roadmap); hoy el avatar es solo de salida.

Veja tambem

Avatar & TTS: un tutor IA con voz en tiempo real