Avatar & TTS: un tutor IA con voz en tiempo real

Cómo funciona (single-provider)

El avatar es opt-in por curso y usa un proveedor para voz y video, por lo que no hay desincronización audio/labios ni un paso de TTS separado:

HeyGen → LiveAvatar API (modo FULL): el backend crea un session token e inicia una sala LiveKit; el cliente se conecta en LiveKit para video y habla publicando un evento speak_text en el data channel de LiveKit. HeyGen hace TTS + video.
D-ID → clips/streams: el backend hace proxy de SDP/ICE; el tutor habla con texto y D-ID hace el TTS.

El cliente conecta WebRTC directamente al proveedor — el video nunca pasa por el servidor de Studeia. El backend solo crea la sesión, hace proxy de speak/sdp/ice (D-ID) y registra el uso al detener.

Configuración

Por tenant: conectar una clave HeyGen o D-ID (cifrada AES-256-GCM), probarla y definir la cuota mensual de minutos.
Por curso: Course.avatarProvider, avatarId, avatarVoiceId, avatarQuality y el flag avatarEnabled. Una clave → N avatares (el avatar es un parámetro por sesión).

Seguridad & cuota

La master API key nunca va al cliente; solo tokens efímeros de sesión/LiveKit. Speak/SDP/ICE son proxied server-side con verificación de AvatarSession.userId.
La cuota mensual (monthlyMinuteCap) se verifica antes de iniciar la sesión (fail-closed → quota_exceeded). El uso y el costo se registran en AvatarUsageLog.
Gate: avatarEnabled + proveedor/avatar configurado en el curso + matrícula activa + opt-in del alumno.

Degradación elegante

full_avatar → audio_only (TTS + imagen estática) → text_only, por lo que el tutor siempre responde incluso si el proveedor del avatar falla.

Móvil

En móvil el avatar se ejecuta en una WebView que carga la misma página /avatar-embed utilizada en la web (sin módulos WebRTC nativos en Expo); un bridge de React Native reenvía los mensajes de control.

Aún no (roadmap)

La voz de entrada — el alumno hablando con el tutor (voz → STT → chat) — ya está implementada como función separada (B2B, dictado): el habla se convierte en texto y rellena el campo de mensaje para que el alumno revise y envíe (sin autoenvío). El avatar, en cambio, es solo de salida: la conversación bidireccional por voz (el avatar respondiendo en bucle al habla) aún no está implementada.

Ver también

FAQ

¿El tutor IA de Studeia tiene avatar parlante?

Sí. El tutor puede responder con avatar parlante en tiempo real — video más voz con lip-sync en vivo — mediante WebRTC. La institución conecta su propia cuenta HeyGen (LiveAvatar) o D-ID (BYO key cifrada en reposo), mapea avatar/voz por curso y lo habilita por curso. Es single-provider: el proveedor hace TTS y video, por lo que el audio y los labios quedan sincronizados.

¿El avatar es seguro y privado?

La master API key del proveedor nunca llega al cliente — la creación de sesión y el speak/SDP/ICE son proxied server-side con verificación de ownership de la sesión; solo tokens efímeros llegan al navegador. Las credenciales están cifradas con AES-256-GCM, el uso es metered (AvatarUsageLog) con cuota mensual, y el acceso depende de matrícula activa + opt-in del alumno.

¿Qué ocurre si el proveedor del avatar falla?

Degrada elegantemente: full_avatar → audio_only (TTS + imagen estática) → text_only. La voz de entrada (alumno hablando → speech-to-text) es una función separada, ya implementada en B2B: el habla se convierte en texto en el chat. El avatar en sí es solo de salida — la conversación bidireccional por voz (el avatar respondiendo en bucle al habla) sigue en el roadmap.