Tres semanas después
En el primer artículo documenté la instalación de OpenClaw en un VPS de DigitalOcean: hardening, Google Workspace y memoria persistente. Al final mencioné tres cosas en el roadmap: voz, dashboard y más automatización.
Tres semanas después, la voz ya está operativa. Este artículo documenta lo que se implementó, lo que realmente costó la prueba y cómo podría verse un montaje similar para una pyme que quiera evaluar un flujo de voz con IA.
1Password: secretos en bóveda
En el primer artículo, las credenciales vivían como archivos JSON con permisos restrictivos (chmod 700/600). Funcionaba, pero era frágil: un secreto rotado significaba editar archivos manualmente en el servidor.
La solución fue 1Password con su CLI (op) y una Service Account dedicada.
La implementación
CLI: op v2.33.1 instalado en el VPS.
Service Account: una cuenta de servicio dedicada, con acceso exclusivo al vault “OpenClaw”. El token de la cuenta de servicio (OP_SERVICE_ACCOUNT_TOKEN) se inyecta desde /opt/openclaw.env y se referencia en el bloque env de openclaw.json.
Vault “OpenClaw”: contiene los secretos que Nova necesita - la API key de ElevenLabs, el Account SID, Auth Token y número de teléfono de Twilio.
Flag --reveal: obligatorio para acceder a campos sensibles. Sin este flag, op devuelve referencias, no valores. Es una capa adicional de intención explícita.
Por qué importa
Un asistente de IA con acceso a tu terminal, correo y calendario ya maneja secretos - API keys, tokens OAuth, credenciales de servicios. La pregunta no es si protegerlos, sino cómo.
Con 1Password:
- Los secretos se rotan desde el dashboard de 1Password, sin tocar el servidor.
- La Service Account tiene acceso solo al vault que necesita, nada más.
- Hay registro de auditoría de cada acceso.
- Si el servidor se compromete, los secretos no están en texto plano en disco.
Voz: Twilio + ElevenLabs + OpenAI
Esta es la parte que convierte al asistente de texto en algo que suena humano por teléfono.
Arquitectura de voz
El pipeline completo:
- Llamada entrante - Twilio recibe la llamada al número asignado.
- Webhook - Twilio envía la llamada al endpoint del webhook configurado en el VPS.
- DNS - Un subdominio dedicado apunta al VPS y Caddy hace reverse proxy a
127.0.0.1:3334. - STT - OpenAI transcribe el audio a texto.
- LLM - OpenAI genera la respuesta que OpenClaw utiliza durante la llamada.
- TTS - ElevenLabs convierte la respuesta a voz (voice: Sarah, modelo
eleven_multilingual_v2). - Respuesta - El audio vuelve al llamante vía Twilio.
Seguridad de voz
Inbound allowlist: solo números autorizados pueden llamar. Cualquier otro número se rechaza. Esto no es un call center abierto - es un asistente personal con acceso telefónico.
Bug documentado
Durante la implementación, la herramienta voice_call no funcionaba dentro del sandbox de Docker. El workaround fue configurar el agente principal de forma explícita GitHub issue #56367.
Costos reales: datos de la prueba de voz del 28 de marzo
En el primer artículo estimé $25-70/mes para la infraestructura base. Los siguientes datos son solo de la sesión de prueba de voz, no del costo general de operación de OpenClaw:
| Servicio | Costo | Detalle |
|---|---|---|
| OpenAI (STT + responses) | $0.10 | 1,209 tokens, 68 requests registrados durante la prueba |
| ElevenLabs (TTS) | $0.08 | 786 caracteres, 48 seg de audio, 13 requests |
| Twilio (voice calls) | $4.13 | 16 transacciones de voz durante la prueba |
| Twilio (número telefónico) | $2.30/mes | Costo fijo mensual |
| Total variable (sesión) | $4.31 | Excluyendo la mensualidad del número |
Lo que costó la prueba
El número más limpio de esta primera corrida es el costo variable completo de la sesión: $4.31.
Twilio explicó la mayor parte del gasto. OpenAI y ElevenLabs fueron marginales a esta escala. A lo largo de 16 transacciones de voz, Twilio promedió aproximadamente $0.26 por transacción durante la sesión de prueba.
Esa es la forma más honesta de presentarlo. Todavía no tengo suficiente volumen para declarar un promedio de producción por llamada completada, pero sí tengo datos suficientes para decir que el costo variable sigue medido en centavos, no en dólares.
Referencia de precios de ElevenLabs
| Modelo | Referencia pública de precio |
|---|---|
| Flash/Turbo TTS | ~$0.06-0.08 / 1K caracteres |
| Multilingual v2/v3 TTS | ~$0.12-0.17 / 1K caracteres |
| Scribe STT | ~$0.22-0.40 / hora |
Fuente: elevenlabs.io/pricing y elevenlabs.io/pricing/api
Costo mensual actualizado
| Componente | Costo mensual |
|---|---|
| VPS (DigitalOcean) | $12-24 |
| OpenAI (responses + STT) | $10-50 |
| Twilio (número + llamadas) | $5-15 |
| ElevenLabs (TTS) | $2-10 |
| Google APIs | Gratis (dentro de cuotas) |
| 1Password (Service Account) | Incluido en plan business |
| Total estimado | $30-100/mes |
Este es el costo de mi implementación personal - un solo usuario, volumen bajo, uso de investigación.
¿Cuánto cuesta montar un servicio de voz con IA para una empresa pequeña?
Todo lo anterior es mi prueba personal. La pregunta práctica es otra: si una empresa pequeña quisiera montar algo similar, ¿cómo se vería el costo operativo mensual?
Tráfico de voz en empresas pequeñas
Según datos de la industria, las empresas pequeñas solo contestan el 37.8% de las llamadas entrantes (AMBS Call Center, citando a 411 Locals). Un recepcionista puede manejar entre 50 y 100 llamadas por día (AMBS Call Center, citando a LiveAgent). Para una empresa con 15 a 25 empleados, proyectar entre 50 y 100 llamadas diarias sigue siendo conservador.
Costos operativos mensuales
| Componente | Plan | Costo mensual | Fuente |
|---|---|---|---|
| VPS (DigitalOcean) | Basic 2 vCPU, 4 GB RAM | $24 | digitalocean.com/pricing |
| LLM / respuestas | OpenAI u otro proveedor soportado | $30-80 | Varía por proveedor |
| STT (OpenAI) | API de transcripción | $10-25 | platform.openai.com |
| TTS (ElevenLabs) | Starter $5/mes - Pro $99/mes | $5-99 | elevenlabs.io/pricing |
| Voz (Twilio) | Inbound $0.0085/min, outbound $0.0140/min + número $1.15/mes | $25-60 | twilio.com/voice/pricing |
| Secretos (1Password) | Teams Starter Pack hasta 10 usuarios | $20 | 1password.com/pricing |
| Email y productividad (Google Workspace) | Business Standard $14/usuario/mes (anual) x 20 usuarios | $280 | workspace.google.com/pricing |
| OpenClaw | Open-source, gratuito | $0 | docs.openclaw.ai |
| Total infraestructura mensual | $394-588/mes |
En esta prueba de concepto, OpenAI manejó de punta a punta tanto la transcripción como las respuestas de lenguaje.
Si la empresa ya paga Google Workspace y 1Password, el costo incremental del stack de voz con IA baja aproximadamente a $94-288/mes.
Costo de implementación (único)
OpenClaw es open-source y gratuito, pero ponerlo en producción sigue requiriendo un profesional: hardening del servidor, DNS, reverse proxy, integraciones con Google Workspace, Twilio, ElevenLabs y 1Password, además de la configuración de voz, pruebas y documentación.
| Concepto | Estimación |
|---|---|
| Tarifa ingeniero DevOps/sistemas (freelance) | $60-100/hora |
| Horas estimadas de implementación | 30-50 horas |
| Costo total de implementación | $1,800-5,000 |
Fuentes: tarifa promedio freelance DevOps en EE.UU. de $60-100/hora (ZipRecruiter, Upwork).
Referencia de mercado
Un pronóstico de Gartner de 2022, citado públicamente por Business Standard, estimó que los despliegues de IA conversacional reducirían en $80 mil millones los costos laborales de los centros de contacto para 2026. Resúmenes de mercado publicados por vendors todavía ubican una interacción de voz con IA alrededor de ~$0.40 frente a $7-$12 por una llamada atendida por un agente humano (Ringly.io, citando a Teneo.ai).
Casos reportados por vendors
Una práctica dental con 40 llamadas diarias automatizó la programación de citas y reportó $36,000 anuales de ahorro operativo, con un payback de 2.9 meses. Una empresa de HVAC eliminó su servicio externo de contestadora ($800/mes) y capturó ingresos que antes se perdían fuera de horario, reportando $48,000 anuales en valor recuperado (P0STMAN, 2025).
En ambos casos, la voz con IA no reemplazó personal - absorbió trabajo repetitivo que el equipo existente no podía cubrir.
Lecciones aprendidas (Parte 2)
Los secretos en texto plano son deuda técnica. Si tu asistente de IA tiene acceso a APIs externas, esos tokens deberían estar en un vault desde el día uno. No después del primer susto.
La voz cambia la dinámica. Un asistente de texto es una herramienta. Un asistente que contesta el teléfono con voz natural se percibe como un servicio. La diferencia no es técnica - es de expectativa del usuario.
Open-source en producción requiere tolerancia a la ambigüedad. Issues abiertos, workarounds temporales, versiones que rompen cosas. Si necesitas que todo funcione el primer día, usa un SaaS. Si quieres control total, asume el costo de ser tu propio equipo de soporte.
La economía unitaria importa más que los titulares. No el costo mensual total, no la línea de la API - lo que importa es cuánto cuesta cada interacción útil. En esta prueba temprana, la sesión variable completa costó $4.31 y Twilio promedió alrededor de $0.26 a lo largo de 16 transacciones de voz. Todavía no es un benchmark de producción, pero sí es suficiente para ver que la economía ya es comprensible.
Nota del autor
Este análisis es producto de investigación personal y prueba de concepto. Trabajo con [Microsoft Teams] (https://www.microsoft.com/en-us/microsoft-teams/small-medium-business), DID y SBC virtual desde 2019 - PBX in the cloud en producción. Lo que pruebo aquí es el siguiente paso: cómo la inteligencia artificial puede mejorar y automatizar lo que ya funciona.
Este artículo es la segunda parte de la serie sobre OpenClaw. La primera parte cubre instalación, hardening y Google Workspace: OpenClaw: Implementación de un Asistente de IA Self-Hosted.
Por: Cesar Rosa Polanco - Basado en un caso real, con apoyo editorial de inteligencia artificial.