Blog
Guía de Seguridad

OpenClaw: Framework de Seguridad antes de Instalar

Un framework para entender el modelo de confianza y el contexto de seguridad de OpenClaw antes de decidir si es para ti. Guía completa de 7 pasos.

Creado por Federico Benitez de Muno Labs·

TL;DR

OpenClaw es un sistema de delegación de capacidades para agentes de IA. La seguridad no es solo sobre quién puede hablar con el bot, sino qué puede hacer cuando pierde contexto. Empieza con el mínimo acceso, no des herramientas destructivas por defecto, y considera aislamiento en una máquina separada.

Esto no es un manual de instalación. Es un framework para que entiendas el modelo de confianza y el contexto de seguridad antes de decidir si OpenClaw es para ti.

01Entiende el sistema (va mucho más allá de un chat)

El primer paso para usar esta herramienta de forma segura es entender qué es exactamente. OpenClaw funciona como un sistema de delegación de capacidades. Piensa en él como darle las llaves de tu casa a alguien que sigue instrucciones al pie de la letra, pero que a veces olvida cuáles eran.

Estás delegando capacidades dentro de un límite que tú mismo defines (cuentas, máquina, autenticación, aprobaciones). Herramientas reales de tu equipo, como tu sistema de archivos, la terminal, el navegador o tus cron jobs, quedan bajo el control de un agente.

  • La Interfaz: Canales de mensajería (Telegram, WhatsApp) son tu vía principal de comunicación con el agente.
  • El Objetivo: La herramienta asume que quieres que el agente haga trabajo real: ejecutar comandos, modificar archivos, acceder a servicios de red.
  • El Reto: Lograr poner guardrails (barreras de seguridad) sin destruir la utilidad del agente.

La guía oficial es directa: no existe una configuración "perfectamente segura". Sé deliberado sobre quién puede hablar con el bot, dónde puede actuar y qué puede tocar. Empieza con el acceso mínimo que funcione y expándelo solo cuando tengas evidencia de que es necesario. Cada capacidad adicional expande el "radio de explosión".

02Entiende el Gateway

Para asegurar OpenClaw, primero necesitas conocer su "cerebro administrativo": El Gateway. Este componente coordina todas las conversaciones, mantiene vivas las conexiones con tus canales (Slack, WhatsApp, Discord, etc.), aplica tus configuraciones y maneja las tareas en segundo plano (cron jobs). También tiene una UI web donde puedes ver qué está haciendo el agente.

Por diseño, el Gateway acepta conexiones solo desde tu propia máquina (localhost), lo cual te protege de ataques directos desde internet. Pero la documentación es clara: OpenClaw asume un único operador de confianza. No es multi-tenant.

Cuidado con los accesos compartidos:

Si varias personas pueden enviarle mensajes a tu bot, comparten exactamente tu misma autoridad sobre las herramientas. Por ejemplo:

  • Si agregas el bot a un canal de Slack con 50 personas, cualquiera podría pedirle que lea la carpeta "confidencial" de tu escritorio y se la mande por mensaje directo.
  • Si dejas tu WhatsApp Web abierto y alguien le escribe al bot, podría borrar archivos de tu computadora o acceder a tu correo, solo con pedírselo.

03Skills vs. Plugins (No son lo mismo)

Al darle nuevas capacidades a tu agente, te vas a encontrar con dos conceptos que se confunden seguido, pero que tienen perfiles de riesgo muy distintos.

Skills (Instrucciones de flujos de trabajo)

Similares a lo que verías en agentes de código (Claude Code, Cursor). Son carpetas con un archivo SKILL.md que le "enseñan" al agente cómo hacer ciertas tareas.

Un skill no añade privilegios por sí mismo. Solo puede empujar al agente a usar las herramientas (tools) que tú ya habilitaste. Si un skill es malicioso, depende totalmente de que tengas habilitadas herramientas riesgosas para hacer daño.

Plugins (Módulos de Código)

Son módulos de TypeScript que se cargan en tiempo de ejecución (runtime) y corren en el mismo proceso que el Gateway.

Al correr junto al Gateway, heredan todos sus permisos. Un plugin malicioso puede saltarse (bypassear) tu modelo de seguridad y operar directamente sobre tu red o archivos sin invocar al agente. Si instalas un plugin de npm, trátalo siempre como si estuvieras ejecutando código no confiable.

¿Qué hacer?

  1. Deshabilita los plugins por defecto: Exige siempre una lista de permitidos (plugins.allow) si realmente los necesitas.
  2. Audita tus Skills: Revisa siempre el archivo SKILL.md. Red flags: URLs o webhooks externos, instrucciones de instalación de binarios, el uso de command-dispatch (esta tool se salta el modelo), configuraciones que inyecten secrets o API Keys.

04El Sistema de Herramientas

La capa de herramientas (tools) es lo que convierte al agente de un simple conversador en algo que puede interactuar con el mundo real. Aquí es donde el proyecto ha puesto un gran esfuerzo en mitigar riesgos:

  • Content wrapping: Cuando usas herramientas como búsqueda web o emails, OpenClaw envuelve el contenido no confiable con marcadores y avisos de seguridad. Detecta patrones de "prompt injection", pero no los bloquea; solo alerta al modelo de IA subyacente.
  • Defensas SSRF: Normaliza los nombres de host, bloquea accesos a tu red interna (localhost) y verifica las respuestas DNS para evitar engaños en la red.
  • Web Fetch Seguro: Limita el tamaño de las respuestas de las webs que visita y prefiere extraer solo el texto legible.

La plataforma no pretende que estas funciones "resuelvan" los problemas de seguridad. Son guardrails (barandas); la responsabilidad final sigue siendo tuya como operador.

05Control Operacional

La seguridad tradicional se enfoca en "quién puede hacer qué" asumiendo que hay un atacante malicioso. Con agentes de IA aparece un problema que afecta incluso a usuarios legítimos: las instrucciones se pueden olvidar, pero las capacidades (tools) siempre están ahí.

"Le dije al agente: 'Revisa este inbox y sugiere qué archivar o borrar, no ejecutes nada hasta que te diga'. Funcionó bien en mi inbox de prueba. Pero mi inbox real era enorme y disparó compactación de contexto. Durante la compactación, perdió mi instrucción original… y borró miles de correos."

¿Por qué esto NO es un bug?

El agente no fue malicioso ni fue hackeado. El problema es estructural: los LLMs no tienen memoria persistente garantizada. Las ventanas de contexto tienen límites y las instrucciones que parecían claras se evaporan.

Ojo con los permisos de deletion: Si el agente tiene la capacidad (tool) de hacer algo destructivo, eventualmente lo hará (por error, pérdida de contexto o malinterpretación). OpenClaw viene con muchas de estas capacidades habilitadas por defecto.

EnfoqueNivel de RobustezResultado
Instrucción: "No hagas X"FrágilSe pierde en la compactación de contexto.
Requerir aprobación manualMediaCausa fatiga y terminas aprobando sin leer.
No darle la herramientaRobustaSin tool de borrar, es imposible que borre.
Separar agentesRobustaAgente 1 solo lee, Agente 2 ejecuta con aprobación.

OpenClaw da muchas capabilities por defecto y está diseñado para tareas de larga duración donde context compaction es común:

  • exec puede ejecutar cualquier comando shell
  • write puede sobrescribir cualquier archivo en scope
  • web_fetch puede enviar datos a cualquier URL
  • Tools de Gmail/Calendar pueden borrar, modificar, enviar
  • Cron jobs corren sin supervisión por períodos extendidos

La configuración segura va más allá de "quién puede hablar con el bot". Pregúntate qué puede hacer el bot cuando inevitablemente pierde contexto o malinterpreta. No des tools "por si acaso". Si tu caso de uso es "asistente para campañas de marketing", el agente no necesita permiso para borrar.

06¿Debería correrlo en una máquina aparte?

Seguro has visto a personas comprando "Mac Minis" solo para correr OpenClaw, o usando servidores virtuales. Esto mitiga algunos riesgos.

Lo que SÍ mitiga

  • Si el agente borra archivos o ejecuta comandos destructivos, solo afecta esa máquina
  • Malware instalado vía plugins queda contenido ahí
  • Tus documentos personales, fotos, credenciales del día a día no están expuestos

Lo que NO mitiga

  • Si le das acceso a tu correo/calendario, puede leer, borrar, enviar desde tu cuenta real
  • Si guardas credenciales de servicios (Hubspot, tu banco), esas credenciales siguen expuestas
  • Skills maliciosos pueden exfiltrar datos hacia afuera
  • Quien pueda hablarle al bot sigue teniendo acceso a todo lo que el bot tenga conectado

Conclusión: Una máquina aparte reduce el "blast radius local" (tus archivos, tu sistema) y es una buena forma de empezar. Pero no protege los servicios externos que conectes ni las credenciales que guardes ahí.

07Preguntas que puedes hacerte antes de instalar

Antes de correr el comando de instalación, sigue este checklist:

¿Qué tools realmente necesita mi caso de uso? ¿Puedo hacerlo sin permisos de borrado/escritura?
¿Qué es lo peor que podría pasar si el agente usa mal cada tool?
¿Quién más puede hablarle al bot y confío en ellos?
¿Voy a dejar sesiones abiertas donde otros puedan acceder?
¿Le pediré tareas largas donde podría perder contexto?
¿Tengo backups de todo lo que el agente puede tocar?
Si algo sale mal, ¿tengo forma de auditar qué pasó?
¿Quiero explorar primero en una máquina virtual dándole accesos progresivos?

Referencias

Puntos clave

  • 1OpenClaw funciona como un sistema de delegación de capacidades — no es solo un chatbot
  • 2El Gateway es single-tenant: si varios usuarios pueden hablarle al bot, comparten tu autoridad completa
  • 3Skills no añaden privilegios pero Plugins heredan todos los permisos del Gateway
  • 4Las instrucciones se pierden con context compaction pero las capacidades (tools) siempre están disponibles
  • 5Quitar herramientas destructivas es más robusto que pedirle al agente que no las use
  • 6Una máquina aparte reduce el blast radius local pero no protege servicios externos conectados
  • 7Hazte las 8 preguntas de seguridad antes de instalar

Preguntas frecuentes

¿Es seguro instalar OpenClaw en mi computadora personal?

Depende de tu configuración. El Gateway solo acepta conexiones desde localhost, pero si le das acceso a herramientas destructivas (borrar archivos, ejecutar comandos), el agente podría usarlas por error durante pérdida de contexto. La recomendación es empezar en una máquina aparte o VM.

¿Cuál es la diferencia entre Skills y Plugins en OpenClaw?

Skills son archivos SKILL.md que guían al agente pero no añaden privilegios por sí mismos. Plugins son módulos TypeScript que corren en el proceso del Gateway y heredan todos sus permisos. Un plugin malicioso puede bypassear tu modelo de seguridad.

¿Qué pasa si el agente pierde contexto durante una tarea larga?

El agente mantiene las herramientas (tools) disponibles pero puede olvidar instrucciones restrictivas como 'no borres nada'. Esto no es un bug sino una limitación estructural de los LLMs. La solución es no dar herramientas destructivas en primer lugar.

¿Preguntas o comentarios?

hello@munolabs.com