ARTICULO

7 optimizaciones para bajar el costo de Hermes Agent (de $10 a $3 por mes)

De $10 a $3 por mes en Hermes Agent. Siete optimizaciones concretas que podés aplicar hoy — empezando por toolsets restringidos.

2026-06-02

1. Restringí los toolsets por cron job

El error más común es dejar que Hermes cargue todas las herramientas en cada ejecución. Por defecto, carga web, terminal, file, browser, vision, search, cronjob, kanban y más. Cada herramienta suma cientos de tokens al system prompt.

El fix: usá enabled_toolsets en cada cron job para limitar qué herramientas carga.

Si el cron solo lee archivos, cargá ["file"]. Si solo busca en la web, cargá ["web"]. Si solo ejecuta comandos, ["terminal"]. Esto reduce entre 40% y 60% el input por ejecución.

2. Usá no_agent=True en crons que solo recopilan datos

No todos los crons necesitan que el LLM procese el output. Para crons que son scripts de recolección (watchdogs, monitoreo de estado, data collection), usá no_agent: true.

Cuando está activo, el script corre directamente, su stdout se entrega al usuario sin pasar por el LLM, y el costo de tokens es cero en esa ejecución.

3. Perfil "min" de DeepSeek para tareas livianas

DeepSeek ofrece deepseek-chat con un parámetro min que reduce la capacidad de razonamiento. Es el mismo modelo, pero optimizado para tareas que no requieren análisis profundo.

Casos ideales: investigación superficial, resúmenes de RSS, scrapers con plantillas fijas, data collection. El costo es ~50% menor que el modelo full.

4. Delegación paralela con delegate_task

En lugar de hacer 3 llamadas secuenciales al mismo modelo (cada una con su system prompt completo), usá delegación paralela con tasks=[...].

Los subagentes no cargan los skills del orquestador. El contexto compartido se paga una sola vez. Y como corren en paralelo, el tiempo real es el del más lento, no la suma.

Hasta 3 tasks concurrentes por usuario.

5. Output JSON al delegar a Claude Code

Cuando delegás tareas a Claude Code CLI, usá --output-format json. Devuelve:

`json {"num_turns": 8, "total_cost_usd": 0.0, "subtype": "success"} `

En lugar de páginas de texto narrativo que el orquestador tiene que leer y procesar. Menos tokens de output significan menos contexto acumulado para futuras interacciones.

6. Mantené el brain.md y los skills cortos

El system prompt se paga en cada request. Cada línea que agregás es un costo fijo por toda la duración de la sesión.

Regla práctica: brain.md en menos de 200 líneas, cada skill en menos de 100. Lo que no se usa en cada turno, no debería estar en el system prompt.

7. Higiene de sesiones: usá /new

Las sesiones largas de Telegram acumulan contexto. Después de 50+ mensajes, el modelo está pagando por releer toda la historia de la conversación.

Cortá sesiones cuando el tema cambia. Usá /new para empezar fresco. Las sesiones viejas quedan en la base de datos para búsqueda, no en el contexto activo.

El resumen práctico

Optimización	Impacto
Toolsets restringidos	-50% input
no_agent=True en crons	0 tokens en ese cron
Perfil "min" de DeepSeek	-50%
Skills on demand	System prompt ligero
Delegación paralela	Contexto compartido
Sesiones cortas	Historial no se acumula
Output JSON	Menos tokens de output

Resultado: de ~$10/mes a ~$3/mes. Sin perder capacidad real.

Probablemente tu mayor gasto de tokens esté en algo de esta lista. Arrancá por los toolsets — es el fix más inmediato y el de mayor impacto.

— Ariel Di Stefano