Gestión de Contexto y Documentos Largos

Por: Artiko
claudecertificacioncontextotokenschunking

Gestión de Contexto y Documentos Largos

Anterior: Batch Processing · Índice · Siguiente: Reliability y Escalación


Context window: capacidad y degradación

Claude tiene un context window de 200k tokens (~150,000 palabras). Sin embargo, la calidad de las respuestas degrada progresivamente a medida que se llena el contexto.

Regla del 40%

La degradación de calidad se vuelve notable al ~40% de uso del context window (~80k tokens). Después de ese punto:

Para el examen: La respuesta correcta a “qué pasa cuando el contexto se llena” NO es “Claude falla” sino “la calidad degrada gradualmente”. El modelo sigue funcionando pero con menor precisión.

Implicaciones prácticas


Estrategias para documentos largos

Chunking

Dividir documentos grandes en segmentos procesables:

Por tamaño fijo: Dividir cada N tokens con overlap

Por estructura semántica: Dividir por secciones, capítulos, o unidades lógicas

Estrategia de overlap: 10-20% de overlap entre chunks adyacentes para que información en el boundary no se pierda.

Cuándo chunking no es necesario

Si el documento cabe en <40% del context window (~80k tokens, ~60,000 palabras), procesarlo completo suele dar mejores resultados que chunking, porque Claude tiene el contexto completo.


Summarization

Para documentos o conversaciones que exceden el contexto útil:

Summarization progresiva

En conversaciones largas, resumir periódicamente el contexto acumulado:

  1. Cada N mensajes, generar un summary del progreso
  2. Reemplazar mensajes viejos con el summary
  3. Continuar con: summary + mensajes recientes

Summarization para handoffs

Cuando un agente pasa trabajo a otro (o entre sesiones):

Malo: Pasar toda la conversación raw

Bueno: Pasar un structured summary


Context loading selectivo

Solo cargar lo relevante

En lugar de cargar todo el proyecto, cargar solo los archivos relevantes a la tarea actual:

Priorización de contexto

Orden de prioridad en el contexto:

  1. System prompt — instrucciones permanentes (siempre al inicio)
  2. Tarea actual — lo que se necesita hacer ahora
  3. Archivos directamente relevantes — código que se va a modificar
  4. Contexto de soporte — tipos, interfaces, tests relacionados
  5. Background — documentación, specs (solo si cabe)

Context loading en Claude Code

Claude Code hace context loading selectivo automáticamente:


Multi-turn conversation management

Cuándo comprimir

Señales de que la conversación necesita compresión:

Cuándo empezar sesión nueva

Patrón de handoff entre sesiones

  1. Pedir a Claude que genere un summary del trabajo hecho
  2. Guardar el summary en un archivo (session-notes.md o similar)
  3. En la nueva sesión, cargar solo el summary + archivos relevantes
  4. Continuar desde donde se dejó con contexto fresco

Pasar contexto entre agentes

Via archivos persistidos (recomendado)

Cuando un agente coordinator spawna subagentes:

Via contexto compartido (NO recomendado)

Para el examen: La forma correcta de pasar información entre agentes es via archivos persistidos, no via contexto compartido en memoria. Esto es un patrón fundamental del Agent SDK.


Estrategias de caching

Prompt caching

Para system prompts largos o few-shot examples que se repiten:

Cuándo el caching ayuda más


Resumen


Anterior: Batch Processing · Índice · Siguiente: Reliability y Escalación