Guía

Tokens y ventana de contexto: optimiza el coste de los LLM 2026

Qué son los tokens y la ventana de contexto de un LLM: reglas de estimación, por qué la salida cuesta más, límites por modelo y seis técnicas de ahorro.

AI Agent CampEquipo editorial de AI Agent Camp··8 min de lectura

"¿Por qué la factura de la IA es así?" "La IA olvida mis instrucciones iniciales cuando la conversación se alarga." Ambos misterios tienen la misma explicación: los tokens y la ventana de contexto.

En esta guía explicamos los dos conceptos que determinan la capacidad y el coste de un LLM, y repasamos técnicas prácticas para reducir costes sin perder calidad de salida. El contenido se basa en las lecciones fundamentales que usamos en nuestra formación corporativa y cursos online.

Qué aprenderás en este artículo

  1. Qué es un token: la unidad mínima que procesa un LLM
  2. Por qué es necesaria la tokenización: del texto a los IDs numéricos
  3. Reglas para estimar tokens y por qué algunos idiomas salen "más caros"
  4. Tokens de entrada vs. de salida: cómo funciona el precio, con ejemplo
  5. Qué es la ventana de contexto: comparativa de los principales modelos
  6. Por qué la IA "olvida" instrucciones: el contenido del contexto y la compactación
  7. Seis técnicas para optimizar el uso de tokens y una lista de autocomprobación

Qué es un token: la unidad mínima de un LLM

Un token es la unidad mínima que utiliza un LLM (modelo de lenguaje de gran tamaño) para procesar texto. El modelo divide el texto en fragmentos de palabras o caracteres antes de procesarlo.

Tres puntos clave:

  1. Los idiomas difieren en eficiencia de tokens: el japonés, por ejemplo, consume más tokens que el inglés para el mismo significado
  2. Un token ≈ unos 4 caracteres en inglés (1–2 caracteres en japonés)
  3. El código y los símbolos siguen sus propias reglas de tokenización

Por qué es necesaria la tokenización

Los ordenadores no entienden los caracteres directamente; el texto debe convertirse en números:

  1. Texto: "Hello AI"
  2. Tokenización: ["Hello", " AI"]
  3. Conversión a IDs: [15496, 9552]

Diagrama del flujo desde el texto hasta la división en tokens y los IDs numéricos

Cada token recibe un ID numérico único, y esos IDs son la entrada del modelo. Es decir, un LLM aprende patrones de IDs de tokens, no "el significado de las palabras".

Reglas aproximadas de estimación

Cantidad de textoTokens aproximados
1.000 palabras en inglés~750 tokens
1.000 caracteres en japonés~500–700 tokens
100 líneas de código~500–1.500 tokens

Comprobar el número de tokens antes de llamar a la API permite prever los costes.

Tokens de entrada vs. de salida: cómo funciona el precio

El uso de un LLM se factura como tokens de entrada más tokens de salida, con tarifas distintas.

CategoríaQué incluyeNivel de precio
Tokens de entradaTu prompt, el system prompt, el historial de conversación, archivos adjuntosRelativamente barato
Tokens de salidaEl texto de respuesta de la IA, el código generado, la respuesta completaMás caro que la entrada (2–8 veces)

Gráfico comparativo de la diferencia de precio entre tokens de entrada y de salida

Ejemplo de cálculo de nuestro curso (GPT-5.2, 2026):

  1. Entrada: 1.000 tokens × 1,75 $/1M = 0,00175 $
  2. Salida: 500 tokens × 14 $/1M = 0,007 $
  3. Total: unos 0,009 $ por petición

Poco por petición, pero cientos de peticiones diarias en un equipo suman rápido. Por eso especificar el formato de salida para limitar los tokens de salida es la técnica de ahorro más eficaz.

Qué es la ventana de contexto

La ventana de contexto es el número máximo de tokens que un LLM puede procesar a la vez. Comparativa de los principales modelos (material del curso, 2026):

ModeloVentana de contextoEquivalencia aproximada
GPT-5.2400K tokens~3 novelas
Claude Sonnet 4.6200K tokens (1M Beta)~1,5 novelas
Gemini 3 Pro1M tokens~7 novelas
Llama 4 Scout10M tokens~70 novelas
DeepSeek-V3.2128K tokens~1 novela

Por qué importa:

  1. Es el límite duro al procesar conversaciones largas o archivos grandes
  2. Más allá de la ventana, la información antigua se "olvida"
  3. Ventana más grande = más información manejada a la vez

Por qué la IA "olvida" instrucciones: qué hay dentro del contexto

"Di instrucciones claras, pero a mitad de camino la IA empezó a ignorarlas." El culpable es la ventana de contexto.

La premisa crucial: la IA no "recuerda" la conversación. En cada turno, la ventana de contexto se llena con todo lo siguiente:

Si cierras la sesión, la IA lo olvida todo. Para memoria a largo plazo hay que guardar la información explícitamente con funciones de memoria o escribiéndola en archivos.

Compactación: qué pasa cuando la ventana se llena

Cuando la conversación se acerca al límite, se activa la compactación: los mensajes antiguos se resumen y se eliminan. Se libera espacio, pero se pierde información. La mayoría de los casos de "la IA olvidó mis instrucciones iniciales" se explican así.

Para hacerse una idea de la escala: leer una vez un archivo de 1.000 líneas consume unos 4.000 tokens. Leer 30 archivos y ejecutar 20 comandos puede superar los 100.000 tokens; los trabajos grandes no funcionarían sin compactación.

Ilustración de una ventana de contexto desordenada representada como un escritorio caótico saturado de información

Cuando todo tipo de información se amontona en el contexto, la IA se confunde como una persona ante un escritorio desordenado. Mantener limpio el contexto es la forma más sencilla de conservar la calidad de salida. El remedio es simple: iniciar una sesión nueva por tarea y anotar las decisiones importantes en archivos.

Seis técnicas para optimizar el uso de tokens

TécnicaQué hacerEjemplo
1. Prompts concisosEliminar relleno; centrar la instrucción en lo esencial"Haz X, y si es posible…" → "Ejecuta X"
2. Solo lo necesarioExtraer solo la parte relevante de archivos grandesPasar la función o sección concreta, no el archivo entero
3. Especificar el formato de salidaIndicar el formato para evitar relleno"JSON, solo claves", "lista de máximo 5 puntos"
4. Gestionar el historialResumir y reiniciar conversaciones largasTras ~20 turnos, resumir lo clave y abrir un chat nuevo
5. Elegir bien el modeloAjustar el modelo a la complejidad de la tareaModelos ligeros para tareas simples, potentes para las complejas
6. Considerar el idiomaEl inglés puede ser más eficiente en tokensInstrucciones técnicas en inglés, resultado en tu idioma

Autocomprobación cuando el coste parece alto

Los puntos de mayor impacto de la lista de nuestro curso:

  1. Una tarea = un chat: continuar tareas sin relación en una misma conversación acumula contexto irrelevante
  2. No adjuntar archivos enormes enteros: un archivo de más de 1.000 líneas consume por sí solo más de 4.000 tokens; pasa solo el rango necesario
  3. Planificar antes de ejecutar: el ensayo y error sin plan consume 2–3 veces más tokens por relecturas y repeticiones
  4. Vigilar el tamaño de los archivos de reglas: se cargan en el contexto en cada turno; depura las reglas obsoletas con regularidad
  5. Controlar el volumen de salida: "explícalo en detalle" infla los tokens de salida; especifica "conciso, en lista"

En resumen: consumo de tokens = entrada (contexto) + salida (respuesta). Mantén pequeña la entrada y controla el formato de salida, y el mismo trabajo costará muchísimo menos.

Preguntas frecuentes

Q. ¿Qué es un token y en qué se diferencia del número de caracteres? A. Un token es la unidad mínima con la que un LLM procesa texto, y no equivale uno a uno a los caracteres. En inglés, un token son unos 4 caracteres; 1.000 palabras en inglés equivalen a unos 750 tokens, mientras que 1.000 caracteres en japonés suponen entre 500 y 700 tokens. Los idiomas difieren en eficiencia de tokens — el mismo significado puede costar más tokens en un idioma que en otro —, lo cual afecta directamente a la gestión de costes.

Q. ¿Por qué la salida de la IA cuesta más que la entrada? A. Las tarifas de los LLM separan los tokens de entrada y de salida, y la salida suele costar entre 2 y 8 veces más. Por ejemplo, con GPT-5.2 (2026), una petición con 1.000 tokens de entrada y 500 de salida cuesta unos 0,009 $. Por eso, restringir el formato de salida — "lista de máximo 5 puntos" — es la optimización más barata y eficaz: recorta directamente la parte cara de la factura y además mejora la legibilidad.

Q. ¿Por qué la IA olvida mis instrucciones a mitad de conversación? A. Porque la IA no recuerda nada: en cada turno, todo el contexto (system prompt, reglas, documentos de referencia, historial completo) se empaqueta en la ventana de contexto. Cuando la conversación se acerca al límite, la compactación resume y elimina los mensajes antiguos, perdiendo información. Las contramedidas: una tarea por chat, resumir y reiniciar las conversaciones largas, y anotar las decisiones importantes en archivos en lugar de confiar en la "memoria" de la IA.

Q. ¿Una ventana de contexto más grande siempre es mejor? A. Una ventana mayor maneja más información a la vez (GPT-5.2 ofrece 400K tokens, Gemini 3 Pro 1M, Llama 4 Scout 10M), pero no es una licencia para meterlo todo. La información irrelevante confunde al modelo y degrada la precisión, y más tokens de entrada significan más coste. En el uso diario, pasar solo la información necesaria y mantener el contexto limpio mejora la calidad de salida más que el tamaño bruto de la ventana.

Q. ¿Cuál es la reducción de coste más sencilla que puedo aplicar hoy? A. Especificar el formato de salida. Restricciones como "lista de máximo 5 puntos" o "JSON, solo claves" reducen directamente los costosos tokens de salida. Después: aplicar una tarea por chat y no pegar nunca archivos enormes enteros, sino solo el rango relevante. Las tres medidas no requieren cambiar configuraciones, funcionan de inmediato y no implican pérdida de calidad.

Artículos relacionados

¿Listo para poner a trabajar los agentes de IA?

Convierte lo que acabas de leer en flujos de trabajo reales. AI Agent Camp ayuda a profesionales no técnicos a pasar de usar a construir.

Última revisión: 2026-06-10

Tokens y ventana de contexto: optimiza el coste de los LLM 2026