Tokens y ventana de contexto: optimiza el coste de los LLM 2026

"¿Por qué la factura de la IA es así?" "La IA olvida mis instrucciones iniciales cuando la conversación se alarga." Ambos misterios tienen la misma explicación: los tokens y la ventana de contexto.

En esta guía explicamos los dos conceptos que determinan la capacidad y el coste de un LLM, y repasamos técnicas prácticas para reducir costes sin perder calidad de salida. El contenido se basa en las lecciones fundamentales que usamos en nuestra formación corporativa y cursos online.

Qué aprenderás en este artículo

Qué es un token: la unidad mínima que procesa un LLM
Por qué es necesaria la tokenización: del texto a los IDs numéricos
Reglas para estimar tokens y por qué algunos idiomas salen "más caros"
Tokens de entrada vs. de salida: cómo funciona el precio, con ejemplo
Qué es la ventana de contexto: comparativa de los principales modelos
Por qué la IA "olvida" instrucciones: el contenido del contexto y la compactación
Seis técnicas para optimizar el uso de tokens y una lista de autocomprobación

Qué es un token: la unidad mínima de un LLM

Un token es la unidad mínima que utiliza un LLM (modelo de lenguaje de gran tamaño) para procesar texto. El modelo divide el texto en fragmentos de palabras o caracteres antes de procesarlo.

En inglés: "Hello, world!" → ["Hello", ",", " world", "!"] (unos 4 tokens)
En japonés, un saludo de cinco caracteres puede dividirse en 3 tokens (varía según el modelo)

Tres puntos clave:

Los idiomas difieren en eficiencia de tokens: el japonés, por ejemplo, consume más tokens que el inglés para el mismo significado
Un token ≈ unos 4 caracteres en inglés (1–2 caracteres en japonés)
El código y los símbolos siguen sus propias reglas de tokenización

Por qué es necesaria la tokenización

Los ordenadores no entienden los caracteres directamente; el texto debe convertirse en números:

Texto: "Hello AI"
Tokenización: ["Hello", " AI"]
Conversión a IDs: [15496, 9552]

Diagrama del flujo desde el texto hasta la división en tokens y los IDs numéricos

Cada token recibe un ID numérico único, y esos IDs son la entrada del modelo. Es decir, un LLM aprende patrones de IDs de tokens, no "el significado de las palabras".

Reglas aproximadas de estimación

Cantidad de texto	Tokens aproximados
1.000 palabras en inglés	~750 tokens
1.000 caracteres en japonés	~500–700 tokens
100 líneas de código	~500–1.500 tokens

Comprobar el número de tokens antes de llamar a la API permite prever los costes.

Tokens de entrada vs. de salida: cómo funciona el precio

El uso de un LLM se factura como tokens de entrada más tokens de salida, con tarifas distintas.

Categoría	Qué incluye	Nivel de precio
Tokens de entrada	Tu prompt, el system prompt, el historial de conversación, archivos adjuntos	Relativamente barato
Tokens de salida	El texto de respuesta de la IA, el código generado, la respuesta completa	Más caro que la entrada (2–8 veces)

Gráfico comparativo de la diferencia de precio entre tokens de entrada y de salida

Ejemplo de cálculo de nuestro curso (GPT-5.2, 2026):

Entrada: 1.000 tokens × 1,75 $/1M = 0,00175 $
Salida: 500 tokens × 14 $/1M = 0,007 $
Total: unos 0,009 $ por petición

Poco por petición, pero cientos de peticiones diarias en un equipo suman rápido. Por eso especificar el formato de salida para limitar los tokens de salida es la técnica de ahorro más eficaz.

Qué es la ventana de contexto

La ventana de contexto es el número máximo de tokens que un LLM puede procesar a la vez. Comparativa de los principales modelos (material del curso, 2026):

Modelo	Ventana de contexto	Equivalencia aproximada
GPT-5.2	400K tokens	~3 novelas
Claude Sonnet 4.6	200K tokens (1M Beta)	~1,5 novelas
Gemini 3 Pro	1M tokens	~7 novelas
Llama 4 Scout	10M tokens	~70 novelas
DeepSeek-V3.2	128K tokens	~1 novela

Por qué importa:

Es el límite duro al procesar conversaciones largas o archivos grandes
Más allá de la ventana, la información antigua se "olvida"
Ventana más grande = más información manejada a la vez

Por qué la IA "olvida" instrucciones: qué hay dentro del contexto

"Di instrucciones claras, pero a mitad de camino la IA empezó a ignorarlas." El culpable es la ventana de contexto.

La premisa crucial: la IA no "recuerda" la conversación. En cada turno, la ventana de contexto se llena con todo lo siguiente:

System prompt: la configuración y el comportamiento base de la IA
Prompt del usuario: la pregunta o instrucción actual
Tools / MCP / Rules: herramientas disponibles, conexiones externas, reglas del proyecto
Documentos (RAG): material de referencia recuperado por búsqueda
Historial de conversación: todo el chat hasta el momento

Si cierras la sesión, la IA lo olvida todo. Para memoria a largo plazo hay que guardar la información explícitamente con funciones de memoria o escribiéndola en archivos.

Compactación: qué pasa cuando la ventana se llena

Cuando la conversación se acerca al límite, se activa la compactación: los mensajes antiguos se resumen y se eliminan. Se libera espacio, pero se pierde información. La mayoría de los casos de "la IA olvidó mis instrucciones iniciales" se explican así.

Para hacerse una idea de la escala: leer una vez un archivo de 1.000 líneas consume unos 4.000 tokens. Leer 30 archivos y ejecutar 20 comandos puede superar los 100.000 tokens; los trabajos grandes no funcionarían sin compactación.

Ilustración de una ventana de contexto desordenada representada como un escritorio caótico saturado de información

Cuando todo tipo de información se amontona en el contexto, la IA se confunde como una persona ante un escritorio desordenado. Mantener limpio el contexto es la forma más sencilla de conservar la calidad de salida. El remedio es simple: iniciar una sesión nueva por tarea y anotar las decisiones importantes en archivos.

Seis técnicas para optimizar el uso de tokens

Técnica	Qué hacer	Ejemplo
1. Prompts concisos	Eliminar relleno; centrar la instrucción en lo esencial	"Haz X, y si es posible…" → "Ejecuta X"
2. Solo lo necesario	Extraer solo la parte relevante de archivos grandes	Pasar la función o sección concreta, no el archivo entero
3. Especificar el formato de salida	Indicar el formato para evitar relleno	"JSON, solo claves", "lista de máximo 5 puntos"
4. Gestionar el historial	Resumir y reiniciar conversaciones largas	Tras ~20 turnos, resumir lo clave y abrir un chat nuevo
5. Elegir bien el modelo	Ajustar el modelo a la complejidad de la tarea	Modelos ligeros para tareas simples, potentes para las complejas
6. Considerar el idioma	El inglés puede ser más eficiente en tokens	Instrucciones técnicas en inglés, resultado en tu idioma

Autocomprobación cuando el coste parece alto

Los puntos de mayor impacto de la lista de nuestro curso:

Una tarea = un chat: continuar tareas sin relación en una misma conversación acumula contexto irrelevante
No adjuntar archivos enormes enteros: un archivo de más de 1.000 líneas consume por sí solo más de 4.000 tokens; pasa solo el rango necesario
Planificar antes de ejecutar: el ensayo y error sin plan consume 2–3 veces más tokens por relecturas y repeticiones
Vigilar el tamaño de los archivos de reglas: se cargan en el contexto en cada turno; depura las reglas obsoletas con regularidad
Controlar el volumen de salida: "explícalo en detalle" infla los tokens de salida; especifica "conciso, en lista"

En resumen: consumo de tokens = entrada (contexto) + salida (respuesta). Mantén pequeña la entrada y controla el formato de salida, y el mismo trabajo costará muchísimo menos.

Preguntas frecuentes

Q. ¿Qué es un token y en qué se diferencia del número de caracteres? A. Un token es la unidad mínima con la que un LLM procesa texto, y no equivale uno a uno a los caracteres. En inglés, un token son unos 4 caracteres; 1.000 palabras en inglés equivalen a unos 750 tokens, mientras que 1.000 caracteres en japonés suponen entre 500 y 700 tokens. Los idiomas difieren en eficiencia de tokens — el mismo significado puede costar más tokens en un idioma que en otro —, lo cual afecta directamente a la gestión de costes.

Q. ¿Por qué la salida de la IA cuesta más que la entrada? A. Las tarifas de los LLM separan los tokens de entrada y de salida, y la salida suele costar entre 2 y 8 veces más. Por ejemplo, con GPT-5.2 (2026), una petición con 1.000 tokens de entrada y 500 de salida cuesta unos 0,009 $. Por eso, restringir el formato de salida — "lista de máximo 5 puntos" — es la optimización más barata y eficaz: recorta directamente la parte cara de la factura y además mejora la legibilidad.

Q. ¿Por qué la IA olvida mis instrucciones a mitad de conversación? A. Porque la IA no recuerda nada: en cada turno, todo el contexto (system prompt, reglas, documentos de referencia, historial completo) se empaqueta en la ventana de contexto. Cuando la conversación se acerca al límite, la compactación resume y elimina los mensajes antiguos, perdiendo información. Las contramedidas: una tarea por chat, resumir y reiniciar las conversaciones largas, y anotar las decisiones importantes en archivos en lugar de confiar en la "memoria" de la IA.

Q. ¿Una ventana de contexto más grande siempre es mejor? A. Una ventana mayor maneja más información a la vez (GPT-5.2 ofrece 400K tokens, Gemini 3 Pro 1M, Llama 4 Scout 10M), pero no es una licencia para meterlo todo. La información irrelevante confunde al modelo y degrada la precisión, y más tokens de entrada significan más coste. En el uso diario, pasar solo la información necesaria y mantener el contexto limpio mejora la calidad de salida más que el tamaño bruto de la ventana.

Q. ¿Cuál es la reducción de coste más sencilla que puedo aplicar hoy? A. Especificar el formato de salida. Restricciones como "lista de máximo 5 puntos" o "JSON, solo claves" reducen directamente los costosos tokens de salida. Después: aplicar una tarea por chat y no pegar nunca archivos enormes enteros, sino solo el rango relevante. Las tres medidas no requieren cambiar configuraciones, funcionan de inmediato y no implican pérdida de calidad.

Servicios relacionados

Currículo públicoConsulta resúmenes y duraciones de todos los módulos del recorrido de aprendizaje.

¿Listo para poner a trabajar los agentes de IA?

Convierte lo que acabas de leer en flujos de trabajo reales. AI Agent Camp ayuda a profesionales no técnicos a pasar de usar a construir.

Empezar gratis →

Última revisión: 2026-06-10