Episodio 01 — Fundamentos

Todo empieza con el siguiente token.

Antes de prompts, agentes o Claude Code, hay una sola máquina debajo de todo. En este episodio lo abrimos: qué es un LLM, de qué está hecho, cómo decide, y qué controlas tú cuando lo usas.

// Lo único que hace un modelo de lenguaje

Un modelo predice el siguiente token

Eso es, literalmente, todo. Un LLM mira el texto que lleva y estima qué token viene después. Repite ese paso miles de veces y aparece una respuesta. El resto del episodio explica por qué eso alcanza para tanto.

Nivel: Principiante → Intermedio
Duración: ≈ 90 minutos
Requisitos: Solo curiosidad
Formato: Teoría + práctica en Claude

¿Qué es un LLM?

Termina sabiendo qué es —y qué no es— un modelo de lenguaje, y la única idea que explica todo lo demás.

Definición en una frase, y luego la versión técnica: Large Language Model.
La idea central: predecir el siguiente token a partir del texto anterior.
Breve historia sin nostalgia: reglas → estadística → redes neuronales → Transformers.
Por qué justo ahora: la combinación de datos + cómputo + escala.
Qué no es: no es una base de datos, no "busca" en internet, no entiende como un humano, no tiene intenciones.

Tokens: la unidad atómica

El concepto más rentable de todo el episodio. Si entiendes tokens, entiendes costos, límites y la mitad de los problemas.

Qué es un token: ni una palabra ni una letra, sino un pedazo.
Tokenización: cómo el texto se convierte en números (BPE, a vista de pájaro).
Tokens e idiomas: por qué el español y otros idiomas gastan más tokens que el inglés.
El vocabulario del modelo y por qué emojis o código se parten raro.
Consecuencias prácticas: precio, velocidad y límites se miden en tokens, no en palabras.

Ejercicio en Claude

Pegaremos la misma frase en español y en inglés y le pediremos a Claude que estime los tokens de cada una, para ver con números por qué el idioma importa.

// Herramienta · contá los tokens en vivo

Caracteres

Palabras

Tokens (est.)

Car. / token

// Visualización ilustrativa

Si el modelo cuesta $ por millón de tokens…

$0.00esta entrada

Es una estimación. El conteo exacto depende del tokenizador de cada modelo, así que tómalo como una guía cercana, no como una cifra oficial. Prueba la misma frase en inglés y en español con los botones de arriba para ver el "impuesto lingüístico" con tus propios ojos. El precio es un ejemplo editable, porque las tarifas reales cambian con el tiempo y el modelo.

Qué pasa por dentro

La intuición de cómo funciona un Transformer, sin una sola ecuación que dé miedo.

Embeddings: convertir palabras en vectores, donde el significado se vuelve geometría.
El Transformer de un vistazo: capas que transforman texto en predicciones.
Atención (attention): cómo el modelo decide a qué partes del texto "mirar".
Qué son los parámetros: los miles de millones de "pesos" ajustados durante el entrenamiento.
Generación autoregresiva: la respuesta se construye un token a la vez, realimentándose.

// Interactivo · proximidad = significado

Pasa el cursor —o toca— una palabra para resaltar sus tres vecinos más cercanos. Fíjate en que se agrupan por significado —animales con animales, lugares con lugares— sin que nadie lo haya programado.

// Interactivo · relaciones = direcciones

Lo más sorprendente: las relaciones entre palabras son direcciones en el espacio. A "rey" réstale "hombre" y súmale "mujer", y aterrizas cerca de "reina". Elige una analogía o ármala tú mismo.

resultado ≈ − +

Pruébalo en Claude

Pídele a Claude: Dame 6 términos semánticamente cercanos a "inferencia causal" y explica brevemente cada relación. Observa que responde por significado, no por coincidencia de caracteres —justo lo que permiten los embeddings.

Cómo aprende: el entrenamiento

De dónde sale el "conocimiento" del modelo y por qué a veces se equivoca con total seguridad.

Pre-entrenamiento: leer cantidades enormes de texto prediciendo el siguiente token.
Fine-tuning: especializar el modelo para seguir instrucciones y conversar.
RLHF y alineación: cómo se hace que un modelo sea útil, honesto y seguro.
Knowledge cutoff: la fecha de corte del conocimiento y qué implica.
Por qué "saber" para un LLM es distinto de "recordar un dato" puntual.

Parámetros que tú controlas

Las perillas reales de la inferencia. Aquí dejas de ser espectador y empiezas a manejar el modelo.

temperature (entre 0 y 1 en Claude): el dial entre respuestas predecibles (cerca de 0) y creativas (cerca de 1).
top_p y top_k: otra forma de controlar cuánto se arriesga al elegir el token. Regla práctica: mueve temperature o top_p, no ambos a la vez.
max_tokens: cuánto puede escribir como máximo (obligatorio en la API), y por qué a veces se corta a media respuesta.
stop_sequences: textos que, al aparecer, cortan la generación. Y el system prompt: el rol y el contexto que pesan sobre toda la conversación.
Dato clave: en Opus 4.7 y posteriores (incluido Opus 4.8), temperature, top_p y top_k ya no se aceptan —el modelo muestrea solo y, en su lugar, controlas un nivel de esfuerzo. Sonnet 4.6 y Haiku 4.5 sí usan las perillas clásicas.

Ejercicio en Claude

Le pediremos a Claude la misma frase creativa varias veces "como si la temperatura fuera baja" y luego "alta", para sentir en la práctica qué cambia ese parámetro.

La ventana de contexto

La "memoria de trabajo" del modelo: qué cabe, qué se olvida y cómo aprovecharla bien.

Qué es el context window y por qué se mide en tokens.
Tokens de entrada vs. tokens de salida: las dos mitades del presupuesto. La salida cuesta ~5× más que la entrada (en Opus 4.8, $5 vs. $25 por millón de tokens), porque leer el contexto es paralelo y generar texto es secuencial.
Por qué el modelo no "recuerda" entre conversaciones distintas.
Qué pasa cuando se llena: truncado, pérdida de información y el efecto lost in the middle.
Tácticas para gestionar contexto largo (la antesala de RAG y del episodio de Agents).

La curva de atención en forma de “U”. El modelo recupera con más precisión lo que está al inicio y al final del contexto; lo que cae en el centro (≈40–60%) es lo que más se le escapa. La táctica que sigue de aquí: poné las restricciones e instrucciones clave al principio y la tarea concreta al final. Fenómeno documentado por Liu et al. (2023).

Capacidades y límites

Una imagen honesta: qué hace excelente, dónde falla y cómo trabajar con esas fallas en vez de chocar con ellas.

En qué brillan: lenguaje, resumen, transformación, código, razonamiento guiado.
Alucinaciones: qué son, por qué ocurren y cómo reducirlas.
Sesgos: reflejan los datos con que se entrenó. Un modelo que puntúa crédito puede replicar desigualdades históricas con apariencia de objetividad —realidad estadística, no debate moral.
Los límites del razonamiento y por qué a veces "se inventa" pasos.
No determinismo y uso responsable: cuándo confiar y cuándo verificar.

Ejercicio en Claude

Provocaremos (a propósito) una alucinación con una pregunta tramposa y luego la corregiremos cambiando cómo preguntamos. Aprender a detectarlas es la meta.

El ecosistema y qué sigue

Ubicarte en el mapa: qué modelos existen, cómo elegir y cómo este episodio conecta con el resto del curso.

La familia Claude, la que usaremos en todo el curso: Haiku 4.5 (rápido y barato), Sonnet 4.6 (el equilibrado, el que más usarás) y Opus 4.8 (máxima capacidad). Otras familias —GPT, Gemini, Llama— juegan parecido y los conceptos se trasladan.
Cómo elegir: empieza en Sonnet; sube a Opus cuando el razonamiento es duro o equivocarse sale caro; baja a Haiku cuando importan el volumen y la velocidad. (Ej.: clasificar miles de registros → Haiku; diseñar una estrategia de identificación → Opus.)
La frontera, con asterisco: por encima existe el nivel "Mythos" (Fable 5, Mythos 5), pero su acceso está hoy restringido o suspendido —en la práctica, Opus 4.8 es el más capaz que puedes usar.
Multimodalidad: los modelos Claude actuales entienden texto e imágenes, no solo texto.
El puente con el resto del curso: LLMs → Prompts → Agents → Skills → Loops → Claude Code. Cada bloque se apoya en el anterior.

Práctica

Ejercicios en Claude

Lo que haremos con las manos

Cada módulo tiene su práctica, pero aquí están juntas: prompts listos para pegar en Claude y comprobar tú mismo cada concepto.

EJ 1

Cuenta tokens

Misma frase en dos idiomas → ver por qué el idioma cambia el costo.

EJ 2

Sube y baja la "temperatura"

Pedir creatividad controlada y notar el cambio de variedad.

EJ 3

Caza la alucinación

Forzar un error y luego corregirlo cambiando la pregunta.

EJ 4

Prueba la ventana de contexto

Dar mucha información y ver qué recuerda y qué se pierde.

EJ 5

Mismo objetivo, dos prompts

Comparar un prompt vago contra uno claro (anticipo del Episodio 02).