Episodio 01 — Fundamentos
Todo empieza con el siguiente token.
Antes de prompts, agentes o Claude Code, hay una sola máquina debajo de todo. En este episodio lo abrimos: qué es un LLM, de qué está hecho, cómo decide, y qué controlas tú cuando lo usas.
// Lo único que hace un modelo de lenguaje
Eso es, literalmente, todo. Un LLM mira el texto que lleva y estima qué token viene después. Repite ese paso miles de veces y aparece una respuesta. El resto del episodio explica por qué eso alcanza para tanto.
¿Qué es un LLM?
Termina sabiendo qué es —y qué no es— un modelo de lenguaje, y la única idea que explica todo lo demás.
- Definición en una frase, y luego la versión técnica: Large Language Model.
- La idea central: predecir el siguiente token a partir del texto anterior.
- Breve historia sin nostalgia: reglas → estadística → redes neuronales → Transformers.
- Por qué justo ahora: la combinación de datos + cómputo + escala.
- Qué no es: no es una base de datos, no "busca" en internet, no entiende como un humano, no tiene intenciones.
Tokens: la unidad atómica
El concepto más rentable de todo el episodio. Si entiendes tokens, entiendes costos, límites y la mitad de los problemas.
- Qué es un token: ni una palabra ni una letra, sino un pedazo.
- Tokenización: cómo el texto se convierte en números (BPE, a vista de pájaro).
- Tokens e idiomas: por qué el español y otros idiomas gastan más tokens que el inglés.
- El vocabulario del modelo y por qué emojis o código se parten raro.
- Consecuencias prácticas: precio, velocidad y límites se miden en tokens, no en palabras.
Pegaremos la misma frase en español y en inglés y le pediremos a Claude que estime los tokens de cada una, para ver con números por qué el idioma importa.
// Herramienta · contá los tokens en vivo
// Visualización ilustrativa
Es una estimación. El conteo exacto depende del tokenizador de cada modelo, así que tómalo como una guía cercana, no como una cifra oficial. Prueba la misma frase en inglés y en español con los botones de arriba para ver el "impuesto lingüístico" con tus propios ojos. El precio es un ejemplo editable, porque las tarifas reales cambian con el tiempo y el modelo.
Qué pasa por dentro
La intuición de cómo funciona un Transformer, sin una sola ecuación que dé miedo.
- Embeddings: convertir palabras en vectores, donde el significado se vuelve geometría.
- El Transformer de un vistazo: capas que transforman texto en predicciones.
- Atención (attention): cómo el modelo decide a qué partes del texto "mirar".
- Qué son los parámetros: los miles de millones de "pesos" ajustados durante el entrenamiento.
- Generación autoregresiva: la respuesta se construye un token a la vez, realimentándose.
// Interactivo · proximidad = significado
Pasa el cursor —o toca— una palabra para resaltar sus tres vecinos más cercanos. Fíjate en que se agrupan por significado —animales con animales, lugares con lugares— sin que nadie lo haya programado.
// Interactivo · relaciones = direcciones
Lo más sorprendente: las relaciones entre palabras son direcciones en el espacio. A "rey" réstale "hombre" y súmale "mujer", y aterrizas cerca de "reina". Elige una analogía o ármala tú mismo.
Pídele a Claude: Dame 6 términos semánticamente cercanos a "inferencia causal" y explica brevemente cada relación. Observa que responde por significado, no por coincidencia de caracteres —justo lo que permiten los embeddings.
Cómo aprende: el entrenamiento
De dónde sale el "conocimiento" del modelo y por qué a veces se equivoca con total seguridad.
- Pre-entrenamiento: leer cantidades enormes de texto prediciendo el siguiente token.
- Fine-tuning: especializar el modelo para seguir instrucciones y conversar.
- RLHF y alineación: cómo se hace que un modelo sea útil, honesto y seguro.
- Knowledge cutoff: la fecha de corte del conocimiento y qué implica.
- Por qué "saber" para un LLM es distinto de "recordar un dato" puntual.
Parámetros que tú controlas
Las perillas reales de la inferencia. Aquí dejas de ser espectador y empiezas a manejar el modelo.
- temperature (entre 0 y 1 en Claude): el dial entre respuestas predecibles (cerca de 0) y creativas (cerca de 1).
- top_p y top_k: otra forma de controlar cuánto se arriesga al elegir el token. Regla práctica: mueve temperature o top_p, no ambos a la vez.
- max_tokens: cuánto puede escribir como máximo (obligatorio en la API), y por qué a veces se corta a media respuesta.
- stop_sequences: textos que, al aparecer, cortan la generación. Y el system prompt: el rol y el contexto que pesan sobre toda la conversación.
- Dato clave: en Opus 4.7 y posteriores (incluido Opus 4.8), temperature, top_p y top_k ya no se aceptan —el modelo muestrea solo y, en su lugar, controlas un nivel de esfuerzo. Sonnet 4.6 y Haiku 4.5 sí usan las perillas clásicas.
Le pediremos a Claude la misma frase creativa varias veces "como si la temperatura fuera baja" y luego "alta", para sentir en la práctica qué cambia ese parámetro.
La ventana de contexto
La "memoria de trabajo" del modelo: qué cabe, qué se olvida y cómo aprovecharla bien.
- Qué es el context window y por qué se mide en tokens.
- Tokens de entrada vs. tokens de salida: las dos mitades del presupuesto. La salida cuesta ~5× más que la entrada (en Opus 4.8, $5 vs. $25 por millón de tokens), porque leer el contexto es paralelo y generar texto es secuencial.
- Por qué el modelo no "recuerda" entre conversaciones distintas.
- Qué pasa cuando se llena: truncado, pérdida de información y el efecto lost in the middle.
- Tácticas para gestionar contexto largo (la antesala de RAG y del episodio de Agents).
Capacidades y límites
Una imagen honesta: qué hace excelente, dónde falla y cómo trabajar con esas fallas en vez de chocar con ellas.
- En qué brillan: lenguaje, resumen, transformación, código, razonamiento guiado.
- Alucinaciones: qué son, por qué ocurren y cómo reducirlas.
- Sesgos: reflejan los datos con que se entrenó. Un modelo que puntúa crédito puede replicar desigualdades históricas con apariencia de objetividad —realidad estadística, no debate moral.
- Los límites del razonamiento y por qué a veces "se inventa" pasos.
- No determinismo y uso responsable: cuándo confiar y cuándo verificar.
Provocaremos (a propósito) una alucinación con una pregunta tramposa y luego la corregiremos cambiando cómo preguntamos. Aprender a detectarlas es la meta.
El ecosistema y qué sigue
Ubicarte en el mapa: qué modelos existen, cómo elegir y cómo este episodio conecta con el resto del curso.
- La familia Claude, la que usaremos en todo el curso: Haiku 4.5 (rápido y barato), Sonnet 4.6 (el equilibrado, el que más usarás) y Opus 4.8 (máxima capacidad). Otras familias —GPT, Gemini, Llama— juegan parecido y los conceptos se trasladan.
- Cómo elegir: empieza en Sonnet; sube a Opus cuando el razonamiento es duro o equivocarse sale caro; baja a Haiku cuando importan el volumen y la velocidad. (Ej.: clasificar miles de registros → Haiku; diseñar una estrategia de identificación → Opus.)
- La frontera, con asterisco: por encima existe el nivel "Mythos" (Fable 5, Mythos 5), pero su acceso está hoy restringido o suspendido —en la práctica, Opus 4.8 es el más capaz que puedes usar.
- Multimodalidad: los modelos Claude actuales entienden texto e imágenes, no solo texto.
- El puente con el resto del curso: LLMs → Prompts → Agents → Skills → Loops → Claude Code. Cada bloque se apoya en el anterior.
Ejercicios en Claude
Lo que haremos con las manos
Cada módulo tiene su práctica, pero aquí están juntas: prompts listos para pegar en Claude y comprobar tú mismo cada concepto.
Cuenta tokens
Misma frase en dos idiomas → ver por qué el idioma cambia el costo.
Sube y baja la "temperatura"
Pedir creatividad controlada y notar el cambio de variedad.
Caza la alucinación
Forzar un error y luego corregirlo cambiando la pregunta.
Prueba la ventana de contexto
Dar mucha información y ver qué recuerda y qué se pierde.
Mismo objetivo, dos prompts
Comparar un prompt vago contra uno claro (anticipo del Episodio 02).