Unidad 8 - Árboles de Clasificación
Introducción al Business Analytics · Semana 11 · 06278-ECO
1 Objetivo de la semana
El foco está en clasificación supervisada: dado un conjunto de datos con una etiqueta conocida (aprobado/rechazado, churn/activo, precio alto/bajo), aprender a construir e interpretar un árbol de clasificación y evaluar qué tan bien predice casos nuevos. El énfasis está en leer lo que el modelo dice y conectarlo con una decisión de negocio, no en el código.
1.1 Lo que cubriremos
- Intuición del árbol de decisión: preguntas que dividen datos
- Cómo el árbol aprende: impureza, divisiones y hojas
- Cómo leer un árbol de clasificación: nodos, ramas y predicciones
- La matriz de confusión: TP, FP, TN, FN
- Métricas: accuracy, precisión y recall
- Cuándo importa más cada métrica
Conexión con semanas anteriores
| Semana 09 | Semana 10 | Semana 11 |
|---|---|---|
| Pipeline ML, train/test, métricas | Clustering (no supervisado) | Árbol de clasificación (supervisado) |
| “¿Tenemos etiqueta de resultado?” | Sin etiqueta → grupos | Con etiqueta → predicción de categoría |
| Concepto de accuracy | Sin métrica de acierto/fallo | Accuracy, precisión, recall en la práctica |
| Leakage, overfitting | Elbow, silhouette | Overfitting según profundidad del árbol |
Esta semana tocamos el primer algoritmo supervisado del curso: el modelo aprende de ejemplos pasados con etiqueta para predecir casos nuevos. A diferencia del clustering, aquí sí sabemos si el modelo se equivocó.
2 La intuición: el árbol como serie de preguntas
Antes de cualquier fórmula, piensa en cómo toma decisiones un buen analista de crédito. Cuando alguien pide un préstamo, el analista no aplica una fórmula matemática ciega: hace preguntas en secuencia.
“¿Tiene ingresos mensuales superiores a 3 millones?”
→ No: rechazar (alto riesgo).
→ Sí: siguiente pregunta.“¿Su historial crediticio es positivo?”
→ No: condicional, pedir garantías.
→ Sí: aprobar.
Eso es exactamente un árbol de clasificación: una serie de preguntas binarias encadenadas que terminan en la predicción de una categoría.
2.1 Vocabulario mínimo
Nodo raíz — La primera pregunta. El modelo elige la variable que mejor separa las clases posibles.
Nodo interno — Preguntas intermedias. Cada una divide más el subgrupo que llegó a ese punto.
Hoja — El final del árbol: la predicción. Es la categoría más frecuente entre las observaciones de entrenamiento que cayeron en ese nodo.
Profundidad — Cuántos niveles de preguntas tiene el árbol. Profundidad 1 = una pregunta. Más profundidad = más complejo = más riesgo de sobreajuste.
Sobreajuste vs. subajuste
Un árbol muy profundo memoriza los datos de entrenamiento: accuracy alta en train, baja en test. Un árbol muy superficial es demasiado simple: accuracy baja en ambos. La profundidad máxima es el parámetro de control más importante.
3 Árbol de clasificación: predecir una categoría
El siguiente video muestra la intuición general de un árbol de clasificación.
Ahora vamos a verlo en acción con un ejemplo concreto: 8 solicitudes de crédito donde solo conocemos el ingreso mensual y el historial crediticio de cada solicitante. El objetivo es entender tres cosas que verás en los diagramas que siguen: primero, cómo el árbol elige su primera pregunta; segundo, qué significa la predicción que aparece en cada hoja; y tercero, qué ocurre cuando le permitimos al árbol hacer una segunda pregunta — y por qué eso no siempre es mejor.
3.1 Cómo aprende el árbol
Para elegir en qué variable y en qué valor cortar, el árbol mide la impureza de cada posible división: qué tan mezcladas quedan las clases en cada grupo después del corte. El corte que produce los grupos más “puros” (menos mezclados) es el que elige.
Imagina 10 solicitantes de crédito y el objetivo de predecir “Aprobado” / “Rechazado”:
- Si el corte en ingresos > 3M separa perfectamente aprobados de rechazados → impureza = 0, corte perfecto.
- Si el corte en número de hijos mezcla aprobados y rechazados por igual → impureza alta, corte inútil.
El árbol repite este proceso en cada nodo hasta llegar a la profundidad máxima o hasta que los grupos sean suficientemente puros.
3.2 Un árbol con profundidad 1
El siguiente ejemplo usa 8 solicitudes de crédito con dos variables: ingreso mensual (millones) e historial crediticio (1 = positivo, 0 = negativo).
| Solicitante | Ingreso (M) | Historial | Decisión real |
|---|---|---|---|
| A | 1.5 | 0 | Rechazado |
| B | 2.0 | 0 | Rechazado |
| C | 2.5 | 1 | Rechazado |
| D | 3.0 | 0 | Rechazado |
| E | 3.5 | 1 | Aprobado |
| F | 4.0 | 1 | Aprobado |
| G | 4.5 | 0 | Aprobado |
| H | 5.0 | 1 | Aprobado |
El árbol analiza todos los posibles cortes y encuentra que Ingreso ≥ 3.5M es el que mejor separa las clases:
- Rama izquierda (Ingreso < 3.5M): A, B, C, D → todos rechazados → hoja: Rechazado
- Rama derecha (Ingreso ≥ 3.5M): E, F, G, H → todos aprobados → hoja: Aprobado
¿Cómo predice el árbol un caso nuevo?
Llega una solicitud con ingreso de 2.8M:
- ¿Ingreso ≥ 3.5M? → No → rama izquierda → predicción: Rechazado
Llega otra con ingreso de 4.2M:
- ¿Ingreso ≥ 3.5M? → Sí → rama derecha → predicción: Aprobado
La predicción es determinista: para el mismo dato, siempre da la misma respuesta.
3.3 ¿Qué pasa si el árbol es más profundo?
Con profundidad 1, el árbol rechaza al solicitante C (ingreso 2.5M, historial positivo) porque cayó en el grupo izquierdo junto con A, B y D. ¿Pero C merece el mismo trato que alguien con historial negativo?
Con profundidad 2, el árbol puede hacer una segunda pregunta dentro del grupo izquierdo:
Con profundidad 2, el árbol detecta que C (ingreso bajo pero historial positivo) merece aprobación. La segunda pregunta refina la predicción, pero también hace el modelo más complejo — y si los datos de entrenamiento son pocos, puede memorizarlos en vez de aprender un patrón real.
4 Explóralo tú mismo: árbol de clasificación interactivo
Experimenta con los parámetros del árbol. El playground tiene dos pestañas: el Mapa de decisión (cómo divide el espacio de datos en regiones de colores) y la Estructura del árbol (las preguntas que hace, visualizadas como nodos).
¿Qué explorar?
- Con “Aprobación de crédito” y profundidad 1: ¿cuál es la única pregunta del árbol? Cambia al tab Árbol para verla.
- Sube la profundidad a 4 o 5: ¿la accuracy en train sube? ¿Y en test? ¿Hay sobreajuste?
- Baja el mínimo de muestras por hoja a 1: ¿el árbol se vuelve más o menos complejo?
- Compara ambas pestañas: cada línea divisoria del Mapa corresponde a un nodo en el Árbol.
5 La matriz de confusión: leer un modelo de clasificación
En el video anterior viste cómo un árbol de clasificación llega a una predicción: recorre sus preguntas y termina en una hoja que dice “Aprobado” o “Rechazado”. Pero predecir no es suficiente — necesitamos saber qué tan bien predice, y para eso necesitamos comparar lo que el modelo dijo con lo que realmente ocurrió.
Esa comparación se organiza en una tabla de cuatro celdas llamada matriz de confusión. En este video vas a ver cómo se construye celda por celda, siguiendo dos reglas simples: la primera letra (Verdadero o Falso) depende de si el modelo acertó; la segunda (Positivo o Negativo) depende únicamente de lo que el modelo predijo. Al final del video el profesor te propone un ejercicio de conteo — páusalo y resuélvelo antes de seguir, porque en clase trabajarás con exactamente esta misma lógica aplicada a datos reales.
Cuando el árbol predice sobre el conjunto de prueba, comparamos lo que predijo con lo que realmente ocurrió. Ese resumen es la matriz de confusión.
5.1 La tabla 2×2
| Predicho: Aprobado | Predicho: Rechazado | |
|---|---|---|
| Real: Aprobado | Verdadero Positivo (TP) | Falso Negativo (FN) |
| Real: Rechazado | Falso Positivo (FP) | Verdadero Negativo (TN) |
Los cuatro resultados posibles:
TP (Verdadero Positivo): Dijo “Aprobado” y era aprobado. Acierto donde importaba.
TN (Verdadero Negativo): Dijo “Rechazado” y era rechazado. Acierto también.
FP (Falso Positivo): Dijo “Aprobado” pero era rechazado → riesgo de impago para la entidad.
FN (Falso Negativo): Dijo “Rechazado” pero era aprobado → se perdió un buen cliente.
Regla de memoria: el primer adjetivo (Verdadero/Falso) dice si acertó. El segundo sustantivo (Positivo/Negativo) dice lo que predijo el modelo.
5.2 Las métricas que salen de la matriz
Accuracy:
\[\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}\]
Fracción de casos correctamente clasificados.
Limitación: engañosa si las clases están desbalanceadas.
Precisión:
\[\text{Precisión} = \frac{TP}{TP + FP}\]
De los que el modelo dijo “Aprobado”, ¿cuántos realmente lo eran?
Recall:
\[\text{Recall} = \frac{TP}{TP + FN}\]
De los que realmente eran aprobados, ¿cuántos detectó el modelo?
| Situación | Error más costoso | Priorizar |
|---|---|---|
| Fraude bancario | FN: dejar pasar un fraude | Recall alto |
| Diagnóstico médico | FN: no detectar un caso real | Recall alto |
| Crédito (impago caro) | FP: aprobar a quien no pagará | Precisión alta |
| Retención de clientes | FN: no detectar al que se va | Recall alto |
No existe la métrica perfecta. Mejorar el recall suele bajar la precisión y viceversa. La decisión de qué optimizar es de negocio, no del algoritmo.
6 Del resultado al negocio: un ejemplo completo
Una entidad financiera evalúa el árbol sobre 50 solicitudes del conjunto de prueba:
| Predicho: Aprobado | Predicho: Rechazado | |
|---|---|---|
| Real: Aprobado | 22 (TP) | 4 (FN) |
| Real: Rechazado | 5 (FP) | 19 (TN) |
- Accuracy = (22 + 19) / 50 = 82%
- Precisión = 22 / 27 = 81.5% — cuando dice “Aprobado”, acierta el 81.5% de las veces
- Recall = 22 / 26 = 84.6% — detecta el 84.6% de los buenos clientes
¿Es suficiente? Depende del costo del error. Si el costo de un impago (FP) supera al costo de perder un buen cliente (FN), el modelo debería ajustarse para aumentar precisión — aceptando más FN a cambio. Esa es una decisión de negocio, no del algoritmo.
Conexión con semana 9
¿Por qué evaluamos en el conjunto de prueba y no en el de entrenamiento?
El árbol ya “vio” los datos de entrenamiento. Medir allí da accuracy inflada. El conjunto de prueba simula solicitudes futuras — eso mide la capacidad real de predecir. Un árbol con 99% en train y 62% en test está memorizando, no aprendiendo (sobreajuste).
6.1 Material adicional (opcional)
- An Introduction to Statistical Learning (ISLR) — Capítulo 8: árboles, bagging, random forests — statlearning.com
- Google ML Crash Course — clasificación con ejemplos interactivos — developers.google.com/machine-learning/crash-course
6.2 Checklist de preclase
Al llegar a clase debes poder explicar:
6.3 Preguntas de comprensión
1. Un árbol entrega estos resultados sobre 50 solicitudes del conjunto de prueba:
| Predicho: Aprobado | Predicho: Rechazado | |
|---|---|---|
| Real: Aprobado | 20 | 5 |
| Real: Rechazado | 3 | 22 |
Calcula la accuracy, la precisión y el recall. ¿Qué error es más frecuente: FP o FN?
Ver respuesta
TP=20, FN=5, FP=3, TN=22
- Accuracy = (20+22)/50 = 84%
- Precisión = 20/23 = 87%
- Recall = 20/25 = 80%
2. Un compañero entrena un árbol con profundidad 7 y obtiene 98% en train y 63% en test. Dice: “Es excelente, casi no se equivoca.” ¿Qué le responderías?
Ver respuesta
El modelo está sobreajustado. La brecha enorme entre train (98%) y test (63%) indica que memorizó los datos de entrenamiento en vez de aprender un patrón generalizable. Lo que importa es el desempeño en test. La solución probable es reducir la profundidad máxima o aumentar el mínimo de muestras por hoja.3. La entidad decide que el costo de aprobar a alguien que no pagará (FP) es 4 veces mayor que el costo de rechazar a un buen cliente (FN). ¿Qué métrica debe optimizar el modelo? ¿Qué le pasa a la otra métrica?