Unidad 8 - Árboles de Clasificación

Introducción al Business Analytics · Semana 11 · 06278-ECO

Autor/a

PhD. Eduard F. Martínez-González

@emartigo Eduard F. Martínez G. eduard-martinez eduard-martinez.github.io

1 Objetivo de la semana

El foco está en clasificación supervisada: dado un conjunto de datos con una etiqueta conocida (aprobado/rechazado, churn/activo, precio alto/bajo), aprender a construir e interpretar un árbol de clasificación y evaluar qué tan bien predice casos nuevos. El énfasis está en leer lo que el modelo dice y conectarlo con una decisión de negocio, no en el código.

1.1 Lo que cubriremos

Intuición del árbol de decisión: preguntas que dividen datos
Cómo el árbol aprende: impureza, divisiones y hojas
Cómo leer un árbol de clasificación: nodos, ramas y predicciones
La matriz de confusión: TP, FP, TN, FN
Métricas: accuracy, precisión y recall
Cuándo importa más cada métrica

Conexión con semanas anteriores

Semana 09	Semana 10	Semana 11
Pipeline ML, train/test, métricas	Clustering (no supervisado)	Árbol de clasificación (supervisado)
“¿Tenemos etiqueta de resultado?”	Sin etiqueta → grupos	Con etiqueta → predicción de categoría
Concepto de accuracy	Sin métrica de acierto/fallo	Accuracy, precisión, recall en la práctica
Leakage, overfitting	Elbow, silhouette	Overfitting según profundidad del árbol

Esta semana tocamos el primer algoritmo supervisado del curso: el modelo aprende de ejemplos pasados con etiqueta para predecir casos nuevos. A diferencia del clustering, aquí sí sabemos si el modelo se equivocó.

2 La intuición: el árbol como serie de preguntas

Antes de cualquier fórmula, piensa en cómo toma decisiones un buen analista de crédito. Cuando alguien pide un préstamo, el analista no aplica una fórmula matemática ciega: hace preguntas en secuencia.

“¿Tiene ingresos mensuales superiores a 3 millones?”
→ No: rechazar (alto riesgo).
→ Sí: siguiente pregunta.

“¿Su historial crediticio es positivo?”
→ No: condicional, pedir garantías.
→ Sí: aprobar.

Eso es exactamente un árbol de clasificación: una serie de preguntas binarias encadenadas que terminan en la predicción de una categoría.

2.1 Vocabulario mínimo

Nodo raíz — La primera pregunta. El modelo elige la variable que mejor separa las clases posibles.

Nodo interno — Preguntas intermedias. Cada una divide más el subgrupo que llegó a ese punto.

Hoja — El final del árbol: la predicción. Es la categoría más frecuente entre las observaciones de entrenamiento que cayeron en ese nodo.

Profundidad — Cuántos niveles de preguntas tiene el árbol. Profundidad 1 = una pregunta. Más profundidad = más complejo = más riesgo de sobreajuste.

Advertencia

Sobreajuste vs. subajuste

Un árbol muy profundo memoriza los datos de entrenamiento: accuracy alta en train, baja en test. Un árbol muy superficial es demasiado simple: accuracy baja en ambos. La profundidad máxima es el parámetro de control más importante.

3 Árbol de clasificación: predecir una categoría

El siguiente video muestra la intuición general de un árbol de clasificación.

Ahora vamos a verlo en acción con un ejemplo concreto: 8 solicitudes de crédito donde solo conocemos el ingreso mensual y el historial crediticio de cada solicitante. El objetivo es entender tres cosas que verás en los diagramas que siguen: primero, cómo el árbol elige su primera pregunta; segundo, qué significa la predicción que aparece en cada hoja; y tercero, qué ocurre cuando le permitimos al árbol hacer una segunda pregunta — y por qué eso no siempre es mejor.

3.1 Cómo aprende el árbol

Para elegir en qué variable y en qué valor cortar, el árbol mide la impureza de cada posible división: qué tan mezcladas quedan las clases en cada grupo después del corte. El corte que produce los grupos más “puros” (menos mezclados) es el que elige.

Imagina 10 solicitantes de crédito y el objetivo de predecir “Aprobado” / “Rechazado”:

Si el corte en ingresos > 3M separa perfectamente aprobados de rechazados → impureza = 0, corte perfecto.
Si el corte en número de hijos mezcla aprobados y rechazados por igual → impureza alta, corte inútil.

El árbol repite este proceso en cada nodo hasta llegar a la profundidad máxima o hasta que los grupos sean suficientemente puros.

3.2 Un árbol con profundidad 1

El siguiente ejemplo usa 8 solicitudes de crédito con dos variables: ingreso mensual (millones) e historial crediticio (1 = positivo, 0 = negativo).

Solicitante	Ingreso (M)	Historial	Decisión real
A	1.5	0	Rechazado
B	2.0	0	Rechazado
C	2.5	1	Rechazado
D	3.0	0	Rechazado
E	3.5	1	Aprobado
F	4.0	1	Aprobado
G	4.5	0	Aprobado
H	5.0	1	Aprobado

El árbol analiza todos los posibles cortes y encuentra que Ingreso ≥ 3.5M es el que mejor separa las clases:

Rama izquierda (Ingreso < 3.5M): A, B, C, D → todos rechazados → hoja: Rechazado
Rama derecha (Ingreso ≥ 3.5M): E, F, G, H → todos aprobados → hoja: Aprobado

¿Cómo predice el árbol un caso nuevo?

Llega una solicitud con ingreso de 2.8M:

¿Ingreso ≥ 3.5M? → No → rama izquierda → predicción: Rechazado

Llega otra con ingreso de 4.2M:

¿Ingreso ≥ 3.5M? → Sí → rama derecha → predicción: Aprobado

La predicción es determinista: para el mismo dato, siempre da la misma respuesta.

3.3 ¿Qué pasa si el árbol es más profundo?

Con profundidad 1, el árbol rechaza al solicitante C (ingreso 2.5M, historial positivo) porque cayó en el grupo izquierdo junto con A, B y D. ¿Pero C merece el mismo trato que alguien con historial negativo?

Con profundidad 2, el árbol puede hacer una segunda pregunta dentro del grupo izquierdo:

Con profundidad 2, el árbol detecta que C (ingreso bajo pero historial positivo) merece aprobación. La segunda pregunta refina la predicción, pero también hace el modelo más complejo — y si los datos de entrenamiento son pocos, puede memorizarlos en vez de aprender un patrón real.

4 Explóralo tú mismo: árbol de clasificación interactivo

Experimenta con los parámetros del árbol. El playground tiene dos pestañas: el Mapa de decisión (cómo divide el espacio de datos en regiones de colores) y la Estructura del árbol (las preguntas que hace, visualizadas como nodos).

¿Qué explorar?

Con “Aprobación de crédito” y profundidad 1: ¿cuál es la única pregunta del árbol? Cambia al tab Árbol para verla.
Sube la profundidad a 4 o 5: ¿la accuracy en train sube? ¿Y en test? ¿Hay sobreajuste?
Baja el mínimo de muestras por hoja a 1: ¿el árbol se vuelve más o menos complejo?
Compara ambas pestañas: cada línea divisoria del Mapa corresponde a un nodo en el Árbol.

Dataset

Profundidad máxima

Mín. muestras por hoja

Mín. muestras para dividir

Accuracy

—

Train

—

Test

Matriz de confusión (test)

Leyenda

Elige un dataset y entrena el árbol para comenzar

5 La matriz de confusión: leer un modelo de clasificación

En el video anterior viste cómo un árbol de clasificación llega a una predicción: recorre sus preguntas y termina en una hoja que dice “Aprobado” o “Rechazado”. Pero predecir no es suficiente — necesitamos saber qué tan bien predice, y para eso necesitamos comparar lo que el modelo dijo con lo que realmente ocurrió.

Esa comparación se organiza en una tabla de cuatro celdas llamada matriz de confusión. En este video vas a ver cómo se construye celda por celda, siguiendo dos reglas simples: la primera letra (Verdadero o Falso) depende de si el modelo acertó; la segunda (Positivo o Negativo) depende únicamente de lo que el modelo predijo. Al final del video el profesor te propone un ejercicio de conteo — páusalo y resuélvelo antes de seguir, porque en clase trabajarás con exactamente esta misma lógica aplicada a datos reales.

Cuando el árbol predice sobre el conjunto de prueba, comparamos lo que predijo con lo que realmente ocurrió. Ese resumen es la matriz de confusión.

5.1 La tabla 2×2

	Predicho: Aprobado	Predicho: Rechazado
Real: Aprobado	Verdadero Positivo (TP)	Falso Negativo (FN)
Real: Rechazado	Falso Positivo (FP)	Verdadero Negativo (TN)

Los cuatro resultados posibles:

TP (Verdadero Positivo): Dijo “Aprobado” y era aprobado. Acierto donde importaba.

TN (Verdadero Negativo): Dijo “Rechazado” y era rechazado. Acierto también.

FP (Falso Positivo): Dijo “Aprobado” pero era rechazado → riesgo de impago para la entidad.

FN (Falso Negativo): Dijo “Rechazado” pero era aprobado → se perdió un buen cliente.

Regla de memoria: el primer adjetivo (Verdadero/Falso) dice si acertó. El segundo sustantivo (Positivo/Negativo) dice lo que predijo el modelo.

5.2 Las métricas que salen de la matriz

Accuracy:
\[\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}\]
Fracción de casos correctamente clasificados.
Limitación: engañosa si las clases están desbalanceadas.

Precisión:
\[\text{Precisión} = \frac{TP}{TP + FP}\]
De los que el modelo dijo “Aprobado”, ¿cuántos realmente lo eran?

Recall:
\[\text{Recall} = \frac{TP}{TP + FN}\]
De los que realmente eran aprobados, ¿cuántos detectó el modelo?

Situación	Error más costoso	Priorizar
Fraude bancario	FN: dejar pasar un fraude	Recall alto
Diagnóstico médico	FN: no detectar un caso real	Recall alto
Crédito (impago caro)	FP: aprobar a quien no pagará	Precisión alta
Retención de clientes	FN: no detectar al que se va	Recall alto

Advertencia

No existe la métrica perfecta. Mejorar el recall suele bajar la precisión y viceversa. La decisión de qué optimizar es de negocio, no del algoritmo.

6 Del resultado al negocio: un ejemplo completo

Una entidad financiera evalúa el árbol sobre 50 solicitudes del conjunto de prueba:

	Predicho: Aprobado	Predicho: Rechazado
Real: Aprobado	22 (TP)	4 (FN)
Real: Rechazado	5 (FP)	19 (TN)

Accuracy = (22 + 19) / 50 = 82%
Precisión = 22 / 27 = 81.5% — cuando dice “Aprobado”, acierta el 81.5% de las veces
Recall = 22 / 26 = 84.6% — detecta el 84.6% de los buenos clientes

¿Es suficiente? Depende del costo del error. Si el costo de un impago (FP) supera al costo de perder un buen cliente (FN), el modelo debería ajustarse para aumentar precisión — aceptando más FN a cambio. Esa es una decisión de negocio, no del algoritmo.

Conexión con semana 9

¿Por qué evaluamos en el conjunto de prueba y no en el de entrenamiento?

El árbol ya “vio” los datos de entrenamiento. Medir allí da accuracy inflada. El conjunto de prueba simula solicitudes futuras — eso mide la capacidad real de predecir. Un árbol con 99% en train y 62% en test está memorizando, no aprendiendo (sobreajuste).

6.1 Material adicional (opcional)

An Introduction to Statistical Learning (ISLR) — Capítulo 8: árboles, bagging, random forests — statlearning.com
Google ML Crash Course — clasificación con ejemplos interactivos — developers.google.com/machine-learning/crash-course

6.2 Checklist de preclase

Al llegar a clase debes poder explicar:

¿Qué es un nodo raíz, un nodo interno y una hoja?
¿Qué predice el árbol en cada hoja?
¿Cómo elige el árbol la primera variable de corte?
¿Qué son TP, FP, TN, FN y cómo se ubican en la tabla 2×2?
¿Cómo se calcula la accuracy? ¿Por qué puede ser engañosa?
¿Cuándo es más importante el recall que la precisión?
¿Por qué se evalúa en el conjunto de prueba y no en el de entrenamiento?
¿Qué significa que un árbol esté sobreajustado?

6.3 Preguntas de comprensión

1. Un árbol entrega estos resultados sobre 50 solicitudes del conjunto de prueba:

	Predicho: Aprobado	Predicho: Rechazado
Real: Aprobado	20	5
Real: Rechazado	3	22

Calcula la accuracy, la precisión y el recall. ¿Qué error es más frecuente: FP o FN?

Ver respuesta

TP=20, FN=5, FP=3, TN=22
- Accuracy = (20+22)/50 = 84%
- Precisión = 20/23 = 87%
- Recall = 20/25 = 80%

El error más frecuente es FN (5) > FP (3): el modelo rechaza más clientes buenos de lo que aprueba malos.

2. Un compañero entrena un árbol con profundidad 7 y obtiene 98% en train y 63% en test. Dice: “Es excelente, casi no se equivoca.” ¿Qué le responderías?

Ver respuesta

El modelo está sobreajustado. La brecha enorme entre train (98%) y test (63%) indica que memorizó los datos de entrenamiento en vez de aprender un patrón generalizable. Lo que importa es el desempeño en test. La solución probable es reducir la profundidad máxima o aumentar el mínimo de muestras por hoja.

3. La entidad decide que el costo de aprobar a alguien que no pagará (FP) es 4 veces mayor que el costo de rechazar a un buen cliente (FN). ¿Qué métrica debe optimizar el modelo? ¿Qué le pasa a la otra métrica?

Ver respuesta

Debe optimizar precisión: el FP es el error más costoso. Para subirla, el árbol clasifica como “Aprobado” solo cuando está muy seguro — lo que probablemente sube los FN (rechaza más buenos clientes) bajando el recall. Es un trade-off inevitable: no se pueden maximizar ambas métricas a la vez. La decisión de dónde fijar ese trade-off es de la entidad.