Unidad 8 - Árboles de Clasificación

Introducción al Business Analytics · Semana 11 · 06278-ECO

Autor/a

PhD. Eduard F. Martínez-González

1 Objetivo de la semana

El foco está en clasificación supervisada: dado un conjunto de datos con una etiqueta conocida (aprobado/rechazado, churn/activo, precio alto/bajo), aprender a construir e interpretar un árbol de clasificación y evaluar qué tan bien predice casos nuevos. El énfasis está en leer lo que el modelo dice y conectarlo con una decisión de negocio, no en el código.

1.1 Lo que cubriremos

  • Intuición del árbol de decisión: preguntas que dividen datos
  • Cómo el árbol aprende: impureza, divisiones y hojas
  • Cómo leer un árbol de clasificación: nodos, ramas y predicciones
  • La matriz de confusión: TP, FP, TN, FN
  • Métricas: accuracy, precisión y recall
  • Cuándo importa más cada métrica

Conexión con semanas anteriores

Semana 09 Semana 10 Semana 11
Pipeline ML, train/test, métricas Clustering (no supervisado) Árbol de clasificación (supervisado)
“¿Tenemos etiqueta de resultado?” Sin etiqueta → grupos Con etiqueta → predicción de categoría
Concepto de accuracy Sin métrica de acierto/fallo Accuracy, precisión, recall en la práctica
Leakage, overfitting Elbow, silhouette Overfitting según profundidad del árbol

Esta semana tocamos el primer algoritmo supervisado del curso: el modelo aprende de ejemplos pasados con etiqueta para predecir casos nuevos. A diferencia del clustering, aquí sí sabemos si el modelo se equivocó.


2 La intuición: el árbol como serie de preguntas

Antes de cualquier fórmula, piensa en cómo toma decisiones un buen analista de crédito. Cuando alguien pide un préstamo, el analista no aplica una fórmula matemática ciega: hace preguntas en secuencia.

“¿Tiene ingresos mensuales superiores a 3 millones?”
→ No: rechazar (alto riesgo).
→ Sí: siguiente pregunta.

“¿Su historial crediticio es positivo?”
→ No: condicional, pedir garantías.
→ Sí: aprobar.

Eso es exactamente un árbol de clasificación: una serie de preguntas binarias encadenadas que terminan en la predicción de una categoría.

2.1 Vocabulario mínimo

Nodo raíz — La primera pregunta. El modelo elige la variable que mejor separa las clases posibles.

Nodo interno — Preguntas intermedias. Cada una divide más el subgrupo que llegó a ese punto.

Hoja — El final del árbol: la predicción. Es la categoría más frecuente entre las observaciones de entrenamiento que cayeron en ese nodo.

Profundidad — Cuántos niveles de preguntas tiene el árbol. Profundidad 1 = una pregunta. Más profundidad = más complejo = más riesgo de sobreajuste.

Advertencia

Sobreajuste vs. subajuste

Un árbol muy profundo memoriza los datos de entrenamiento: accuracy alta en train, baja en test. Un árbol muy superficial es demasiado simple: accuracy baja en ambos. La profundidad máxima es el parámetro de control más importante.


3 Árbol de clasificación: predecir una categoría

El siguiente video muestra la intuición general de un árbol de clasificación.

Ahora vamos a verlo en acción con un ejemplo concreto: 8 solicitudes de crédito donde solo conocemos el ingreso mensual y el historial crediticio de cada solicitante. El objetivo es entender tres cosas que verás en los diagramas que siguen: primero, cómo el árbol elige su primera pregunta; segundo, qué significa la predicción que aparece en cada hoja; y tercero, qué ocurre cuando le permitimos al árbol hacer una segunda pregunta — y por qué eso no siempre es mejor.

3.1 Cómo aprende el árbol

Para elegir en qué variable y en qué valor cortar, el árbol mide la impureza de cada posible división: qué tan mezcladas quedan las clases en cada grupo después del corte. El corte que produce los grupos más “puros” (menos mezclados) es el que elige.

Imagina 10 solicitantes de crédito y el objetivo de predecir “Aprobado” / “Rechazado”:

  • Si el corte en ingresos > 3M separa perfectamente aprobados de rechazados → impureza = 0, corte perfecto.
  • Si el corte en número de hijos mezcla aprobados y rechazados por igual → impureza alta, corte inútil.

El árbol repite este proceso en cada nodo hasta llegar a la profundidad máxima o hasta que los grupos sean suficientemente puros.

3.2 Un árbol con profundidad 1

El siguiente ejemplo usa 8 solicitudes de crédito con dos variables: ingreso mensual (millones) e historial crediticio (1 = positivo, 0 = negativo).

Solicitante Ingreso (M) Historial Decisión real
A 1.5 0 Rechazado
B 2.0 0 Rechazado
C 2.5 1 Rechazado
D 3.0 0 Rechazado
E 3.5 1 Aprobado
F 4.0 1 Aprobado
G 4.5 0 Aprobado
H 5.0 1 Aprobado

El árbol analiza todos los posibles cortes y encuentra que Ingreso ≥ 3.5M es el que mejor separa las clases:

  • Rama izquierda (Ingreso < 3.5M): A, B, C, D → todos rechazados → hoja: Rechazado
  • Rama derecha (Ingreso ≥ 3.5M): E, F, G, H → todos aprobados → hoja: Aprobado
Árbol de clasificación profundidad 1 — aprobación de crédito Nodo raíz pregunta si ingreso es mayor o igual a 3.5 millones. Rama izquierda lleva a hoja Rechazado con 4 casos. Rama derecha lleva a hoja Aprobado con 4 casos. NODO RAÍZ ¿Ingreso ≥ 3.5 M? No (< 3.5 M) Sí (≥ 3.5 M) HOJA Rechazado Casos: A, B, C, D (n = 4) HOJA Aprobado Casos: E, F, G, H (n = 4) Profundidad = 1 · Predicción = categoría mayoritaria en la hoja

¿Cómo predice el árbol un caso nuevo?

Llega una solicitud con ingreso de 2.8M:

  • ¿Ingreso ≥ 3.5M? → No → rama izquierda → predicción: Rechazado

Llega otra con ingreso de 4.2M:

  • ¿Ingreso ≥ 3.5M? → → rama derecha → predicción: Aprobado

La predicción es determinista: para el mismo dato, siempre da la misma respuesta.

3.3 ¿Qué pasa si el árbol es más profundo?

Con profundidad 1, el árbol rechaza al solicitante C (ingreso 2.5M, historial positivo) porque cayó en el grupo izquierdo junto con A, B y D. ¿Pero C merece el mismo trato que alguien con historial negativo?

Con profundidad 2, el árbol puede hacer una segunda pregunta dentro del grupo izquierdo:

Árbol de clasificación profundidad 2 — aprobación de crédito El árbol ahora tiene dos niveles. El nodo raíz divide por ingreso. La rama izquierda (ingreso bajo) hace una segunda pregunta sobre historial crediticio, generando dos hojas adicionales. NODO RAÍZ · profundidad 0 ¿Ingreso ≥ 3.5 M? No HOJA Aprobado E, F, G, H (n = 4) NODO INTERNO · profundidad 1 ¿Historial = positivo? No HOJA Rechazado A, B, D (n = 3) HOJA Aprobado C (n = 1) nueva pregunta Profundidad = 2 · La rama derecha ya era pura; solo la izquierda necesitó refinarse

Con profundidad 2, el árbol detecta que C (ingreso bajo pero historial positivo) merece aprobación. La segunda pregunta refina la predicción, pero también hace el modelo más complejo — y si los datos de entrenamiento son pocos, puede memorizarlos en vez de aprender un patrón real.


4 Explóralo tú mismo: árbol de clasificación interactivo

Experimenta con los parámetros del árbol. El playground tiene dos pestañas: el Mapa de decisión (cómo divide el espacio de datos en regiones de colores) y la Estructura del árbol (las preguntas que hace, visualizadas como nodos).

¿Qué explorar?

  1. Con “Aprobación de crédito” y profundidad 1: ¿cuál es la única pregunta del árbol? Cambia al tab Árbol para verla.
  2. Sube la profundidad a 4 o 5: ¿la accuracy en train sube? ¿Y en test? ¿Hay sobreajuste?
  3. Baja el mínimo de muestras por hoja a 1: ¿el árbol se vuelve más o menos complejo?
  4. Compara ambas pestañas: cada línea divisoria del Mapa corresponde a un nodo en el Árbol.
Dataset
Profundidad máxima
3
Mín. muestras por hoja
5
Mín. muestras para dividir
10
Accuracy
Train
Test
Matriz de confusión (test)
Leyenda
Elige un dataset y entrena el árbol para comenzar

5 La matriz de confusión: leer un modelo de clasificación

En el video anterior viste cómo un árbol de clasificación llega a una predicción: recorre sus preguntas y termina en una hoja que dice “Aprobado” o “Rechazado”. Pero predecir no es suficiente — necesitamos saber qué tan bien predice, y para eso necesitamos comparar lo que el modelo dijo con lo que realmente ocurrió.

Esa comparación se organiza en una tabla de cuatro celdas llamada matriz de confusión. En este video vas a ver cómo se construye celda por celda, siguiendo dos reglas simples: la primera letra (Verdadero o Falso) depende de si el modelo acertó; la segunda (Positivo o Negativo) depende únicamente de lo que el modelo predijo. Al final del video el profesor te propone un ejercicio de conteo — páusalo y resuélvelo antes de seguir, porque en clase trabajarás con exactamente esta misma lógica aplicada a datos reales.

Cuando el árbol predice sobre el conjunto de prueba, comparamos lo que predijo con lo que realmente ocurrió. Ese resumen es la matriz de confusión.

5.1 La tabla 2×2

Predicho: Aprobado Predicho: Rechazado
Real: Aprobado Verdadero Positivo (TP) Falso Negativo (FN)
Real: Rechazado Falso Positivo (FP) Verdadero Negativo (TN)

Los cuatro resultados posibles:

TP (Verdadero Positivo): Dijo “Aprobado” y era aprobado. Acierto donde importaba.

TN (Verdadero Negativo): Dijo “Rechazado” y era rechazado. Acierto también.

FP (Falso Positivo): Dijo “Aprobado” pero era rechazado → riesgo de impago para la entidad.

FN (Falso Negativo): Dijo “Rechazado” pero era aprobado → se perdió un buen cliente.

Regla de memoria: el primer adjetivo (Verdadero/Falso) dice si acertó. El segundo sustantivo (Positivo/Negativo) dice lo que predijo el modelo.

5.2 Las métricas que salen de la matriz

Accuracy:
\[\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}\]
Fracción de casos correctamente clasificados.
Limitación: engañosa si las clases están desbalanceadas.

Precisión:
\[\text{Precisión} = \frac{TP}{TP + FP}\]
De los que el modelo dijo “Aprobado”, ¿cuántos realmente lo eran?

Recall:
\[\text{Recall} = \frac{TP}{TP + FN}\]
De los que realmente eran aprobados, ¿cuántos detectó el modelo?

Situación Error más costoso Priorizar
Fraude bancario FN: dejar pasar un fraude Recall alto
Diagnóstico médico FN: no detectar un caso real Recall alto
Crédito (impago caro) FP: aprobar a quien no pagará Precisión alta
Retención de clientes FN: no detectar al que se va Recall alto
Advertencia

No existe la métrica perfecta. Mejorar el recall suele bajar la precisión y viceversa. La decisión de qué optimizar es de negocio, no del algoritmo.


6 Del resultado al negocio: un ejemplo completo

Una entidad financiera evalúa el árbol sobre 50 solicitudes del conjunto de prueba:

Predicho: Aprobado Predicho: Rechazado
Real: Aprobado 22 (TP) 4 (FN)
Real: Rechazado 5 (FP) 19 (TN)
  • Accuracy = (22 + 19) / 50 = 82%
  • Precisión = 22 / 27 = 81.5% — cuando dice “Aprobado”, acierta el 81.5% de las veces
  • Recall = 22 / 26 = 84.6% — detecta el 84.6% de los buenos clientes

¿Es suficiente? Depende del costo del error. Si el costo de un impago (FP) supera al costo de perder un buen cliente (FN), el modelo debería ajustarse para aumentar precisión — aceptando más FN a cambio. Esa es una decisión de negocio, no del algoritmo.

Conexión con semana 9

¿Por qué evaluamos en el conjunto de prueba y no en el de entrenamiento?

El árbol ya “vio” los datos de entrenamiento. Medir allí da accuracy inflada. El conjunto de prueba simula solicitudes futuras — eso mide la capacidad real de predecir. Un árbol con 99% en train y 62% en test está memorizando, no aprendiendo (sobreajuste).


6.1 Material adicional (opcional)


6.2 Checklist de preclase

Al llegar a clase debes poder explicar:

6.3 Preguntas de comprensión

1. Un árbol entrega estos resultados sobre 50 solicitudes del conjunto de prueba:

Predicho: Aprobado Predicho: Rechazado
Real: Aprobado 20 5
Real: Rechazado 3 22

Calcula la accuracy, la precisión y el recall. ¿Qué error es más frecuente: FP o FN?

Ver respuesta

TP=20, FN=5, FP=3, TN=22
- Accuracy = (20+22)/50 = 84%
- Precisión = 20/23 = 87%
- Recall = 20/25 = 80%

El error más frecuente es FN (5) > FP (3): el modelo rechaza más clientes buenos de lo que aprueba malos.

2. Un compañero entrena un árbol con profundidad 7 y obtiene 98% en train y 63% en test. Dice: “Es excelente, casi no se equivoca.” ¿Qué le responderías?

Ver respuesta El modelo está sobreajustado. La brecha enorme entre train (98%) y test (63%) indica que memorizó los datos de entrenamiento en vez de aprender un patrón generalizable. Lo que importa es el desempeño en test. La solución probable es reducir la profundidad máxima o aumentar el mínimo de muestras por hoja.

3. La entidad decide que el costo de aprobar a alguien que no pagará (FP) es 4 veces mayor que el costo de rechazar a un buen cliente (FN). ¿Qué métrica debe optimizar el modelo? ¿Qué le pasa a la otra métrica?

Ver respuesta Debe optimizar precisión: el FP es el error más costoso. Para subirla, el árbol clasifica como “Aprobado” solo cuando está muy seguro — lo que probablemente sube los FN (rechaza más buenos clientes) bajando el recall. Es un trade-off inevitable: no se pueden maximizar ambas métricas a la vez. La decisión de dónde fijar ese trade-off es de la entidad.