Unidad 9 - Árboles de Regresión

Introducción al Business Analytics · Semana 12 · 06278-ECO

Autor/a

PhD. Eduard F. Martínez-González

@emartigo Eduard F. Martínez G. eduard-martinez eduard-martinez.github.io

1 Objetivo de la semana

El foco está en regresión supervisada: cuando la variable de resultado no es una categoría sino un número continuo, el árbol de decisión se adapta para predecirlo. Esta semana aprenderemos a construir e interpretar un árbol de regresión y a medir su desempeño con métricas que cuantifican el error en las mismas unidades del resultado.

1.1 Lo que cubriremos

De clasificación a regresión: qué cambia y qué se mantiene igual
Cómo predice el árbol de regresión: el promedio de la hoja
Métricas de error: MAE y RMSE — qué miden y cuándo usar cada una
El baseline de regresión: comparar contra predecir siempre el promedio
Sobreajuste en regresión: misma trampa, diferente métrica

Conexión con semanas anteriores

Semana 11	Semana 12
Árbol de clasificación	Árbol de regresión
Variable resultado: categoría (Aprobado/Rechazado)	Variable resultado: número continuo (nota 0–5.0)
Hoja predice: categoría más frecuente	Hoja predice: promedio de los casos
Métricas: accuracy, precisión, recall	Métricas: MAE, RMSE
Baseline: clase mayoritaria	Baseline: predecir siempre el promedio global

La lógica del árbol es idéntica: preguntas binarias, nodos, hojas, profundidad máxima. Lo que cambia es qué hay en la hoja y cómo medimos el error.

2 De clasificación a regresión: ¿qué cambia?

La semana pasada el árbol respondía preguntas del tipo “¿a cuál categoría pertenece este caso?”. Esta semana responde preguntas del tipo “¿cuánto vale esta variable para este caso?”.

El cambio parece pequeño pero tiene consecuencias importantes en cómo leemos los resultados y cómo los convertimos en decisiones.

Pregunta de negocio	Tipo de árbol	Variable resultado
¿Este cliente pagará el crédito?	Clasificación	Sí / No
¿Este estudiante aprobará la materia?	Clasificación	Aprobó / Reprobó
¿Cuánto valdrá esta propiedad?	Regresión	Precio en millones
¿Qué nota final sacará este estudiante?	Regresión	Nota de 0.0 a 5.0

Advertencia

¿Cuándo usar regresión y cuándo clasificación?

La respuesta no está en el algoritmo sino en la pregunta de negocio. Si la respuesta es una categoría discreta (“sí/no”, “alto/bajo”, “A/B/C”), usa clasificación. Si la respuesta es un número continuo con matices (“3.2”, “127,000”, “0.87”), usa regresión. No tiene sentido convertir una nota de 3.8 en “Aprobado” si lo que necesitamos es saber exactamente cuánto sacó el estudiante para calcular promedios o detectar quiénes están en riesgo.

3 El árbol de regresión: cómo predice un número

3.1 La intuición: grupos homogéneos y promedios

El árbol de regresión funciona igual que el de clasificación en su estructura: divide los datos con preguntas binarias buscando grupos internamente homogéneos. La diferencia está en qué mide la homogeneidad y qué devuelve en la hoja.

En clasificación, homogeneidad significaba que todos los casos de un grupo tuvieran la misma categoría. En regresión, homogeneidad significa que todos los casos de un grupo tengan notas similares — poca varianza dentro del grupo.

Lo que devuelve la hoja no es una categoría: es el promedio de las notas de los estudiantes de entrenamiento que cayeron en ese grupo.

Predicción en hoja de regresión:

\[\hat{y} = \frac{1}{n} \sum_{i \in \text{hoja}} y_i\]

En palabras: el árbol predice el promedio de los valores de resultado de los casos de entrenamiento que pertenecen a esa hoja.

Si una hoja contiene estudiantes con notas 3.2, 3.5, 3.8 y 4.0, la predicción para cualquier estudiante nuevo que caiga allí es (3.2 + 3.5 + 3.8 + 4.0) / 4 = 3.625.

3.2 Un árbol con profundidad 1: ejemplo de notas

Usemos 8 estudiantes con dos variables: nota del parcial 1 (sobre 5.0) y porcentaje de asistencia (%). La variable de resultado es la nota final.

Estudiante	Parcial 1	Asistencia (%)	Nota final
A	2.0	55	2.3
B	2.5	60	2.6
C	2.8	65	2.9
D	3.0	70	3.1
E	3.5	75	3.6
F	3.8	80	3.9
G	4.2	85	4.1
H	4.5	90	4.4

El árbol prueba todos los posibles cortes y encuentra que Parcial 1 ≥ 3.3 produce los dos grupos con menor varianza interna:

Rama izquierda (Parcial 1 < 3.3): A, B, C, D → notas entre 2.3 y 3.1 → promedio = 2.725
Rama derecha (Parcial 1 ≥ 3.3): E, F, G, H → notas entre 3.6 y 4.4 → promedio = 4.0

¿Cómo predice el árbol a un estudiante nuevo?

Llega un estudiante con Parcial 1 = 2.9:

¿Parcial 1 ≥ 3.3? → No → rama izquierda → predicción: 2.73

Llega otro con Parcial 1 = 4.0:

¿Parcial 1 ≥ 3.3? → Sí → rama derecha → predicción: 4.00

El árbol no inventa el número — devuelve el promedio de los estudiantes de entrenamiento que son más similares al caso nuevo según las preguntas que hace.

3.3 ¿Qué pasa con más profundidad?

Con profundidad 2, el árbol puede hacer una segunda pregunta dentro de cada grupo para afinar la predicción:

Con profundidad 2, el árbol distingue dentro del grupo de notas bajas: los estudiantes con asistencia menor al 63% predicen 2.45, los que asisten más predicen 3.00. Las predicciones son más precisas — pero el modelo también se vuelve más complejo y puede sobreajustarse si los datos son pocos.

4 Métricas de regresión: ¿qué tan lejos estuvo el modelo?

En clasificación medíamos si acertó o falló (correcto/incorrecto). En regresión no hay acierto perfecto: el modelo predijo 3.6 y la nota real fue 3.8. El error es 0.2 — ¿eso es mucho o poco? Las métricas de regresión cuantifican ese error de forma sistemática.

Antes de ver las métricas, mira este video donde se explica cómo se calculan con un ejemplo paso a paso.

4.1 MAE — Error Absoluto Medio

El MAE promedia los errores absolutos de todas las predicciones:

\[\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|\]

Cómo leerlo: “En promedio, el modelo se equivoca por X unidades.”

Si el MAE es 0.3 en una escala de 0 a 5.0, el modelo se equivoca en promedio por 0.3 puntos. Eso equivale a decir que una nota real de 3.5 la predice entre 3.2 y 3.8.

Ventaja: está en las mismas unidades que la variable de resultado. Fácil de comunicar.

Limitación: trata igual un error de 0.1 y uno de 0.9 — no penaliza especialmente los errores grandes.

4.2 RMSE — Raíz del Error Cuadrático Medio

El RMSE eleva los errores al cuadrado antes de promediarlos y luego saca la raíz:

\[\text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}\]

Cómo leerlo: similar al MAE, pero penaliza más los errores grandes.

Si el modelo predice 4.5 cuando la nota real es 2.0, ese error de 2.5 puntos pesa mucho más en el RMSE que en el MAE. Por eso el RMSE siempre es ≥ MAE.

Cuándo usarlo: cuando los errores grandes son especialmente costosos. Por ejemplo, si el error en identificar a un estudiante en riesgo de reprobar tiene consecuencias graves, el RMSE captura mejor ese riesgo.

4.3 MAE vs. RMSE: ¿cuál usar?

Situación	Preferir
Los errores grandes son igual de malos que los pequeños	MAE
Los errores grandes son especialmente costosos	RMSE
Comunicar resultados a audiencias no técnicas	MAE (más intuitivo)
Detectar modelos con predicciones muy erradas en algunos casos	RMSE

Advertencia

Siempre compara contra el baseline.

El baseline de regresión es el modelo más simple posible: predecir siempre el promedio global de la variable de resultado. Si el promedio de notas finales es 3.2, el baseline predice 3.2 para todos.

Calcula el MAE y RMSE de ese baseline. Si tu árbol no los mejora, no aprendió nada útil — cualquier persona que siempre dijera “3.2” lo haría igual de bien.

5 Explóralo tú mismo: árbol de regresión interactivo

Experimenta con los parámetros. El playground tiene dos pestañas: el Mapa de predicción (cómo varía la predicción en el espacio de datos) y la Estructura del árbol (los nodos y valores que predice en cada hoja).

¿Qué explorar?

Con profundidad 1: ¿cuántas hojas hay? ¿Cuántos valores distintos puede predecir el árbol?
Sube la profundidad a 5 o 6: ¿el MAE en train sigue bajando? ¿Y en test? ¿Cuándo empieza el sobreajuste?
Compara MAE y RMSE: ¿en qué dataset divergen más? ¿Por qué?
Cambia al tab Árbol: ¿puedes leer el valor predicho en cada hoja?

Dataset

Profundidad máxima

Mín. muestras por hoja

Mín. muestras para dividir

MAE

—

Train

—

Test

RMSE

—

Train

—

Test

Baseline MAE (promedio global)

—

Elige un dataset y entrena el árbol para comenzar

6 Del resultado al negocio: interpretar las métricas

Un árbol de regresión entrenado sobre 300 estudiantes da estos resultados en el conjunto de prueba (75 estudiantes):

Métrica	Baseline (siempre predice promedio)	Árbol de regresión
MAE	0.48 pts	0.21 pts
RMSE	0.61 pts	0.28 pts

El árbol reduce el error a menos de la mitad respecto al baseline. En términos prácticos: en promedio se equivoca por 0.21 puntos en una escala de 5.0. Eso significa que una nota real de 3.5 la predice entre 3.3 y 3.7 — útil para identificar estudiantes en riesgo antes de que sea demasiado tarde.

¿Cuándo es “suficientemente bueno” un MAE?

Depende del uso. Si el modelo se usa para identificar estudiantes con nota predicha menor a 3.0 y ofrecerles tutorías, un MAE de 0.21 es más que suficiente — el modelo no necesita ser perfecto para ser útil. Si se usa para calcular el promedio exacto de la carrera, el requerimiento de precisión es mayor.

La pregunta no es “¿el MAE es bajo?” sino “¿el error del modelo es tolerable para la decisión que quiero tomar?”

Conexión con semana 9 y semana 11

El sobreajuste ocurre igual en regresión que en clasificación: el MAE en train baja indefinidamente con más profundidad, pero el MAE en test empieza a subir en algún punto. La señal de sobreajuste es la brecha creciente entre train y test, no el valor absoluto de cada uno.

Revisa en el playground: ¿en qué profundidad empieza a crecer el MAE en test mientras el de train sigue bajando?

6.1 Material adicional (opcional)

An Introduction to Statistical Learning (ISLR) — Capítulo 8: árboles de regresión y clasificación — statlearning.com
Towards Data Science: “MAE vs RMSE — when to use which?” — artículo con ejemplos aplicados

6.2 Checklist de preclase

Al llegar a clase debes poder explicar:

¿Qué diferencia hay entre un árbol de clasificación y uno de regresión?
¿Qué valor devuelve el árbol de regresión en cada hoja?
¿Cómo se calcula el MAE? ¿Y el RMSE? ¿Qué mide cada uno?
¿Por qué el RMSE es siempre ≥ al MAE?
¿Qué es el baseline de regresión? ¿Cómo se construye?
¿Qué significa que un árbol de regresión esté sobreajustado? ¿Cómo lo detectas?
¿Cuándo preferirías MAE sobre RMSE para reportar el error?

6.3 Preguntas de comprensión

1. Un árbol de regresión predice la nota final de 6 estudiantes del conjunto de prueba. Los resultados son:

Estudiante	Nota real	Nota predicha
1	2.8	3.1
2	3.5	3.3
3	4.0	3.9
4	1.5	2.2
5	4.8	4.6
6	3.2	3.0

Calcula el MAE y el RMSE. ¿Cuál estudiante contribuye más al RMSE y por qué?

Ver respuesta

Errores absolutos: |2.8-3.1|=0.3, |3.5-3.3|=0.2, |4.0-3.9|=0.1, |1.5-2.2|=0.7, |4.8-4.6|=0.2, |3.2-3.0|=0.2

MAE = (0.3+0.2+0.1+0.7+0.2+0.2)/6 = 1.7/6 = 0.283

Errores cuadráticos: 0.09, 0.04, 0.01, 0.49, 0.04, 0.04 → suma = 0.71

RMSE = √(0.71/6) = √0.118 = 0.344

El estudiante 4 (error de 0.7) contribuye más al RMSE: su error cuadrático (0.49) representa el 69% de la suma total de errores cuadráticos. En el MAE su contribución es el 41%. El RMSE penaliza más ese error grande.

2. Un árbol con profundidad 6 da MAE = 0.08 en train y MAE = 0.39 en test. El baseline tiene MAE = 0.45 en test. ¿Es un buen modelo? ¿Qué harías?

Ver respuesta

El modelo mejora el baseline (0.39 < 0.45), así que sí aprendió algo útil. Pero la brecha enorme entre train (0.08) y test (0.39) indica sobreajuste: el árbol memorizó los datos de entrenamiento en vez de aprender un patrón generalizable. Lo que haría es reducir la profundidad máxima o aumentar el mínimo de muestras por hoja hasta que train y test converjan a un valor parecido — aunque eso implique aceptar un MAE en train un poco más alto.

3. Una facultad quiere usar el modelo para identificar estudiantes en riesgo de reprobar (nota < 3.0) antes del parcial final. ¿Qué métrica priorizarías para evaluar el modelo — MAE o RMSE? ¿Por qué?

Ver respuesta

Dependería de si los errores grandes importan más que los pequeños. En este caso, predecir 2.1 cuando la nota real es 2.8 (error = 0.7) es mucho más costoso que predecir 3.3 cuando la real es 3.5 (error = 0.2): en el primer caso el estudiante queda por debajo del umbral de riesgo sin detectarse. Ese tipo de error grave es exactamente lo que el RMSE penaliza más. Sin embargo, si lo que importa es identificar correctamente quién está cerca del 3.0, también sería útil analizar cuántos estudiantes en riesgo real el modelo no detecta — lo que se acerca al concepto de recall que vimos en la semana 11, aplicado a regresión.

Estudiante	Parcial 1	Asistencia (%)	Nota final
A	2.0	55	2.3
B	2.5	60	2.6
C	2.8	65	2.9
D	3.0	70	3.1
E	3.5	75	3.6
F	3.8	80	3.9
G	4.2	85	4.1
H	4.5	90	4.4

Estudiante	Parcial 1	Asistencia (%)	Nota final
A	2.0	55	2.3
B	2.5	60	2.6
C	2.8	65	2.9
D	3.0	70	3.1
E	3.5	75	3.6
F	3.8	80	3.9
G	4.2	85	4.1
H	4.5	90	4.4

Estudiante	Parcial 1	Asistencia (%)	Nota final
A	2.0	55	2.3
B	2.5	60	2.6
C	2.8	65	2.9
D	3.0	70	3.1
E	3.5	75	3.6
F	3.8	80	3.9
G	4.2	85	4.1
H	4.5	90	4.4