Unidad 9 - Árboles de Regresión
Introducción al Business Analytics · Semana 12 · 06278-ECO
1 Objetivo de la semana
El foco está en regresión supervisada: cuando la variable de resultado no es una categoría sino un número continuo, el árbol de decisión se adapta para predecirlo. Esta semana aprenderemos a construir e interpretar un árbol de regresión y a medir su desempeño con métricas que cuantifican el error en las mismas unidades del resultado.
1.1 Lo que cubriremos
- De clasificación a regresión: qué cambia y qué se mantiene igual
- Cómo predice el árbol de regresión: el promedio de la hoja
- Métricas de error: MAE y RMSE — qué miden y cuándo usar cada una
- El baseline de regresión: comparar contra predecir siempre el promedio
- Sobreajuste en regresión: misma trampa, diferente métrica
Conexión con semanas anteriores
| Semana 11 | Semana 12 |
|---|---|
| Árbol de clasificación | Árbol de regresión |
| Variable resultado: categoría (Aprobado/Rechazado) | Variable resultado: número continuo (nota 0–5.0) |
| Hoja predice: categoría más frecuente | Hoja predice: promedio de los casos |
| Métricas: accuracy, precisión, recall | Métricas: MAE, RMSE |
| Baseline: clase mayoritaria | Baseline: predecir siempre el promedio global |
La lógica del árbol es idéntica: preguntas binarias, nodos, hojas, profundidad máxima. Lo que cambia es qué hay en la hoja y cómo medimos el error.
2 De clasificación a regresión: ¿qué cambia?
La semana pasada el árbol respondía preguntas del tipo “¿a cuál categoría pertenece este caso?”. Esta semana responde preguntas del tipo “¿cuánto vale esta variable para este caso?”.
El cambio parece pequeño pero tiene consecuencias importantes en cómo leemos los resultados y cómo los convertimos en decisiones.
| Pregunta de negocio | Tipo de árbol | Variable resultado |
|---|---|---|
| ¿Este cliente pagará el crédito? | Clasificación | Sí / No |
| ¿Este estudiante aprobará la materia? | Clasificación | Aprobó / Reprobó |
| ¿Cuánto valdrá esta propiedad? | Regresión | Precio en millones |
| ¿Qué nota final sacará este estudiante? | Regresión | Nota de 0.0 a 5.0 |
¿Cuándo usar regresión y cuándo clasificación?
La respuesta no está en el algoritmo sino en la pregunta de negocio. Si la respuesta es una categoría discreta (“sí/no”, “alto/bajo”, “A/B/C”), usa clasificación. Si la respuesta es un número continuo con matices (“3.2”, “127,000”, “0.87”), usa regresión. No tiene sentido convertir una nota de 3.8 en “Aprobado” si lo que necesitamos es saber exactamente cuánto sacó el estudiante para calcular promedios o detectar quiénes están en riesgo.
3 El árbol de regresión: cómo predice un número
3.1 La intuición: grupos homogéneos y promedios
El árbol de regresión funciona igual que el de clasificación en su estructura: divide los datos con preguntas binarias buscando grupos internamente homogéneos. La diferencia está en qué mide la homogeneidad y qué devuelve en la hoja.
En clasificación, homogeneidad significaba que todos los casos de un grupo tuvieran la misma categoría. En regresión, homogeneidad significa que todos los casos de un grupo tengan notas similares — poca varianza dentro del grupo.
Lo que devuelve la hoja no es una categoría: es el promedio de las notas de los estudiantes de entrenamiento que cayeron en ese grupo.
Predicción en hoja de regresión:
\[\hat{y} = \frac{1}{n} \sum_{i \in \text{hoja}} y_i\]
En palabras: el árbol predice el promedio de los valores de resultado de los casos de entrenamiento que pertenecen a esa hoja.
Si una hoja contiene estudiantes con notas 3.2, 3.5, 3.8 y 4.0, la predicción para cualquier estudiante nuevo que caiga allí es (3.2 + 3.5 + 3.8 + 4.0) / 4 = 3.625.
3.2 Un árbol con profundidad 1: ejemplo de notas
Usemos 8 estudiantes con dos variables: nota del parcial 1 (sobre 5.0) y porcentaje de asistencia (%). La variable de resultado es la nota final.
| Estudiante | Parcial 1 | Asistencia (%) | Nota final |
|---|---|---|---|
| A | 2.0 | 55 | 2.3 |
| B | 2.5 | 60 | 2.6 |
| C | 2.8 | 65 | 2.9 |
| D | 3.0 | 70 | 3.1 |
| E | 3.5 | 75 | 3.6 |
| F | 3.8 | 80 | 3.9 |
| G | 4.2 | 85 | 4.1 |
| H | 4.5 | 90 | 4.4 |
El árbol prueba todos los posibles cortes y encuentra que Parcial 1 ≥ 3.3 produce los dos grupos con menor varianza interna:
- Rama izquierda (Parcial 1 < 3.3): A, B, C, D → notas entre 2.3 y 3.1 → promedio = 2.725
- Rama derecha (Parcial 1 ≥ 3.3): E, F, G, H → notas entre 3.6 y 4.4 → promedio = 4.0
¿Cómo predice el árbol a un estudiante nuevo?
Llega un estudiante con Parcial 1 = 2.9:
- ¿Parcial 1 ≥ 3.3? → No → rama izquierda → predicción: 2.73
Llega otro con Parcial 1 = 4.0:
- ¿Parcial 1 ≥ 3.3? → Sí → rama derecha → predicción: 4.00
El árbol no inventa el número — devuelve el promedio de los estudiantes de entrenamiento que son más similares al caso nuevo según las preguntas que hace.
3.3 ¿Qué pasa con más profundidad?
Con profundidad 2, el árbol puede hacer una segunda pregunta dentro de cada grupo para afinar la predicción:
Con profundidad 2, el árbol distingue dentro del grupo de notas bajas: los estudiantes con asistencia menor al 63% predicen 2.45, los que asisten más predicen 3.00. Las predicciones son más precisas — pero el modelo también se vuelve más complejo y puede sobreajustarse si los datos son pocos.
4 Métricas de regresión: ¿qué tan lejos estuvo el modelo?
En clasificación medíamos si acertó o falló (correcto/incorrecto). En regresión no hay acierto perfecto: el modelo predijo 3.6 y la nota real fue 3.8. El error es 0.2 — ¿eso es mucho o poco? Las métricas de regresión cuantifican ese error de forma sistemática.
Antes de ver las métricas, mira este video donde se explica cómo se calculan con un ejemplo paso a paso.
4.1 MAE — Error Absoluto Medio
El MAE promedia los errores absolutos de todas las predicciones:
\[\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|\]
Cómo leerlo: “En promedio, el modelo se equivoca por X unidades.”
Si el MAE es 0.3 en una escala de 0 a 5.0, el modelo se equivoca en promedio por 0.3 puntos. Eso equivale a decir que una nota real de 3.5 la predice entre 3.2 y 3.8.
Ventaja: está en las mismas unidades que la variable de resultado. Fácil de comunicar.
Limitación: trata igual un error de 0.1 y uno de 0.9 — no penaliza especialmente los errores grandes.
4.2 RMSE — Raíz del Error Cuadrático Medio
El RMSE eleva los errores al cuadrado antes de promediarlos y luego saca la raíz:
\[\text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}\]
Cómo leerlo: similar al MAE, pero penaliza más los errores grandes.
Si el modelo predice 4.5 cuando la nota real es 2.0, ese error de 2.5 puntos pesa mucho más en el RMSE que en el MAE. Por eso el RMSE siempre es ≥ MAE.
Cuándo usarlo: cuando los errores grandes son especialmente costosos. Por ejemplo, si el error en identificar a un estudiante en riesgo de reprobar tiene consecuencias graves, el RMSE captura mejor ese riesgo.
4.3 MAE vs. RMSE: ¿cuál usar?
| Situación | Preferir |
|---|---|
| Los errores grandes son igual de malos que los pequeños | MAE |
| Los errores grandes son especialmente costosos | RMSE |
| Comunicar resultados a audiencias no técnicas | MAE (más intuitivo) |
| Detectar modelos con predicciones muy erradas en algunos casos | RMSE |
Siempre compara contra el baseline.
El baseline de regresión es el modelo más simple posible: predecir siempre el promedio global de la variable de resultado. Si el promedio de notas finales es 3.2, el baseline predice 3.2 para todos.
Calcula el MAE y RMSE de ese baseline. Si tu árbol no los mejora, no aprendió nada útil — cualquier persona que siempre dijera “3.2” lo haría igual de bien.
5 Explóralo tú mismo: árbol de regresión interactivo
Experimenta con los parámetros. El playground tiene dos pestañas: el Mapa de predicción (cómo varía la predicción en el espacio de datos) y la Estructura del árbol (los nodos y valores que predice en cada hoja).
¿Qué explorar?
- Con profundidad 1: ¿cuántas hojas hay? ¿Cuántos valores distintos puede predecir el árbol?
- Sube la profundidad a 5 o 6: ¿el MAE en train sigue bajando? ¿Y en test? ¿Cuándo empieza el sobreajuste?
- Compara MAE y RMSE: ¿en qué dataset divergen más? ¿Por qué?
- Cambia al tab Árbol: ¿puedes leer el valor predicho en cada hoja?
6 Del resultado al negocio: interpretar las métricas
Un árbol de regresión entrenado sobre 300 estudiantes da estos resultados en el conjunto de prueba (75 estudiantes):
| Métrica | Baseline (siempre predice promedio) | Árbol de regresión |
|---|---|---|
| MAE | 0.48 pts | 0.21 pts |
| RMSE | 0.61 pts | 0.28 pts |
El árbol reduce el error a menos de la mitad respecto al baseline. En términos prácticos: en promedio se equivoca por 0.21 puntos en una escala de 5.0. Eso significa que una nota real de 3.5 la predice entre 3.3 y 3.7 — útil para identificar estudiantes en riesgo antes de que sea demasiado tarde.
¿Cuándo es “suficientemente bueno” un MAE?
Depende del uso. Si el modelo se usa para identificar estudiantes con nota predicha menor a 3.0 y ofrecerles tutorías, un MAE de 0.21 es más que suficiente — el modelo no necesita ser perfecto para ser útil. Si se usa para calcular el promedio exacto de la carrera, el requerimiento de precisión es mayor.
La pregunta no es “¿el MAE es bajo?” sino “¿el error del modelo es tolerable para la decisión que quiero tomar?”
Conexión con semana 9 y semana 11
El sobreajuste ocurre igual en regresión que en clasificación: el MAE en train baja indefinidamente con más profundidad, pero el MAE en test empieza a subir en algún punto. La señal de sobreajuste es la brecha creciente entre train y test, no el valor absoluto de cada uno.
Revisa en el playground: ¿en qué profundidad empieza a crecer el MAE en test mientras el de train sigue bajando?
6.1 Material adicional (opcional)
- An Introduction to Statistical Learning (ISLR) — Capítulo 8: árboles de regresión y clasificación — statlearning.com
- Towards Data Science: “MAE vs RMSE — when to use which?” — artículo con ejemplos aplicados
6.2 Checklist de preclase
Al llegar a clase debes poder explicar:
6.3 Preguntas de comprensión
1. Un árbol de regresión predice la nota final de 6 estudiantes del conjunto de prueba. Los resultados son:
| Estudiante | Nota real | Nota predicha |
|---|---|---|
| 1 | 2.8 | 3.1 |
| 2 | 3.5 | 3.3 |
| 3 | 4.0 | 3.9 |
| 4 | 1.5 | 2.2 |
| 5 | 4.8 | 4.6 |
| 6 | 3.2 | 3.0 |
Calcula el MAE y el RMSE. ¿Cuál estudiante contribuye más al RMSE y por qué?
Ver respuesta
Errores absolutos: |2.8-3.1|=0.3, |3.5-3.3|=0.2, |4.0-3.9|=0.1, |1.5-2.2|=0.7, |4.8-4.6|=0.2, |3.2-3.0|=0.2
MAE = (0.3+0.2+0.1+0.7+0.2+0.2)/6 = 1.7/6 = 0.283
Errores cuadráticos: 0.09, 0.04, 0.01, 0.49, 0.04, 0.04 → suma = 0.71
RMSE = √(0.71/6) = √0.118 = 0.344
El estudiante 4 (error de 0.7) contribuye más al RMSE: su error cuadrático (0.49) representa el 69% de la suma total de errores cuadráticos. En el MAE su contribución es el 41%. El RMSE penaliza más ese error grande.2. Un árbol con profundidad 6 da MAE = 0.08 en train y MAE = 0.39 en test. El baseline tiene MAE = 0.45 en test. ¿Es un buen modelo? ¿Qué harías?
Ver respuesta
El modelo mejora el baseline (0.39 < 0.45), así que sí aprendió algo útil. Pero la brecha enorme entre train (0.08) y test (0.39) indica sobreajuste: el árbol memorizó los datos de entrenamiento en vez de aprender un patrón generalizable. Lo que haría es reducir la profundidad máxima o aumentar el mínimo de muestras por hoja hasta que train y test converjan a un valor parecido — aunque eso implique aceptar un MAE en train un poco más alto.3. Una facultad quiere usar el modelo para identificar estudiantes en riesgo de reprobar (nota < 3.0) antes del parcial final. ¿Qué métrica priorizarías para evaluar el modelo — MAE o RMSE? ¿Por qué?