Lección 3: Tipos de variables

EPDI

Clasificación de variables estadísticas y estudio de relaciones entre variables utilizando una base de datos didáctica simulada.

Autor

Afiliación

Hans Sigrist

Colegio Portaliano

Fecha de publicación

19 de marzo de 2026

Resumen

En esta lección se estudian los distintos tipos de variables estadísticas (numéricas y categóricas) y se introducen los conceptos de asociación, independencia y variables explicativa y respuesta.

Figura 1: Ilustración utilizada con fines educativos. Fuente: USF ClipArt Collection (University of South Florida).

1 Tipos de variables: una clasificación fundamental

En estadística, entender la naturaleza de las variables es el primer paso para elegir el análisis correcto. Las variables se clasifican en dos grandes familias: numéricas y categóricas.

1.1 Variables numéricas

Pueden tomar un rango amplio de valores numéricos y tiene sentido realizar operaciones como sumar, restar o calcular promedios con ellos.

Continuas: Pueden tomar cualquier valor en un intervalo (ej: tasa_desempleo, ingreso_mediano_hogar, la altura de una persona).
Discretas: Solo pueden tomar valores enteros que representan conteos (ej: poblacion_total, número de hijos, cantidad de viviendas).

Importante: No todo lo que parece número es una variable numérica en el sentido estadístico. Un número de teléfono, un RUT o un código postal son identificadores, no tiene sentido calcular su promedio. Son, en realidad, categóricas nominales.

1.2 Variables categóricas

Clasifican a los individuos en categorías.

Nominales: Las categorías no tienen un orden inherente. No se puede decir que una sea “mayor” que otra (ej: region, sexo, religión).
Ordinales: Las categorías tienen un orden natural, aunque la distancia entre ellas no sea cuantificable (ej: nivel_educacional con niveles “básica”, “media”, “superior”; o la respuesta a una encuesta con “muy malo”, “malo”, “regular”, “bueno”, “muy bueno”; o un rango como el que posee un uniformado: “cabo”, “sargento”, “capitán”).

Para simplificar, muchos análisis tratan las ordinales como nominales, pero es importante reconocer su orden.

2 Relaciones entre variables

Una vez que entendemos los tipos de variables, podemos empezar a preguntarnos cómo se relacionan entre sí. Gran parte de la estadística busca responder preguntas como: ¿Están relacionadas estas dos variables? ¿Una afecta a la otra?

2.1 Asociación entre variables

Decimos que dos variables están asociadas (o son dependientes) cuando los valores de una tienden a variar de forma sistemática con los valores de la otra. En caso contrario, se dice que son independientes.

Asociación positiva: Cuando una variable aumenta, la otra también tiende a aumentar. Por ejemplo, en el estudio de OpenIntro, se observa que las ciudades con mayor ingreso medio tienden a tener mayor crecimiento poblacional.
Asociación negativa: Cuando una variable aumenta, la otra tiende a disminuir. Por ejemplo, condados con más viviendas en edificios de varios pisos (multipiso) tienden a tener tasas de propietarios más bajas.

Ejemplo con tus datos de region30 (lo veremos en la práctica): Exploraremos si existe asociación entre ingreso_mediano_hogar y tasa_desempleo. ¿Será positiva o negativa?

2.2 Variables explicativas y de respuesta

Cuando sospechamos que una variable podría influir o causar un cambio en otra, etiquetamos a la primera como variable explicativa (o independiente) y a la segunda como variable respuesta (o dependiente).

Por ejemplo, en el estudio de los stents de la Lección 1: - Variable explicativa: El grupo al que pertenece el paciente (tratamiento con stent o control). Es lo que se manipula o estudia como posible causa. - Variable respuesta: Si el paciente sufrió o no un ACV. Es el resultado que se mide.

Importante: Etiquetar las variables de esta manera es una hipótesis del investigador. No garantiza que exista una relación causal. Para probar la causalidad, se necesita un experimento.

3 ¿Cómo obtenemos evidencia? Estudios observacionales y experimentos

La forma en que recolectamos los datos determina qué tipo de conclusiones podemos sacar.

Estudio observacional: Los investigadores observan y miden variables sin intervenir ni manipular el entorno. Simplemente registran lo que ocurre. Este tipo de estudio puede identificar asociaciones, pero no puede establecer causalidad. Por ejemplo, observar que las personas que hacen ejercicio viven más no prueba que el ejercicio cause una mayor longevidad; podría haber otros factores (como la dieta o la genética) que influyan.
Experimento: Los investigadores asignan activamente un tratamiento a los sujetos. La herramienta clave es la asignación aleatoria (al azar) de los sujetos a los grupos. Esto ayuda a equilibrar otros factores que podrían influir en el resultado, de modo que cualquier diferencia en la respuesta se pueda atribuir al tratamiento.
- Grupo de control: Recibe un placebo o ningún tratamiento. Sirve como línea de base para comparar.
- Placebo: Una sustancia o tratamiento sin el principio activo (ej. una pastilla de azúcar). Sirve para controlar el efecto psicológico de creer que se está recibiendo un tratamiento.

El caso de los stents (Lección 1) es un ejemplo perfecto de experimento aleatorio. Los pacientes fueron asignados al azar a los grupos de tratamiento y control. Esto permitió a los investigadores concluir (de forma sólida) que los stents, lejos de ayudar, parecían causar daño. Sin la asignación aleatoria, no podrían haber hecho esa afirmación causal.

Regla de oro: Asociación no implica causalidad. Solo un experimento aleatorio puede proporcionar evidencia sólida de una relación causal.

Advertencia

Los datos utilizados en esta lección (region30) corresponden a una versión didáctica simplificada de la data county (openintro) que simula indicadores regionales en Chile. No representan datos oficiales del INE ni de ningún organismo público, y han sido construidos únicamente con fines pedagógicos para el estudio de tipos de variables y relaciones estadísticas.

4 Cargar librerías y explorar los datos

Cargamos tidyverse (colección de paquetes para ciencia de datos) y leemos el archivo region30.csv. Luego usamos glimpse() para ver la estructura de los datos de forma compacta.

library(tidyverse)
region30 <- read_csv("../datos/region30.csv")
glimpse(region30)

Rows: 30
Columns: 8
$ region                    <chr> "Norte_1", "Norte_2", "Norte_3", "Centro_1",…
$ tasa_desempleo            <dbl> 8.4, 7.1, 9.3, 6.2, 5.8, 7.4, 10.2, 8.9, 7.6…
$ poblacion_total           <dbl> 540000, 620000, 410000, 980000, 1120000, 870…
$ crecimiento_poblacional   <dbl> 1.2, -0.5, 0.8, 1.5, 2.1, 0.4, -1.1, -0.3, 0…
$ ingreso_mediano_hogar     <dbl> 720000, 680000, 640000, 880000, 910000, 7600…
$ tasa_propietarios         <dbl> 62.1, 59.3, 65.8, 55.4, 52.7, 60.2, 71.5, 68…
$ viviendas_multipiso       <dbl> 38.4, 41.2, 32.5, 48.6, 50.1, 36.9, 21.4, 25…
$ nivel_educacional_mediano <chr> "Media completa", "Técnico superior", "Media…

Observamos que tenemos 30 filas y 8 columnas. Cada columna es una variable. Con names() podemos listar sus nombres:

names(region30)

[1] "region"                    "tasa_desempleo"           
[3] "poblacion_total"           "crecimiento_poblacional"  
[5] "ingreso_mediano_hogar"     "tasa_propietarios"        
[7] "viviendas_multipiso"       "nivel_educacional_mediano"

5 Tipos de variables: ¿cómo clasificarlas?

En estadística, las variables se clasifican en:

Numéricas continuas: pueden tomar cualquier valor en un intervalo (ej: tasa_desempleo).
Numéricas discretas: toman valores enteros que representan conteos (ej: poblacion_total).
Categóricas nominales: categorías sin orden (ej: region).
Categóricas ordinales: categorías con un orden natural (ej: nivel_educativo).

Pero cuidado: no todo lo que parece número es una variable numérica en sentido estadístico. Por ejemplo, un número de teléfono es un identificador, no tiene sentido calcular su promedio. En cambio, la tasa_desempleo sí es una variable numérica con la que podemos hacer operaciones.

Para las variables categóricas, podemos usar table() o count() para ver frecuencias. Por ejemplo, la variable region:

table(region30$region)


Austral_1 Austral_2 Austral_3 Austral_4 Austral_5 Austral_6  Centro_1 Centro_10 
        1         1         1         1         1         1         1         1 
 Centro_2  Centro_3  Centro_4  Centro_5  Centro_6  Centro_7  Centro_8  Centro_9 
        1         1         1         1         1         1         1         1 
  Norte_1   Norte_2   Norte_3   Norte_4   Norte_5   Norte_6   Norte_7     Sur_1 
        1         1         1         1         1         1         1         1 
    Sur_2     Sur_3     Sur_4     Sur_5     Sur_6     Sur_7 
        1         1         1         1         1         1

region30 |> count(region, sort = TRUE)

# A tibble: 30 × 2
   region        n
   <chr>     <int>
 1 Austral_1     1
 2 Austral_2     1
 3 Austral_3     1
 4 Austral_4     1
 5 Austral_5     1
 6 Austral_6     1
 7 Centro_1      1
 8 Centro_10     1
 9 Centro_2      1
10 Centro_3      1
# ℹ 20 more rows

Relación entre variables: diagramas de dispersión

Cuando queremos explorar la relación entre dos variables numéricas, el gráfico adecuado es el diagrama de dispersión (scatter plot). Veamos si existe relación entre el ingreso mediano del hogar y la tasa de desempleo:

ggplot(region30, aes(x = ingreso_mediano_hogar, y = tasa_desempleo)) +
  geom_point() +
  labs(x = "Ingreso mediano del hogar", y = "Tasa de desempleo",
       title = "Ingreso vs Tasa de Desempleo")

¿Se observa alguna tendencia? ¿A mayor ingreso, menor desempleo?

Ahora exploremos otra posible relación: porcentaje de viviendas en edificios de varios pisos versus tasa de propietarios.

ggplot(region30, aes(x = viviendas_multipiso, y = tasa_propietarios)) +
  geom_point() +
  labs(x = "% viviendas multipiso", y = "Tasa de propietarios",
       title = "Multipiso vs Propietarios")

Importante: Que dos variables muestren una asociación en un gráfico no significa que una cause la otra. La correlación no implica causalidad.

6 Efecto de los valores atípicos (outliers) en la media y la mediana

Vamos a simular un conjunto de ingresos para entender cómo los valores extremos afectan las medidas de tendencia central.

Primero, generamos 60 ingresos “típicos” usando una distribución log-normal (común para ingresos) y luego añadimos tres valores extremadamente altos.

set.seed(123)  # para que los resultados sean reproducibles
ingresos_tipicos <- round(rlnorm(60, meanlog = log(650), sdlog = 0.25))
ingresos_extremos <- c(5000, 7000, 12000)
ingresos <- c(ingresos_tipicos, ingresos_extremos)

Ahora tenemos 63 valores. Veamos un resumen estadístico:

length(ingresos)

[1] 63

summary(ingresos)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    398     578     668    1027     794   12000

Calculamos la media y la mediana:

media <- mean(ingresos)
mediana <- median(ingresos)
media

[1] 1026.524

mediana

[1] 668

Observa que la media es mucho mayor que la mediana debido a los valores extremos. Visualicemos la distribución con un histograma:

hist(ingresos, breaks = 20, main = "Distribución de ingresos (con outliers)",
     xlab = "Ingreso (miles de pesos)")
abline(v = media, col = "red", lwd = 2)
abline(v = mediana, col = "blue", lwd = 2)
legend("topright", legend = c("Media", "Mediana"), col = c("red", "blue"), lwd = 2)

La media es sensible a outliers; la mediana es más robusta. Si eliminamos los valores extremos:

ingresos_sin_extremos <- ingresos_tipicos
mean(ingresos_sin_extremos)

[1] 677.85

median(ingresos_sin_extremos)

[1] 653.5

Ahora media y mediana son mucho más cercanas.

7 Cuestionario Grupal: Tipos de variables

A continuación, se presentan tres estudios reales. Para cada uno, intenta identificar la pregunta de investigación, los sujetos involucrados y las variables, clasificándolas según su tipo. Puedes usar estos ejemplos para discutir en clase o como ejercicios individuales.

Contaminación del aire y partos prematuros

Los investigadores recolectaron datos para examinar la relación entre contaminantes atmosféricos y partos prematuros en el sur de California. Durante el estudio, los niveles de contaminación se midieron mediante estaciones de monitoreo de calidad del aire. Específicamente, se registraron niveles de monóxido de carbono en partes por millón, dióxido de nitrógeno y ozono en partes por cien millones, y material particulado grueso (\(PM_{10}\)) en \(\frac{\mu g}{m^{3}}\). Se recopilaron datos de la duración de la gestación de 143.196 nacimientos entre los años 1989 y 1993, y se calculó la exposición a la contaminación durante la gestación para cada nacimiento. El análisis sugirió que el aumento de \(PM_{10}\) y, en menor grado, las concentraciones de CO podrían estar asociados con la ocurrencia de partos prematuros.

Identifica la pregunta principal de investigación del estudio.
¿Quiénes son los sujetos en este estudio y cuántos se incluyeron?
¿Cuáles son las variables en el estudio? Identifica cada variable como numérica o categórica. Si es numérica, indica si es discreta o continua. Si es categórica, indica si es ordinal.

El método Buteyko

El método Buteyko es una técnica de respiración superficial desarrollada por el médico ruso Konstantin Buteyko en 1952. La evidencia anecdótica sugiere que el método Buteyko puede reducir los síntomas del asma y mejorar la calidad de vida. En un estudio científico para determinar la efectividad de este método, los investigadores reclutaron a 600 pacientes asmáticos de entre 18 y 69 años que dependían de medicamentos para el tratamiento del asma. Estos pacientes se dividieron aleatoriamente en dos grupos: uno practicó el método Buteyko y el otro no. Los pacientes fueron evaluados en una escala del 0 al 10 en cuanto a calidad de vida, actividad, síntomas de asma y reducción de medicación. En promedio, los participantes del grupo Buteyko experimentaron una reducción significativa de los síntomas de asma y una mejora en la calidad de vida.

Identifica la pregunta principal de investigación del estudio.
¿Quiénes son los sujetos en este estudio y cuántos se incluyeron?
¿Cuáles son las variables en el estudio? Identifica cada variable como numérica o categórica. Si es numérica, indica si es discreta o continua. Si es categórica, indica si es ordinal.

Tramposos

Investigadores que estudiaban la relación entre la honestidad, la edad y el autocontrol realizaron un experimento con 160 niños de entre 5 y 15 años. Los participantes informaron su edad, sexo y si eran hijos únicos o no. Los investigadores pidieron a cada niño que lanzara una moneda en privado y que registrara el resultado (blanco o negro) en una hoja de papel, y les dijeron que solo recompensarían a los niños que reportaran “blanco”. Los hallazgos del estudio se pueden resumir así: “A la mitad de los estudiantes se les dijo explícitamente que no hicieran trampa y a la otra mitad no se les dio ninguna instrucción explícita. En el grupo sin instrucciones, la probabilidad de hacer trampa fue uniforme en todos los grupos según las características del niño. En el grupo al que se le dijo explícitamente que no hiciera trampa, las niñas tenían menos probabilidades de hacer trampa, y mientras que la tasa de trampa no variaba con la edad en los niños, disminuía con la edad en las niñas”.

Identifica la pregunta principal de investigación del estudio.
¿Quiénes son los sujetos en este estudio y cuántos se incluyeron?
¿Cuántas variables se registraron para cada sujeto en el estudio para poder llegar a estas conclusiones? Indica las variables y sus tipos.

Clasifica las siguientes variables de region30. Para cada una, indica si es: numérica continua, numérica discreta, categórica nominal o categórica ordinal, y justifica brevemente.

Variable	Tipo	Justificación

Explorando la variable region. Al usar glimpse(region30) no se ven todos los valores de la variable region. ¿Qué comando usarías para listar todos los valores únicos de esa variable?

Tip

(Ayuda: prueba con unique(), sort(), table() o combinaciones)

# Escribe aquí tu código

Interpretación de gráficos. Observa el gráfico de dispersión entre viviendas_multipiso y tasa_propietarios. ¿Qué tendencia parece haber? ¿Crees que vivir en un edificio de varios pisos causa una menor tasa de propietarios? Explica.
Media vs mediana. En el ejemplo de los ingresos simulados, ¿por qué la media es mayor que la mediana? ¿Qué medida es más representativa del “ingreso típico” en presencia de outliers? ¿Por qué?