Regresión Lineal: Sucidios

Introducción

En este notebook se expondrá como llevar a cabo una Regresión Lineal a partir de un conjunto de datos, explicando las hipótesis que se deben satisfacer y un posterior análisis de bondad del modelo. Por último se explicará como utilizar el modelo creado para predecir nuevas observaciones.

dataset

En el siguiente dataset presenta la tasa de suicidios que ocurre en España con distintas variables demográficas y económicas que pueden llegar a influir o no, por Comunidades Autónomas.Concretamente tenemos las siguientes variables:

  • analf: Población de 16 años o más analfabeta.
  • ccaa: Comunidades Autónomas de España.
  • def: Número de defunciones.
  • defpc: Número de defunciones per cápita.
  • deu_nec: Deudores concursados necesarios
  • gastoid : Gastos internos totales y personal en I+D
  • gastomed: Gasto Medio por Persona.
  • gastoprotec: Gasto en protección ambiental.
  • gastoprotecpc: Gasto en protección ambiental per cápita.
  • habitantes: Número de habitantes por CCAA.
  • inac: Inactivos.
  • ipc: Índice de Precios de Consumo.
  • m_cond: Menores condenados.
  • ocu: Ocupados.
  • paro: Número de personas en paro.
  • paro_ld: Parados que llevan 2 años o más buscando empleo (larga duración).
  • paropc: Número de parados per cápita.
  • pibpc: PIB per cápita.
  • res_urb: Cantidad de residuos urbanos recogidos
  • res_urbpc: Número de residuos urbanos per cápita.
  • soc_cons: Sociedades constituidas
  • soc_conspc: Número de sociedades constituidas per cápita.
  • suic: Suicidios.
  • suicpc: Número de suicidios per cápita.
  • tur: Número de Turistas.
  • turpc: Número de turistas per cápita.
  • v_genero: Víctimas mortales por violencia de género.
  • indice_total: Índice multidimensional de calidad de vida teniendo en cuenta las nueve dimensiones.
  • suic : Indicador sobre las condiciones materiales de vida.
  • habitantes : Indicador sobre el trabajo.
  • deu_nec : Indicador sobre la salud.
  • ipc : Indicador sobre la educación.
  • defpc : Indicador sobre el ocio y relaciones sociales.
  • gastoprotecpc : Indicador sobre la seguridad física y personal.
  • pibpc : Indicador sobre la gobernanza y los derechos básicos.
  • paropc : Indicador sobre el entorno y el medioambiente.
  • CCAA: Comunidades Autónomas.

En este caso de uso, vamos a intentar explicar qué variables $(x1,x2,…,xk) $ pueden afectar al número de suicidios \((y)\) que ocurren en España.

Los datos relativos a este estudio corresponden a una serie de estadísticas relacionadas con el suicidio y la población como pueden ser la Estadística de Defunciones según la Causa de Muerte o la Encuesta de Población Activa (EPA). Aunque el dataset presente muchas variables, sólo se usaran las relativas a términos per cápita puesto que las demás tienen una correlación bastante alta y esto puede causar problemas.

Descripción del trabajo a realizar

Se pretende hacer una regresión lineal que explique el número de suicpc en función del resto de variables que sean pertinentes.

  • Hacer un análisis exploratorio. Ver que las variables que no son per cápita tienen una correlación muy altas y por tanto, no considerarlas.
  • Plantear las hipótesis de una regresión.
  • Analizar el modelo planteado y su ajuste de bondad.
  • Comprobar hipótesis de regresión.
  • Selección de variables.
  • Hacer una conclusión.

Análisis Exploratorio (EDA)

EDA viene del Inglés Exploratory Data Analysis y son los pasos relativos en los que se exploran las variables para tener una idea de que forma toma el dataset.

Cargar Librerías

Lo primero de todo vamos a cargar las librerías necesarias para ejecutar el resto del código del trabajo:

library(readxl) # Para leer los excels
library(kableExtra) # Para dar formato a las tablas html
library(knitr)
library(gridExtra) # Para cargar bien las tab
library(car) # for bonfferroni test
library(reshape2) # Para manejar los datos
library(dplyr) # Para manejar los datos
library(ggplot2)
library(lmtest) # Test Homocedasticidad
library(corrplot) # Para el gráfico de correlaciones

Ahora leemos los datos del excel correspondientes a la pestaña “Datos” y vemos si hay algún NA en nuestro dataset. Vemos que no han ningún NA (missing value) en el dataset luego no será necesario realizar ninguna técnica para imputar los missing values o borrar observaciones.

Lectura datos

Ahora cargamos los datos del excel correspondientes a la pestaña “Datos” y vemos si hay algún NA o algún valor igual a 0 en nuestro dataset. Vemos que no han ningún NA (missing value) en el dataset luego no será necesario realizar ninguna técnica para imputar los missing values o borrar observaciones.

suicidios <- read_excel("../../../files/suicidios2019CCAA.xlsx", sheet = "Datos")
anyNA(suicidios) # Any missing data
[1] FALSE

Análisis

Tabla mostrando las medidas de interés para cada variable.
variable Min Q1 Mean Median Q3 Max
suic suic 29.0 92.0 230.0 179.0 305.0 793.0
habitantes habitantes 319796.0 1059501.0 2777372.0 2049562.0 2695645.0 8472407.0
suicpc suicpc 0.0 0.0 0.0 0.0 0.0 0.000121
deu_nec deu_nec 0.0 1.0 6.0 4.0 8.0 20.0
ipc ipc 109.0 110.0 110.0 110.0 111.0 112.291
defpc defpc 0.0 0.0 0.0 0.0 0.0 0.01321
def def 3409.0 12333.0 25766.0 17178.0 32841.0 79498.0
gastoprotec gastoprotec 3000599.0 11428710.0 43314589.0 34075312.0 56016655.0 148771215.0
gastoprotecpc gastoprotecpc 1.0 9.0 19.0 14.0 22.0 55.3638
gastoid gastoid 64412.0 193658.0 927305.0 341157.0 1236012.0 4252947.0
pibpc pibpc 19454.0 21642.0 25946.0 24383.0 28727.0 35913.0
paropc paropc 0.0 0.0 0.0 0.0 0.0 0.000471
paro paro 140.0 396.0 1160.0 847.0 1085.0 3442.1
soc_cons soc_cons 351.0 1035.0 4650.0 2263.0 3212.0 17965.0
soc_conspc soc_conspc 0.0 0.0 0.0 0.0 0.0 0.002661
v_genero v_genero 0.0 1.0 3.0 1.0 3.0 9.0
res_urbpc res_urbpc 0.0 0.0 81.0 1.0 1.0 1368.1
res_urb res_urb 133764.0 507580.0 1334382.0 883808.0 1282486.0 4310649.0
tur tur 47913.0 161462.0 1833408.0 499370.0 4019766.0 6324711.0
turpc turpc 0.0 0.0 1.0 0.0 1.0 5.391874
ocu ocu 140.0 396.0 1160.0 847.0 1085.0 3442.1
inac inac 106.0 400.0 965.0 693.0 1113.0 3031.5
analf analf 0.0 1.0 1.0 1.0 2.0 2.4
paro_ld paro_ld 4.0 17.0 54.0 31.0 75.0 271.4
m_cond m_cond 77.0 214.0 652.0 440.0 750.0 2382.0
g_med g_med 9587.0 10480.0 11607.0 11806.0 12022.0 13981.58

Lo primero vamos a ver correlaciones para ver si podemos reducir la dimensionalidad ya que tenemos un número muy alto de variables. En el siguiente gráfico se muestra la correlación entre distintas variables, que puede ser positiva o negativa. Concretamente, la matriz de coeficientes de correlación, expresada con un número que va desde \(-1\) a \(1\). La diagonal es siempre \(1\) pues es trivial que una variable esta \(100\%\) correlada con si misma. Además, se dice que dos variables están altamente correlacionadas si su valor \(\geq 0,7\).

Correlaciones entre variables

Podemos observar que las variables que no son per cápita presentan una correlación bastante alta. Esto es debido al “efecto tamaño”1 que produce dependientes del tamaño de la población considerada. Es por ello que se van a usar medidas per cápita que eliminan esta correlación, siendo la variable a predecir suicpc.

Correlaciones entre variables per cápita

Correlaciones entre variables que no son per cápita

Como se comentaba, debido a que las medidas per cápita tienen una correlación mucho menor, serán estas las que intentemos usar para la regresión lineal con objetivo de explicar el número de suicidios per cápita. En las siguientes Figuras podemos observar que no parece haber datos atípicos en cuanto a esta magnitud, aunque para ser precisos se tienen un número muy bajo de observaciones.

Suicidios per cápita.

Regresión Lineal

Una Regresión Lineal es una técnica estadística que busca ajustar un conjunto de datos a una recta. Es decir, dada una observación x, se proyecta sobre la recta y se obtiene un valor y, de tal manera que si el ajuste por regresión es bueno entonces la \(\hat{y}\) obtenida se parece mucho al valor real \(y\).

Antes de explicar las hipótesis que deben cumplir los datos para que el ajuste y como llevarlo a cabo, se va a mostrar un ejemplo de buen y mal ajuste. Intuitivamente cuanto mejor sea el ajuste de los datos a una recta cuando se representen las observaciones en un gráfico, mejor será el ajuste.

par(mfrow = c(1, 2)) # Dos gráficos misma fila

# Poca variabilidad
x <- seq(1, 100, 1)
y <- rnorm(100, x, 5)
p1 <- plot(y, col = "lightblue", main = "BUENO Ajuste") + abline(lm(y ~ x), col = "navy")

# Mucha variabilidad
x_malo <- seq(1, 100, 1)
y_malo <- rnorm(100, x, 35)
p2 <- plot(y_malo, col = "lightblue", main = "MAL Ajuste") + abline(lm(y_malo ~ x_malo), col = "navy")

Hipótesis y indicadores de bondad

Para que una regresión lineal proporcione un buen ajuste a los datos debe cumplir una serie de requisitos que por tanto deben ser verificados al llevar a cabo el estudio. Recordar que la regresión lineal se expresa como: \[ \mathbf{Y}=\mathbf{X} \boldsymbol{\beta}+\boldsymbol{\varepsilon} \] donde \(\mathbf{Y}\) es la variable respuesta, \(\mathbf{X}\) los predictores (hay \(k\) variables predictoras), \(\boldsymbol{\beta}\) los coeficientes de la regresión y \(\boldsymbol{\varepsilon}\) el error. \[ \mathbf{Y}=\left[\begin{array}{c} y_1 \\ y_2 \\ \vdots \\ y_n \end{array}\right] \quad \mathbf{X}=\left[\begin{array}{cccc} 1 & x_{11} & \ldots & x_{1 k} \\ 1 & x_{21} & \ldots & x_{2 k} \\ \vdots & \ddots & \vdots & \\ 1 & x_{n 1} & \ldots & x_{n k} \end{array}\right] \quad \boldsymbol{\beta}=\left[\begin{array}{c} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_k \end{array}\right] \quad \boldsymbol{\varepsilon}=\left[\begin{array}{c} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{array}\right] \] Las hipótesis que se deben cumplir son:

  • Linealidad: La media de la respuesta es función lineal de los predictores. En términos matemáticos: \[E\left[\mathbf{Y} \mid \mathbf{X}_1=x_1, \ldots, \mathbf{X}_k=x_k\right]=\beta_0+\beta_1 x_1+\ldots+\beta_k x_k \]

  • Independencia de errores: Los errores \(\varepsilon_i\) deben ser independientes, es decir, \(Cov[\varepsilon_i,\varepsilon_j] =0, \; \forall i\neq j\).

  • Homocedasticidad: La varianza del error debe ser constante.

\[Var\left[\varepsilon_i \mid \mathbf{X}_1=x_1, \ldots, \mathbf{X}_k=x_k\right]=\sigma^2 \quad \forall \;i \]

  • Normalidad : Los errores deben estar distribuidos normalmente, es decir, \(\varepsilon_i \sim N(0,\sigma^2)\; \forall i\).

Para analizar la bondad, hay algunos indicadores como el Coeficiente de Determinación o \(R^2\) que representa el porcentaje de variabilidad de la variable respuesta que es capaz de explicar el modelo. Es decir, si toma valor 1 hay una dependencia lineal exacta entre los predictores y la variable respuesta y por tanto las predicciones serán perfectas. Por el contrario, si toma valor 0 habrá que desechar el modelo puesto que no es capaz de predecir con nada de exactitud.

En caso de que haya más de un predictor (\(k >1\), Regresión Lineal Múltiple), es más recomendable usar el Coeficiente de Determinación Ajustado \(R^2\_adj\) como indicador de bondad, pues el \(R^2\) puede inflarse artificialmente debido a la presencia de varios predictores. Su interpretación es similar.

Modelo

En este caso nos encontramos ante una Regresión Lineal Múltiple puesto que tenemos más de una variable predictora. Inicialmente vamos a considerar un modelo con todas variables predictoras para intentar predecir el \(suicpc\) y veremos si este modelo cumple las hipótesis necesarias y cuan bueno es.

# Modelo inicial
lm1 <- lm(suicpc ~ defpc + gastoprotecpc + pibpc + paropc + soc_conspc + turpc, suicidios)

summary(lm1)

Call:
lm(formula = suicpc ~ defpc + gastoprotecpc + pibpc + paropc + 
    soc_conspc + turpc, data = suicidios)

Residuals:
       Min         1Q     Median         3Q        Max 
-1.042e-05 -2.210e-06  8.922e-07  1.754e-06  1.243e-05 

Coefficients:
                Estimate Std. Error t value Pr(>|t|)  
(Intercept)    1.234e-04  5.045e-05   2.445   0.0345 *
defpc          3.908e-03  1.753e-03   2.230   0.0498 *
gastoprotecpc  3.982e-07  1.526e-07   2.610   0.0260 *
pibpc         -9.398e-10  6.414e-10  -1.465   0.1735  
paropc        -1.556e-01  1.322e-01  -1.177   0.2664  
soc_conspc     2.118e-03  5.549e-03   0.382   0.7106  
turpc          3.602e-06  1.850e-06   1.947   0.0802 .
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 7.63e-06 on 10 degrees of freedom
Multiple R-squared:  0.8569,    Adjusted R-squared:  0.7711 
F-statistic: 9.984 on 6 and 10 DF,  p-value: 0.0009766

A primera vista vemos un valor de Múltiple R-squared: 0.8569,, lo cual es bastante alto y por tanto nuestro modelo parece capturar bien la variabilidad de la variable respuesta, concretamente un \(85\%\). Sin embargo, en los sucesivos modelos que planteemos no podemos usar como criterio de comparación el \(R-squared\) pues aumenta a la vez que lo hace el número de variables, y por tanto para comparar modelos entre si se debe usar el Adjusted R-squared (que tiene en cuenta el número de variables) que toma un valor de 77%.

En la línea de los residuos no parece haber contraindicaciones a que estos sigan una distribución normal centrada en cero puesto que tenemos unas medidas de dispersión bastante simétricas. No obstante, más adelante se procederán a hacer los test pertinentes.

En la última linea se lleva a cabo un Test de Significación Global \(F-Test\) lo que considera es la hipótesis nula de

\[H_0: \beta_i =0\; \forall i \\ H_1: al\; menos \; un \; \beta_i \neq 0\].

Para un nivel de confianza de \(0.95\) podemos rechazar la hipótesis nula (puesto que p_val< 0.05) y por tanto aceptar la alternativa, lo cual es buena señal.

No obstante es necesario analizar que se cumplan las hipótesis iniciales para poder asegurar que estamos ante un buen modelo.

Test de Bonferroni (datos atípicos)

La idea principal es verificar si los residuos de las observaciones son significativamente diferentes de cero. Si un residuo tiene un valor “studentizado” grande en comparación con una distribución t, puede considerarse como un posible valor atípico. Esto se debe a que teóricamente se demuestra que los residuos “studentizados” \(r^* _i \sim t_{n-k-1}\) con k el número de predictores. En este caso parece haber un posible valor atípico.

outlierTest(lm1)
No Studentized residuals with Bonferroni p < 0.05
Largest |rstudent|:
  rstudent unadjusted p-value Bonferroni p
5 2.595927           0.028931      0.49182

Test homocedasticidad

En términos sencillos, la Prueba de Breusch-Pagan evalúa si la varianza de los errores en un modelo de regresión es constante o si varía a lo largo de los valores de las variables predictoras. Una violación de la homocedasticidad puede afectar la validez de las inferencias realizadas a partir del modelo.

El test funciona de la siguiente manera: se obtienen los residuos al cuadrado y se realiza una regresión auxiliar para determinar si hay una relación significativa entre los residuos al cuadrado y las variables predictoras. Si se encuentra evidencia significativa, puede indicar la presencia de heterocedasticidad.

bptest(suicpc ~ defpc + gastoprotecpc + pibpc + paropc + soc_conspc + turpc, suicidios, varformula = ~ fitted.values(lm1), studentize = FALSE)

    Breusch-Pagan test

data:  suicpc ~ defpc + gastoprotecpc + pibpc + paropc + soc_conspc +     turpc
BP = 0.058831, df = 1, p-value = 0.8084

\[H_0: Var[\varepsilon_i ] =\sigma^2 \; \forall \;i \\ H_1: Var[\varepsilon_i ] \neq \sigma^2 \; \forall \;i\].

Si el valor p obtenido de la prueba de Breusch-Pagan es \(0.8\), interpretaríamos esto como evidencia insuficiente para rechazar la hipótesis nula de homocedasticidad (a nivel de significancia de \(0.05\)). En otras palabras, no tendríamos suficiente evidencia estadística para decir que hay heterocedasticidad en los errores del modelo de regresión.

En términos prácticos, esto sugiere que la varianza de los errores parece ser constante a lo largo de los valores de las variables predictoras.

Normalidad de residuos

El Test de Shapiro es una prueba de normalidad que se utiliza para evaluar si una muestra proviene de una población con una distribución normal. La hipótesis nula del test es que la muestra sigue una distribución normal. Si el valor p obtenido en la prueba es menor que el nivel de significancia (comúnmente establecido en \(0.05\)), se rechaza la hipótesis nula, indicando que la muestra no sigue una distribución normal.

\[H_0: \varepsilon_i \sim N(\;,\;) \; \forall \\ H_1: \varepsilon_i \nsim N(\;,\;) \; \forall \].

shapiro.test(lm1$residuals)

    Shapiro-Wilk normality test

data:  lm1$residuals
W = 0.93194, p-value = 0.2345

Aceptamos la normalidad de los residuos puesto que el \(p-value>0.05\).

Test linealidad

La hipótesis alternativa analiza si la inclusión de términos cuadráticos (potencia 2) de las variables predictoras mejora significativamente el modelo en comparación con un modelo que solo incluye términos lineales.

resettest(suicpc ~ defpc + gastoprotecpc + pibpc + paropc + soc_conspc + turpc, suicidios, power = 2, type = "regressor")

    RESET test

data:  suicpc ~ defpc + gastoprotecpc + pibpc + paropc + soc_conspc +     turpc
RESET = 0.72339, df1 = 6, df2 = 4, p-value = 0.6563

Aceptamos la linealidad puesto que el \(p-value>0.05\), a un nivel de significancia de \(\alpha =0.05\), luego no es necesario incluir términos cuadráticos.

Gráfico de influencia del modelo porpuesto

En el siguiente gráfico se muestran los residuos “studentizados”, es decir, los residuos transformados a una \(N(0,1)\). Es por ello, que debido a el cuantil \(z_{\alpha/2}=-1.96\; con \; \alpha=0.05\) de una normal, sabemos que el \(95\%\) de elementos deben estar contenidos en \((-1,96,1.96)\) que son las rayas horizontales del gráfico.

influencePlot(lm1, id = list(method = "noteworth", n = 2))

  • Los residuos bajo hipótesis de RLM siguen una N(0,sigma) y los “studentizados” un N(0,1), es decir el \(95\%\) de datos están entre \((-1.96,1.96)\), las líneas horizontales. Tenemos 20 observaciones y 2 o 3 datos fuera de la línea lo que a priori podría ser correcto.
  • Las líneas verticales indican los datos con apalancamiento en el modelo. Es decir los datos fuera de la línea vertical derecha No vemos ni siquiera las lineas entonces no parece haber apalancamiento.
  • El área de las burbujas es proporcional a la dist. de cook (mide cómo cambian los parámetros del modelo cuando se excluye una observación específica). Vemos que hay uno con una gran distancia de cook (tienen residuo grande), luego esto nos indica que podría considerarse en cierto modo atípico. Como no hemos encontrado más evidencias de que fuera atípico lo vamos a dejar así.

Colinealidad

Cuando los regresores no tienen una relación lineal, se consideran ortogonales. Sin embargo, en la mayoría de las aplicaciones de regresión, los regresores no cumplen con esta condición. En algunos casos, la falta de ortogonalidad no representa un problema significativo, pero en otros, los regresores pueden estar tan estrechamente relacionados linealmente de manera que las predicciones del modelo de regresión se vuelven poco fiables o incorrectas.

Este fenómeno, en el que los regresores presentan dependencias lineales casi perfectas, se conoce como el problema de colinealidad. Se realiza la matriz de correlaciones para ver la dependencia lineal entre las distintas variables.

mat_cor <- cor(suicidios[, c("defpc", "gastoprotecpc", "pibpc", "paropc", "soc_conspc", "turpc")]) %>% round(digits = 2)
corrplot(mat_cor, type = "upper", order = "hclust", tl.col = "black", tl.srt = 45)

No parece haber ningún rastro de colinealidad (al menos directa), entre los predictores. Para estar más seguros vamos a realizar un análisis del VIF.

El factor de inflación de la varianza (FIV) detecta si una variable independiente es colineal con el resto. Es decir, mira cuanto se infla la varianza de los estimadores por culpa de la colinealidad de unas variables respecto a otras. Decisión: Un Valor del FIV mayor de 10 requiere actuación.

# Inflación de la varianza
vif(lm1)
        defpc gastoprotecpc         pibpc        paropc    soc_conspc 
     2.767328      1.568304      2.961025      3.757949      2.151474 
        turpc 
     1.641132 

Vemos que la primera dimensión podría presentar problemas de colinealidad.Posibles soluciones:

  • Eliminar una de las variables, p.ej. la de mayor FIV.
  • Utilizar regresión sobre componentes principales (esto es una transformación lineal de las variables independientes de forma que las nuevas variables sean incorreladas entre sí y de varianza decreciente) o bien
  • Disponer de algún método de selección de las variables dentro del modelo.

En nuestro caso no hay ninguna grande lo cual no tenemos ningún indicio para alarmarnos.

Selección de variables

A la hora de realizar un modelo de acuerdo a una lista de variables estadísticas, suele ser frecuente estudiar la relevancia de todas ellas, o si por el contrario con un número reducido de predictores es suficiente. Además del \(R^2_{adj}\), el Criterio de Información de Akaike (AIC), es una medida para comparar diferentes modelos. Comparando dos modelos, el que tenga un AIC más bajo se puede considerar mejor modelo.

Vamos a realizar un método de Stepwise que lo que hace es incluyendo/sacando variables sobre el modelo inicial hasta encontrar el modelo con el mejor AIC(el más bajo). No se ejecuta en el notebook dicha función puesto que tiene una salida muy larga, aunque es recomendable su uso.

library(Rcmdr)
stepwise(lm1, direction = "backward/forward", criterion = "AIC")

Nos ha quitado una variable pero el AIC tampoco ha bajado tanto por lo que podríamos considerar ambos modelos como buenos.

Predicción

Una vez que hemos seleccionado un modelo, en este caso lm1, se podría predecir nuevas observaciones y calcular intervalos de confianza para estas. Para predecir usaremos la función predict(), que además nos puede proporcionar un intervalo de confianza para los valores predichos.

Posteriormente se puede calcular el Mean Absolute Error (MAE), que se calcula como la diferencia absoluta promedio entre los valores ajustados por el modelo (un paso por delante de la previsión de muestra) y los datos históricos observados.

NOTA: En este caso, debido al bajo número de observaciones no vamos a particionar el conjunto de datos en train/test y predecir sobre el segundo puesto que sería un número de observaciones muy pequeño. No obstante dejamos aquí, el código de como hacerlo en un caso genérico:

prediccion <- predict(lm1, ........, interval = "confidence", level = 0.95)
valor_real <- ..............

# Calculamos el MAE
MAE <- sum(abs(prediccion[, 1] - valor_real)) / 11
MAE

Conclusión

El modelo inicial considerado tiene buenos indicadores de bondad de ajuste y además pasa todas las hipótesis requeridas para una regresión lineal. Es por ello que parece razonable tomarlo como bueno. Destacar que se han eliminado las variables que dependían de la estructura poblacional ya que había una alta correlación entre ellas (debido al tamaño de la población considerada).

Bibliografía

Back to top

Footnotes

  1. Ejemplo: La Comunidad de Madrid que tiene muchos más habitantes que Navarra, es trivial que va a tener número de muertes, de suicidios, de ipc,.. más alto que Navarra. Es por ello que nos interesa tener una medida invariante ante la estructura poblacional y para ello dividimos los valores obtenidos entre la población total.↩︎