Matemáticas. Regresión |
A consideración da distribución conxunta das dúas variables permitirá estudar se existe algún tipo de relación entre elas.
O primeiro paso para saber se existe algún tipo de relación entre as dúas variables que estamos estudando é representar a nube de puntos.
¿Como? Pintamos no plano cartesiano os puntos determinados polos pares de valores da táboa anterior.
E, ¿que variable escollemos para cada eixo?
O mellor é representar no eixo de ordenadas (Y) a variable explicada (tamén chamada endóxena ou dependente) e no eixo de abscisas (X) a variable explicativa (esóxena ou independente).
No noso caso o máis lóxico é pensar que a renda dispoñible bruta por habitante de cada concello depende da idade media do concello,
así que a nosa variable explicada é a renda dispoñible bruta e a nosa variable explicativa é a idade media:
¿Que conclusións podemos deducir do gráfico de dispersión?
Se observamos o gráfico podemos apreciar que ao aumentar os valores da variable independente (representada no eixo das x), diminúe en promedio o valor da variable dependente (representada no eixo das y). Cando esto ocorre dicimos que existe unha relación negativa ou inversa entre ambas variables.
Variable independente Variable dependente ¡¡¡ relación negativa !!!!
Efectivamente, o gráfico mostra que os concellos con alta idade media tenden a ter unha renda dispoñible bruta por habitante menor, confirmando así o que sospeitabamos ¿non si?
¿Poderiamos dicir que existe relación entre as dúas variables? ¿De que tipo?
A nube de puntos representada no gráfico de dispersión semella agruparse arredor dunha línea recta imaxinaria, esto quere dicir que a relación é lineal pero debemos ter en conta que os puntos non se sitúan exactamente nunha recta polo que a relación é de tipo estatístico e non funcional.
A covarianza dá información sobre a asociación lineal entre dúas variables. ¡¡Coidado!!, mide a asociación lineal, non proporciona ningunha información se a relación é doutro tipo.
No noso caso temos:
De aquí, podemos deducir que hai certa dependencia lineal (se non a houbese a covarianza sería 0), e que esta é negativa pois o signo da covarianza tamén o é. Pero xa non deducimos nada máis, non podemos saber se a relación é forte ou non.
¿Por que? ¡¡¡¡ A covarianza non é unha medida adimensional !!!!!, depende das unidades de medida, polo que non hai uns límites a partir dos que se poida considerar que a relación sexa máis ou menos lineal.
¿Como se soluciona esto?
Para construír unha medida da relación lineal entre dúas variables, que resuma a información do gráfico de dispersión e que non dependa das unidades de medida, a solución proposta por Galton e Pearson foi tipificar a covarianza dividíndoa polas desviacións típicas de ambas as dúas variables. O resultado chámase coeficiente de correlación lineal de Pearson. Se o calculamos, no noso caso temos:
O coeficiente de correlación é sempre un valor entre -1 e 1. Ten o signo da covarianza, será positivo en relacións positivas (ou directas) e negativo en relacións negativas (ou inversas). Asimesmo, ao igual ca covarianza, é 0 cando non existe relación lineal, pero de novo ¡coidado!, pois só mide relacións lineais e podería ser cero cando exista unha relación moi forte entre dúas variables pero de tipo non lineal.
Cando as variables estean relacionadas linealmente de forma exacta, o coeficiente de correlación será igual a 1 en valor absoluto. Polo tanto, canto máis forte sexa a relación lineal entre as variables máis preto (en valor absoluto) estará de 1 o coeficiente de correlación lineal.
No noso exemplo, o coeficiente de correlación é - 0,73. Polo tanto, hai motivos para pensar nunha certa relación lineal negativa.
Nota: todos os cálculos das operacións están realizados con todos os decimais resultantes, aínda que só se representen dous decimais nas fórmulas desta actividade.
Agora axustaremos unha liña recta ao diagrama de dispersión. A recta de regresión é a recta que describe como varía a media da variable dependente en función da independente.
Como xa sabes, a ecuación dunha recta é da forma:
Trátase agora de atopar os coeficientes a e b. Se definimos o erro de predición como:
erro de predición=valor observado - valor previsto
interésanos atopar a recta que conduza a menor erro . Para elo construimos unha medida agregada de canto difiren os valores preditos das yi respecto aos valores reais, a suma de erros ao cadrado.
Utilizando métodos matemáticos que non imos explicar agora, obtemos os coeficientes da recta que minimizan a expresión anterior e que son:
Imos ver como sería no noso exemplo:
polo tanto a nosa recta é:
Xa temos a fórmula da recta de regresión.
Agora representámola graficamente enriba do diagrama de dispersión e obtemos o seguinte gráfico:
Podes contestar ás preguntas formuladas na actividade cos datos da túa provincia e cos de toda Galicia, que podes atopar na ligazón que aparece ao principio desta páxina.
A partir dos datos da túa provincia debes xerar o diagrama de dispersión para respostar ás seguintes preguntas: