Matemáticas. Regresión |
Se Sxy>0, ao aumentar os valores de X aumentan os de Y e dise que hai unha relación directa entre as variables | |
Se Sxy<0, ao aumentar os valores de X diminúen os de Y e dise que hai unha relación inversa entre as variables | |
Se Sxy=0, as variables están incorreladas, non hai relación lineal entre as variables, pero isto non significa que non teñan relación estatística |
¿Pode empregarse a covarianza para medir se a correlación lineal entre dúas variables e forte o débil?
¡¡¡NON!!! A covarianza é sensible á escala de medida polo que o seu valor depende das unidades nas que se expresen as variables.
Exemplo:
Poderiamos calcular agora a covarianza entre a idade media da poboación e a renda dispoñible bruta por habitante. A nube de puntos entre estas dúas variables é descendente, polo tanto xa sabemos de antemán que a covarianza terá signo negativo.
O valor da covarianza entre estas dúas variables é:
Sxy = -5.597,6
Cando a nube de puntos dunha variable bidimensional se concentra en torno a unha recta existe unha correlación de tipo lineal. Nestes casos, necesítase unha medida que permita cuantificar esa relación.
O coeficiente de correlación lineal de Pearson defínese como:
onde Sxy é a covarianza de X e Y, Sx a desviación típica de X e Sy a desviación típica de Y.
O signo do coeficiente de correlación está determinado polo signo da covarianza, posto que as desviacións típicas son sempre positivas.
Ademais, a diferenza da covarianza, ¡¡non varía cos cambios de escala!!, polo que permite non só interpretar o sentido da correlación (directa ou inversa) senón tamén a súa magnitude (forte ou débil).
O coeficiente de correlación proporciona, polo tanto, información sobre o tipo de correlación que existe entre as variables X e Y:
Exemplo:
Calculamos agora o coeficiente de correlación lineal entre as variables idade media da poboación e a renda dispoñible bruta por habitante. Para calculalo precisamos coñecer os valores da covarianza entre as dúas variables, e a desviación típica de cada unha delas.
Temos que:
Sxy = -5.597,6
Sx = 5,3
Sy = 2117,6
Polo tanto:
e estariamos nun caso de correlación lineal negativa moderada.
Nalgúns casos, cando representamos a nube de puntos dunha variable bidimensional, observamos que se parece á gráfica dalgunha das curvas coñecidas. De todas as curvas que se aproximan, a que "mellor" se aproxima á nube de puntos, é dicir, con maior exactitude, denomínase curva de regresión.
A función que mellor se aproxima á nube de puntos pode ser lineal, de segundo grao, exponencial, logarítmica, ... Cando a función é lineal a curva de regresión denomínase recta de regresión.
¿Cando axustaremos unha nube de puntos por unha recta?
O axuste da nube de puntos por unha recta só debe de facerse cando existe correlación lineal entre ambas as dúas variables.
Para determinar a recta de regresión (y = a + bx), é dicir, a recta que con maior exactitude se aproxima á nube de puntos, emprégase o método de mínimos cadrados.
Cada punto xi da variable X terá:
Entre estos dous valores existirá unha diferenza:
di = yi - a - bxi
Mediante o método de mínimos cuadrados obtense a recta que fai mínima a suma dos cadrados de todas estas diferenzas.
Recta de regresión de Y sobre X
A ecuación da recta de regresión de Y sobre X que se obtén mediante o método de mínimos cadrados é a seguinte:
Observa que:
A recta pasa polo centro de gravidade da nube de puntos.
O signo da pendente da recta de regresión é o da covarianza. Se é positivo a recta é ascendente (pendente positiva); se é negativo, descendente (pendente negativa).
Se queremos expresar a recta da forma y = a + bx, entón, os parámetos a e b obtéñense a partir das seguintes expresións:
Exemplo:
Calculamos agora a recta de regresión da variable Y="renda dispoñible bruta en euros por habitante" sobre X="idade media da poboación".
¿Que utilidade ten a recta de regresión?
O coñecemento da recta de regresión permite obter os valores dunha variable (neste caso Y) a partir de valores coñecidos da outra variable (X). Os valores de Y obtidos sustituíndo na ecuación da recta valores coñecidos de X denomínanse valores esperados.
Exemplo:
A recta de regresión da renda dispoñible bruta por habitante sobre a idade media da poboación pódese empregar para facer estimacións.
Podemos obter valores esperados do índice de envellecemento (Y) a partir de valores coñecidos da idade media da poboación (X).
Na seguinte táboa móstrase a idade media da poboación nos concellos da Coruña e de Santiago:
¿Cal é o valor esperado da renda dispoñible bruta por habitante neses concellos?
O valor esperado da renda dispoñible bruta por habitante no concello da Coruña é:
O valor esperado da renda dispoñible bruta por habitante no concello de Santiago de Compostela é: