Matemáticas. Regresión |
Temperatura media (ºC) | Humidade estándar (%) | |
CIS Ferrol (Ferrol) | entre 15 e 15,9ºC | 79 |
Mabegondo (Abegondo) | entre 14 e 14,9ºC | 87 |
Santiago- EOAS (Santiago de Compostela) | entre 14 e 14,9ºC | 82 |
Campus Lugo (Lugo) | entre 13 e 13,9ºC | 83 |
Ourense-Ciencias (Ourense) | entre 15 e 15,9ºC | 72 |
Illas Cíes - (Vigo) | entre 15 e 15,9ºC | 86 |
Lourizán - (Pontevedra) | entre 15 e 15,9ºC | 85 |
Coa variable Y recodificada imos construír unha táboa de dobre entrada na que a primeira fila está formada polos intervalos ou clases nos que toma valores a variable X (temperatura) e a primeira columna por todos os valores da variable Y, e nos recadros interiores as frecuencias absolutas do par (X,Y):
Y\X | 72 | 79 | 82 | 83 | 85 | 86 | 87 |
entre 13 e 13,9ºC | - | - | - | 1 | - | - | - |
entre 14 e 14,9ºC | - | - | 1 | - | - | - | 1 |
entre 15 e 15,9ºC | 1 | 1 | - | - | 1 | 1 | - |
A outra forma que temos de construír unha táboa para unha variable bidimensional é empregar unha táboa simple. Para construila colócanse na primeira columna os intervalos ou clases nos que toma valores a variable X, na segunda columna os valores que toma a variable Y e na terceira a frecuencia absoluta do par (X,Y):
Xi | Yj | fij |
72 | entre 15 e 15,9ºC | 1 |
79 | entre 15 e 15,9ºC | 1 |
82 | Entre 14 e 14,9ºC | 1 |
83 | entre 13 e 13,9ºC | 1 |
85 | entre 15 e 15,9ºC | 1 |
86 | entre 15 e 15,9ºC | 1 |
87 | entre 14 e 14,9ºC | 1 |
Se o que nos interesa é estudar por un lado a variable humidade (X) e por outro a temperatura (Y) de manera independente, temos que calcular as distribucións marxinais, que non son máis que as distribucións das variables unidimensionais temperatura e humidade.
Temos a variable bidimensional (X,Y)=(humidade, temperatura), e imos calcular as distribucións marxinais das variables humidade estándar e temperatura media a partir da táboa de dobre entrada.
O primeiro que faremos será sumar cada fila e poñer o resultado na última columna, e sumar cada columna e poñer o resultado na última fila:
Y\X | 72 | 79 | 82 | 83 | 85 | 86 | 87 | |
entre 13 e 13,9ºC | - | - | - | 1 | - | - | - | 1 |
entre 14 e 14,9ºC | - | - | 1 | - | - | - | 1 | 2 |
entre 15 e 15,9ºC | 1 | 1 | - | - | 1 | 1 | - | 4 |
1 | 1 | 1 | 1 | 1 | 1 | 1 |
Para calcular a distribución marxinal de cada variable só temos que construír unha táboa simple con dúas columnas; na primeira colocamos os valores que toma a variable e na segunda as súas frecuencias absolutas, que coinciden coa suma das columnas que acabamos de calcular no caso da variable X, humidade, e coa suma das filas para a variable Y, temperatura media:
|
|
A partir das distribucións marxinais podemos calcular a media da variable X e a media da variable Y, e tamén as varianzas e desviacións típicas.
Neste caso, como a variable Y, temperatura media, está definida en intervalos, empregaremos as marcas de clase (a metade do intervalo) para calcular a media e a desviación típica:
¿Podemos saber se existe dependencia entre a temperatura e a humidade a partir da distribución bidimensional? Claro que si!!!.
O primeiro que faremos será calcular a covarianza mediante a seguinte expresión:
Como o valor da covarianza entre as dúas variables é menor que 0 podemos dicir que existe certa dependencia lineal e que esta dependencia é negativa.
Calculamos a valor do coeficiente de correlación lineal de Pearson para facernos unha idea do grao de dependencia entre as variables humidade estándar e temperatura relativa:
Como -1 < r < 0 a correlación entre as dúas varibles é negativa pero non poderíamos dicir que é forte posto que está bastante alonxado de -1