Matemáticas. Estatística Descritiva
|
Frecuencia absoluta | Frecuencia relativa | |
Unipersoal | 229.780 | 0,217 |
Sen núcleo | 21.741 | 0,020 |
Parella con fillos | 352.118 | 0,332 |
Parella sen fillos | 245.908 | 0,232 |
Monoparental | 103.711 | 0,098 |
Un núcleo e outros | 70.337 | 0,066 |
Varios núcleos | 37.196 | 0,035 |
1.060.791 |
Elabora a táboa de frecuencias para a túa provincia e o último ano dispoñible picando na seguinte ligazón Número de fogares por tipo
Exemplo 2: número de declarantes do IRPF en Galicia no ano 2014 segundo o tramo da base impoñible
Variable estatística continua
Frecuencia absoluta (ni) | Frecuencia absoluta acumulada(Ni) | Frecuencia relativa (fi) | Frecuencia relativa acumulada (Fi) | |
De 0 a 6.000 euros | 325.774 | 325.774 | 0,256 | 0,256 |
De 6.000 a 12.000 euros | 266.041 | 591.815 | 0,209 | 0,465 |
De 12.000 a 21.000 euros | 331.806 | 923.621 | 0,261 | 0,726 |
Máis de 21.000 euros | 348.658 | 1.272.279 | 0,274 | 1 |
1.272.279 | 1 |
Elabora a táboa de frecuencias para a túa provincia e o último ano dispoñible picando no seguinte enlace Número de declarantes do IRPF segundo o tramo da base impoñible
As medidas de posición tamén se denominan promedios, medidas de tendencia central ou medidas de centralización. As medidas estatísticas pretenden "resumir" a información da "mostra" para poder ter un mellor coñecemento da poboación.
As medidas de posición corresponden a valores que en xeral están situados na parte central do conxunto de datos e tratan de responder á seguinte pregunta: ¿Arredor de que valor se agrupan os datos?.
As medidas de tendencia central máis importantes son:
A media aritmética calcúlase como a suma de todos os valores dividida polo número de datos ou tamaño mostral. Só se pode calcular no caso de variables cuantitativas.
Cando os datos están agrupados en clases ou intervalos para o cálculo da media emprégase a marca de clase (ci) no lugar do valor (xi).
Se ben se considera habitualmente a media aritmética como o dato máis representativo dunha mostra, o certo é que non sempre o é. Ocorre que os datos especialmente atípicos inflúen especialmente no seu cálculo. Así, existen variantes como a media truncada, a media harmónica, a media xeométrica, etc, que ás veces son máis apropiadas.
Exemplo 1: superficie media das provincias galegas:
Superficie das provincias galegas | |
Provincia | Km2 |
A Coruña | 7.950,4 |
Lugo | 9.856,1 |
Ourense | 7.273,4 |
Pontevedra | 4.494,5 |
Na táboa anterior aparece a superficie das catro provincias galegas. Temos catro valores distintos e cada un deles aparece unha soa vez, polo que podemos calcular a media aritmética tal e como aparece a continuación:
Polo tanto, as provincias galegas teñen unha superficie media de 7.393,6 Km2.
Exemplo 2: idade media da poboación galega
2016 | |
0-4 | 101.026 |
5-9 | 114.222 |
10-14 | 109.191 |
15-19 | 104.235 |
20-24 | 116.232 |
25-29 | 134.129 |
30-34 | 170.221 |
35-39 | 218.804 |
40-44 | 220.437 |
45-49 | 211.120 |
50-54 | 198.546 |
55-59 | 190.328 |
60-64 | 168.724 |
65-69 | 165.049 |
70-74 | 146.545 |
75-79 | 118.604 |
80-84 | 118.407 |
85 e máis | 112.705 |
Na táboa anterior aparece a poboación de Galicia segundo grupos de idade a 1 de xaneiro de 2016. ¿Poderiamos aproximar a partir da información anterior a idade media da poboación galega nese momento?
Cómpre facer dúas observacións:
Para calcular a idade media da poboación galega precísase calcular a marca de clase de cada un dos intervalos, para o que é necesario ter en conta o dito no parágrafo anterior.
Frecuencias absolutas | Marca de clase | Frecuencias*Marca de clase | |
[0-5) | 101.026 | 2,5 | 101.026*2,5=252.565 |
[5-10) | 114.222 | 7,5 | 856.665 |
[10-15) | 109.191 | 12,5 | 1.364.887,5 |
[15-20) | 104.235 | 17,5 | 1.824.112,5 |
[20-25) | 116.232 | 22,5 | 2.615.220 |
[25-30) | 134.129 | 27,5 | 3.688.547,5 |
[30-35) | 170.221 | 32,5 | 5.532.182,5 |
[35-40) | 218.804 | 37,5 | 8.205.150 |
[40-45) | 220.437 | 42,5 | 10.028.200 |
[45-50) | 211.120 | 47,5 | 10.028.200 |
[50-55) | 198.546 | 52,5 | 10.423.665 |
[55-60) | 190.328 | 57,5 | 10.943.860 |
[60-65) | 168.724 | 62,5 | 10.545.250 |
[65-70) | 165.049 | 67,5 | 11.140.807,5 |
[70-75) | 146.545 | 72,5 | 10.624.512,5 |
[75-80) | 118.604 | 77,5 | 9.191.810 |
[80-85) | 118.407 | 82,5 | 9.768.577,5 |
[85,110) | 112.705 | 97,5 | 10.988.738 |
2.720.541 | 127.363.322,5 |
A media aritmética calcúlase como o cociente entre a suma de todos os valores da variable e o número total de observacións. Neste caso como os datos están agrupados en intervalos considéranse as marcas de clase e como os distintos valores (marca de clase) teñen frecuencia superior a 1, para obter a suma de todos os valores multiplícase cada marca de clase pola frecuencia correspondente.
O número total de observacións calcúlase como a suma de todas as frecuencias.
A idade media da poboación galega a 1 de xaneiro de 2016 calcúlase do seguinte xeito:
No seguinte formulario podes consultar a poboación de Galicia, das provincias e dos concellos para o último ano dispoñible.
¿Cal é entón a idade media do teu concello?. ¡Só tes que repetir os cálculos que se fixeron para Galicia!.
A moda (Mo) é o valor da variable que presenta maior frecuencia. No caso de haber varios valores da variable que teñan a máxima frecuencia, existen varias modas e as variables denomínanse multimodais. As variables estatísticas cunha moda chámanse unimodais, con dúas bimodais, con tres trimodais, .....
A moda pódese calcular tanto para variables cuantitativas como cualitativas.
No caso das variables cualitativas é a categoría que presenta unha maior frecuencia e pode non ser un dato numérico.
No caso das variables cuantitativas continuas, nas que os valores aparecen agrupados en intervalos, denomínase intervalo ou clase modal a aquel con maior frecuencia.
Cando os datos están agrupados en intervalos, tómase como valor aproximado da moda a marca de clase do intervalo ou clase modal.
Exemplos:
A mediana (Me) defínese como aquel valor da variable tal que, logo de ordenar todos os valores observados da variable, ocupa o lugar central, ou equivalentemente, o número de observacións menores que el é igual ao número de observacións maiores que el.
No caso das variables cuantitativas discretas poden presentarse dous casos:
No caso dunha variable continua ou de datos agrupado en intervalos:
Exemplo: no exemplo 2 da táboa de frecuencias, n/2=636.139,5, polo que o intervalo ou clase mediana é de 12.000 a 21.000 euros.Podemos, ou ben considerar como mediana a marca de clase do intervalo 16.500, ou ben calcular a mediana aplicando a fórmula anterior:
As medidas de dispersión miden, como norma xeral, o grao de separación entre os datos; é dicir, en que medida os datos están agrupados ou non arredor de valores centrais.
Suposto que os datos se agrupan arredor dun número, as medidas de dispersión tratan de respostar a: ¿como o fan?; ¿están moi concentrados? ¿están moi dispersos?.
As medidas de dispersión máis importantes son:
O rango é a diferenza entre o maior e o menor dos datos. É dicir, se os n datos están ordenados de menor a maior, calcúlase rango = xn - x1, onde xn é o maior valor e xn é o menor.
Cando os datos están agrupados en intervalos, calcúlase como a diferenza entre o extremo superior do último intervalo e o extremo inferior do primeiro intervalo, é dicir, rango = bn - a1, onde o primeiro intervalo sería [a1,b1) e o último intervalo [an,bn)
Exemplo:
Na seguinte táboa de datos, aparecen o número de nacementos na Comunidade Autónoma de Galicia en cada un dos meses do ano 2015.Galicia | |
2015/Xaneiro | 1.647 |
2015/Febreiro | 1.444 |
2015/Marzo | 1.617 |
2015/Abril | 1.604 |
2015/Maio | 1.632 |
2015/Xuño | 1.569 |
2015/Xullo | 1.688 |
2015/Agosto | 1.604 |
2015/Setembro | 1.669 |
2015/Outubro | 1.705 |
2015/Novembro | 1.581 |
2015/Decembro | 1.667 |
Para poder calcular o rango, en primeiro lugar hai que ordenar a información polo seu valor numérico, de menor a maior valor. Na seguinte táboa xa podemos ver os datos ordeados:
Galicia | |
2015/Febreiro | 1.444 |
2015/Xuño | 1.569 |
2015/Novembro | 1.581 |
2015/Agosto | 1.604 |
2015/Abril | 1.604 |
2015/Marzo | 1.617 |
2015/Maio | 1.632 |
2015/Xaneiro | 1.647 |
2015/Decembro | 1.667 |
2015/Setembro | 1.669 |
2015/Xullo | 1.688 |
2015/Outubro | 1.705 |
A partir desta táboa xa se poden realizar os cálculos:
rango=xn - x1= 1.705-1.444= 261
No seguinte enlace podes obter os datos da túa provincia para os doce meses do último ano dispoñible e repetir o cálculo do rango:Ver nacementos por meses para as catro provincias
A desviación media é a media aritmética das desviacións. Considérase a desviación dun dato xi como a distancia do dato á media aritmética, é dicir:
Polo tanto, a desviación media exprésase do seguinte xeito:
Exemplo: no exemplo 1 da media aritmética a desviación media calcúlase do seguinte xeito:
A varianza é unha das medidas de dispersión máis empregadas. É a media dos cuadrados das diferenzas entre cada valor da variable e a media aritmética da distribución. Denótase por s2 e exprésase do seguinte xeito:
Para o seu cálculo, pode ser máis doado empregar a fórmula seguinte, especialmente cando os valores da media non saen exactos. O resultado é exactamente o mesmo:
A varianza obtense como suma das diferenzas de cadrados e polo tanto ten como unidades de medida o cuadrado das unidades de medida nas que se mide a variable estudada. Por exemplo, se as observacións están expresadas en metros, a varianza expresarase en metros2.
Exemplo: no exemplo 1 da media aritmética a varianza pódese calcular de calquera das dúas formas seguintes:
Neste exemplo cómpre salientar que as unidades de medida da variable (superficie) son km2, polo que as unidades da varianza son km4.
A desviación típica (s) é a raíz cuadrada da varianza. Expresa a dispersión da distribución e exprésase nas mesmas unidades de medida da variable. A desviación típica é a medida de dispersión máis empregada.
Exemplo: no exemplo 1 da media aritmética a desviación típica calcúlase como:
O coeficiente de variación é unha medida de dispersión relativa dos datos e calcúlase dividindo a desviación típica mostral pola media e multiplicando o cociente por 100.
A súa utilidade radica en que ao non ter en conta a medida na que están tomados os datos, permite comparar a dispersión ou variabilidade de dous ou máis grupos con distintas unidades de medida ou con iguais unidades de medida pero distinta magnitude.
Exemplo:
A partir dos datos da poboación a 1 de xaneiro de 2016 nos concellos galegos, calculouse para cada provincia a media aritmética, a desviación típica, a varianza e o coeficiente de variación da variable poboación. Na seguinte táboa amósanse os resultados obtidos:
Media aritmética | Varianza | Desviación típica | Coeficiente de variación | |
A Coruña | 12.073,11 | 769.793.860,61 | 27.745,16 | 229,81 |
Lugo | 5.022,79 | 145.241.233,84 | 12.051,61 | 239,94 |
Ourense | 3.422,32 | 122.854.015,91 | 11.083,95 | 323,87 |
Pontevedra | 15.231,39 | 1.410.154.000,17 | 37.552,02 | 246,54 |
A partir da táboa anterior, se observamos os valores da varianza ou a desviación típica, vemos que as provincias que acadan valores máis altos nestas dúas medidas son Pontevedra e A Coruña mentres que as que presentan valores máis baixos son Ourense e Lugo.
¿Podemos comparar neste caso a dispersión das catro provincias galegas coa desviación típica ou a varianza?
Aínda que neste caso a escala de medida é a mesma nas catro provincias, existe unha grande diferenza entre as medias aritméticas das catro provincias:
A enorme diferenza entre a poboación das provincias galegas fai necesario o emprego do coeficiente de variación para poder comparar a dispersión.
Tal e como se pode observar na táboa a provincia de Ourense é a que presenta un valor máis alto de este coeficiente, seguida de Pontevedra, A Coruña e Lugo. Nestas dúas últimas provincias o coeficiente toma valores moi próximos.
¿Como o interpretamos?
Pois, á vista dos resultados obtidos, a provincia de Ourense é a provincia na que maior separación existe entre os valores da poboación dos seus concellos, con respecto ao valor medio, mentres que as provincias de Lugo e A Coruña sitúanse no extremo oposto.
Nos seguintes enlaces podes atopar os datos da poboación dos concellos das catro provincias galegas para o último ano dispoñible: A Coruña, Lugo, Ourense, Pontevedra
A media e a desviación típica son as medidas máis utilizadas:
Son boas medidas para resumir as propiedades de histogramas de mostras unimodais e case simétricas, sen datos atípicos. Nestes casos, arredor da media, podemos considerar un intervalo que conteña a maioría dos datos.
Cómpre recordar ademais que:
Exemplo: Nacementos segundo a idade da nai. Galicia. Ano 2015