Matemáticas. Como elaborar unha enquisa Actividade 1. Nacementos
FICHA DA ACTIVIDADE
Obxectivos
Manexar ficheiros de microdatos.
Determinar o tamaño dunha mostra.
Seleccionar mostras seguindo distintos procedementos de mostraxe.
Obter estimacións.
Palabras clave
Poboación obxectivo Conxunto de individuos que se quere investigar.
Mostra Subconxunto de individuos da poboación.
Ficheiro de microdatos Os ficheiros de microdatos conteñen os datos individuais dunha estatística (enquisa, censo, ...). Os ficheiros están anonimizados, é dicir, elimínanselle os datos identificativos para non vulnerar o segredo estatístico. Para cada individuo aparecen as variables que se recollen na operación estatística, unha vez que pasaron o proceso de depuración e imputación.
Coñecementos previos necesarios
Saber manexar a folla de cálculo.
Coñecementos básicos de estatística descritiva e probabilidade.
Cuestións a resolver:
A partir do ficheiro de microdatos de nacementos que se facilita máis abaixo, deberás responder ás seguintes preguntas:
Co ficheiro completo obtén:
¿Cal é o peso medio dos recéns nacidos en Galicia?..........................................
¿Cal era a idade media das nais que tiveron un fillo en 2012?..........................................
¿Cantos nacementos correspondían a nais de nacionalidade estranxeira?..........................................
¿Que porcentaxe de nacementos foron prematuros?..........................................
¿Cal foi o peso medio dos nenos que naceron a termo? ¿E dos prematuros?..........................................
A partir dunha mostra tomada do ficheiro de microdatos pescuda:
¿Que tamaño de mostra se precisa para que a estimación da proporción de nenos prematuros non difira máis de 0,1 do valor verdadeiro? ..........................................
¿Cal é a estimación do peso medio obtida a partir dos datos da mostra? ¿E a idade media das nais? ..........................................
¿Cal é a idade media das nais con nacionalidade española? ¿e para as de nacionalidade estranxeira? ..........................................
O ficheiro anterior contén os datos de todos os nacementos de nenos galegos ocorridos durante o ano 2012. Estes datos obtéñense do boletín estatístico de partos que enche no Rexistro Civil cando se inscribe o nacemento.
Hai que ter en conta que non se trata de datos dunha enquisa, senón que se obtén dun rexistro administrativo e que cubre toda a poboación obxectivo.
Cada fila corresponde a un nacemento e cada columna a unha variable. A primeira columna identifica ao nacemento. Inclúese, ademais, unha folla coa descrición das variables recollidas no boletín. Por exemplo, o nacemento con identificador 58 presenta as seguintes características:
Mes de nacemento: outubro
Nacemento por cesárea
Nacido a termo
Nacionalidade da nai: estranxeira
Estado civil da nai: casada
Idade da nai: 30 anos
Sexo do recén nacido: home
Peso do recén nacido: 3,63 quilogramos
O nacemento corresponde ao terceiro fillo da nai
Nesta actividade utilizaranse o ficheiro de nacementos para aprender a manexar ficheiros de microdatos, para extraer mostras e calcular estimadores. Finalmente, compararanse as estiamcións obtidas coa mostra cos verdadeiros valores dos parámetros, é dicir, cos que se obteñen ao utilizar toda a poboación (ficheiro completo).
Cálculo de parámetros da poboación
Neste apartado calcularanse diversos parámetros poboacionais: peso medio, idade media das nais, porcentaxe de nacementos de nai estranxeira, etc; utilizando todos os rexistros do ficheiro de nacementos.
¿Cal é o peso medio dos recén nacidos?
Para calcular o peso medio dos nenos e nenas que naceron en 2012 pódese utilizar a función PROMEDIO da folla de cálculo
Colocarse nunha cela valeira
As fórmulas sempre deben comezar polo símbolo =
Escribir =PROMEDIO()
Entre parénteses debe poñerse o rango de datos para o que se quere calcular a media. Neste caso =PROMEDIO(I2:I20245) Truco: para seleccionar un rango de celas pínchase na primeira cela, prémese a tecla das maiúsculas e mantendo pulsada esta tecla, selecciónase a última cela do rango.
Premer a tecla enter.
O peso medio dos recén nacidos é 3.235 gramos.
¿Cal é a idade media das nais?
Dun xeito análogo, pódese calcular a idade media das mulleres galegas que en 2012 tiveron un fillo. Neste caso habería que escribir =PROMEDIO(G2:G20245).
¿Cal é a porcentaxe de nacementos de nais con nacionalidade estranxeira?
Na variable NACIONALIDADE_N está recollida a nacionalidade da nai. Tal e como aparece no deseño do rexistro, o valor 1 corresponde aos nacementos de nais españolas e o valor 0 a nacementos de nais con nacionalidade estranxeira.
Para calcular a porcentaxe de nacementos de nais con nacionalidade estranxeira, en primeiro lugar hai que contar o número de nacementos que se produciron en 2012 segundo a nacionalidade da nai. Para isto é moi útil a ferramenta de táboas dinámicas .
Seleccionar todo o rango de datos (incluíndo o nome das variables). Colocarse na cela A1, premer a tecla de maiúsculas e mantendo pulsada esta tecla, pinchar na cela J20245. A área seleccionada aparecerá sombreada en cor azul.
Ir ao menú Datos – Táboas dinámicas.
Premer na opción Crear.
En Seleccionar fonte, deixar a selección actual.
No asistente para táboas dinámicas, hai que indicar as variables que van a ir en filas, en columnas e os datos resumen que se queren mostrar. Por exemplo, para contabilizar o número de nacementos segundo a nacionalidade da nai:
Campos de filas: NACIONALIDADE_N
Campos de columnas: deixase valeiro
Campos de datos: IDENTIFICADOR
No botón "Opcións" escóllese a función que se vai a utilizar para resumir os datos. Neste exemplo, o obxectivo é contar o número de nacementos de cada nacionalidade, polo que se escollerá a función contar. O que fai a táboa dinámica é contar a variable IDENTIFICADOR para cada un dos valores da variable NACIONALIDADE_N.
A continuación pódese ver o vídeo demostrativo de como facer a táboa dinámica.
A táboa dinámica mostra que, dos 20.244 nenos galegos nacidos en 2012, 1.467 eran fillos dunha muller de nacionalidade estranxeira e os 18.777 restantes, dunha muller de nacionalidade española. Polo tanto, a porcentaxe de nenos de nacionalidade estranxeira é: 1.467/20.244*100 = 7,2%
Nacionalidade
Nacementos
Porcentaxe de nacementos
Estranxeira
1.467
1.467/20.244*100=7,2%
Española
18.777
18.777/20.244*100=92,8%
TOTAL
20.244
100%
¿Que porcentaxe de nacementos foron prematuros?
De xeito totalmente análogo ao exemplo anterior, pódese calcular a porcentaxe de nacementos prematuros (menos de 37 semanas de xestación).
Nacementos
Porcentaxe de nacementos
A termo
18.892
18.892/20.244*100=93,3%
Prematuros
1.352
1.352/20.244*100=6,7%
TOTAL
20.244
100%
Peso medio dos recén nacidos
As táboas dinámicas permiten calcular o peso medio dos recén nacidos para varias variables. Por exemplo, segundo o nacemento fose prematuro ou a termo e segundo o sexo do recén nacido. O procedemento é moi similar ao sinalado con anterioridade, só que no asistente para táboas hai que poñer:
Campos de filas: PREMATURO
Campos de columnas: SEXO
Campos de datos: PESO
A función que se debe escoller para agregar os datos é o PROMEDIO. Por defecto aparece a función suma, que se cambiará no botón “Opcións”
Peso medio dos recén nacidos segundo o sexo e o tempo de xestación. Galicia. Ano 2012
Homes
Mulleres
Total
A termo
3.363
3.241
3.305
Prematuros
2.311
2.203
2.261
TOTAL
3.290
3.175
3.235
Determinación do tamaño da mostra
Neste caso disponse dos datos de todos os nacementos, porque é obrigatorio inscribir os recén nacidos no Rexistro Civil. A continuación, traballarase co suposto de que existe un marco onde figuran o nome, a nacionalidade e a dirección das mulleres galegas que foron nais en 2012. Deste marco extraerase unha mostra e recolleranse as variables que interesan para o estudo: idade, tempo de xestación, sexo e peso do recén nacido, ...
En primeiro lugar hai que determinar cal vai ser o tamaño da mostra. Quérese que a mostra teña o tamaño suficiente para que a estimación da proporción de nenos prematuros non difira máis de 0,1 do seu verdadeiro valor (para un nivel de confianza do 95%).
O tamaño de mostra vén dado pola fórmula:
N=20.244
k=1,96
P=Q=0,5
e=0,1
Entón, ao facer os cálculos precisos, chégase ao resultado n=96. É dicir, hai que extraer unha mostra de 96 nacementos.
Selección da mostra
O seguinte paso é seleccionar ao chou 96 rexistros (filas) do ficheiro de nacementos. O campo identificador é un número correlativo que vai de 1 a 20.244. Para seleccionar a mostra, pódese xerar 96 números aleatorios comprendidos entre 1 e 20.244 e escoller os rexistros para os que o campo IDENTIFICADOR coincida con estes números.
Ao escribir nunha folla de OpenOffice Calc =ALEATORIO.ENTRE(1;20244), esta función devolverá un número aleatorio comprendido entre 1 e 20.244. Repetindo 96 veces esta operación conséguense os 96 número elixidos ao chou.
O proceso para obter a mostra co OpenOffice Calc é un pouco máis complicado que co LibreOffice xa que os filtros avanzados en OpenOffice non permiten filtrar por tantos valores como no caso do LibreOffice. Por este motivo, hai que botar man doutras funcións.
Hai que ter en conta que a mostra que obteñan distintas persoas non van a coincidir, xa que os IDENTIFICADORES selecciónanse de xeito aleatorio.
Na seguinte ligazón pódese descargar un ficheiro cunha mostra de 96 individuos seleccionadas do ficheiro de nacementos orixinal.
Cálculo de estimadores
A partir da mostra obtida no apartado anterior vaise calcular a estimación do peso medio dos recén nacidos. Usarase a función PROMEDIO pero neste caso en vez de calcular a media para o peso dos 20.244 nenos que naceron en 2012 calcularase para os 96 que saíron elixidos na mostra.
Con esta mostra obtense unha estimación para o peso medio de 3.222 gramos. A idade media estimada das nais é 32,8 anos.
Na seguinte táboa móstranse as comparacións entre os resultados obtidos con toda a poboación e as estimacións resultantes coa mostra de 96 nacementos.
Poboación
Mostra
Tamaño
20.244
96
Peso medio dos recén nacidos (gramos)
3.235
3.222
Idade media das nais (anos)
32,6
32,8
Un paso máis: a mostraxe estratificada
Poderíase estar interesado en estimar diversas características dos nacementos en función da nacionalidade da nai. Por exemplo, estudar se existen diferenzas na idade media a maternidade segundo a nacionalidade da nai. Na mostra de 96 nacementos seleccionada con anterioridade só aparecen 9 nacementos de nais estranxeiras. Este tamaño pode resultar insuficiente para estimar a idade media para este colectivo con suficiente calidade.
Unha posible solución a este problema é realizar unha mostraxe aleatoria estratificada. O procedemento a seguir é o seguinte:
Dividir a poboación en dous estratos:
Os nacementos de nais con nacionalidade española
Os nacementos de nais con nacionalidade estranxeira
Determinar o tamaño de mostra para cada un dos estratos.
Realizar un procedemento de mostraxe independente en cada un dos estratos.
Estimar a idade media para cada unha das dúas mostras.
Para a determinación do tamaño mostral, vaise a considerar un reparto uniforme para os dous estratos, é dicir seleccionaranse 48 (96/2=48) nacementos de nais españolas e 48 de nais estranxeiras.
Nos seguintes vídeos pódese ver como facer a mostraxe estratificada paso a paso en LibreOffice.
Coas mostras seleccionadas estímase que a idade media das nais de nacionalidade española é de 33 anos mentres que para as nais de nacionalidade estranxeira baixa ata os 28,75 anos.
Hai que ter en conta que estas estimacións poden variar en función das mostras que obteña cada persoa.
¿Como se calcularía unha estimación da idade media de todas as nais a partir destes dous valores?
Ao utilizar unha media dos dous valores (33+28,75)/2=30,9 estaríaselle dando o mesmo peso aos nacementos de nais española que aos de nais estranxeiras, cando en 2012 só o 7,2% dos nacementos correspondían a nais de nacionalidade estranxeira.
O correcto é utilizar medias ponderadas. A ponderación vén dada pola proporción de nacementos para cada unha das nacionalidades. É dicir, Idade media=0,928*33+0,072*28,75=32,7 anos.