MonografÃas

IC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
Estadística I. Cuadernillo de apoyo
- Monografias.com
Estadística I
Cuadernillo de apoyo
- Descripción
- Distribuciones
- Estimación de parámetros
- Prueba de hipótesis
- Prueba de bondad de ajuste
- Bibliografía
El presente trabajo de investigación, fue elaborado por el grupo de
ingeniería industrial (2002-2007), el cual pretende auxiliar a las futuras
generaciones de estudiantes universitarios de la materia de estadística, aquí se
encuentran los temas de Distribuciones, Estimación de Parámetros, Prueba de
Hipótesis y Pruebas de Bondad de Ajuste; creemos que está muy completo, también
se pueden auxiliar docentes como cuadernillo de apoyo, contiene definiciones,
formulas, tablas, ejemplos y ejercicios fáciles de seguir; sin duda una
herramienta muy útil.
Distribución normal (ó campana de Gauss-Laplace)
Una de las distribuciones teóricas mejor estudiadas en los textos de
bioestadística y más utilizada en la práctica es la distribución normal,
también llamada distribución gaussiana. Su importancia se debe
fundamentalmente a la frecuencia con la que distintas variables asociadas a
fenómenos naturales y cotidianos siguen, aproximadamente, esta
distribución. Caracteres morfológicos (como la talla o el peso), o
psicológicos (como el cociente intelectual) son ejemplos de variables de las que
frecuentemente se asume que siguen una distribución normal. No obstante, y
aunque algunos autores han señalado que el comportamiento de muchos parámetros
en el campo de la salud puede ser descrito mediante una distribución normal,
puede resultar incluso poco frecuente encontrar variables que se ajusten a este
tipo de comportamiento.
El uso extendido de la distribución normal en las aplicaciones estadísticas
puede explicarse, además, por otras razones. Muchos de los procedimientos
estadísticos habitualmente utilizados asumen la normalidad de los datos
observados. Aunque muchas de estas técnicas no son demasiado sensibles a
desviaciones de la normal y, en general, esta hipótesis puede obviarse cuando se
dispone de un número suficiente de datos, resulta recomendable contrastar
siempre si se puede asumir o no una distribución normal. La simple
exploración visual de los datos puede sugerir la forma de su distribución.
No obstante, existen otras medidas, gráficos de normalidad y contrastes de
hipótesis que pueden ayudarnos a decidir, de un modo más riguroso, si la muestra
de la que se dispone procede o no de una distribución normal. Cuando los
datos no sean normales, podremos o bien transformarlos o emplear otros métodos
estadísticos que no exijan este tipo de restricciones (los llamados métodos no
paramétricos).
A continuación se describirá la distribución normal, su ecuación matemática y
sus propiedades más relevantes, proporcionando algún ejemplo sobre sus
aplicaciones a la inferencia estadística. En la sección 1.1.3 se
describirán los métodos habituales para contrastar la hipótesis de
normalidad.
Propiedades de la distribución
normal:
La distribución normal posee ciertas propiedades importantes que conviene
destacar:
- Tiene una única moda, que coincide con su media y su mediana.
- La curva normal es asintótica al eje de abscisas. Por ello,
cualquier valor entre -¥ y +¥ es teóricamente posible. El área total bajo la
curva es, por tanto, igual a 1.
- Es simétrica con respecto a su media µ. Según esto,
para este tipo de variables existe una probabilidad de un 50% de observar un
dato mayor que la media, y un 50% de observar un dato menor.
- La distancia entre la línea trazada en la media y el punto de inflexión de
la curva es igual a una desviación típica (σ). Cuanto mayor sea σ, mαs
aplanada será la curva de la densidad.
- El área bajo la curva comprendida entre los valores situados
aproximadamente a dos desviaciones estándar de la media es igual a 0.95.
En concreto, existe un 95% de posibilidades de observar un valor comprendido
en el intervalo (µ-1.96σ, µ+1.96σ).
-
La forma de la campana de Gauss depende de los parámetros µ y σ (Figura
2). La media indica la posición de la campana, de modo que para
diferentes valores de µ la gráfica es desplazada a lo largo del eje
horizontal. Por otra parte, la desviación estándar determina
el grado de apuntamiento de la curva.
Cuanto mayor sea el valor de σ, mαs se
dispersarán los datos en torno a la media y la curva será más plana. Un
valor pequeño de este parámetro indica, por tanto, una gran probabilidad de
obtener datos cercanos al valor medio de la distribución.
Figura 2. Ejemplos de
distribuciones normales con diferentes parámetros.

Como se deduce de este último apartado, no existe una única
distribución normal, sino una familia de distribuciones con una forma común,
diferenciadas por los valores de su media y su varianza. De entre todas
ellas, la más utilizada es la distribución normal estándar, que
corresponde a una distribución de media 0 y varianza 1. Así, la expresión
que define su densidad se puede obtener de la Ecuación 1, resultando:

Es importante conocer que, a partir de cualquier variable X que
siga una distribución N (µ,σ), se puede obtener otra característica Z con una
distribución normal estándar, sin más que efectuar la transformación:

Esta propiedad resulta especialmente interesante en la práctica, ya que para
una distribución N (0,1) existen tablas publicadas a partir de las que se puede
obtener de modo sencillo la probabilidad de observar un dato menor o igual a un
cierto valor z, y que permitirán resolver preguntas de probabilidad acerca del
comportamiento de variables de las que se sabe o se asume que siguen una
distribución aproximadamente normal.
Consideremos, por ejemplo, el siguiente problema: supongamos que se sabe que
el peso de los sujetos de una determinada población sigue una distribución
aproximadamente normal, con una media de 80 Kg y una desviación estándar de 10
Kg. ¿Podremos saber cuál es la probabilidad de que una persona, elegida al
azar, tenga un peso superior a 100 Kg?
Denotando por X a la variable que representa el peso de los individuos en esa
población, ésta sigue una distribución
. Si su distribución
fuese la de una normal estándar podríamos utilizar la tabla para calcular la
probabilidad que nos interesa. Como éste no es el caso, resultará entonces
útil transformar esta característica según la Ecuación 2, y obtener la
variable:

Para poder utilizar dicha tabla. Así, la probabilidad que
se desea calcular será:

Como el área total bajo la curva es igual a 1, se puede deducir
que:

Esta última probabilidad puede ser fácilmente obtenida a partir
de la Tabla, resultando ser
. Por lo tanto, la
probabilidad buscada de que una persona elegida aleatoriamente de esa población
tenga un peso mayor de 100 Kg., es de 1–0.9772=0.0228, es decir, aproximadamente
de un 2.3%.
De modo análogo, podemos obtener la probabilidad de que el peso
de un sujeto esté entre 60 y 100 Kg.:

De la Figura 2, tomando a =-2 y b =2, podemos deducir
que:

Por el ejemplo previo, se sabe que
. Para la segunda
probabilidad, sin embargo, encontramos el problema de que las tablas estándar no
proporcionan el valor de
para valores negativos de
la variable. Sin embargo, haciendo uso de la simetría de la distribución
normal, se tiene que:

Finalmente, la probabilidad buscada de que una persona elegida al azar tenga
un peso entre 60 y 100 Kg., es de 0.9772-0.0228=0.9544, es decir,
aproximadamente de un 95%. Resulta interesante comprobar que se obtendría
la misma conclusión recurriendo a la propiedad (iii) de la distribución
normal.
No obstante, es fácil observar que este tipo de situaciones no
corresponde a lo que habitualmente nos encontramos en la práctica.
Generalmente no se dispone de información acerca de la distribución teórica de
la población, sino que más bien el problema se plantea a la inversa: a partir de
una muestra extraída al azar de la población que se desea estudiar, se realizan
una serie de mediciones y se desea extrapolar los resultados obtenidos a la
población de origen. En un ejemplo similar al anterior, supongamos que se
dispone del peso de n =100 individuos de esa misma población, obteniéndose una
media muestral de
Kg., y una desviación estándar muestral S=12 Kg., querríamos extraer
alguna conclusión acerca del valor medio real de ese peso en la población
original. La solución a este tipo de cuestiones se basa en un resultado
elemental de la teoría estadística, el llamado teorema central del límite.
Dicho axioma viene a decirnos que las medias de muestras aleatorias de cualquier
variable siguen ellas mismas una distribución normal con igual media que la de
la población y desviación estándar la de la población dividida por
. En nuestro caso, podremos entonces considerar la media
muestral
,
con lo cual, a partir de la propiedad (iii) se conoce que aproximadamente un 95%
de los posibles valores de
caerían dentro del
intervalo
. Puesto que los valores de µ y σ
son desconocidos, podrνamos pensar en
aproximarlos por sus análogos muestrales, resultando
.
Estaremos, por lo tanto, un 95% seguros de que el peso medio real en la
población de origen oscila entre 75.6 Kg. y 80.3 Kg. Aunque la teoría
estadística subyacente es mucho más compleja, en líneas generales éste es el
modo de construir un intervalo de confianza para la media de una
población.
- Teorema de la combinación lineal de variaciones normales y
chi-cuadrada
Terorema de Chebshev, este teorema da una estimación conservadora de la
probabilidad de que una variable aleatoria tome un valor dentro de k dentro de k
desviaciones estándar de su media para cualquier número real k. Proporcionaremos
solo la demostración para caso continuo.
La probabilidad de que cualquier variable aleatoria X tome un valor dentro de
k desviaciones estándar de la media es al menos 1-
. Es decir
.
- Distribuciones muestrales
En esta sección estudiaremos las distribuciones más importantes
de variables aleatorias continuas unidimensionales. El soporte de una
variable aleatoria continua se define como aquella región de
donde su densidad es no
nula,
.
Para las distribuciones que enunciaremos, podrá ser bien todo
, o bien un segmento de la
forma
.
- Distribuciones normales
La distribución gaussiana, recibe también el nombre de distribución normal,
ya que una gran mayoría de las variables aleatorias continuas de la naturaleza
siguen esta distribución. Se dice que una variable aleatoria X sigue una
distribución normal de parámetros µ y σ2, lo que representamos del
modo:

Si su función de densidad es:

Estos dos parámetros µ y σ2coinciden además con la media (esperanza) y la
varianza respectivamente de la distribución como se demostrará más adelante:

La forma de la función de densidad es la llamada campana de
Gauss.
Figura: Campana de Gauss o función de densidad de
una variable aleatoria de distribución normal. El área contenida entre la
gráfica y el eje de abcisas vale 1.

Para el lector es un ejercicio interesante comprobar que ésta
alcanza un único máximo (moda) en µ, que es simétrica con respecto al mismo, y
por tanto:

Con lo cual en µ coinciden la media, la mediana y la moda, y
por último, calcular sus puntos de inflexión.
El soporte de la distribución es todo
, de modo que la mayor
parte de la masa de probabilidad (área comprendida entre la curva y el eje de
abcisas) se encuentra concentrado alrededor de la media, y las ramas de la curva
se extienden asintóticamente a los ejes, de modo que cualquier valor ``muy
alejado" de la media es posible (aunque poco probable).
La forma de la campana de Gauss depende de los parámetros µ y
σ:
Figura: Distribuciones gaussianas con diferentes
medias e igual dispersión.

Figura: Distribuciones gaussianas con igual media
pero varianza diferente.

La función característica de la distribución normal, se
comprueba más adelante que es:

Como consecuencia, la distribución normal es reproductiva con
respecto a los parámetros µ, y σ2, ya
que:

Como se ha mencionado anteriormente, la ley de probabilidad
gaussiana la encontramos en la mayoría de los fenómenos que observamos en la
naturaleza, por ello gran parte de lo que resta del curso lo vamos a dedicar a
su estudio y a el de las distribuciones asociadas a ella. Sin embargo, a pesar
de su utilidad, hay que apuntar un hecho negativo para esta ley de probabilidad:
La función
no posee primitiva
conocida.
Las consecuencias desde el punto de vista práctico son
importantes, ya que eso impide el que podamos escribir de modo sencillo la
función de distribución de la normal, y nos tenemos que limitar a decir que:

Sin poder hacer uso de ninguna expresión que la simplifique.
Afortunadamente esto no impide que para un valor de x fijo, F(x) pueda ser
calculado. De hecho puede ser calculado con tanta precisión (decimales) como se
quiera, pero para esto se necesita usar técnicas de cálculo numérico y
ordenadores. Para la utilización en problemas prácticos de la función de
distribución F, existen ciertas tablas donde se ofrecen (con varios decimales de
precisión) los valores F(x) para una serie limitada de valores xi
dados. Normalmente F se encuentra tabulada para una distribución Z, normal de
media 0 y varianza 1 que se denomina distribución normal tipificada:

En el caso de que tengamos una
distribución diferente
, se obtiene Z haciendo
el siguiente cambio:

De manera general se tiene:
Sean .
Entonces:


Este resultado puede ser utilizado del siguiente modo: Si , y nos interesa
calcular
,
1. Hacemos el cambio
y calculamos
;
2. Usamos la tabla, relativa a la distribución
para obtener (de modo
aproximado)
;
3. Como
tenemos que el valor obtenido en la tabla, FZ(z) es la probabilidad
buscada.
Supongamos que cierto fenómeno pueda ser representado mediante una variable
aleatoria
, y queremos calcular la probabilidad de que X tome un valor entre 39
y 48, es decir, 
Comenzamos haciendo el cambio de variable

De modo que:

Vamos ahora a demostrar algunas de las propiedades de la ley gaussiana que
hemos mencionado anteriormente.
Sea
.
Entonces

Demostración
Por ser la normal una ley de probabilidad se tiene que

Es decir, esa integral es constante. Con lo cual, derivando la expresión
anterior con respecto a µ se obtiene el valor 0:

Luego
.
Para demostrar la igualdad entre la var[X] y σ2, basta con aplicar la misma
técnica, pero esta vez derivando con respecto a σ2:

Luego

Para demostrar el resultado relativo a la función característica,
consideramos en primer lugar la variable aleatoria tipificada de X,

Y calculamos

Como
, deducimos que

- Distribución Chi-Cuadrada (X2)
Si consideramos una v.a.
, la v.a. X=Z2 se
distribuye según una ley de probabilidad distribución x2 con un grado de
libertad, lo que se representa como:
Si tenemos n v.a. independientes
, la suma de sus cuadrados
respectivos es una distribución que denominaremos ley de distribución
x2con n grados de libertad,
x2n.


La media y varianza de esta variable son respectivamente:
Y su función de densidad es:

Los percentiles de esta distribución que aparecen con más frecuencia en la
práctica los podemos encontrar en la tabla.
Figura: Función de densidad de
x2n para valores pequeños de
n.

Figura: Función de densidad de
x2n para valores grandes de
n.

En consecuencia, si tenemos x1,…,xn, v.a.
independientes, donde cada
, se tiene

La ley de distribución x2 muestra su importancia
cuando queremos determinar la variabilidad (sin signo) de cantidades que se
distribuyen en torno a un valor central siguiendo un mecanismo normal. Como
ilustración tenemos el siguiente ejemplo:
Un instrumento para medir el nivel de glucemia en sangre, ofrece resultados
bastantes aproximados con la realidad, aunque existe cierta cantidad de error
que se
distribuye de modo normal con media 0 y desviación típica
.

Se realizan mediciones de los niveles de glucemia dados por el
instrumento en un grupo de n=100 pacientes. Nos interesa medir la cantidad de
error que se acumula en las mediciones de todos los pacientes. Podemos plantear
varias estrategias para medir los errores acumulados. Entre ellas destacamos las
siguientes:
1. Definimos el error acumulado en las mediciones de todos los
pacientes como

¿Cuál es el valor esperado para E1?
2. Definimos el error acumulado como la suma de los cuadrados
de todos los errores (cantidades positivas):

¿Cuál es el valor esperado para E2?
A la vista de los resultados, cuál de las dos cantidades,
E1 y E2, le parece más conveniente utilizar en una
estimación del error cometido por un instrumento.
Solución: Suponiendo que todas las mediciones son independientes, se
tiene que:
De este modo, el valor esperado para E1 es 0, es
decir, que los errores ei van a tender a compensarse entre unos
pacientes y otros. Obsérvese que si µ no fuese conocido a priori, podríamos
utilizar E1, para obtener una aproximación de µ

Sin embargo, el resultado E1 no nos indica en qué
medida hay mayor o menor dispersión en los errores con respecto al 0. En cuanto
a E2 podemos afirmar lo siguiente:

En este caso los errores no se compensan entre sí, y si
no fuese conocido,
podría ser ``estimado" de modo aproximado mediante

Sin embargo, no obtenemos ninguna información con respecto a
µ.
En conclusión, E1 podría ser utilizado para calcular de modo
aproximado µ, y E2 para calcular de modo aproximado
. Las dos cantidades tienen
interés, y ninguna lo tiene más que la otra, pues ambas formas de medir el error
nos aportan información.
El siguiente resultado será de importancia más adelante. Nos
afirma que la media de distribuciones normales independientes es normal pero
con menor varianza y relaciona los grados de libertad de una v.a. con
distribución x, con los de un estadístico como la varianza:
- Teorema (Cochran)
Sean
v.a. independientes.
Entonces



La distribución
-Student se construye como
un cociente entre una normal y la raíz de una x2
independientes. De modo preciso, llamamos distribución t-Student con n
grados de libertad, tn a la de una v.a. T,
Donde
,
. Este tipo de
distribuciones aparece cuando tenemos n+1 v.a. independientes


y nos interesa la distribución de

La función de densidad de
es

Figura: Función de densidad de una
de
Student

La distribución t de Student tiene propiedades parecidas a
N(0,1):
Es de media cero, y simétrica con respecto a la misma;
Es algo más dispersa que la normal, pero la varianza decrece
hasta 1 cuando el número de grados de libertad aumenta;
Figura: Comparación entre las funciones de densidad
de t1 y N(0,1).

Para un número alto de grados de libertad se puede aproximar la
distribución de Student por la normal, es decir,
Figura: Cuando aumentan los grados de libertad, la
distribución de Student se aproxima a la distribución normal
tipificada.

Para calcular

En lugar de considerar una primitiva de esa función y
determinar la integral definida, buscaremos el resultado aproximado en una tabla
de la distribución tn. Véase la tabla, al final del libro.
Otra de las distribuciones importantes asociadas a la normal es
la que se define como cociente de distribuciones x2independientes.
Sean
e
v.a.
independientes. Decimos entonces que la variable

Sigue una distribución de probabilidad de
Snedecor, con (n,m) grados de libertad. Obsérvese que
.
La forma más habitual en que nos encontraremos esta
distribución será en el caso en que tengamos n+m v.a. independientes


Y así

De esta ley de probabilidad lo que más nos interesa es su
función de distribución:

y para ello, como en todas las distribuciones asociadas a la
normal, disponemos de una tabla donde encontrar aproximaciones a esas
cantidades.
Figura: Función de densidad de
.

Es claro que la distribución de Snedecor no es simétrica, pues
sólo tienen densidad de probabilidad distinta de cero, los punto de
. Otra propiedad
interesante de la distribución de Snedecor es:

Se puede demostrar (teorema central del límite)
que una variable aleatoria discreta con distribución binomial,
se puede aproximar mediante
una distribución normal si n es suficientemente grande y p no está ni muy
próximo a 0 ni a 1. Como el valor esperado y la varianza de X son
respectivamente np y npq, la aproximación consiste en decir que
. El convenio que se
suele utilizar para poder realizar esta aproximación es:

Aunque en realidad esta no da resultados muy precisos a menos
que realmente n sea un valor muy grande o
. Como ilustración
obsérvense las figuras siguientes.
Figura: Comparación entre la función de densidad de
una variable aleatoria continua con distribución N(np,npq) y el diagrama
de barras de una variable aleatoria discreta de distribución B(n,p) para
casos en que la aproximación normal de la binomial es válida. Es peor esta
aproximación cuando p está próximo a los bordes del intervalo
[0,1].

Figura: La misma
comparación que en la figura anterior, pero realizada con parámetros con
los que damos la aproximación normal de la binomial es
mejor.

Durante cierta epidemia de gripe, enferma el 30% de la
población. En un aula con 200 estudiantes de Medicina, ¿cuál es la probabilidad
de que al menos 40 padezcan la enfermedad? Calcular la probabilidad de que haya
60 estudiantes con gripe.
Solución: La variable aleatoria que contabiliza el número de
alumnos que padece la gripe es

Cuya media es µ =n*p=60 y su
varianza es σ2=npq=42. Realizar los
cálculos con la ley binomial es muy engorroso, ya que intervienen números
combinatorios de gran tamaño, y potencias muy elevadas. Por ello utilizamos la
aproximación normal de X, teniendo en cuenta que se verifican las condiciones
necesarias para que el error sea aceptable:

Así aproximando la variable aleatoria discreta binomial X,
mediante la variable aleatoria continua normal XN tenemos:

También es necesario calcular P[X]=60. Esta probabilidad se
calcula exactamente como:

Dada la dificultad numérica para calcular esa cantidad, y como
la distribución binomial no está habitualmente tabulada hasta valores tan altos,
vamos a utilizar su aproximación normal, XN. Pero hay que prestar atención al
hecho de que XN es una variable aleatoria continua, y por tanto la probabilidad
de cualquier punto es cero. En particular,

Lo que ha de ser interpretado como un error de aproximación.
Hay métodos más aproximados para calcular la probabilidad buscada. Por ejemplo,
podemos aproximar P[X]=60 por el valor de la función de densidad de XN en ese
punto (es en el único sentido en que se puede entender la función de densidad de
la normal como una aproximación de una probabilidad). Así:

Por último, otra posibilidad es considerar un intervalo de
longitud 1centrado en el valor 60 del que deseamos hallar su probabilidad y
hacer:

Según un estudio, la altura de los varones de cierta ciudad es
una v.a. X, que podemos considerar que se distribuye según una ley gaussiana de
valor esperado µ =175 cm. y desviación típica σ=10 cm. Dar un intervalo para el que tengamos asegurado que el 50% de
los habitantes de la ciudad estιn comprendidos en
él.
Solución: Tenemos que
. Si buscamos un
intervalo donde estar seguros de que el 50% de los habitantes tengan sus alturas
comprendidas en él hay varias estrategias posibles:
1. Podemos tomar el percentil 50, ya que este valor deja por
debajo suya a la mitad, 0,5, de la masa de probabilidad. Este valor,
x0,5, se definiría como:

Donde

El valor z0,5 lo podemos buscar en la tabla (distribución
N(0,1) y se obtiene:

Por tanto podemos decir que la mitad de la población tiene una
altura inferior a X0,5=175 cm. Este resultado era de esperar, ya
que en la distribución es simétrica y habrá una mitad de individuos con un peso
inferior a la media y otro con un peso superior. Esto puede escribirse como:
El 50% de la población tiene un peso comprendido en el intervalo
(-¥ ,175).
Figura:
Intervalo donde tenemos asegurado que el 50% de la población tiene un
peso comprendido en él. Como se observa, no es un tamaño óptimo, en
el sentido de que el intervalo es demasiado grande (longitud infinita
a la izquierda).

2. Análogamente podemos considerar
el percentil 50, y tomar como intervalo aquellos pesos que lo superan. Por las
mismas razones que en el problema anterior, podremos decir:
El 50% de la población tiene un peso
comprendido en el intervalo [175,+¥ ).
3. Los anteriores intervalos, aún
dando un resultado correcto, no son satisfactorios en el sentido de que son
muy grandes, y no tienen en cuenta la simetría de la distribución normal para
tomar un intervalo cuyo centro sea µ. Vamos a utilizar entonces otra técnica
que nos permita calcular el intervalo centrado en la media, y que además será
el más pequeño posible que contenga al 50% de la población.
Para ello observamos que la mayor
parte de probabilidad está concentrada siempre alrededor de la media en las
leyes gaussianas. Entonces podemos tomar un intervalo que contenga un 25% de
probabilidad del lado izquierdo más próximo a la media, y un 25% del derecho.
Figura:
Intervalo donde tenemos asegurado que el 50% de la población tiene un
peso comprendido en él. En este caso el intervalo es más pequeño que
el anterior y está centrado en µ.

Esto se puede describir como el intervalo
donde x0,25 es
el valor que deja por debajo de sí al 25% de la masa de probabilidad y x0,75
el que lo deja por encima (o lo que es lo mismo, el que deja por debajo
al 75% de las observaciones). Del mismo modo que antes estos valores pueden
ser buscados en una tabla de la distribución normal, tipificando en primera
instancia para destipificar después:

Donde

En una tabla encontramos el valor z0,75,
y se destipifica:

Análogamente se calcularía

Donde:

Por la simetría de la distribución
normal con respecto al origen, tenemos que z0,25= - z0,75.Luego

En conclusión:
El 50% de la población tiene un peso
comprendido en el intervalo [168,25,181,75].
De entre los tres intervalos que
se han calculado el que tiene más interés es el último, ya que es simétrico
con respecto a la media, y es el más pequeño de todos los posibles (más preciso).
Este ejemplo es en realidad una introducción a unas técnicas de inferencia estadística
que trataremos posteriormente, conocidas con el nombre de ``estimación confidencial''
o ``cálculo de intervalos de confianza''.
Problemas
Ejercicio 1. Para estudiar la regulación
hormonal de una línea metabólica se inyectan ratas albinas con un fármaco que
inhibe la síntesis de proteínas del organismo. En general, 4 de cada 20 ratas
mueren a causa del fármaco antes de que el experimento haya concluido. Si se
trata a 10 animales con el fármaco, ¿cuál es la probabilidad de que al menos
8 lleguen vivas al final del experimento?
Ejercicio 2. En una cierta población se
ha observado un número medio anual de muertes por cáncer de pulmón de 12. Si
el número de muertes causadas por la enfermedad sigue una distribución de Poisson,
¿cuál es la probabilidad de que durante el año en curso?
1. ¿Haya exactamente 10 muertes por cáncer de pulmón?
2. ¿15 o más personas mueran a causa de la enfermedad?
3. ¿10 o menos personas mueran a causa de la enfermedad?
Ejercicio 3. Dañando los cromosomas del
óvulo o del espermatozoide, pueden causarse mutaciones que conducen a abortos,
defectos de nacimiento, u otras deficiencias genéticas. La probabilidad de que
tal mutación se produzca por radiación es del 10%. De las siguientes 150 mutaciones
causadas por cromosomas dañados, ¿cuántas se esperaría que se debiesen a radiaciones?
¿Cuál es la probabilidad de que solamente 10 se debiesen a radiaciones?
Ejercicio 4. Entre los diabéticos, el nivel
de glucosa en sangre X, en ayunas, puede suponerse de distribución aproximadamente
normal, con media 106 mg/100 ml y desviación típica 8 mg/100 ml, es decir

1. Hallar 
2. ¿Qué porcentaje de diabéticos
tienen niveles comprendidos entre 90 y 120?
3. Hallar
.
4. Hallar
.
5. Hallar el punto x caracterizado por la propiedad
de que el 25% de todos los diabéticos tiene un nivel de glucosa en ayunas inferior
o igual a x.
Ejercicio 5. Una prueba de laboratorio
para detectar heroína en sangre tiene un 92% de precisión. Si se analizan 72
muestras en un mes, ¿cuál es la probabilidad de que:
1. ¿60 o menos estén correctamente evaluadas?
2. ¿Menos de 60 estén correctamente evaluadas?
3. ¿Exactamente 60 estén correctamente evaluadas?
Ejercicio 6. El 10% de las personas tiene
algún tipo de alergia. Se seleccionan aleatoriamente 100 individuos y se les
entrevista. Hallar la probabilidad de que, al menos, 12 tengan algún tipo de
alergia. Hallar la probabilidad de que, como máximo, 8 sean alérgicos a algo.
Ejercicio 7. La probabilidad de muerte
resultante del uso de píldoras anticonceptivas es de 3/100.000. De 1.000.000
de mujeres que utilizan este medio de control de natalidad:
1. ¿Cuántas muertes debidas a esta causa se esperan?
2. ¿Cuál es la probabilidad de que haya, como máximo,
25 de estas muertes?
3. ¿Cuál es la probabilidad de que el número de
muertes debidas a esta causa esté entre 25 y 35, inclusive?
Ejercicio 8. La probabilidad de presentar
una característica genética es de 1/20.
1. Tomando una muestra de 8 individuos, calcular
la probabilidad de que 3 individuos presenten la característica.
2. Tomando una muestra de 80 personas, ¿cuál será
la probabilidad de que aparezcan más de 5 individuos con la característica?
Ejercicio 9. Se supone que en una cierta
población humana el índice cefálico i, (cociente entre el diámetro
transversal y el longitudinal expresado en tanto por ciento), se distribuye
según una Normal. El 58% de los habitantes son dolicocéfalos (i £ 75), el 38%
son mesocéfalos (75 < i £ 80) y el 4% son braquicéfalos (i > 80). Hállese
la media y la desviación típica del índice cefálico en esa población.
Ejercicio 10. Se supone que la glucemia
basal en individuos sanos, Xs sigue una distribución

Mientras que en los diabéticos Xd,
sigue una distribución

Si se conviene en clasificar como sanos al 2% de
los diabéticos:
1. ¿Por debajo de qué valor se considera sano a
un individuo? ¿Cuántos sanos serán clasificados como diabéticos?
2. Se sabe que en la población en general el 10%
de los individuos son diabéticos ¿cuál es la probabilidad de que un individuo
elegido al azar y diagnosticado como diabético, realmente lo sea?
Ejercicio 611. Supóngase que se van a utilizar
20 ratas en un estudio de agentes coagulantes de la sangre. Como primera experiencia,
se dio un anticoagulante a 10 de ellos, pero por inadvertencia se pusieron todas
sin marcas en el mismo recinto. Se necesitaron 12 ratas para la segunda fase
del estudio y se les tomó al azar sin reemplazamiento. ¿Cuál es la probabilidad
de que de las 12 elegidas 6 tengan la droga y 6 no la tengan?
2. UNIDAD: ESTIMACIÓN DE
PARÁMETROS
El propósito de un estudio estadístico
suele ser, como hemos venido citando, extraer conclusiones acerca de la naturaleza
de una población. Al ser la población grande y no poder ser estudiada en su
integridad en la mayoría de los casos, las conclusiones obtenidas deben basarse
en el examen de solamente una parte de ésta, lo que nos lleva, en primer lugar
a la justificación, necesidad y definición de las diferentes técnicas de muestreo.
Los primeros términos obligados a los
que debemos hacer referencia serán los de estadístico y estimador.
Dentro de este contexto, será necesario
asumir un estadístico o estimador como una variable aleatoria con una determinada
distribución, y que será la pieza clave en las dos amplias categorías de la
inferencia estadística: la estimación y el contraste de hipótesis.
El concepto de estimador, como herramienta
fundamental, lo caracterizamos mediante una serie de propiedades que nos servirán
para elegir el ``mejor" para un determinado parámetro de una población, así
como algunos métodos para la obtención de ellos, tanto en la estimación puntual
como por intervalos.
¿Cómo deducir la ley de probabilidad
sobre determinado carácter de una población cuando sólo conocemos una muestra?
Este es un problema al que nos enfrentamos
cuando por ejemplo tratamos de estudiar la relación entre el fumar y el cáncer
de pulmón e intentamos extender las conclusiones obtenidas sobre una muestra
al resto de individuos de la población.
La tarea fundamental de la estadística
inferencial, es hacer inferencias acerca de la población a partir de una muestra
extraída de la misma.
Técnicas
de muestreo sobre una población
La teoría del muestreo tiene por
objetivo, el estudio de las relaciones existentes entre la distribución de un
carácter en dicha población y las distribuciones de dicho carácter en todas
sus muestras.
Las ventajas de estudiar una población
a partir de sus muestras son principalmente:
- Coste reducido:
Si los datos que buscamos los podemos
obtener a partir de una pequeña parte del total de la población, los gastos
de recogida y tratamiento de los datos serán menores. Por ejemplo, cuando se
realizan encuestas previas a un referéndum, es más barato preguntar a 4.000
personas su intención de voto, que a 30.000.000;
- Mayor rapidez:
Estamos acostumbrados a ver cómo
con los resultados del escrutinio de las primeras mesas electorales, se obtiene
una aproximación bastante buena del resultado final de unas elecciones, muchas
horas antes de que el recuento final de votos haya finalizado;
- Más posibilidades:
Para hacer cierto tipo de estudios,
por ejemplo el de duración de cierto tipo de bombillas, no es posible en la
práctica destruirlas todas para conocer su vida media, ya que no quedaría nada
que vender. Es mejor destruir sólo una pequeña parte de ellas y sacar conclusiones
sobre las demás.
De este modo se ve que al hacer estadística
inferencial debemos enfrentarnos con dos problemas:
Elección de la muestra (muestreo),
que es a lo que nos dedicaremos en este capítulo.
Extrapolación de las conclusiones
obtenidas sobre la muestra, al resto de la población (inferencia).
El tipo de muestreo más importante es
el muestreo aleatorio, en el
que todos los elementos de la población tienen la misma probabilidad de ser
extraídos; Aunque dependiendo del problema y con el objetivo de reducir los
costes o aumentar la precisión, otros tipos de muestreo pueden ser considerados
como veremos más adelante: muestreo sistemático, estratificado y por conglomerados.
Muestreo aleatorio
Consideremos una población finita,
de la que deseamos extraer una muestra. Cuando el proceso de extracción es tal
que garantiza a cada uno de los elementos de la población la misma oportunidad
de ser incluidos en dicha muestra, denominamos al proceso de selección muestreo
aleatorio.
El muestreo aleatorio se puede plantear
bajo dos puntos de vista:
- Sin reposición de
los elementos;
- Con reposición.
Muestreo aleatorio sin reposición
Consideremos una población E formada
por N elementos. Si observamos un elemento particular,
, en un muestreo aleatorio
sin reposición se da la siguiente circunstancia:
La probabilidad de que e sea elegido
en primer lugar es
;
Si no ha sido elegido en primer lugar
(lo que ocurre con una probabilidad de
), la probabilidad de que sea elegido en el segundo intento es de
.
En el (i+1)-ésimo intento, la población
consta de N-i elementos, con lo cual si e no ha sido seleccionado previamente,
la probabilidad de que lo sea en este momento es de
.
Si consideramos una muestra de
elementos, donde el orden
en la elección de los mismos tiene importancia, la probabilidad de elección
de una muestra
cualquiera es

Lo que corresponde en el sentido
de la definición de probabilidad de Laplace a un caso posible entre las VN,n
posibles n-uplas de N elementos de la población.
Si el orden no interviene, la probabilidad
de que una muestra

Sea elegida es la suma de las probabilidades
de elegir una cualquiera de sus n-uplas, tantas veces como permutaciones en
el orden de sus elementos sea posible, es decir

Muestreo aleatorio con reposición
Sobre una población E de tamaño N
podemos realizar extracciones de n elementos, pero de modo que cada vez el elemento
extraído es repuesto al total de la población. De esta forma un elemento puede
ser extraído varias veces. Si el orden en la extracción de la muestra interviene,
la probabilidad de una cualquiera de ellas, formada por n elementos es:

Si el orden no interviene, la probabilidad
de una muestra cualquiera, será la suma de la anterior, repitiéndola tantas
veces como manera de combinar sus elementos sea posible. Es decir,
- sea n1 el número de veces que se
repite cierto elemento e1 en la muestra;
- sea n2 el número de veces que se
repite cierto elemento e2;
- sea nk el número de veces que se
repite cierto elemento ek,
De modo que
. Entonces la probabilidad
de obtener la muestra:

Es

Es decir,

El muestreo aleatorio con reposición
es también denominado muestreo aleatorio simple, que como hemos mencionado se
caracteriza por que
- Cada elemento de la población tiene la misma
probabilidad de ser elegido, y…
- Las observaciones se realizan con reemplazamiento.
De este modo, cada observación es realizada sobre la misma población (no
disminuye con las extracciones sucesivas).
Sea X una v.a. definida sobre la
población E, y f(x) su ley de probabilidad.

En una muestra aleatoria simple,
cada observación tiene la distribución de probabilidad de la población:
Además todas las observaciones de la v.a. son independientes, es decir
Las relaciones anteriores caracterizan a las muestras aleatorias simples.
Un ejemplo de una tabla de números
aleatorios consiste en la lista de los números de Lotería Nacional premiados
a lo largo de su historia, pues se caracterizan por que cada dígito tiene la
misma probabilidad de ser elegido, y su elección es independiente de las demás
extracciones.
Un modo de hacerlo es el siguiente.
Supongamos que tenemos una lista de números aleatorios de k=5 cifras (00000-99.999),
una población de N=600 individuos, y deseamos extraer una muestra de n=6 de
ellos. En este caso ordenamos a toda la población (usando cualquier criterio)
de modo que a cada uno de sus elementos le corresponda un número del 1 al 600.
En segundo lugar nos dirigimos a la tabla de números aleatorios, y comenzando
en cualquier punto extraemos un número t, y tomamos como primer elemento de
la muestra al elemento de la población:

El proceso se repite tomando los
siguientes números de la tabla de números aleatorios, hasta obtener la muestra
de 10 individuos.
Las cantidades

Pueden ser consideradas como observaciones
de una v.a. U, que sigue una distribución uniforme en el intervalo [0,1]

Método de Montecarlo
El método de Montecarlo es una técnica
para obtener muestras aleatorias simples de una v.a. X, de la que conocemos
su ley de probabilidad (a partir de su función de distribución F). Con este
método, el modo de elegir aleatoriamente un valor de X siguiendo usando su ley
de probabilidad es:
1. Usando una tabla de números aleatorios
se toma un valor u de una v.a.
.
2. Si X es continua tomar como observación
de X, la cantidad x=F-1(u). En el caso en que X sea discreta se toma x como
el percentil
de X, es decir
el valor más pequeño que verifica que
. Este proceso se debe
repetir n veces para obtener una muestra de tamaño n.
Si queremos extraer n=10 muestras
de una distribución N(0,1) podemos recurrir a una tabla de números aleatorios
de k=5 cifras, en las que observamos las cantidades (por ejemplo)

A partir de ellas podemos obtener
una muestra de
usando una tabla de la distribución
normal:
Números aleatorios
Muestra 
Muestra 
ti

xi = F-1(ui)
76.293
0'76
0'71
31.776
0'32(=1-0'68)
-0'47
50.803
0'51
0'03
71.153
0'71
0'55
20.271
0'20(=1-0'80)
-0'84
33.717
0'34(=1-0'66)
-0'41
17.979
0'18(=1-0'82)
-0'92
52.125
0'52
0'05
41.330
0'41(=1-0'59)
-0'23
95.141
0'95
1'65
Obsérvese que como era de esperar, las
observaciones xi tienden a agruparse alrededor de la esperanza matemática de
. Por otra parte, esto
no implica que el valor medio de la muestra sea necesariamente
. Sin embargo como sabemos
por el teorema de Fisher que

Su dispersión con respecto al valor
central es pequeña, lo que implica que probablemente el valor medio
estará muy próximo a 0, como
se puede calcular:

Obsérvese que si el problema fuese
el inverso, donde únicamente conociésemos las observaciones xi y que el mecanismo
que generó esos datos hubiese sido una distribución normal de parámetros desconocidos,
con
obtenida hubiésemos
tenido una buena aproximación del ``parámetro desconocido''µ. Sobre esta cuestión
volveremos más adelante al abordar el problema de la estimación puntual de parámetros.
Muestreo sistemático
Cuando los elementos de la población
están ordenados en fichas o en una lista, una manera de muestrear consiste en
- Sea
;
- Elegir aleatoriamente un número m, entre 1
y k;
- Tomar como muestra los elementos de la lista:

Esto es lo que se denomina muestreo
sistemático. Cuando el criterio de ordenación de los elementos en la lista es
tal que los elementos más parecidos tienden a estar más cercanos, el muestreo
sistemático suele ser más preciso que el aleatorio simple, ya que recorre la
población de un modo más uniforme. Por otro lado, es a menudo más fácil no cometer
errores con un muestreo sistemático que con este último.
El método tal como se ha definido
anteriormente es sesgado si
no
es entero, ya que los últimos elementos de la lista nunca pueden ser escogidos.
Un modo de evitar este problema consiste en considerar la lista como si fuese
circular (el elemento N+1 coincide con el primero) y:
- Sea k el entero más cercano a
;
- Se selecciona un número al azar m, entre 1
y N;
- Se toma como muestra los elementos de la lista
que consisten en ir saltando de k elementos en k, a partir de m, teniendo
en cuenta que la lista es circular.
Se puede comprobar que con este método
todos los elementos de la lista tienen la misma probabilidad de selección.
Muestreo aleatorio estratificado
Un muestreo aleatorio estratificado
es aquel en el que se divide la población de N individuos, en k subpoblaciones
o estratos, atendiendo a criterios que puedan ser importantes en el estudio,
de tamaños respectivos N1, ..., Nk,

Y realizando en cada una de estas
subpoblaciones muestreos aleatorios simples de tamaño ni i=1,…,k.
A continuación nos planteamos el
problema de cuantos elementos de muestra se han de elegir de cada uno de los
estratos. Para ello tenemos fundamentalmente dos técnicas: la asignación proporcional
y la asignación óptima.
Supongamos que realizamos un estudio
sobre la población de estudiantes de una Universidad, en el que a través de
una muestra de 10 de ellos queremos obtener información sobre el uso de barras
de labios.
En primera aproximación lo que procede
es hacer un muestreo aleatorio simple, pero en su lugar podemos reflexionar
sobre el hecho de que el comportamiento de la población con respecto a este
carácter no es homogéneo, y atendiendo a él, podemos dividir a la población
en dos estratos:
- Estudiantes masculinos (60% del total);
- Estudiantes femeninos (40% restante).
De modo que se repartan proporcionalmente
ambos grupos el número total de muestras, en función de sus respectivos tamaños
(6 varones y 4 mujeres). Esto es lo que se denomina asignación proporcional.
Si observamos con más atención, nos
encontramos (salvo sorpresas de probabilidad reducida) que el comportamiento
de los varones con respecto al carácter que se estudia es muy homogéneo y diferenciado
del grupo de las mujeres.
Por otra parte, con toda seguridad
la precisión sobre el carácter que estudiamos, será muy alta en el grupo de
los varones aunque en la muestra haya muy pocos (pequeña varianza), mientras
que en el grupo de las mujeres habrá mayor dispersión. Cuando las varianzas
poblacionales son pequeñas, con pocos elementos de una muestra se obtiene una
información más precisa del total de la población que cuando la varianza es
grande. Por tanto, si nuestros medios sólo nos permiten tomar una muestra de
10 alumnos, será más conveniente dividir la muestra en dos estratos, y tomar
mediante muestreo aleatorio simple cierto número de individuos de cada estrato,
de modo que se elegirán más individuos en los grupos de mayor variabilidad.
Así probablemente obtendríamos mejores resultados estudiando una muestra de
- 1 varón.
- 9 hembras.
Esto es lo que se denomina asignación
óptima.
Asignación proporcional
Sea n el número de individuos de
la población total que forman parte de alguna muestra:

Cuando la asignación es proporcional
el tamaño de la muestra de cada estrato es proporcional al tamaño del estrato
correspondiente con respecto a la población total:

Asignación óptima
Cuando se realiza un muestreo estratificado,
los tamaños muestrales en cada uno de los estratos, ni, los elige quien hace
el muestreo, y para ello puede basarse en alguno de los siguientes criterios:
- Elegir los ni de tal modo que se minimice
la varianza del estimador, para un coste especificado, o bien,
- habiendo fijado la varianza que podemos admitir
para el estimador, minimizar el coste en la obtención de las muestras.
Así en un estrato dado, se tiende
a tomar una muestra más grande cuando:
- El estrato es más grande;
- El estrato posee mayor variabilidad interna
(varianza);
- El muestreo es más barato en ese estrato.
Para ajustar el tamaño de los estratos
cuando conocemos la dispersión interna de cada uno de los mismos, tenemos el
siguiente resultado:
[Asignación de Neyman] Sea E una
población con N elementos, dividida en k estratos, con Ni elementos
cada uno de ellos,i=1,…,k

Sea n el número total de elementos
al realizar el muestreo, y que se dividen en cada estrato como

Sea X la v.a. que representa el carácter
que intentamos estudiar. Sobre cada estrato puede definirse entonces la v.a.

Como el valor medio de X obtenida
en una muestra de tamaño ni en el estrato Ei. Sea Var[Xi]
la varianza de dicha v.a.; Entonces

Se minimiza cuando

Donde

Es la cuasi-varianza del estrato
Ei.
Muestreo por conglomerados
Si intentamos hacer un estudio sobre
los habitantes de una ciudad, el muestreo aleatorio simple puede resultar muy
costoso, ya que estudiar una muestra de tamaño n implica enviar a los encuestadores
a npuntos distintos de la misma, de modo que en cada uno de ellos sólo se realiza
una entrevista. En esta situación es más económico realizar el denominado muestreo
por conglomerados, que consiste en elegir aleatoriamente ciertos barrios dentro
de la ciudad, para después elegir calles y edificios. Una vez elegido el edificio,
se entrevista a todos los vecinos.
Estimación Puntual
Máxima Verosimilitud
Sea X una v.a. con función de probabilidad

Las muestras aleatorias simples de
tamaño n, x1,x2,…,xn tienen por distribución
de probabilidad conjunta

Esta función que depende de n+1 cantidades
podemos considerarla de dos maneras:
- Fijando
, es una función de la n cantidades xi. Esto es la función
de probabilidad o densidad.
- Fijados los xi como consecuencia
de los resultados de elegir una muestra mediante un experimento aleatorio,
es únicamente función de
. A esta función
de
la denominamos función de verosimilitud.
En este punto podemos
Estadística I
Cuadernillo de apoyo
- Descripción
- Distribuciones
- Estimación de parámetros
- Prueba de hipótesis
- Prueba de bondad de ajuste
- Bibliografía
El presente trabajo de investigación, fue elaborado por el grupo de ingeniería industrial (2002-2007), el cual pretende auxiliar a las futuras generaciones de estudiantes universitarios de la materia de estadística, aquí se encuentran los temas de Distribuciones, Estimación de Parámetros, Prueba de Hipótesis y Pruebas de Bondad de Ajuste; creemos que está muy completo, también se pueden auxiliar docentes como cuadernillo de apoyo, contiene definiciones, formulas, tablas, ejemplos y ejercicios fáciles de seguir; sin duda una herramienta muy útil.
Distribución normal (ó campana de Gauss-Laplace)
Una de las distribuciones teóricas mejor estudiadas en los textos de bioestadística y más utilizada en la práctica es la distribución normal, también llamada distribución gaussiana. Su importancia se debe fundamentalmente a la frecuencia con la que distintas variables asociadas a fenómenos naturales y cotidianos siguen, aproximadamente, esta distribución. Caracteres morfológicos (como la talla o el peso), o psicológicos (como el cociente intelectual) son ejemplos de variables de las que frecuentemente se asume que siguen una distribución normal. No obstante, y aunque algunos autores han señalado que el comportamiento de muchos parámetros en el campo de la salud puede ser descrito mediante una distribución normal, puede resultar incluso poco frecuente encontrar variables que se ajusten a este tipo de comportamiento.
El uso extendido de la distribución normal en las aplicaciones estadísticas puede explicarse, además, por otras razones. Muchos de los procedimientos estadísticos habitualmente utilizados asumen la normalidad de los datos observados. Aunque muchas de estas técnicas no son demasiado sensibles a desviaciones de la normal y, en general, esta hipótesis puede obviarse cuando se dispone de un número suficiente de datos, resulta recomendable contrastar siempre si se puede asumir o no una distribución normal. La simple exploración visual de los datos puede sugerir la forma de su distribución. No obstante, existen otras medidas, gráficos de normalidad y contrastes de hipótesis que pueden ayudarnos a decidir, de un modo más riguroso, si la muestra de la que se dispone procede o no de una distribución normal. Cuando los datos no sean normales, podremos o bien transformarlos o emplear otros métodos estadísticos que no exijan este tipo de restricciones (los llamados métodos no paramétricos).
A continuación se describirá la distribución normal, su ecuación matemática y sus propiedades más relevantes, proporcionando algún ejemplo sobre sus aplicaciones a la inferencia estadística. En la sección 1.1.3 se describirán los métodos habituales para contrastar la hipótesis de normalidad.
Propiedades de la distribución normal:
La distribución normal posee ciertas propiedades importantes que conviene destacar:
- Tiene una única moda, que coincide con su media y su mediana.
- La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor entre -¥ y +¥ es teóricamente posible. El área total bajo la curva es, por tanto, igual a 1.
- Es simétrica con respecto a su media µ. Según esto, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor.
- La distancia entre la línea trazada en la media y el punto de inflexión de la curva es igual a una desviación típica (σ). Cuanto mayor sea σ, mαs aplanada será la curva de la densidad.
- El área bajo la curva comprendida entre los valores situados aproximadamente a dos desviaciones estándar de la media es igual a 0.95. En concreto, existe un 95% de posibilidades de observar un valor comprendido en el intervalo (µ-1.96σ, µ+1.96σ).
- La forma de la campana de Gauss depende de los parámetros µ y σ (Figura 2). La media indica la posición de la campana, de modo que para diferentes valores de µ la gráfica es desplazada a lo largo del eje horizontal. Por otra parte, la desviación estándar determina el grado de apuntamiento de la curva. Cuanto mayor sea el valor de σ, mαs se dispersarán los datos en torno a la media y la curva será más plana. Un valor pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribución.
|
Figura 2. Ejemplos de distribuciones normales con diferentes parámetros. |
|
|
Como se deduce de este último apartado, no existe una única distribución normal, sino una familia de distribuciones con una forma común, diferenciadas por los valores de su media y su varianza. De entre todas ellas, la más utilizada es la distribución normal estándar, que corresponde a una distribución de media 0 y varianza 1. Así, la expresión que define su densidad se puede obtener de la Ecuación 1, resultando:

Es importante conocer que, a partir de cualquier variable X que siga una distribución N (µ,σ), se puede obtener otra característica Z con una distribución normal estándar, sin más que efectuar la transformación:
|
|
Esta propiedad resulta especialmente interesante en la práctica, ya que para una distribución N (0,1) existen tablas publicadas a partir de las que se puede obtener de modo sencillo la probabilidad de observar un dato menor o igual a un cierto valor z, y que permitirán resolver preguntas de probabilidad acerca del comportamiento de variables de las que se sabe o se asume que siguen una distribución aproximadamente normal.
Consideremos, por ejemplo, el siguiente problema: supongamos que se sabe que el peso de los sujetos de una determinada población sigue una distribución aproximadamente normal, con una media de 80 Kg y una desviación estándar de 10 Kg. ¿Podremos saber cuál es la probabilidad de que una persona, elegida al azar, tenga un peso superior a 100 Kg?
Denotando por X a la variable que representa el peso de los individuos en esa
población, ésta sigue una distribución
. Si su distribución
fuese la de una normal estándar podríamos utilizar la tabla para calcular la
probabilidad que nos interesa. Como éste no es el caso, resultará entonces
útil transformar esta característica según la Ecuación 2, y obtener la
variable:
![]()
Para poder utilizar dicha tabla. Así, la probabilidad que se desea calcular será:
![]()
Como el área total bajo la curva es igual a 1, se puede deducir que:
![]()
Esta última probabilidad puede ser fácilmente obtenida a partir
de la Tabla, resultando ser
. Por lo tanto, la
probabilidad buscada de que una persona elegida aleatoriamente de esa población
tenga un peso mayor de 100 Kg., es de 1–0.9772=0.0228, es decir, aproximadamente
de un 2.3%.
De modo análogo, podemos obtener la probabilidad de que el peso de un sujeto esté entre 60 y 100 Kg.:
![]()
De la Figura 2, tomando a =-2 y b =2, podemos deducir que:
![]()
Por el ejemplo previo, se sabe que
. Para la segunda
probabilidad, sin embargo, encontramos el problema de que las tablas estándar no
proporcionan el valor de
para valores negativos de
la variable. Sin embargo, haciendo uso de la simetría de la distribución
normal, se tiene que:
![]()
Finalmente, la probabilidad buscada de que una persona elegida al azar tenga un peso entre 60 y 100 Kg., es de 0.9772-0.0228=0.9544, es decir, aproximadamente de un 95%. Resulta interesante comprobar que se obtendría la misma conclusión recurriendo a la propiedad (iii) de la distribución normal.
No obstante, es fácil observar que este tipo de situaciones no
corresponde a lo que habitualmente nos encontramos en la práctica.
Generalmente no se dispone de información acerca de la distribución teórica de
la población, sino que más bien el problema se plantea a la inversa: a partir de
una muestra extraída al azar de la población que se desea estudiar, se realizan
una serie de mediciones y se desea extrapolar los resultados obtenidos a la
población de origen. En un ejemplo similar al anterior, supongamos que se
dispone del peso de n =100 individuos de esa misma población, obteniéndose una
media muestral de
Kg., y una desviación estándar muestral S=12 Kg., querríamos extraer
alguna conclusión acerca del valor medio real de ese peso en la población
original. La solución a este tipo de cuestiones se basa en un resultado
elemental de la teoría estadística, el llamado teorema central del límite.
Dicho axioma viene a decirnos que las medias de muestras aleatorias de cualquier
variable siguen ellas mismas una distribución normal con igual media que la de
la población y desviación estándar la de la población dividida por
. En nuestro caso, podremos entonces considerar la media
muestral
,
con lo cual, a partir de la propiedad (iii) se conoce que aproximadamente un 95%
de los posibles valores de
caerían dentro del
intervalo
. Puesto que los valores de µ y σ
son desconocidos, podrνamos pensar en
aproximarlos por sus análogos muestrales, resultando
.
Estaremos, por lo tanto, un 95% seguros de que el peso medio real en la población de origen oscila entre 75.6 Kg. y 80.3 Kg. Aunque la teoría estadística subyacente es mucho más compleja, en líneas generales éste es el modo de construir un intervalo de confianza para la media de una población.
- Teorema de la combinación lineal de variaciones normales y chi-cuadrada
Terorema de Chebshev, este teorema da una estimación conservadora de la probabilidad de que una variable aleatoria tome un valor dentro de k dentro de k desviaciones estándar de su media para cualquier número real k. Proporcionaremos solo la demostración para caso continuo.
La probabilidad de que cualquier variable aleatoria X tome un valor dentro de
k desviaciones estándar de la media es al menos 1-
. Es decir
.
- Distribuciones muestrales
En esta sección estudiaremos las distribuciones más importantes
de variables aleatorias continuas unidimensionales. El soporte de una
variable aleatoria continua se define como aquella región de
donde su densidad es no
nula,
.
Para las distribuciones que enunciaremos, podrá ser bien todo
, o bien un segmento de la
forma
.
- Distribuciones normales
La distribución gaussiana, recibe también el nombre de distribución normal, ya que una gran mayoría de las variables aleatorias continuas de la naturaleza siguen esta distribución. Se dice que una variable aleatoria X sigue una distribución normal de parámetros µ y σ2, lo que representamos del modo:
![]()
Si su función de densidad es:

Estos dos parámetros µ y σ2coinciden además con la media (esperanza) y la varianza respectivamente de la distribución como se demostrará más adelante:

La forma de la función de densidad es la llamada campana de Gauss.
Figura: Campana de Gauss o función de densidad de una variable aleatoria de distribución normal. El área contenida entre la gráfica y el eje de abcisas vale 1. |
|
|
Para el lector es un ejercicio interesante comprobar que ésta alcanza un único máximo (moda) en µ, que es simétrica con respecto al mismo, y por tanto:
![]()
Con lo cual en µ coinciden la media, la mediana y la moda, y por último, calcular sus puntos de inflexión.
El soporte de la distribución es todo
, de modo que la mayor
parte de la masa de probabilidad (área comprendida entre la curva y el eje de
abcisas) se encuentra concentrado alrededor de la media, y las ramas de la curva
se extienden asintóticamente a los ejes, de modo que cualquier valor ``muy
alejado" de la media es posible (aunque poco probable).
La forma de la campana de Gauss depende de los parámetros µ y σ:
Figura: Distribuciones gaussianas con diferentes medias e igual dispersión. |
|
|
|
Figura: Distribuciones gaussianas con igual media pero varianza diferente. |
|
|
La función característica de la distribución normal, se comprueba más adelante que es:
![]()
Como consecuencia, la distribución normal es reproductiva con respecto a los parámetros µ, y σ2, ya que:

Como se ha mencionado anteriormente, la ley de probabilidad gaussiana la encontramos en la mayoría de los fenómenos que observamos en la naturaleza, por ello gran parte de lo que resta del curso lo vamos a dedicar a su estudio y a el de las distribuciones asociadas a ella. Sin embargo, a pesar de su utilidad, hay que apuntar un hecho negativo para esta ley de probabilidad:
La función
no posee primitiva
conocida.
Las consecuencias desde el punto de vista práctico son importantes, ya que eso impide el que podamos escribir de modo sencillo la función de distribución de la normal, y nos tenemos que limitar a decir que:
![]()
Sin poder hacer uso de ninguna expresión que la simplifique. Afortunadamente esto no impide que para un valor de x fijo, F(x) pueda ser calculado. De hecho puede ser calculado con tanta precisión (decimales) como se quiera, pero para esto se necesita usar técnicas de cálculo numérico y ordenadores. Para la utilización en problemas prácticos de la función de distribución F, existen ciertas tablas donde se ofrecen (con varios decimales de precisión) los valores F(x) para una serie limitada de valores xi dados. Normalmente F se encuentra tabulada para una distribución Z, normal de media 0 y varianza 1 que se denomina distribución normal tipificada:
![]()
En el caso de que tengamos una
distribución diferente
, se obtiene Z haciendo
el siguiente cambio:

De manera general se tiene:
Sean .
Entonces:
![]()
![]()
Este resultado puede ser utilizado del siguiente modo: Si , y nos interesa
calcular
,
1. Hacemos el cambio
y calculamos
;
2. Usamos la tabla, relativa a la distribución
para obtener (de modo
aproximado)
;
3. Como
tenemos que el valor obtenido en la tabla, FZ(z) es la probabilidad
buscada.
Supongamos que cierto fenómeno pueda ser representado mediante una variable
aleatoria
, y queremos calcular la probabilidad de que X tome un valor entre 39
y 48, es decir, ![]()
Comenzamos haciendo el cambio de variable
![]()
De modo que:

Vamos ahora a demostrar algunas de las propiedades de la ley gaussiana que hemos mencionado anteriormente.
Sea
.
Entonces

Demostración
Por ser la normal una ley de probabilidad se tiene que
![]()
Es decir, esa integral es constante. Con lo cual, derivando la expresión
anterior con respecto a µ se obtiene el valor 0:

Luego
.
Para demostrar la igualdad entre la var[X] y σ2, basta con aplicar la misma técnica, pero esta vez derivando con respecto a σ2:

Luego
![]()
Para demostrar el resultado relativo a la función característica, consideramos en primer lugar la variable aleatoria tipificada de X,
![]()
Y calculamos

Como
, deducimos que
![]()
- Distribución Chi-Cuadrada (X2)
Si consideramos una v.a.
, la v.a. X=Z2 se
distribuye según una ley de probabilidad distribución x2 con un grado de
libertad, lo que se representa como:![]()
Si tenemos n v.a. independientes
, la suma de sus cuadrados
respectivos es una distribución que denominaremos ley de distribución
x2con n grados de libertad,
x2n.


La media y varianza de esta variable son respectivamente:
Y su función de densidad es:

Los percentiles de esta distribución que aparecen con más frecuencia en la práctica los podemos encontrar en la tabla.
Figura: Función de densidad de x2n para valores pequeños de n. |
|
|
Figura: Función de densidad de x2n para valores grandes de n. |
|
|
En consecuencia, si tenemos x1,…,xn, v.a.
independientes, donde cada
, se tiene

La ley de distribución x2 muestra su importancia cuando queremos determinar la variabilidad (sin signo) de cantidades que se distribuyen en torno a un valor central siguiendo un mecanismo normal. Como ilustración tenemos el siguiente ejemplo:
Un instrumento para medir el nivel de glucemia en sangre, ofrece resultados
bastantes aproximados con la realidad, aunque existe cierta cantidad de error
que se
distribuye de modo normal con media 0 y desviación típica
.
![]()
Se realizan mediciones de los niveles de glucemia dados por el instrumento en un grupo de n=100 pacientes. Nos interesa medir la cantidad de error que se acumula en las mediciones de todos los pacientes. Podemos plantear varias estrategias para medir los errores acumulados. Entre ellas destacamos las siguientes:
1. Definimos el error acumulado en las mediciones de todos los pacientes como

¿Cuál es el valor esperado para E1?
2. Definimos el error acumulado como la suma de los cuadrados de todos los errores (cantidades positivas):

¿Cuál es el valor esperado para E2?
A la vista de los resultados, cuál de las dos cantidades, E1 y E2, le parece más conveniente utilizar en una estimación del error cometido por un instrumento.
Solución: Suponiendo que todas las mediciones son independientes, se
tiene que:
De este modo, el valor esperado para E1 es 0, es decir, que los errores ei van a tender a compensarse entre unos pacientes y otros. Obsérvese que si µ no fuese conocido a priori, podríamos utilizar E1, para obtener una aproximación de µ
![]()
Sin embargo, el resultado E1 no nos indica en qué medida hay mayor o menor dispersión en los errores con respecto al 0. En cuanto a E2 podemos afirmar lo siguiente:

En este caso los errores no se compensan entre sí, y si
no fuese conocido,
podría ser ``estimado" de modo aproximado mediante
![]()
Sin embargo, no obtenemos ninguna información con respecto a µ.
En conclusión, E1 podría ser utilizado para calcular de modo
aproximado µ, y E2 para calcular de modo aproximado
. Las dos cantidades tienen
interés, y ninguna lo tiene más que la otra, pues ambas formas de medir el error
nos aportan información.
El siguiente resultado será de importancia más adelante. Nos afirma que la media de distribuciones normales independientes es normal pero con menor varianza y relaciona los grados de libertad de una v.a. con distribución x, con los de un estadístico como la varianza:
- Teorema (Cochran)
Sean
v.a. independientes.
Entonces



La distribución
-Student se construye como
un cociente entre una normal y la raíz de una x2
independientes. De modo preciso, llamamos distribución t-Student con n
grados de libertad, tn a la de una v.a. T,
Donde
,
. Este tipo de
distribuciones aparece cuando tenemos n+1 v.a. independientes
![]()
![]()
y nos interesa la distribución de

La función de densidad de
es

Figura: Función de densidad de una |
|
|
La distribución t de Student tiene propiedades parecidas a N(0,1):
Es de media cero, y simétrica con respecto a la misma;
Es algo más dispersa que la normal, pero la varianza decrece hasta 1 cuando el número de grados de libertad aumenta;
Figura: Comparación entre las funciones de densidad de t1 y N(0,1). |
|
|
Para un número alto de grados de libertad se puede aproximar la distribución de Student por la normal, es decir,
Figura: Cuando aumentan los grados de libertad, la distribución de Student se aproxima a la distribución normal tipificada. |
|
|
Para calcular

En lugar de considerar una primitiva de esa función y determinar la integral definida, buscaremos el resultado aproximado en una tabla de la distribución tn. Véase la tabla, al final del libro.
Otra de las distribuciones importantes asociadas a la normal es
la que se define como cociente de distribuciones x2independientes.
Sean
e
v.a.
independientes. Decimos entonces que la variable

Sigue una distribución de probabilidad de
Snedecor, con (n,m) grados de libertad. Obsérvese que
.
La forma más habitual en que nos encontraremos esta distribución será en el caso en que tengamos n+m v.a. independientes
![]()
![]()
Y así

De esta ley de probabilidad lo que más nos interesa es su función de distribución:
![]()
y para ello, como en todas las distribuciones asociadas a la normal, disponemos de una tabla donde encontrar aproximaciones a esas cantidades.
Figura: Función de densidad de |
|
|
Es claro que la distribución de Snedecor no es simétrica, pues
sólo tienen densidad de probabilidad distinta de cero, los punto de
. Otra propiedad
interesante de la distribución de Snedecor es:
![]()
Se puede demostrar (teorema central del límite)
que una variable aleatoria discreta con distribución binomial,
se puede aproximar mediante
una distribución normal si n es suficientemente grande y p no está ni muy
próximo a 0 ni a 1. Como el valor esperado y la varianza de X son
respectivamente np y npq, la aproximación consiste en decir que
. El convenio que se
suele utilizar para poder realizar esta aproximación es:

Aunque en realidad esta no da resultados muy precisos a menos
que realmente n sea un valor muy grande o
. Como ilustración
obsérvense las figuras siguientes.
Figura: Comparación entre la función de densidad de una variable aleatoria continua con distribución N(np,npq) y el diagrama de barras de una variable aleatoria discreta de distribución B(n,p) para casos en que la aproximación normal de la binomial es válida. Es peor esta aproximación cuando p está próximo a los bordes del intervalo [0,1]. |
|
|
|
Figura: La misma comparación que en la figura anterior, pero realizada con parámetros con los que damos la aproximación normal de la binomial es mejor. |
|
|
Durante cierta epidemia de gripe, enferma el 30% de la población. En un aula con 200 estudiantes de Medicina, ¿cuál es la probabilidad de que al menos 40 padezcan la enfermedad? Calcular la probabilidad de que haya 60 estudiantes con gripe.
Solución: La variable aleatoria que contabiliza el número de alumnos que padece la gripe es
![]()
Cuya media es µ =n*p=60 y su varianza es σ2=npq=42. Realizar los cálculos con la ley binomial es muy engorroso, ya que intervienen números combinatorios de gran tamaño, y potencias muy elevadas. Por ello utilizamos la aproximación normal de X, teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable:

Así aproximando la variable aleatoria discreta binomial X, mediante la variable aleatoria continua normal XN tenemos:

También es necesario calcular P[X]=60. Esta probabilidad se
calcula exactamente como:
![]()
Dada la dificultad numérica para calcular esa cantidad, y como la distribución binomial no está habitualmente tabulada hasta valores tan altos, vamos a utilizar su aproximación normal, XN. Pero hay que prestar atención al hecho de que XN es una variable aleatoria continua, y por tanto la probabilidad de cualquier punto es cero. En particular,
![]()
Lo que ha de ser interpretado como un error de aproximación. Hay métodos más aproximados para calcular la probabilidad buscada. Por ejemplo, podemos aproximar P[X]=60 por el valor de la función de densidad de XN en ese punto (es en el único sentido en que se puede entender la función de densidad de la normal como una aproximación de una probabilidad). Así:
![]()
Por último, otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60 del que deseamos hallar su probabilidad y hacer:

Según un estudio, la altura de los varones de cierta ciudad es una v.a. X, que podemos considerar que se distribuye según una ley gaussiana de valor esperado µ =175 cm. y desviación típica σ=10 cm. Dar un intervalo para el que tengamos asegurado que el 50% de los habitantes de la ciudad estιn comprendidos en él.
Solución: Tenemos que
. Si buscamos un
intervalo donde estar seguros de que el 50% de los habitantes tengan sus alturas
comprendidas en él hay varias estrategias posibles:
1. Podemos tomar el percentil 50, ya que este valor deja por debajo suya a la mitad, 0,5, de la masa de probabilidad. Este valor, x0,5, se definiría como:

Donde

El valor z0,5 lo podemos buscar en la tabla (distribución N(0,1) y se obtiene:
![]()
Por tanto podemos decir que la mitad de la población tiene una altura inferior a X0,5=175 cm. Este resultado era de esperar, ya que en la distribución es simétrica y habrá una mitad de individuos con un peso inferior a la media y otro con un peso superior. Esto puede escribirse como:
El 50% de la población tiene un peso comprendido en el intervalo (-¥ ,175).
|
Figura: Intervalo donde tenemos asegurado que el 50% de la población tiene un peso comprendido en él. Como se observa, no es un tamaño óptimo, en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda). |
|
|
2. Análogamente podemos considerar el percentil 50, y tomar como intervalo aquellos pesos que lo superan. Por las mismas razones que en el problema anterior, podremos decir:
El 50% de la población tiene un peso comprendido en el intervalo [175,+¥ ).
3. Los anteriores intervalos, aún dando un resultado correcto, no son satisfactorios en el sentido de que son muy grandes, y no tienen en cuenta la simetría de la distribución normal para tomar un intervalo cuyo centro sea µ. Vamos a utilizar entonces otra técnica que nos permita calcular el intervalo centrado en la media, y que además será el más pequeño posible que contenga al 50% de la población.
Para ello observamos que la mayor parte de probabilidad está concentrada siempre alrededor de la media en las leyes gaussianas. Entonces podemos tomar un intervalo que contenga un 25% de probabilidad del lado izquierdo más próximo a la media, y un 25% del derecho.
|
Figura: Intervalo donde tenemos asegurado que el 50% de la población tiene un peso comprendido en él. En este caso el intervalo es más pequeño que el anterior y está centrado en µ. |
|
|
Esto se puede describir como el intervalo
donde x0,25 es
el valor que deja por debajo de sí al 25% de la masa de probabilidad y x0,75
el que lo deja por encima (o lo que es lo mismo, el que deja por debajo
al 75% de las observaciones). Del mismo modo que antes estos valores pueden
ser buscados en una tabla de la distribución normal, tipificando en primera
instancia para destipificar después:

Donde

En una tabla encontramos el valor z0,75, y se destipifica:
![]()
Análogamente se calcularía

Donde:

Por la simetría de la distribución normal con respecto al origen, tenemos que z0,25= - z0,75.Luego
![]()
En conclusión:
El 50% de la población tiene un peso comprendido en el intervalo [168,25,181,75].
De entre los tres intervalos que se han calculado el que tiene más interés es el último, ya que es simétrico con respecto a la media, y es el más pequeño de todos los posibles (más preciso). Este ejemplo es en realidad una introducción a unas técnicas de inferencia estadística que trataremos posteriormente, conocidas con el nombre de ``estimación confidencial'' o ``cálculo de intervalos de confianza''.
Problemas
Ejercicio 1. Para estudiar la regulación hormonal de una línea metabólica se inyectan ratas albinas con un fármaco que inhibe la síntesis de proteínas del organismo. En general, 4 de cada 20 ratas mueren a causa del fármaco antes de que el experimento haya concluido. Si se trata a 10 animales con el fármaco, ¿cuál es la probabilidad de que al menos 8 lleguen vivas al final del experimento?
Ejercicio 2. En una cierta población se ha observado un número medio anual de muertes por cáncer de pulmón de 12. Si el número de muertes causadas por la enfermedad sigue una distribución de Poisson, ¿cuál es la probabilidad de que durante el año en curso?
1. ¿Haya exactamente 10 muertes por cáncer de pulmón?
2. ¿15 o más personas mueran a causa de la enfermedad?
3. ¿10 o menos personas mueran a causa de la enfermedad?
Ejercicio 3. Dañando los cromosomas del óvulo o del espermatozoide, pueden causarse mutaciones que conducen a abortos, defectos de nacimiento, u otras deficiencias genéticas. La probabilidad de que tal mutación se produzca por radiación es del 10%. De las siguientes 150 mutaciones causadas por cromosomas dañados, ¿cuántas se esperaría que se debiesen a radiaciones? ¿Cuál es la probabilidad de que solamente 10 se debiesen a radiaciones?
Ejercicio 4. Entre los diabéticos, el nivel de glucosa en sangre X, en ayunas, puede suponerse de distribución aproximadamente normal, con media 106 mg/100 ml y desviación típica 8 mg/100 ml, es decir
![]()
1. Hallar ![]()
2. ¿Qué porcentaje de diabéticos tienen niveles comprendidos entre 90 y 120?
3. Hallar
.
4. Hallar
.
5. Hallar el punto x caracterizado por la propiedad de que el 25% de todos los diabéticos tiene un nivel de glucosa en ayunas inferior o igual a x.
Ejercicio 5. Una prueba de laboratorio para detectar heroína en sangre tiene un 92% de precisión. Si se analizan 72 muestras en un mes, ¿cuál es la probabilidad de que:
1. ¿60 o menos estén correctamente evaluadas?
2. ¿Menos de 60 estén correctamente evaluadas?
3. ¿Exactamente 60 estén correctamente evaluadas?
Ejercicio 6. El 10% de las personas tiene algún tipo de alergia. Se seleccionan aleatoriamente 100 individuos y se les entrevista. Hallar la probabilidad de que, al menos, 12 tengan algún tipo de alergia. Hallar la probabilidad de que, como máximo, 8 sean alérgicos a algo.
Ejercicio 7. La probabilidad de muerte resultante del uso de píldoras anticonceptivas es de 3/100.000. De 1.000.000 de mujeres que utilizan este medio de control de natalidad:
1. ¿Cuántas muertes debidas a esta causa se esperan?
2. ¿Cuál es la probabilidad de que haya, como máximo, 25 de estas muertes?
3. ¿Cuál es la probabilidad de que el número de muertes debidas a esta causa esté entre 25 y 35, inclusive?
Ejercicio 8. La probabilidad de presentar una característica genética es de 1/20.
1. Tomando una muestra de 8 individuos, calcular la probabilidad de que 3 individuos presenten la característica.
2. Tomando una muestra de 80 personas, ¿cuál será la probabilidad de que aparezcan más de 5 individuos con la característica?
Ejercicio 9. Se supone que en una cierta población humana el índice cefálico i, (cociente entre el diámetro transversal y el longitudinal expresado en tanto por ciento), se distribuye según una Normal. El 58% de los habitantes son dolicocéfalos (i £ 75), el 38% son mesocéfalos (75 < i £ 80) y el 4% son braquicéfalos (i > 80). Hállese la media y la desviación típica del índice cefálico en esa población.
Ejercicio 10. Se supone que la glucemia basal en individuos sanos, Xs sigue una distribución
![]()
Mientras que en los diabéticos Xd, sigue una distribución
![]()
Si se conviene en clasificar como sanos al 2% de los diabéticos:
1. ¿Por debajo de qué valor se considera sano a un individuo? ¿Cuántos sanos serán clasificados como diabéticos?
2. Se sabe que en la población en general el 10% de los individuos son diabéticos ¿cuál es la probabilidad de que un individuo elegido al azar y diagnosticado como diabético, realmente lo sea?
Ejercicio 611. Supóngase que se van a utilizar 20 ratas en un estudio de agentes coagulantes de la sangre. Como primera experiencia, se dio un anticoagulante a 10 de ellos, pero por inadvertencia se pusieron todas sin marcas en el mismo recinto. Se necesitaron 12 ratas para la segunda fase del estudio y se les tomó al azar sin reemplazamiento. ¿Cuál es la probabilidad de que de las 12 elegidas 6 tengan la droga y 6 no la tengan?
2. UNIDAD: ESTIMACIÓN DE PARÁMETROS
El propósito de un estudio estadístico suele ser, como hemos venido citando, extraer conclusiones acerca de la naturaleza de una población. Al ser la población grande y no poder ser estudiada en su integridad en la mayoría de los casos, las conclusiones obtenidas deben basarse en el examen de solamente una parte de ésta, lo que nos lleva, en primer lugar a la justificación, necesidad y definición de las diferentes técnicas de muestreo.
Los primeros términos obligados a los que debemos hacer referencia serán los de estadístico y estimador.
Dentro de este contexto, será necesario asumir un estadístico o estimador como una variable aleatoria con una determinada distribución, y que será la pieza clave en las dos amplias categorías de la inferencia estadística: la estimación y el contraste de hipótesis.
El concepto de estimador, como herramienta fundamental, lo caracterizamos mediante una serie de propiedades que nos servirán para elegir el ``mejor" para un determinado parámetro de una población, así como algunos métodos para la obtención de ellos, tanto en la estimación puntual como por intervalos.
¿Cómo deducir la ley de probabilidad sobre determinado carácter de una población cuando sólo conocemos una muestra?
Este es un problema al que nos enfrentamos cuando por ejemplo tratamos de estudiar la relación entre el fumar y el cáncer de pulmón e intentamos extender las conclusiones obtenidas sobre una muestra al resto de individuos de la población.
La tarea fundamental de la estadística inferencial, es hacer inferencias acerca de la población a partir de una muestra extraída de la misma.
Técnicas de muestreo sobre una población
La teoría del muestreo tiene por objetivo, el estudio de las relaciones existentes entre la distribución de un carácter en dicha población y las distribuciones de dicho carácter en todas sus muestras.
Las ventajas de estudiar una población a partir de sus muestras son principalmente:
- Coste reducido:
Si los datos que buscamos los podemos obtener a partir de una pequeña parte del total de la población, los gastos de recogida y tratamiento de los datos serán menores. Por ejemplo, cuando se realizan encuestas previas a un referéndum, es más barato preguntar a 4.000 personas su intención de voto, que a 30.000.000;
- Mayor rapidez:
Estamos acostumbrados a ver cómo con los resultados del escrutinio de las primeras mesas electorales, se obtiene una aproximación bastante buena del resultado final de unas elecciones, muchas horas antes de que el recuento final de votos haya finalizado;
- Más posibilidades:
Para hacer cierto tipo de estudios, por ejemplo el de duración de cierto tipo de bombillas, no es posible en la práctica destruirlas todas para conocer su vida media, ya que no quedaría nada que vender. Es mejor destruir sólo una pequeña parte de ellas y sacar conclusiones sobre las demás.
De este modo se ve que al hacer estadística inferencial debemos enfrentarnos con dos problemas:
Elección de la muestra (muestreo), que es a lo que nos dedicaremos en este capítulo.
Extrapolación de las conclusiones obtenidas sobre la muestra, al resto de la población (inferencia).
El tipo de muestreo más importante es el muestreo aleatorio, en el que todos los elementos de la población tienen la misma probabilidad de ser extraídos; Aunque dependiendo del problema y con el objetivo de reducir los costes o aumentar la precisión, otros tipos de muestreo pueden ser considerados como veremos más adelante: muestreo sistemático, estratificado y por conglomerados.
Muestreo aleatorio
Consideremos una población finita, de la que deseamos extraer una muestra. Cuando el proceso de extracción es tal que garantiza a cada uno de los elementos de la población la misma oportunidad de ser incluidos en dicha muestra, denominamos al proceso de selección muestreo aleatorio.
El muestreo aleatorio se puede plantear bajo dos puntos de vista:
- Sin reposición de los elementos;
- Con reposición.
Muestreo aleatorio sin reposición
Consideremos una población E formada
por N elementos. Si observamos un elemento particular,
, en un muestreo aleatorio
sin reposición se da la siguiente circunstancia:
La probabilidad de que e sea elegido
en primer lugar es
;
Si no ha sido elegido en primer lugar
(lo que ocurre con una probabilidad de
), la probabilidad de que sea elegido en el segundo intento es de
.
En el (i+1)-ésimo intento, la población
consta de N-i elementos, con lo cual si e no ha sido seleccionado previamente,
la probabilidad de que lo sea en este momento es de
.
Si consideramos una muestra de
elementos, donde el orden
en la elección de los mismos tiene importancia, la probabilidad de elección
de una muestra
cualquiera es

Lo que corresponde en el sentido de la definición de probabilidad de Laplace a un caso posible entre las VN,n posibles n-uplas de N elementos de la población.
Si el orden no interviene, la probabilidad de que una muestra
![]()
Sea elegida es la suma de las probabilidades de elegir una cualquiera de sus n-uplas, tantas veces como permutaciones en el orden de sus elementos sea posible, es decir

Muestreo aleatorio con reposición
Sobre una población E de tamaño N podemos realizar extracciones de n elementos, pero de modo que cada vez el elemento extraído es repuesto al total de la población. De esta forma un elemento puede ser extraído varias veces. Si el orden en la extracción de la muestra interviene, la probabilidad de una cualquiera de ellas, formada por n elementos es:
![]()
Si el orden no interviene, la probabilidad de una muestra cualquiera, será la suma de la anterior, repitiéndola tantas veces como manera de combinar sus elementos sea posible. Es decir,
- sea n1 el número de veces que se repite cierto elemento e1 en la muestra;
- sea n2 el número de veces que se repite cierto elemento e2;
- sea nk el número de veces que se repite cierto elemento ek,
De modo que
. Entonces la probabilidad
de obtener la muestra:

Es

Es decir,
![]()
El muestreo aleatorio con reposición es también denominado muestreo aleatorio simple, que como hemos mencionado se caracteriza por que
- Cada elemento de la población tiene la misma probabilidad de ser elegido, y…
- Las observaciones se realizan con reemplazamiento. De este modo, cada observación es realizada sobre la misma población (no disminuye con las extracciones sucesivas).
Sea X una v.a. definida sobre la población E, y f(x) su ley de probabilidad.

En una muestra aleatoria simple, cada observación tiene la distribución de probabilidad de la población:
Además todas las observaciones de la v.a. son independientes, es decir
Las relaciones anteriores caracterizan a las muestras aleatorias simples.
Un ejemplo de una tabla de números aleatorios consiste en la lista de los números de Lotería Nacional premiados a lo largo de su historia, pues se caracterizan por que cada dígito tiene la misma probabilidad de ser elegido, y su elección es independiente de las demás extracciones.
Un modo de hacerlo es el siguiente. Supongamos que tenemos una lista de números aleatorios de k=5 cifras (00000-99.999), una población de N=600 individuos, y deseamos extraer una muestra de n=6 de ellos. En este caso ordenamos a toda la población (usando cualquier criterio) de modo que a cada uno de sus elementos le corresponda un número del 1 al 600. En segundo lugar nos dirigimos a la tabla de números aleatorios, y comenzando en cualquier punto extraemos un número t, y tomamos como primer elemento de la muestra al elemento de la población:
![]()
El proceso se repite tomando los siguientes números de la tabla de números aleatorios, hasta obtener la muestra de 10 individuos.
Las cantidades
![]()
Pueden ser consideradas como observaciones de una v.a. U, que sigue una distribución uniforme en el intervalo [0,1]
![]()
Método de Montecarlo
El método de Montecarlo es una técnica para obtener muestras aleatorias simples de una v.a. X, de la que conocemos su ley de probabilidad (a partir de su función de distribución F). Con este método, el modo de elegir aleatoriamente un valor de X siguiendo usando su ley de probabilidad es:
1. Usando una tabla de números aleatorios
se toma un valor u de una v.a.
.
2. Si X es continua tomar como observación
de X, la cantidad x=F-1(u). En el caso en que X sea discreta se toma x como
el percentil
de X, es decir
el valor más pequeño que verifica que
. Este proceso se debe
repetir n veces para obtener una muestra de tamaño n.
Si queremos extraer n=10 muestras de una distribución N(0,1) podemos recurrir a una tabla de números aleatorios de k=5 cifras, en las que observamos las cantidades (por ejemplo)
![]()
A partir de ellas podemos obtener
una muestra de
usando una tabla de la distribución
normal:
|
Números aleatorios |
Muestra |
Muestra |
|
ti |
|
xi = F-1(ui) |
|
76.293 |
0'76 |
0'71 |
|
31.776 |
0'32(=1-0'68) |
-0'47 |
|
50.803 |
0'51 |
0'03 |
|
71.153 |
0'71 |
0'55 |
|
20.271 |
0'20(=1-0'80) |
-0'84 |
|
33.717 |
0'34(=1-0'66) |
-0'41 |
|
17.979 |
0'18(=1-0'82) |
-0'92 |
|
52.125 |
0'52 |
0'05 |
|
41.330 |
0'41(=1-0'59) |
-0'23 |
|
95.141 |
0'95 |
1'65 |
Obsérvese que como era de esperar, las
observaciones xi tienden a agruparse alrededor de la esperanza matemática de
. Por otra parte, esto
no implica que el valor medio de la muestra sea necesariamente
. Sin embargo como sabemos
por el teorema de Fisher que

Su dispersión con respecto al valor
central es pequeña, lo que implica que probablemente el valor medio
estará muy próximo a 0, como
se puede calcular:
![]()
Obsérvese que si el problema fuese
el inverso, donde únicamente conociésemos las observaciones xi y que el mecanismo
que generó esos datos hubiese sido una distribución normal de parámetros desconocidos,
con
obtenida hubiésemos
tenido una buena aproximación del ``parámetro desconocido''µ. Sobre esta cuestión
volveremos más adelante al abordar el problema de la estimación puntual de parámetros.
Muestreo sistemático
Cuando los elementos de la población están ordenados en fichas o en una lista, una manera de muestrear consiste en
- Sea
;
- Elegir aleatoriamente un número m, entre 1 y k;
- Tomar como muestra los elementos de la lista:
![]()
Esto es lo que se denomina muestreo sistemático. Cuando el criterio de ordenación de los elementos en la lista es tal que los elementos más parecidos tienden a estar más cercanos, el muestreo sistemático suele ser más preciso que el aleatorio simple, ya que recorre la población de un modo más uniforme. Por otro lado, es a menudo más fácil no cometer errores con un muestreo sistemático que con este último.
El método tal como se ha definido
anteriormente es sesgado si
no
es entero, ya que los últimos elementos de la lista nunca pueden ser escogidos.
Un modo de evitar este problema consiste en considerar la lista como si fuese
circular (el elemento N+1 coincide con el primero) y:
- Sea k el entero más cercano a
;
- Se selecciona un número al azar m, entre 1 y N;
- Se toma como muestra los elementos de la lista que consisten en ir saltando de k elementos en k, a partir de m, teniendo en cuenta que la lista es circular.
Se puede comprobar que con este método todos los elementos de la lista tienen la misma probabilidad de selección.
Muestreo aleatorio estratificado
Un muestreo aleatorio estratificado es aquel en el que se divide la población de N individuos, en k subpoblaciones o estratos, atendiendo a criterios que puedan ser importantes en el estudio, de tamaños respectivos N1, ..., Nk,
![]()
Y realizando en cada una de estas subpoblaciones muestreos aleatorios simples de tamaño ni i=1,…,k.
A continuación nos planteamos el problema de cuantos elementos de muestra se han de elegir de cada uno de los estratos. Para ello tenemos fundamentalmente dos técnicas: la asignación proporcional y la asignación óptima.
Supongamos que realizamos un estudio sobre la población de estudiantes de una Universidad, en el que a través de una muestra de 10 de ellos queremos obtener información sobre el uso de barras de labios.
En primera aproximación lo que procede es hacer un muestreo aleatorio simple, pero en su lugar podemos reflexionar sobre el hecho de que el comportamiento de la población con respecto a este carácter no es homogéneo, y atendiendo a él, podemos dividir a la población en dos estratos:
- Estudiantes masculinos (60% del total);
- Estudiantes femeninos (40% restante).
De modo que se repartan proporcionalmente ambos grupos el número total de muestras, en función de sus respectivos tamaños (6 varones y 4 mujeres). Esto es lo que se denomina asignación proporcional.
Si observamos con más atención, nos encontramos (salvo sorpresas de probabilidad reducida) que el comportamiento de los varones con respecto al carácter que se estudia es muy homogéneo y diferenciado del grupo de las mujeres.
Por otra parte, con toda seguridad la precisión sobre el carácter que estudiamos, será muy alta en el grupo de los varones aunque en la muestra haya muy pocos (pequeña varianza), mientras que en el grupo de las mujeres habrá mayor dispersión. Cuando las varianzas poblacionales son pequeñas, con pocos elementos de una muestra se obtiene una información más precisa del total de la población que cuando la varianza es grande. Por tanto, si nuestros medios sólo nos permiten tomar una muestra de 10 alumnos, será más conveniente dividir la muestra en dos estratos, y tomar mediante muestreo aleatorio simple cierto número de individuos de cada estrato, de modo que se elegirán más individuos en los grupos de mayor variabilidad. Así probablemente obtendríamos mejores resultados estudiando una muestra de
- 1 varón.
- 9 hembras.
Esto es lo que se denomina asignación óptima.
Asignación proporcional
Sea n el número de individuos de la población total que forman parte de alguna muestra:
![]()
Cuando la asignación es proporcional el tamaño de la muestra de cada estrato es proporcional al tamaño del estrato correspondiente con respecto a la población total:
![]()
Asignación óptima
Cuando se realiza un muestreo estratificado, los tamaños muestrales en cada uno de los estratos, ni, los elige quien hace el muestreo, y para ello puede basarse en alguno de los siguientes criterios:
- Elegir los ni de tal modo que se minimice la varianza del estimador, para un coste especificado, o bien,
- habiendo fijado la varianza que podemos admitir para el estimador, minimizar el coste en la obtención de las muestras.
Así en un estrato dado, se tiende a tomar una muestra más grande cuando:
- El estrato es más grande;
- El estrato posee mayor variabilidad interna (varianza);
- El muestreo es más barato en ese estrato.
Para ajustar el tamaño de los estratos cuando conocemos la dispersión interna de cada uno de los mismos, tenemos el siguiente resultado:
[Asignación de Neyman] Sea E una población con N elementos, dividida en k estratos, con Ni elementos cada uno de ellos,i=1,…,k
![]()
Sea n el número total de elementos al realizar el muestreo, y que se dividen en cada estrato como
![]()
Sea X la v.a. que representa el carácter que intentamos estudiar. Sobre cada estrato puede definirse entonces la v.a.
![]()
Como el valor medio de X obtenida en una muestra de tamaño ni en el estrato Ei. Sea Var[Xi] la varianza de dicha v.a.; Entonces

Se minimiza cuando

Donde

Es la cuasi-varianza del estrato Ei.
Muestreo por conglomerados
Si intentamos hacer un estudio sobre los habitantes de una ciudad, el muestreo aleatorio simple puede resultar muy costoso, ya que estudiar una muestra de tamaño n implica enviar a los encuestadores a npuntos distintos de la misma, de modo que en cada uno de ellos sólo se realiza una entrevista. En esta situación es más económico realizar el denominado muestreo por conglomerados, que consiste en elegir aleatoriamente ciertos barrios dentro de la ciudad, para después elegir calles y edificios. Una vez elegido el edificio, se entrevista a todos los vecinos.
Estimación Puntual
Máxima Verosimilitud
Sea X una v.a. con función de probabilidad
![]()
Las muestras aleatorias simples de tamaño n, x1,x2,…,xn tienen por distribución de probabilidad conjunta
![]()
Esta función que depende de n+1 cantidades podemos considerarla de dos maneras:
- Fijando
, es una función de la n cantidades xi. Esto es la función
de probabilidad o densidad.
- Fijados los xi como consecuencia
de los resultados de elegir una muestra mediante un experimento aleatorio,
es únicamente función de
. A esta función
de
la denominamos función de verosimilitud.
En este punto podemos


Novo: