viernes, 17 de enero de 2014

Distribución de probabilidad Normal

Una distribución de probabilidad continua sumamente importante es la distribución normal, también conocida como distribución gaussiana en honor al matemático Karl Gauss. Existen dos razones fundamentales por las cuales la distribución normal ocupa un lugar tan prominente en la estadística:
  • Tiene algunas propiedades que la hacen aplicable a un gran número de situaciones en las que es necesario hacer inferencias mediante la toma de muestras.
  • Se ajusta a las distribuciones de frecuencias reales observadas en muchos fenómenos, incluyendo características humanas (peso, altura, coeficiente intelectual), resultados de procesos físicos (dimensiones y rendimientos), y muchas otras medidas de interés para los administradores, tanto en el sector público como en el privado.
La función de densidad normal esta generada por la fórmula:
Donde x es el valor de la variable aleatoria normal, μ es la media poblacional, σ es la desviación estándar poblacional, e = 2.7182..  y π = 3.1415…
Su grafica llamada curva normal tiene forma de campana por lo que se le conoce como campana de Gauss.
A pesar de la utilidad de la curva normal resulta impráctico construir una tabla de áreas para cada valor de la media y la desviación estándar, por lo que se suele emplear un procedimiento llamado estandarización que nos permite usar una única tabla para todas las distribuciones normales.
La distribución de probabilidad Normal Estándar
Una variable aleatoria normal X está estandarizada si expresamos su valor como el número de desviaciones estándar que se encuentran a la izquierda o derecha de su media. La variable aleatoria normal estandarizada z, se define como:
Dónde:
x = valor variable aleatoria normal X                  z = valor variable aleatoria normal estándar Z            
μ = media de la distribución normal                    σ = desviaciones estándar de la distribución
En términos sencillos la estandarización es un cambio de unidades de x a z, como si convirtiéramos de pulgadas a metros, o de horas a segundos. Con la ventaja de que se emplea una única tabla para calcular la probabilidad. 
Manejo de la tabla normal estándar
Supongamos que queremos calcular la probabilidad de que z este entre 0 y 2.24 es decir p (0 < z < 2.24)
En la tabla normal estándar buscamos primero el renglón correspondiente a 2.2, y en la columna superior buscamos las centésimas 0.04; la intersección nos da un el área de 0.4875 que es la probabilidad buscada:
p (0 < z  < 2.24) = 0.4875
Los valores negativos de z se buscan de la misma manera ya que la curva es simétrica, entonces
p (-2.24 < z  < 0) = 0.4875
Ejemplo 1. El tiempo de revelado de una fotografía sigue una distribución normal con media de 16.2 segundos y desviación estándar de 0.52 seg. Encontrar la probabilidad de que el tiempo de revelado requerido para una fotografía sea de:
a) mayor de 17 segundos
Sean  x = 17,  μ = 16.2,  σ = 0.52, sustituyendo en la fórmula   
b) mayor de 15 segundos
Sean  x = 15,  μ = 16.2,  σ = 0.52, sustituyendo en la fórmula   
c) Entre 16 y 17 segundos
En este caso tenemos dos valores, sean  x1 = 16,  x2 = 17, μ = 16.2,  σ = 0.52, calculamos dos z
d) Entre 17 y 18 segundos
En este caso tenemos dos valores, sean  x1 = 17,  x2 = 18, μ = 16.2,  σ = 0.52, calculamos dos z

Al calcular probabilidades con la tabla normal estándar podemos tener alguno de los siguientes cinco casos:
 

Aproximación de la binomial con la normal

La evaluación de una función de probabilidad binomial, a mano o con una calculadora, se dificulta cuando el número de ensayos es muy grande.
Sin embargo cuando n es lo suficientemente grande (n > 30), la gráfica de la distribución de probabilidad binomial se aproxima a la curva normal, por lo que es razonable usar la distribución normal para calcular una probabilidad binomial con una buena aproximación.
En general se usar esta aproximación cuando:
        (n)(p) ≥ 5     y        (n)(q) ≥ 5

Como estamos usando una distribución continua para aproximar una distribución discreta, se aplica un factor de corrección por continuidad el cual consiste en tomar 0.5 a la izquierda y/o a la derecha del valor de x segun corresponda (esto es semejante a los límites reales al construir el histograma en estadística).

Ejemplo 2. Una empresa manufacturera sabe por experiencia que 15% de sus artículos tienen algún defecto. Se toma una muestra de 100 artículos y desea calcular la probabilidad de que:


a) más de 20 sean defectuosos
Sea la variable aleatoria X: número de artículos defectuosos, entonces:
n = 100,  éxito: sea defectuoso con p = 15% = 0.15,  fracaso: este bien con q = 1 - 0.15 = 0.85
Calcular esta probabilidad usando la binomial implica aplicar la formula mínimo 20 veces, lo cual es algo laborioso, intentemos usar la distribución normal. Primero verificamos que se cumplan las condiciones (n)(p) = (100)(0.15) = 15 ≥ 5     y   (n)(q) = (100)(0.85) = 85 ≥ 5.

Primero calculamos la media y desviación estándar


Dado que nos piden x > 20 tomamos medio punto antes, nos queda x > 19.5
 
b) Exactamente 12 sean defectuosos
En las distribuciones continuas las probabilidades se calculan como áreas bajo la curva, por lo tanto  la probabilidad de un solo valor de la variable aleatoria es cero. En este caso tomamos medio punto antes y medio punto después de 12.
Sean  x1 = 11.5,  x2 = 12.5, μ = 15,  σ = 3.57, calculamos dos valores de z
 
c) menos de 18 sean defectuosos
Dado que nos piden x < 18 tomamos medio punto después, nos queda x < 18.5
 
Ejercicios.
1. Un estudio revelo que las horas quincenales que se conectan los jóvenes en internet sigue una distribución normal con una media de 77 horas y una desviación estándar de 20 horas. Calcular la probabilidad de que un joven seleccionado al azar:
a) Se conecte más de 70 horas a Internet
b) Se conecte menos de 50 horas a Internet
c) Se conecte de 40 a 80 horas
d) Se conecte de 85 a 100 horas
 2. Las barras de pan de una cierta marca tienen una longitud promedio de 30 centímetros y una desviación estándar de 2 centímetros. Si se supone que las longitudes están distribuidas normalmente, ¿qué porcentaje de las barras son
a) más largas que 31.7 centímetros?
b) de entre 29.3 y 33.5 centímetros de longitud?
c) más cortas que 25.5 centímetros?
3. Un paciente que sufre un trasplante tiene 0.4 de probabilidad de ser compatible. Si se sabe que 100 personas recibieron algún trasplante, ¿cuál es la probabilidad de que sean compatibles:
a) menos de 30?
b) más de 50?
c) de 30 a 50?
4. Los reportes del alcoholímetro indican que en fin de semana uno de cada 10 conductores no pasa la prueba. Si en un fin de semana se revisan 400 conductores al azar, calcular la probabilidad de que no pasen la prueba:
a) menos de 32
b) más de 49
c) entre 35 y 47

Fuentes consultadas de donde se tomaron algunos ejemplos:

Anderson, D. (2008). Estadística para administración y economía. Cengage Learning Editores, México, D. F.
Levin, R. (2004). Estadística para administración y economía. Pearson Educación, México, México, D. F.
Mendenhall, W. (2010). Introducción a la probabilidad y estadística. Cengage Learning Editores, México, D. F.
Wackerly, D. (2010). Estadística matemática con aplicaciones. Cengage Learning Editores, México, D. F.
Walpole, R. (2012). Probabilidad y estadística para ingeniería y ciencias. Pearson Educación, México, México, D. F.

No hay comentarios :

Publicar un comentario