viernes, 11 de septiembre de 2009

Coeficiente de Curtosis

CURTOSIS

El Coeficiente de Curtosis analiza el grado de concentración que presentan los valores alrededor de la zona central de la distribución. Se definen 3 tipos de distribuciones según su grado de curtosis:

Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable

Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable.

Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable.


El Coeficiente de Curtosis viene definido por la siguiente fórmula:

Dónde:  
g2 es el coeficiente de Curtosis              n es el total de datos                 X es cada dato              
es la media          f es la frecuencia           S es la desviación estandar
  • Si g2 < 3: La curva es platicúrtica
  • Si g2 = 3: Se acepta que la distribución es mesocúrtica (Al igual que en la asimetría es bastante difícil encontrar un coeficiente de Curtosis igual a 3, por lo que se suelen aceptar valores aproximados con ± 0.5).
  • Si g2 > 3: La curva es leptocúrtica


Para calcular la curtosis sustituimos en la fórmula, recordando que ya teníamos la desviación estándar S = 1.11


 Es platicúrtica


Curtosis para datos agrupados en clases
Cuando los datos están agrupados en clases, se calcula la curtosis usando la marca de clase Mi quedando la siguiente formula:


Para calcular la curtosis sustituimos en la formula, recordando que ya teníamos la desviación estándar S = 12.58

 Es mesocúrtica

jueves, 10 de septiembre de 2009

Coeficiente de Asimetría

ASIMETRÍA

Se dice que una distribución es Simétrica cuando existe aproximadamente la misma cantidad de valores a los dos lados de la media.

Se considera que la distribución es asimétrica negativa cuando los valores se tienden a reunir más en la parte izquierda de la media.

Se considera que la distribución es asimétrica positiva cuando los valores se tienden a reunir más en la parte derecha de la media.
 

El Coeficiente de asimetría, se representa mediante la siguiente ecuación matemática: 



Dónde:  
g1 es el  coeficiente de asimetría de Fisher           n es el total de datos      X es cada dato
es la media               f es la frecuencia             S es la desviación estandar
  • Si g1 = 0: Se acepta que la distribución es Simétrica (Este valor es difícil de conseguir por lo que se tiende a tomar los valores que son cercanos ya sean positivos o negativos ± 0.5).
  • Si g1 > 0: La curva es asimétricamente positiva (Derecha)
  • Si g1 < 0: La curva es asimétricamente negativa. (Izquierda)
Para calcular la simetría sustituimos en la formula, recordando que ya teníamos la desviación estándar S = 1.11

Es simétrica (es menor de 0.5)


Asimetría para datos agrupados en clases
Cuando los datos están agrupados en clases, se calcula la asimetría usando la marca de clase Mi en lugar de X quedando la siguiente formula:




Para calcular la simetría sustituimos en la formula, recordando que ya teníamos la desviación estándar S = 12.58

Es asimétrica positiva (derecha)

miércoles, 9 de septiembre de 2009

Coeficiente de Variación

Coeficiente de Variación de Pearson
Es una medida relativa que sirve para comparar la variabilidad de dos o más poblaciones que se expresan en diferentes unidades de medida. Se calcula dividiendo la desviación estándar entre la media aritmética.




Si Cv es menor o igual de 1.5, entonces se considera que la población es homogénea
SiCv es mayor de 1.5, entonces se considera que la población es heterogénea

Ejemplo 1: Comparemos las poblaciones de las calificaciones de los alumnos con el de los resultados en el examen de ingreso a la universidad.

Para las calificaciones                                                             Para el examen de ingreso universitario


 

Los aciertos en el examen universitario tienen menos dispersión respecto a la media.

Ejemplo 2: El peso promedio de 10 elefantes africanos es de 5 toneladas con una desviación estándar S = 0.6 toneladas; mientras que el peso promedio de 20 ratas es de 1000 gramos con una desviación estándar S = 150 gramos, ¿qué especie tiene un peso mas homogéneo?

Para los elefantes                                                                                                    Para los ratones




La población de elefantes tiene un peso mas homogéneo.

martes, 8 de septiembre de 2009

Medidas de Dispersión

Las medidas de dispersión son aquellas que miden el grado de separación de los datos con respecto a un valor central, que generalmente es la media aritmética. Las más conocidas son la desviación media, la varianza y la desviación estándar.

La Desviación Media

Es el promedio de las desviaciones absolutas de cada dato respecto a la media aritmética. Se calcula con la siguiente fórmula:
 
Donde   DM: desviación media      f: Frecuencia        n: total de datos         X: Valor cada dato               
: Media aritmética    
Desviación media para datos agrupados en clases
Cuando los datos están agrupados en clases, se calcula la desviación media usando la marca de clase Mi quedando la siguiente formula:

La Varianza

Es el promedio de los cuadrados de las desviaciones de cada dato respecto a la media aritmetica. De tal manera que cuanto mayor sea el valor de la varianza, mayor es la dispersión y mientras más pequeña sea la varianza, menor es la dispersión, lo que nos informa la concentración de los datos o valores alrededor de su media aritmética. Se calcula con la siguiente fórmula:

Donde:           S2 : Varianza            f : Frecuencia            X: Valor del dato        n: total de datos
: Media aritmética

Varianza para datos agrupados en clases

Cuando los datos están agrupados en clases, se calcula la varianza usando la marca de clase Mi quedando la siguiente formula:

Desviación Estándar
La varianza se expresa en unidades al cuadrado: como kilómetro al cuadrado, años al cuadrado, etc., según la variable en estudio, para fines de comparación se necesita que la desviación tenga las mismas unidades que la variable, por lo que se utiliza otra medida.

Desviación Estándar (S): es la medida que resulta al extraer la raíz cuadrada de la varianza. Es la más importante de las medidas de desviación ya que abarca la mayor parte de los datos, se calcula con la formula:
Ejemplo 1: Retomemos el ejemplo de las calificaciones, ya calculamos la varianza que corresponde a S2  = 1.24 , entonces la desviación estándar es:

puntos


Ejemplo 2: Retomemos el ejemplo de los alumnos que hicieron examen a la universidad ya calculamos la varianza que corresponde a S2  = 158.36 , entonces la desviación estándar es:
aciertos


Actividad: Calcula la varianza y la desviación estandar para los siguientes datos:

1. Las edades del grupo 601 estan distribuidas de la siguiente manera:










2. Los retardos del mismo grupo en la primer hora de clases, se reparten de acuerdo a la siguiente tabla:









lunes, 7 de septiembre de 2009

Medidas de Posición

Existen otras medidas llamadas de posición no central que permiten conocer otros puntos característicos de la distribución que no son los valores centrales. Entre las medidas de posición no central más importantes están los cuartiles, los deciles y los percentiles.

Cuartiles
Los cuartiles son los tres que dividen a un conjunto de datos ordenados en cuatro partes iguales, Q1, Q2 y Q3 determinan el 25%, al 50% y al 75% de los datos. Q2 es la mediana. Para calcularlos ordenamos los datos de menor a mayor y buscamos el lugar de cada cuartil mediante la formula:
   donde k =1,2,3

Deciles
Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales. Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos. D5 es la mediana. Para calcularlos ordenamos los datos de menor a mayor y buscamos el lugar que ocupa cada decil mediante la formula:
    donde k =1,2,3,......9

Percentil
Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales. Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos. P50 coincide con la mediana. Para calcularlos ordenamos los datos de menor a mayor y buscamos el lugar que ocupa cada percentil mediante la formula:
  donde k =1,2,3,.......99

Ejemplo: Retomemos las calificaciones del grupo de sexto semestre, vamos a calcular el tercer cuartil Q3, el sexto decil D6 y el veinticuatro percentil P24.


Primero se calcula el lugar en que se ubican las medidas de posición, estos lugares se buscan en las frecuencias acumuladas, y el valor corresponde a la calificación donde quedo el lugar buscado.

 lugar, que corresponde a un valor de Q3 = 9.

 lugar, que corresponde a un valor de D6 = 8.
  

lugar, que corresponde a un valor de P24 = 7.



 Cuartiles, Deciles y Percentiles para datos agrupados en clases

Cuando los datos están agrupados en clases, se calculan las medidas de posición usando las siguientes formulas:
Donde:

Lri = limite real inferior de la clase donde se localiza la medida buscada.

A = amplitud de la clase o intervalo.

n = número total de datos.

Fi -1 = frecuencia acumulada de la clase anterior a la clase de la medida buscada.

fi = frecuencia absoluta de la clase de la medida buscada.

Ejemplo: Retomando la tabla en clases de los alumnos que hicieron examen a la universidad con las frecuencias absoluta y acumulada

a) Vamos a calcular el primer cuartil Q1 , primero localizamos la clase donde se ubica lugar, buscando en la frecuencia acumulada queda en la clase 98–105.

Lri = 97.5 (se toma medio punto antes del límite inferior 98)

A = 8, es el número de datos en cada clase

Fi-1 = 7 (frecuencia acumulada de la clase anterior)

fi = 9 (frecuencia de la clase)

Sustituyendo en la formula tenemos:





b) Vamos a calcular el octavo decil D8, primero localizamos la clase donde se ubica

lugar, buscando en la frecuencia acumulada queda en la clase 114–121.


Lri = 113.5 (se toma medio punto antes del límite inferior 114)

A = 8, es el número de datos en cada clase

Fi-1 = 29 (frecuencia acumulada de la clase anterior)

fi = 3 (frecuencia de la clase)

 Sustituyendo en la formula tenemos:
c) Vamos a calcular el percentil cuarentaicuatro P44, primero localizamos la clase donde se ubica


lugar, buscando en la frecuencia acumulada queda en la clase 106–113.

Lri = 105.5 (se toma medio punto antes del límite inferior 106)

A = 8, es el número de datos en cada clase

Fi -1 = 16 (frecuencia acumulada de la clase anterior)

fi = 13 (frecuencia de la clase)

 Sustituyendo en la formula tenemos: