Cuando la muestra es grande es frecuente encontrar muchos valores de la variable y resulta poco práctico numerarlas todos, en estos casos resulta conveniente agrupar los valores en intervalos consecutivos llamados clases. Estos intervalos son de la forma [Li, Ls], cuyo extremo Li es el limite inferior de la clase y el extremo Ls es el limite superior de la clase.
No existe alguna ley que defina cómo obtener el número de clases; pero la experiencia recomienda que sean entre 5 y 20 clases.
Para construir una distribución de frecuencias en clases seguimos el siguiente procedimiento aplicado al ejemplo: los puntajes de un examen de ingreso a la universidad realizado por 40 alumnos son los siguientes:110, 102, 108, 115, 120, 130, 93, 124, 112, 102, 110, 108, 108, 109, 110, 90, 95, 98, 104, 124, 130, 97, 125, 136, 140, 104, 108, 96, 106, 107, 103, 92, 122, 93, 99, 107, 105, 103, 115, 110.
Paso 1. Determinamos el rango (R) de variación de los datos que se define como
R = Xmax – Xmin, donde Xmax es el dato máximo y Xmin es el dato mínimo.
Para el ejemplo Xmax = 140 y Xmin = 90 entonces
R = 140 – 90 = 50
Paso 2. Determinamos el número de intervalos o clases k.
Una forma de hacerlo es con la Regla de Sturges, donde: k = 1 + 3.3 log (n) ; donde n es el numero de datos (se recomienda que sean más de 10).
Para el ejemplo se tiene n = 40 datos, sustituyendo
k = 1 + 3.3 log (40) = 1 + 3.3 (1.602) = 1 + 5.28 = 6.28 , la cual se redondea al entero siguiente, en este caso k = 7.
Otra alternativa es usando la raiz cuadrada del total de datos n para este ejemplo nos queda asi:
k = raiz (n) = raiz (40) = 6.32 que tambien se redondea al entero siguiente quedando k= 7.
Paso 3. Calculamos la amplitud de clase (A), que corresponde a la cantidad de datos que van en casa clase, dividiendo el rango R entre el numero de clases k:
sustituyendo se redondea a 8.
Paso 4. Construimos los intervalos o clases, como la variable es cuantitativa discreta los intervalos o clases son cerrados, es decir de la forma [Li, Ls].
Para formar las clases comenzaremos con los limites inferiores:
· En la primer clase tomamos Li1 = Xmin ( el dato mas pequeño)
· Para las demás clases el limite inferior se obtiene sumando la Xmin con la amplitud, es decir
Para obtener los limites superiores se toma el valor anterior al limite inferior de la clase siguiente, y se va sumando la amplitud A = 8
Finalmente ya podemos elaborar las clases con sus respectivas frecuencias, recordando que cada clase abarca todos los valores que van desde el limite inferior hasta el superior. Los puntajes de los 40 alumnos son:110, 102, 108, 115, 120, 130, 93, 124, 112, 102, 110, 108, 108, 109, 110, 90, 95, 98, 104, 124, 130, 97, 125, 136, 140, 104, 108, 96, 106, 107, 103, 92, 122, 93, 99, 107, 105, 103, 115, 110.
Marca de clase (Mi): corresponde al punto medio del intervalo, es una característica importante de cada clase ya que no cambia sin importar si la variable es discreta o continua, se calcula usando la formula:
, se suman los limites de clase y el resultado se divide entre dos.
Para nuestro ejemplo obtendríamos las siguientes marcas de clase:
, se suman los limites de clase y el resultado se divide entre dos.
Para nuestro ejemplo obtendríamos las siguientes marcas de clase:
Clases para Variables Continuas
Si analizamos la tabla anterior veremos que de una clase a la siguiente hay un salto por ejemplo la primer clase acaba en 97 y la segunda comienza en 98, esto se debe a que como la variable es discreta no existen ningún dato entre estos valores, pero si la variable fuera continua y tomara valores decimales como 97.6 tendríamos una perdida de información, para evitar esto en el caso continuo se fijan otros limites en cada clase.
Limites reales de clase: se usan cuando la variable es del tipo cuantitativa continua, se fijan tomando media unidad antes y después de cada uno de los limites de clase.
Para nuestro ejemplo los limites reales quedarían así:
Si observamos ya no hay saltos entre las clases, pero el valor 97.5 aparece en la primera y segunda clase, para no contarlo dos veces se toman los limites reales como semiabiertos es decir de la forma [ Li, Ls ), esto significa que el valor superior Ls 97.5, no se considera dentro de la primer clase, sino solo en la segunda. Analogamente con los demas limites superiores.
Actividad: construye una distribución de frecuencia para datos agrupados que incluya clases, limites reales, marca de clase, frecuencia absoluta, frecuencia relativa, frecuencia porcentual y las acumuladas.
1. El gerente de una compañía de ventas al mayoreo de diferentes tipos de mercancías desea conocer el comportamiento de las llamadas telefónicas durante los meses de marzo y abril del año en curso; por lo que le encomienda a su secretaria que realice esa investigación. La secretaria obtuvo los siguientes datos, en número de llamadas por día: 30, 38, 36, 35, 29, 28, 30, 35, 40, 48, 50, 20, 25, 56, 30, 27, 29, 46, 41, 31, 31, 31, 39, 28, 36, 37, 52, 44, 49, 52, 56, 58, 40, 39, 38, 40, 27, 24, 30, 32, 35, 38, 26, 25, 24, 60, 55, 48, 37, 31, 30, 22, 20, 24, 26, 23, 22, 28, 27, 48.
2. Preguntando el peso a 50 estudiantes de primer año de la secundaria Heroes de la Independencia, se obtuvieron los siguientes datos: 44; 47.2; 45.5; 40; 41.8; 38; 47.6; 40.4; 51; 49.5; 43.5; 54; 39.4; 44.2; 39; 53.6, 40.2; 41.3; 40.2; 55; 40.7; 53; 43.5; 44; 49; 46.4; 41.2; 45; 44.8; 47.1; 49.5; 50.8; 52.3; 39.7; 49; 36; 42.4; 43; 46; 41.5; 40; 48.5; 45.1; 47.2; 49.8; 43; 41.5; 44.9; 40.2; 47.