Geometria Analitica y Estadistica: 2016

1. Distribución de frecuencia para variable cualitativas

En el caso de variable cualitativa no se pueden calcular las frecuencias acumuladas pues no es posible establecer un orden en las clases dentro de la modalidad.Colocamos en la tabla aquellos valores que son independientes del lugar en que se pongan las modalidades.

Calculemos la tabla de frecuencias para una variable cualitativa.

Inactivos por tipos de inactividad declarada (miles de personas).

Modalidad	*n_i*	*f_i*	*p_i*
Estudiante	522,6	0,1380	13,80%
Percibiendo una pensión de jubilación o unos ingresos de prejubilación	712,3	0,1882	18,82%
Labores del hogar	1.480,00	0,3910	39,10%
Incapacitado permanente	265,9	0,0702	7,02%
Percibiendo una pensión distinta de la jubilación o prejubilación	525,3	0,1388	13,88%
Otras situaciones	279,5	0,0738	7,38%
	3785,6	1	100,00%

2. Distribución de frecuencias para variables cuantitativas discretas

Su forma general es la siguiente:

En un centro de Educación secundara se pregunta a 40 alumnos por el número de hermanos que tienen, el resultado es el siguiente:

1,1,1,2,3,4,4,2,0,0,0,1,2,1,0,1,0,2,3,1,0,0,0,1,1,2,3,3,2,1,1,1,0,0,0,3,0,1,1,3

Ahora contamos, ordenamos los datos y construimos la tabla estadística.

En la primara columna de la tabla colocaremos los distintos caracteres de la modalidad objeto de estudio ordenados de menor a mayor (esto será posible en los caracteres cuantitativos), en nuestro caso el número de hermanos.

En la columna siguiente ponemos la frecuencia absoluta de cada carácter (contamos el número de veces que aparece cada valor). La suma de las frecuencias absolutas debe coincidir con el total de datos procesados.

La tercera columna estará formada por las frecuencias relativas, cada frecuencia relativa se obtiene dividiendo la frecuencia absoluta correspondiente por el total de datos. La suma de todas las frecuencias relativas debe ser 1.

En ocasiones se comprenden mejor los datos relativos dados en por ciento, para ello creamos una nueva columna en la que multiplicaremos las frecuencias relativas por 100, así tendremos el porcentaje de datos que se corresponden con dada modalidad.

Finalmente crearemos dos columnas en las que reflejaremos las frecuencias absolutas y relativas acumuladas.

En nuestro ejemplo la tabla queda como sigue:

3. Distribución de frecuencias para variables cuantitativas continuas

4. Muestreos

En la referencia estadística se conoce como muestreo a la técnica para la selección de una muestra a partir de una población estadística.

Al elegir una muestra aleatoria se espera conseguir que sus propiedades sean extrapolables a la población. Este proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se alcanzarían si se realizase un estudio de toda la población. En las investigaciones llevadas por empresarios y de la medicina se usa muestreo extensivamente en recoger información sobre poblaciones.

Cabe mencionar que para que el muestreo sea válido y se pueda realizar un estudio adecuado (que consienta no solo hacer estimaciones de la población sino estimar también los márgenes de error correspondientes a dichas estimaciones), debe cumplir ciertos requisitos. Nunca podremos estar enteramente seguros de que el resultado sea una muestra representativa, pero sí podemos actuar de manera que esta condición se alcance con una probabilidad alta.

En el muestreo, si el tamaño de la muestra es más pequeño que el tamaño de la población, se puede extraer dos o más muestras de la misma población. Al conjunto de muestras que se pueden obtener de la población se denomina espacio muestral. La variable que asocia a cada muestra su probabilidad de extracción, sigue la llamada distribución muestral.

Técnicas de selección del muestreo a través del muestreo estadístico:

Muestreo probabilístico: Forman parte de este tipo de muestreo todos aquellos métodos para los que puede calcularse la probabilidad de extracción de cualquiera de las muestras posibles. Este conjunto de técnicas de muestreo es el más aconsejable, aunque en ocasiones no es posible optar por él.

Muestreo estratificado: Consiste en la división previa de la población de estudio en grupos o clases que se suponen homogéneos respecto a característica a estudiar. A cada uno de estos estratos se le asignaría una cuota que determinaría el número de miembros del mismo que compondrán la muestra.

Muestreo sistemático: Es la elección de una muestra a partir de los elementos de una lista según un orden determinado, o recorriendo la lista a partir de un número aleatorio determinado.

Muestreo por conglomerados: Cuando la población se encuentra dividida, de manera natural, en grupos que se suponen que contienen toda la variabilidad de la población, es decir, la representan fielmente respecto a la característica a elegir, pueden seleccionarse sólo algunos de estos grupos o conglomerados para la realización del estudio.

Muestreo errático: También se llama sin norma. La muestra se realiza de cualquier forma, valorando únicamente la comodidad o la oportunidad en términos de costes, tiempo u otro factor no estadístico.

Al realizar un muestreo en una población podemos hablar de muestreos probabilísticas y no probabilísticas, entre estas técnicas o procedimientos están:

Muestreo simple: Este tipo de muestreo toma solamente una muestra de una población dada para el propósito de inferencia estadística. Puesto que solamente una muestra es tomada, el tamaño de muestra debe ser los suficientemente grandes para extraer una conclusión. Una muestra grande muchas veces cuesta demasiado dinero y tiempo.

Muestreo aleatorio simple: Es aquel en que cada elemento de la población tiene la misma probabilidad de ser seleccionado para integrar la muestra. Una muestra simple aleatoria es aquella en que sus elementos son seleccionados mediante el muestreo aleatorio simple.

5. Medidas de tendencia central:

Las medidas de tendencia central son valores que se ubican al centro de un conjunto de datos ordenados según su magnitud. Generalmente se utilizan 4 de estos valores también conocidos como estadigrafos, la media aritmética, la mediana, la moda y al rango medio.

Moda: La moda es el valor que ocurre con más frecuencia en un conjunto de observaciones. La moda se puede utilizar con la media y la mediana para proporcionar una caracterización general de la distribución de los datos. Mientras que la media y la mediana requieren un cálculo, la moda se obtiene simplemente contando el número de veces que cada valor ocurre en un conjunto de datos.

El identificar la moda puede ayudar a comprender la distribución. Una distribución con más de una moda puede indicar que usted en realidad tomó la muestra de una población mixta. Por ejemplo, usted puede haber recogido datos de tiempo de espera de clientes que desean cobrar cheques y de clientes que desean solicitar una hipoteca, todos juntos. Para entender mejor sus datos, estos dos casos se deberían recopilar por separado. Si tiene más de dos modas, la distribución es multimodal.

Media: Utilice la media para describir un conjunto entero de observaciones con un solo valor que representa el centro de los datos. Muchos análisis estadísticos utilizan la media como un punto de referencia estándar. La media es la suma de todas las observaciones dividida entre el número de observaciones.

Por ejemplo, el tiempo de espera (en minutos) de cinco clientes de un banco es: 3, 2, 4, 1 y 2. El tiempo medio de espera es:

En promedio, un cliente espera 2.4 minutos para ser atendido en el banco.

Mediana: Utilice la mediana para describir un conjunto entero de observaciones con un solo valor que representa el centro de los datos. La mitad de las observaciones está por encima de la mediana y la otra mitad está por debajo de ésta. Se determina al jerarquizar los datos y hallar el número de observación [N + 1] / 2. Si hay un número par de observaciones, la mediana se extrapola como el valor que está justo en el medio entre el valor de las observaciones N / 2 y

[N / 2] + 1.

Para estos datos ordenados, la mediana es 13. Es decir, el 50% de los valores es menor que o igual a 13 y el 50% de los valores es mayor que o igual a 13.

6. Medidas de dispersión:

Estudia la distribución de los valores de la serie, analizando si estos se encuentran más o menos concentrados, o más o menos dispersos.

Existen diversas medidas de dispersión, entre las más utilizadas podemos destacar las siguientes:

1.- Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor más elevado y el valor más bajo.

2.- Varianza: Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatorio de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el número de veces que se ha repetido cada valor. El sumatorio obtenido se divide por el tamaño de la muestra.

La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados están los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, más dispersos están.

3.- Desviación típica: Se calcula como raíz cuadrada de la varianza.

4.- Coeficiente de variación de Pearson: se calcula como cociente entre la desviación típica y la media.

7. Medidas de posición:

Puedes ver los siguientes vídeos para obtener una explicación fácil de este tema:

https://www.youtube.com/watch?v=iU16OnACSqg

https://www.youtube.com/watch?v=8zH1AJJdjpc