Unidad 1
Estadística descriptiva
1.1 Introducción, notación sumatoria
En estadística se requiere la
suma de grandes masas de datos y es pertinente tener una notación simplificada
para indicar la suma de estos datos. Así, si una variable se puede denotar por
X, entonces las observaciones sucesivas de esta variable se escriben
La letra griega sigma mayúscula (Σ)
se emplea para indicar la suma de estas en observaciones.
La notación se lee:
Suma de X sub-i (o sigma sub-i)
donde i asume todos los valores de 1 hasta en, o simplemente suma de X sub-i
donde i va de 1 a n.
Las sumatorias se pueden representar bajo dos
tipos de notaciones:
• Notación suma abierta.- Esta notación va
de una representación de sumatoria a cada uno de los elementos que la componen
• Notación suma pertinente.- Esta notación
es al contrario de la suma abierta, va de la representación de cada uno de los
elementos de una sumatoria a su representación matemática resumida,
1.1.1 Datos no agrupados
Los datos no
agrupados son los datos sin procesar, y las estadísticas correctas pueden ser
determinadas. Los datos no agrupados son usualmente el punto de inicio de los
análisis
Es el conjunto
de datos obtenidos en la recopilación, una vez que se han recopilado los datos,
el siguiente paso consiste en organizarlos
Cuando la
muestra que se ha tomado de la población o proceso que se desea analizar, es
decir, tenemos menos de 20 elementos en la muestra, entonces estos datos son
analizados sin necesidad de formar clases con ellos y a esto es a lo que se le
llama tratamiento de datos no agrupados.
1.1.2 Medida de tendencia central
Media Aritmética
La media aritmética de n
observaciones de la variable X se denotará por el símbolo
y se define como la
suma de ellas dividida por n. Simbólicamente:
Ejemplo: La media aritmética
de los números 3, 9, 12, 5 y 6 es:
En la figura es claro que
la media aritmética corresponde geométricamente al punto de equilibrio de los
datos.
Mediana
La mediana (Me) de un conjunto de
n números ordenados de menor a mayor, es el número central en el arreglo. Si n
es un número impar (non), sólo hay un valor central en el arreglo. Si n es un
número par, hay dos valores centrales y la mediana debe tomarse como la media
aritmética de estos dos valores.
Ejemplo: Calcular la
mediana de los números 3, 9, 12, 5 y 6
Primero hay que ordenar los
números de menor a mayor: 3, 4, 6, 9, 12
Después se debe verificar si el
valor de n es par o impar (non), en caso de ser par se toman los dos valores
que estén en el centro. Me = 6
Moda
La moda (Mo) de un conjunto de
datos es el valor (si existe) que ocurre con mayor frecuencia. Si es un valor
único decimos que la distribución de frecuencias es unimodal, si tiene dos o
más valores con la misma frecuencia máxima, decimos que la distribución es
bimodal, trimodal, entre otras.
La moda es una medida de
tendencia central que es poco usada por las siguientes razones:
a) Puede ocurrir que no exista.
b) A menudo no es un valor único.
1.1.3
Medidas de posición
1.1.4
Medidas de dispersión.
Cuando se
tiene una muestra de datos obtenida de una población cualquiera, es importante
determinar sus medidas de tendencia central así como también es básico el
determinar qué tan dispersos están los datos en la muestra, por lo que se hace
necesario determinar su rango, la varianza, la desviación estándar, etc., ya
que una excesiva variabilidad o dispersión en los datos indica la inestabilidad
del proceso en análisis en la mayoría de los casos.
Rango o recorrido.
El rango es la diferencia entre el valor mayor
y el valor menor encontrado en la muestra, también se le denomina recorrido ya
que nos dice entre que valores hace su recorrido la variable de interés; y se
determina de la siguiente manera:
R = VM – Vm
Dónde:
R = rango o
recorrido
VM = valor
mayor en la muestra
Vm = valor
menor en la muestra
Desviación absoluta media
(
).
Esta medida de dispersión nos representa la diferencia absoluta promedio que
existe entre cada dato que se encuentra en la muestra y la media de los datos y
se determina de la siguiente manera:
Dónde:
xi = dato i
n = número de
datos en la muestra
¿Por qué
sacar el valor absoluto de las diferencias entre cada dato y la media
aritmética? Si solo se hicieran diferencias entre cada dato y la media
aritmética, estas tendrían signos positivos y negativos ya que algunos datos
son menores que la media y otros son mayores que la media, luego al sumar las
diferencias, con sus signos correspondientes, éstas se irían anulando unas con otras y no sería posible
medir leal grado de alejamiento promedio de los datos en la muestra.
Varianza o variancia (s2).
Es el promedio de las diferencias elevadas al
cuadrado entre cada valor que se tiene en la muestra (xi) y la media aritmética
(
) de los datos y se determina de la siguiente manera:
Donde n es el
número de datos en la muestra.
Desviación estándar (s).
Es la desviación o diferencia promedio que
existe entre cada dato de la muestra y la media aritmética de la muestra. Y se
obtiene a partir de la varianza, sacándole raíz cuadrada.
Medidas de formas
1.1.5
Las medidas de
forma permiten comprobar si una distribución de frecuencia tiene características
especiales como simetría, asimetría, nivel de concentración de datos y nivel de
apuntamiento que la clasifiquen en un tipo particular de distribución.
Las medidas de
forma son necesarias para determinar el comportamiento de los datos y así, poder
adaptar herramientas para el análisis probabilístico.
Distribución simétrica
Al dividir una
distribución de frecuencia mediante la mediana, ambas áreas resultantes son
iguales, es decir, los datos se distribuyen de la misma forma y el área
abarcada por ambos lados es equivalente (50% de los datos se encuentran distribuidos
en ambas secciones).
Distribución asimétrica
Los datos no
se distribuyen de forma uniforme y similar en las áreas que dan como resultado
al dividir la distribución de frecuencia por la mediana.
1.2. Datos agrupados y no agrupados
Los datos no
agrupados son los datos sin procesar, y las estadísticas correctas pueden ser
determinadas. Los datos no agrupados son usualmente el punto de inicio de los
análisis
Es el
conjunto de datos obtenidos en la recopilación, una vez que se han recopilado
los datos, el siguiente paso consiste en organizarlos.
Cuando la
muestra que se ha tomado de la población o proceso que se desea analizar, es
decir, tenemos menos de 20 elementos en la muestra, entonces estos datos son
analizados sin necesidad de formar clases con ellos y a esto es a lo que se le
llama tratamiento de datos no agrupados.
Los datos
agrupados significan que hay menos datos con los cuales trabajar y mis
estadísticas serán aproximadas.
Los datos
agrupados se refieren al hecho de que estén ordenados, clasificados y contados.
Para agrupar
u organizar un conjunto de datos se construye una tabla llamada tabla de
frecuencias o distribución de frecuencias simple.
El primer
paso para organizar los datos consiste en identificar el tipo de datos que se
tienen, los cuales pueden ser cualitativos o cuantitativos.
Cuando los
datos corresponden a valores cualitativos se clasifican en varias clases o
categorías, que corresponden a las cualidades, valores o atributos obtenidos de
cada elemento, después se efectúa una tabulación, es decir, se realiza un
conteo de los elementos, que pertenece a cada clase o categoría. Para llevar un
orden y no omitir algún valor, se asigna una columna para la tabulación y se
coloca una marca para cada elemento de la muestra o población, donde
corresponda su categoría.
Una vez
terminada la tabulación, se cuentan los elementos que contiene cada clase o
categoría y se anota el valor en otra columna que se denomina frecuencia.
Así, la
frecuencia es el número de elementos que contiene cada clase o categoría en un
conjunto de datos.
1.2.1 Tabla de Frecuencia
Este
procedimiento es aconsejable para aquellos casos en los que queremos analizar
los resultados de una serie de variables, que tienen todas las mismas
categorías de respuesta. Por defecto, las variables forman las columnas y las
categorías las filas. Cada casilla muestra el número de casos de esa categoría.
Si lo desea, puede seleccionar una o más variables de agrupamiento.
Una tabla de
frecuencias (también conocida como tabla de distribución de frecuencias) es una
tabla en la que se organizan los datos
en clases, es decir, en grupos de valores que escriben una característica de
los datos y muestra el número de observaciones del conjunto de datos que caen
en cada una de las clases.
La tabla de
frecuencias ayuda a agrupar cualquier tipo de dato numérico. En principio, en
la tabla de frecuencias se detalla cada uno de los valores diferentes en el
conjunto de datos junto con el número de veces que aparece, es decir, su
frecuencia absoluta. Se puede complementar la frecuencia absoluta con la
denominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el
total de datos. En variables cuantitativas se distinguen por otra parte la
frecuencia simple y la frecuencia acumulada.
La tabla de
frecuencias puede representarse gráficamente en un histograma. Normalmente en
el eje vertical se coloca las frecuencias y en el horizontal los intervalos de
valores.
MEDIDAS DE TENDENCIA CENTRAL 1.2.2
MEDIA:
Media aritmética, es la que se obtiene sumando los datos y dividiéndolos por el
número de ellos. Se aplica por ejemplo para resumir el número de pacientes
promedio que se atiende en un turno. Otro ejemplo, es el número promedio de
controles prenatales que tiene una gestante.
MEDIANA:
Corresponde al percentil 50%. Es decir, la mediana divide a la población
exactamente en dos. Por ejemplo el número mediana de hijos en el centro de
salud “X” es dos hijos. Otro ejemplo es el número mediana de atenciones por
paciente en un consultorio.
MODA:
Valor o (valores) que aparece(n) con mayor frecuencia. Una distribución
unimodal tiene una sola moda y una distribución bimodal tiene dos. Útil como
medida resumen para las variables nominales. Por ejemplo, el color del uniforme
quirúrgico en sala de operaciones es el verde; por lo tanto es la moda en
colores del uniforme quirúrgico.
MEDIDAS DE DISPERSIÓN 1.2.3
DESVIACIÓN
ESTÁNDAR: Llamada también desviación típica; es una medida que informa sobre la
media de distancias que tienen los datos respecto de su media aritmética,
expresada en las mismas unidades que la variable.
LA
VARIANZA: Es el valor de la desviación estándar al cuadrado; su utilidad radica
en que su valor es requerido para todos los procedimientos estadístico.
Marco Uriel Bustos Colin
Obed Terrazas Palomo
Jorge Alberto Malpica Olmedo
Ana Cecilia Saldaña Tenorio
Jose Alberto Coronado Tenorio
Ricardo Avimael Duran Morales
eE
No hay comentarios:
Publicar un comentario