martes, 5 de febrero de 2013

Resumen #1


Unidad 1
Estadística descriptiva
1.1 Introducción, notación sumatoria
En estadística se requiere la suma de grandes masas de datos y es pertinente tener una notación simplificada para indicar la suma de estos datos. Así, si una variable se puede denotar por X, entonces las observaciones sucesivas de esta variable se escriben
La letra griega sigma mayúscula (Σ) se emplea para indicar la suma de estas en observaciones.
La notación se lee:
Suma de X sub-i (o sigma sub-i) donde i asume todos los valores de 1 hasta en, o simplemente suma de X sub-i donde i va de 1 a n.
 Las sumatorias se pueden representar bajo dos tipos de notaciones:
    • Notación suma abierta.- Esta notación va de una representación de sumatoria a cada uno de los elementos que la componen
    • Notación suma pertinente.- Esta notación es al contrario de la suma abierta, va de la representación de cada uno de los elementos de una sumatoria a su representación matemática resumida,
 1.1.1 Datos no agrupados
Los datos no agrupados son los datos sin procesar, y las estadísticas correctas pueden ser determinadas. Los datos no agrupados son usualmente el punto de inicio de los análisis
Es el conjunto de datos obtenidos en la recopilación, una vez que se han recopilado los datos, el siguiente paso consiste en organizarlos
Cuando la muestra que se ha tomado de la población o proceso que se desea analizar, es decir, tenemos menos de 20 elementos en la muestra, entonces estos datos son analizados sin necesidad de formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no agrupados.



1.1.2 Medida de tendencia central
Media Aritmética
La media aritmética de n observaciones de la variable X se denotará por el símbolo  y se define como la suma de ellas dividida por n. Simbólicamente:
Ejemplo: La media aritmética de los números 3, 9, 12, 5 y 6 es:
 En la figura es claro que la media aritmética corresponde geométricamente al punto de equilibrio de los datos.
Mediana
La mediana (Me) de un conjunto de n números ordenados de menor a mayor, es el número central en el arreglo. Si n es un número impar (non), sólo hay un valor central en el arreglo. Si n es un número par, hay dos valores centrales y la mediana debe tomarse como la media aritmética de estos dos valores.
 Ejemplo: Calcular la mediana de los números 3, 9, 12, 5 y 6
 Primero hay que ordenar los números de menor a mayor: 3, 4, 6, 9, 12
Después se debe verificar si el valor de n es par o impar (non), en caso de ser par se toman los dos valores que estén en el centro. Me = 6
Moda
La moda (Mo) de un conjunto de datos es el valor (si existe) que ocurre con mayor frecuencia. Si es un valor único decimos que la distribución de frecuencias es unimodal, si tiene dos o más valores con la misma frecuencia máxima, decimos que la distribución es bimodal, trimodal, entre otras.
La moda es una medida de tendencia central que es poco usada por las siguientes razones:
a) Puede ocurrir que no exista.
b) A menudo no es un valor único.

1.1.3 Medidas de posición
Es un número que se escoge para hacer referencia a un conjunto de datos. Normalmente se dividen entren cuatro, diez y cien (cuartiles, deciles, perciles)

1.1.4 Medidas de dispersión.
Cuando se tiene una muestra de datos obtenida de una población cualquiera, es importante determinar sus medidas de tendencia central así como también es básico el determinar qué tan dispersos están los datos en la muestra, por lo que se hace necesario determinar su rango, la varianza, la desviación estándar, etc., ya que una excesiva variabilidad o dispersión en los datos indica la inestabilidad del proceso en análisis en la mayoría de los casos.

Rango o recorrido.
 El rango es la diferencia entre el valor mayor y el valor menor encontrado en la muestra, también se le denomina recorrido ya que nos dice entre que valores hace su recorrido la variable de interés; y se determina de la siguiente manera:

R = VM – Vm
Dónde:

R = rango o recorrido
VM = valor mayor en la muestra
Vm = valor menor en la muestra




Desviación absoluta media
 ( ). Esta medida de dispersión nos representa la diferencia absoluta promedio que existe entre cada dato que se encuentra en la muestra y la media de los datos y se determina de la siguiente manera:


Dónde:
xi = dato i
= media aritmética de la muestra
n = número de datos en la muestra


¿Por qué sacar el valor absoluto de las diferencias entre cada dato y la media aritmética? Si solo se hicieran diferencias entre cada dato y la media aritmética, estas tendrían signos positivos y negativos ya que algunos datos son menores que la media y otros son mayores que la media, luego al sumar las diferencias, con sus signos correspondientes, éstas se irían  anulando unas con otras y no sería posible medir leal grado de alejamiento promedio de los datos en la muestra.

Varianza  o variancia (s2).
 Es el promedio de las diferencias elevadas al cuadrado entre cada valor que se tiene en la muestra (xi) y la media aritmética ( ) de los datos y se determina de la siguiente manera:
Donde n es el número de datos en la muestra.

Desviación estándar (s).
 Es la desviación o diferencia promedio que existe entre cada dato de la muestra y la media aritmética de la muestra. Y se obtiene a partir de la varianza, sacándole raíz cuadrada.


Medidas de formas 1.1.5

Las medidas de forma permiten comprobar si una distribución de frecuencia tiene características especiales como simetría, asimetría, nivel de concentración de datos y nivel de apuntamiento que la clasifiquen en un tipo particular de distribución.
Las medidas de forma son necesarias para determinar el comportamiento de los datos y así, poder adaptar herramientas para el análisis probabilístico.

Distribución simétrica
Al dividir una distribución de frecuencia mediante la mediana, ambas áreas resultantes son iguales, es decir, los datos se distribuyen de la misma forma y el área abarcada por ambos lados es equivalente (50% de los datos se encuentran distribuidos en ambas secciones).

Distribución asimétrica
Los datos no se distribuyen de forma uniforme y similar en las áreas que dan como resultado al dividir la distribución de frecuencia por la mediana.


1.2. Datos agrupados y no agrupados

Los datos no agrupados son los datos sin procesar, y las estadísticas correctas pueden ser determinadas. Los datos no agrupados son usualmente el punto de inicio de los análisis
Es el conjunto de datos obtenidos en la recopilación, una vez que se han recopilado los datos, el siguiente paso consiste en organizarlos.
Cuando la muestra que se ha tomado de la población o proceso que se desea analizar, es decir, tenemos menos de 20 elementos en la muestra, entonces estos datos son analizados sin necesidad de formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no agrupados.
Los datos agrupados significan que hay menos datos con los cuales trabajar y mis estadísticas serán aproximadas.
Los datos agrupados se refieren al hecho de que estén ordenados, clasificados y contados.
Para agrupar u organizar un conjunto de datos se construye una tabla llamada tabla de frecuencias o distribución de frecuencias simple.
El primer paso para organizar los datos consiste en identificar el tipo de datos que se tienen, los cuales pueden ser cualitativos o cuantitativos.
Cuando los datos corresponden a valores cualitativos se clasifican en varias clases o categorías, que corresponden a las cualidades, valores o atributos obtenidos de cada elemento, después se efectúa una tabulación, es decir, se realiza un conteo de los elementos, que pertenece a cada clase o categoría. Para llevar un orden y no omitir algún valor, se asigna una columna para la tabulación y se coloca una marca para cada elemento de la muestra o población, donde corresponda su categoría.

Una vez terminada la tabulación, se cuentan los elementos que contiene cada clase o categoría y se anota el valor en otra columna que se denomina frecuencia.
Así, la frecuencia es el número de elementos que contiene cada clase o categoría en un conjunto de datos.

1.2.1 Tabla de Frecuencia

Este procedimiento es aconsejable para aquellos casos en los que queremos analizar los resultados de una serie de variables, que tienen todas las mismas categorías de respuesta. Por defecto, las variables forman las columnas y las categorías las filas. Cada casilla muestra el número de casos de esa categoría. Si lo desea, puede seleccionar una o más variables de agrupamiento.
Una tabla de frecuencias (también conocida como tabla de distribución de frecuencias) es una tabla  en la que se organizan los datos en clases, es decir, en grupos de valores que escriben una característica de los datos y muestra el número de observaciones del conjunto de datos que caen en cada una de las clases.
La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numérico. En principio, en la tabla de frecuencias se detalla cada uno de los valores diferentes en el conjunto de datos junto con el número de veces que aparece, es decir, su frecuencia absoluta. Se puede complementar la frecuencia absoluta con la denominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el total de datos. En variables cuantitativas se distinguen por otra parte la frecuencia simple y la frecuencia acumulada.
La tabla de frecuencias puede representarse gráficamente en un histograma. Normalmente en el eje vertical se coloca las frecuencias y en el horizontal los intervalos de valores.

MEDIDAS DE TENDENCIA CENTRAL 1.2.2

MEDIA: Media aritmética, es la que se obtiene sumando los datos y dividiéndolos por el número de ellos. Se aplica por ejemplo para resumir el número de pacientes promedio que se atiende en un turno. Otro ejemplo, es el número promedio de controles prenatales que tiene una gestante.

MEDIANA: Corresponde al percentil 50%. Es decir, la mediana divide a la población exactamente en dos. Por ejemplo el número mediana de hijos en el centro de salud “X” es dos hijos. Otro ejemplo es el número mediana de atenciones por paciente en un consultorio.

MODA: Valor o (valores) que aparece(n) con mayor frecuencia. Una distribución unimodal tiene una sola moda y una distribución bimodal tiene dos. Útil como medida resumen para las variables nominales. Por ejemplo, el color del uniforme quirúrgico en sala de operaciones es el verde; por lo tanto es la moda en colores del uniforme quirúrgico.

MEDIDAS DE DISPERSIÓN 1.2.3
DESVIACIÓN ESTÁNDAR: Llamada también desviación típica; es una medida que informa sobre la media de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades que la variable.

LA VARIANZA: Es el valor de la desviación estándar al cuadrado; su utilidad radica en que su valor es requerido para todos los procedimientos estadístico.




Marco Uriel Bustos Colin

Obed Terrazas Palomo 

Jorge Alberto Malpica Olmedo

Ana Cecilia Saldaña Tenorio

Jose Alberto Coronado Tenorio

Ricardo Avimael Duran Morales 











eE


No hay comentarios:

Publicar un comentario