lunes, 11 de febrero de 2013


1.2.4 Medidas de asimetría y curtosis.
El objetivo de la medida de la asimetría es, sin necesidad de dibujar la distribución de frecuencias, estudiar la deformación horizontal de los valores de la variable respecto al valor central de la media. Las medidas de forma pretenden estudiar la concentración de la variable hacia uno de sus extremos.

Asimétrica a la izquierda
La curva de la gráfica encuentra su punto más alto en la parte izquierda

Asimétrica a la derecha.
La curva de la gráfica encuentra su punto más alto en la parte derecha

Curtosis
Mesocurtosis, si la distribución de los datos es normal y el coeficiente de curtosis es cero.
Leptocurtosis, si está más apuntado que lo normal y el coeficiente de curtosis es positivo
Platicurtosis, si esta menos apuntado y el coeficiente es negativo.


1.3.1 Diagramas de dispersión
Cuando entre dos variables existe una relación única entre ellas, se interesa investigar el grado de correlación entre ellas.

La forma de construir un diagrama de dispersión es tomando dos puntos relacionados entre sí y acomodándolos en un plano cartesiano y viendo la tendencia que sigue (se necesita por lo menos 40 pares de datos para hacer un diagrama exacto).


1.3.2 Diagrama de tallo y hoja
Los valores de los datos se utilizan para efectuar tal ordenación. El tallo se forma con el (los) primer(os) dígito(s) del dato, mientras que la hoja se forma con los demás dígitos siguientes. Por ejemplo, el valor numérico 458 se dividiría en 45-8


1.3.3 Histogramas
El trabajo de control de calidad requiere tomar datos, organizarlos y analizarlos. Una de las formas más útiles para organizarlos y hacer su análisis es presentarlos en histogramas. Excel provee recursos para hacer histogramas con colecciones desorganizadas de datos. Lo primero que necesitamos es tener los datos en una hoja de Excel, por lo general en la columna A.  A veces es necesario que los datos se mantengan en el orden en el que fueron colectados, es decir, como aparecen en la columna A. Excel puede ordenarlos de menor a mayor o viceversa. De ser necesario ordenarlos de cualquier forma, y si también deseamos conservarlos en su orden original, los copiamos de la columna A y los pasamos a la B. Una vez los tengamos en B, los seleccionamos y pulsamos el botón .sort ascending  en el  toolbar. Como resultado se ordenan los datos de menor a mayor. En esta forma notamos que en la celda B1 se encuentra el número más pequeño de la colección, mientras que el más grande está al final, en la última celda ocupada de la columna B. Es posible que los datos sean tan numerosos como 65,536, que es el máximo que puede manejar una sola hoja de Excel, por lo que llegar al final de ellos con el ratón puede consumir mucho tiempo. Existe una forma rápida de hacerlo oprimiendo simultáneamente las teclas .Ctrl+End. Asimismo, podemos regresar a B1 oprimiendo .Ctrl+Home. Es necesario que anotemos el número de la última celda de datos en la columna B porque las operaciones que vamos a describir en seguida así lo requieren


1.3.4 Ojivas
Una distribución de frecuencia acumulativa nos permite ver cuantas observaciones se hallan por arriba o por debajo de ciertos valores, en lugar de limitarnos a anotar los números de elementos dentro de los intervalos. Por ejemplo, si queremos saber cuántos galones contienen menos de 17.0 ppm, podemos servirnos de una tabla que incluya frecuencias acumulativas “menores que” en nuestra muestra.
Se llama ojiva a la gráfica de una distribución de frecuencia acumulativa. Los puntos graficados representan la cantidad de galones que tienen menos cloro que las partes por millón indicadas sobre el eje horizontal.
En ocasiones la información que se utiliza se presenta a partir de frecuencias “mayores que”. La ojiva apropiada para tal información tendrá una pendiente hacia abajo y hacia la derecha.
También es posible construir una ojiva de una distribución de frecuencia relativa, de la misma manera que una absoluta.


1.3.5 Polígono de Frecuencia
Polígono de frecuencia es el nombre que recibe una clase de gráfico que se crea a partir de un histograma de frecuencia. Estos histogramas emplean columnas verticales para reflejar frecuencias): el polígono de frecuencia es realizado uniendo los puntos de mayor altura de estas columnas.
Es decir, por tanto, podríamos establecer que un polígono de frecuencia es aquel que se forma a partir de la unión de los distintos puntos medios de las cimas de las columnas que configuran lo que es un histograma de frecuencia. Este se caracteriza porque utiliza siempre lo que son columnas de tipo vertical y porque nunca debe haber espacios entre lo que son unas y otras.
En las ciencias sociales, en las ciencias naturales y también en las económicas es donde con más frecuencia se hace uso de estos mencionados histogramas ya que se emplean para llevar a cabo lo que es la comparación de los resultados de un proceso determinado.

Se conoce como polígonos de frecuencia para datos agrupados a aquellos que se desarrollan mediante la marca de clase que tiene coincidencia con el punto medio de las distintas columnas del histograma. En el momento de la representación de todas las frecuencias que forman parte de una tabla de datos agrupados, se genera el histograma de frecuencias acumuladas que posibilita la diagramación del polígono correspondiente.
Un polígono de frecuencia, por ejemplo, permite reflejar las temperaturas máximas promedio de una ciudad en un determinado periodo temporal. En el eje X (horizontal), deben indicarse los meses del año (enero, febrero, marzo, abril, etc.). En el eje Y (vertical), en cambio, se registran las temperaturas más altas promedio de cada mes (28º, 26º, 22º…). El polígono de frecuencia se creará al unir, mediante un segmento, las diversas temperaturas más elevadas promedio.
Los polígonos de frecuencia se suelen usar cuando se pretende retratar varias distribuciones distintas o la clasificación cruzada de una variable cuantitativa continua con una cualitativa o cuantitativa discreta en el mismo dibujo.
El punto de más altura de un polígono de frecuencia equivale a la mayor frecuencia, mientras que el área que se sitúa debajo de la curva incluye todos los datos que existen. Cabe recordar que la frecuencia es la repetición mayor o menor de un evento, o el número de veces que un acontecimiento periódico se reitera en una unidad temporal.
Dado el valor y la utilidad que tienen los citados polígonos hay que resaltar que estos se pueden confeccionar de una manera muy sencilla y rápida. En concreto, se da la oportunidad de acometerlos mediante un programa informático que se ha convertido en uno de los ejes claves del funcionamiento de cualquier empresa. Nos estamos refiriendo al software conocido como Excel.
Este es un programa, de Microsoft Office, que se confeccionó con el claro objetivo de que sus usuarios pudieran trabajar con lo que son hojas de cálculo. Por tal motivo, es lógico que también permita la posibilidad de crear polígonos de frecuencia a la hora de comparar cifras y tomar decisiones en base a las mismas.
En concreto, para conseguir crear los mismos con Excel se tiene que partir de la existencia de una serie de gráficos que se hayan confeccionado previamente para seguidamente desarrollar un conjunto de acciones que den lugar a aquellos.


Diagrama de cajas y de cejas
Un diagrama de caja, también llamado diagrama de caja y bigotes, está formado por un rectángulo, la caja, y dos segmentos, los bigotes, uno a cada lado del rectángulo. La caja abarca el recorrido intercuartílico, que es el intervalo comprendido entre el primer cuartil q1 y el tercer cuartil q3. Dentro dela caja se representa con un segmento la mediana de la distribución.

 El bigote izquierdo queda determinado por el valor mínimo y el primer cuartil y el derecho por el tercer cual se consideran valores atípicos los menores que q1-1.5· (q3-q1) y los mayores que q3+ 1.5· (q3-q1). Esto quiere decir que la longitud máxima de los bigotes es una vez y media la longitud de la caja (q3-q1). Cuando hay valores atípicos éstos se representan fuera del diagrama de caja, mediante asteriscos o puntos. Los diagramas de caja permiten una fácil lectura e interpretación del tipo de simetría de una distribución:
 Es simétrica cuando la media, mediana y moda de la distribución coinciden y los datos se distribuyen de igual forma a ambos lados de esas medidas.
Es asimétrica positiva o sesgada a la derecha, cuando los datos tienden a concentrarse hacia la parte inferior de la distribución. La media se situaría a la derecha de la mediana.
Es asimétrica negativa o sesgada hacia la izquierda cuando los datos tienden a concentrarse hacia la parte superior de la distribución. La media se situaría a la izquierda de la mediana. Útil y el valor máximo, excepto si existen valores atípicos.


Diagrama de sectores.
Se toma un círculo y se divide en tantos sectores como clases tengamos, siendo el arco del círculo proporcional a las frecuencias absolutas (también lo podemos hacer con las frecuencias relativas o porcentajes)
Para determinar el arco circular que corresponde a cada clase relacionamos el total de observaciones con los 360º grados de la circunferencia. Gráfica de sectores es configurable, disponemos de varios argumentos, en la función hist (), para tal fin:
X: Vector de cantidades positivas, los cuales son presentados como las áreas en el gráfico.
labels: Un vector de caracteres “strings” que dan nombres a las áreas.
edges: Aproxima la linea exterior circular mediante un polígono con el número de lados especificado, que por defecto es 200.
clockwise: Argumento lógico, TRUE o FALSE, que indica si la representación es en sentido anti horario (es decir, matemáticamente sentido positivo) o no, el sentido antihorario es la opción por defecto (FALSE).
init.angle: Especifica el ángulo inicial el cual se representará el diagrama (en grados). El valor por defecto es 0 (es decir, a las 3 en punto) a menos que el argumento clockwise esté configurado como TRUE entonces, init.angle será por defecto 90 (grados), (es decir, 12 en punto).
density: Dibuja porciones ralladas por pulgada. El valor predeterminado es NULL, significa que no se dibujan líneas de rallado.
angle: Pendiente de las líneas de rallado, dado como un ángulo en grados (a la izquierda).
radius: La torta es dibujada centrada en una caja cuadrada cuyos lados se mueven de -1 a 1. Si se usan etiquetas largas puede ser necesario usar radios más pequeños.
col: Un vector de colores, para rellenar los sectores del gráfico.
main: Para dar título al gráfico.

martes, 5 de febrero de 2013

Resumen #1


Unidad 1
Estadística descriptiva
1.1 Introducción, notación sumatoria
En estadística se requiere la suma de grandes masas de datos y es pertinente tener una notación simplificada para indicar la suma de estos datos. Así, si una variable se puede denotar por X, entonces las observaciones sucesivas de esta variable se escriben
La letra griega sigma mayúscula (Σ) se emplea para indicar la suma de estas en observaciones.
La notación se lee:
Suma de X sub-i (o sigma sub-i) donde i asume todos los valores de 1 hasta en, o simplemente suma de X sub-i donde i va de 1 a n.
 Las sumatorias se pueden representar bajo dos tipos de notaciones:
    • Notación suma abierta.- Esta notación va de una representación de sumatoria a cada uno de los elementos que la componen
    • Notación suma pertinente.- Esta notación es al contrario de la suma abierta, va de la representación de cada uno de los elementos de una sumatoria a su representación matemática resumida,
 1.1.1 Datos no agrupados
Los datos no agrupados son los datos sin procesar, y las estadísticas correctas pueden ser determinadas. Los datos no agrupados son usualmente el punto de inicio de los análisis
Es el conjunto de datos obtenidos en la recopilación, una vez que se han recopilado los datos, el siguiente paso consiste en organizarlos
Cuando la muestra que se ha tomado de la población o proceso que se desea analizar, es decir, tenemos menos de 20 elementos en la muestra, entonces estos datos son analizados sin necesidad de formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no agrupados.



1.1.2 Medida de tendencia central
Media Aritmética
La media aritmética de n observaciones de la variable X se denotará por el símbolo  y se define como la suma de ellas dividida por n. Simbólicamente:
Ejemplo: La media aritmética de los números 3, 9, 12, 5 y 6 es:
 En la figura es claro que la media aritmética corresponde geométricamente al punto de equilibrio de los datos.
Mediana
La mediana (Me) de un conjunto de n números ordenados de menor a mayor, es el número central en el arreglo. Si n es un número impar (non), sólo hay un valor central en el arreglo. Si n es un número par, hay dos valores centrales y la mediana debe tomarse como la media aritmética de estos dos valores.
 Ejemplo: Calcular la mediana de los números 3, 9, 12, 5 y 6
 Primero hay que ordenar los números de menor a mayor: 3, 4, 6, 9, 12
Después se debe verificar si el valor de n es par o impar (non), en caso de ser par se toman los dos valores que estén en el centro. Me = 6
Moda
La moda (Mo) de un conjunto de datos es el valor (si existe) que ocurre con mayor frecuencia. Si es un valor único decimos que la distribución de frecuencias es unimodal, si tiene dos o más valores con la misma frecuencia máxima, decimos que la distribución es bimodal, trimodal, entre otras.
La moda es una medida de tendencia central que es poco usada por las siguientes razones:
a) Puede ocurrir que no exista.
b) A menudo no es un valor único.

1.1.3 Medidas de posición
Es un número que se escoge para hacer referencia a un conjunto de datos. Normalmente se dividen entren cuatro, diez y cien (cuartiles, deciles, perciles)

1.1.4 Medidas de dispersión.
Cuando se tiene una muestra de datos obtenida de una población cualquiera, es importante determinar sus medidas de tendencia central así como también es básico el determinar qué tan dispersos están los datos en la muestra, por lo que se hace necesario determinar su rango, la varianza, la desviación estándar, etc., ya que una excesiva variabilidad o dispersión en los datos indica la inestabilidad del proceso en análisis en la mayoría de los casos.

Rango o recorrido.
 El rango es la diferencia entre el valor mayor y el valor menor encontrado en la muestra, también se le denomina recorrido ya que nos dice entre que valores hace su recorrido la variable de interés; y se determina de la siguiente manera:

R = VM – Vm
Dónde:

R = rango o recorrido
VM = valor mayor en la muestra
Vm = valor menor en la muestra




Desviación absoluta media
 ( ). Esta medida de dispersión nos representa la diferencia absoluta promedio que existe entre cada dato que se encuentra en la muestra y la media de los datos y se determina de la siguiente manera:


Dónde:
xi = dato i
= media aritmética de la muestra
n = número de datos en la muestra


¿Por qué sacar el valor absoluto de las diferencias entre cada dato y la media aritmética? Si solo se hicieran diferencias entre cada dato y la media aritmética, estas tendrían signos positivos y negativos ya que algunos datos son menores que la media y otros son mayores que la media, luego al sumar las diferencias, con sus signos correspondientes, éstas se irían  anulando unas con otras y no sería posible medir leal grado de alejamiento promedio de los datos en la muestra.

Varianza  o variancia (s2).
 Es el promedio de las diferencias elevadas al cuadrado entre cada valor que se tiene en la muestra (xi) y la media aritmética ( ) de los datos y se determina de la siguiente manera:
Donde n es el número de datos en la muestra.

Desviación estándar (s).
 Es la desviación o diferencia promedio que existe entre cada dato de la muestra y la media aritmética de la muestra. Y se obtiene a partir de la varianza, sacándole raíz cuadrada.


Medidas de formas 1.1.5

Las medidas de forma permiten comprobar si una distribución de frecuencia tiene características especiales como simetría, asimetría, nivel de concentración de datos y nivel de apuntamiento que la clasifiquen en un tipo particular de distribución.
Las medidas de forma son necesarias para determinar el comportamiento de los datos y así, poder adaptar herramientas para el análisis probabilístico.

Distribución simétrica
Al dividir una distribución de frecuencia mediante la mediana, ambas áreas resultantes son iguales, es decir, los datos se distribuyen de la misma forma y el área abarcada por ambos lados es equivalente (50% de los datos se encuentran distribuidos en ambas secciones).

Distribución asimétrica
Los datos no se distribuyen de forma uniforme y similar en las áreas que dan como resultado al dividir la distribución de frecuencia por la mediana.


1.2. Datos agrupados y no agrupados

Los datos no agrupados son los datos sin procesar, y las estadísticas correctas pueden ser determinadas. Los datos no agrupados son usualmente el punto de inicio de los análisis
Es el conjunto de datos obtenidos en la recopilación, una vez que se han recopilado los datos, el siguiente paso consiste en organizarlos.
Cuando la muestra que se ha tomado de la población o proceso que se desea analizar, es decir, tenemos menos de 20 elementos en la muestra, entonces estos datos son analizados sin necesidad de formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no agrupados.
Los datos agrupados significan que hay menos datos con los cuales trabajar y mis estadísticas serán aproximadas.
Los datos agrupados se refieren al hecho de que estén ordenados, clasificados y contados.
Para agrupar u organizar un conjunto de datos se construye una tabla llamada tabla de frecuencias o distribución de frecuencias simple.
El primer paso para organizar los datos consiste en identificar el tipo de datos que se tienen, los cuales pueden ser cualitativos o cuantitativos.
Cuando los datos corresponden a valores cualitativos se clasifican en varias clases o categorías, que corresponden a las cualidades, valores o atributos obtenidos de cada elemento, después se efectúa una tabulación, es decir, se realiza un conteo de los elementos, que pertenece a cada clase o categoría. Para llevar un orden y no omitir algún valor, se asigna una columna para la tabulación y se coloca una marca para cada elemento de la muestra o población, donde corresponda su categoría.

Una vez terminada la tabulación, se cuentan los elementos que contiene cada clase o categoría y se anota el valor en otra columna que se denomina frecuencia.
Así, la frecuencia es el número de elementos que contiene cada clase o categoría en un conjunto de datos.

1.2.1 Tabla de Frecuencia

Este procedimiento es aconsejable para aquellos casos en los que queremos analizar los resultados de una serie de variables, que tienen todas las mismas categorías de respuesta. Por defecto, las variables forman las columnas y las categorías las filas. Cada casilla muestra el número de casos de esa categoría. Si lo desea, puede seleccionar una o más variables de agrupamiento.
Una tabla de frecuencias (también conocida como tabla de distribución de frecuencias) es una tabla  en la que se organizan los datos en clases, es decir, en grupos de valores que escriben una característica de los datos y muestra el número de observaciones del conjunto de datos que caen en cada una de las clases.
La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numérico. En principio, en la tabla de frecuencias se detalla cada uno de los valores diferentes en el conjunto de datos junto con el número de veces que aparece, es decir, su frecuencia absoluta. Se puede complementar la frecuencia absoluta con la denominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el total de datos. En variables cuantitativas se distinguen por otra parte la frecuencia simple y la frecuencia acumulada.
La tabla de frecuencias puede representarse gráficamente en un histograma. Normalmente en el eje vertical se coloca las frecuencias y en el horizontal los intervalos de valores.

MEDIDAS DE TENDENCIA CENTRAL 1.2.2

MEDIA: Media aritmética, es la que se obtiene sumando los datos y dividiéndolos por el número de ellos. Se aplica por ejemplo para resumir el número de pacientes promedio que se atiende en un turno. Otro ejemplo, es el número promedio de controles prenatales que tiene una gestante.

MEDIANA: Corresponde al percentil 50%. Es decir, la mediana divide a la población exactamente en dos. Por ejemplo el número mediana de hijos en el centro de salud “X” es dos hijos. Otro ejemplo es el número mediana de atenciones por paciente en un consultorio.

MODA: Valor o (valores) que aparece(n) con mayor frecuencia. Una distribución unimodal tiene una sola moda y una distribución bimodal tiene dos. Útil como medida resumen para las variables nominales. Por ejemplo, el color del uniforme quirúrgico en sala de operaciones es el verde; por lo tanto es la moda en colores del uniforme quirúrgico.

MEDIDAS DE DISPERSIÓN 1.2.3
DESVIACIÓN ESTÁNDAR: Llamada también desviación típica; es una medida que informa sobre la media de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades que la variable.

LA VARIANZA: Es el valor de la desviación estándar al cuadrado; su utilidad radica en que su valor es requerido para todos los procedimientos estadístico.




Marco Uriel Bustos Colin

Obed Terrazas Palomo 

Jorge Alberto Malpica Olmedo

Ana Cecilia Saldaña Tenorio

Jose Alberto Coronado Tenorio

Ricardo Avimael Duran Morales 











eE