Esta
Transcription
Esta
INTRODUCCIÓN AL MUESTREO POR QUÉ SE MUESTREA Con mucha frecuencia, empresas, organizaciones y otras entidades desean conocer algo sobre sus clientes, proveedores, comunidad y otros grupos de interés. Por ejemplo; un personaje político, quizás, desee conocer la aceptación que tienen sus ideas o su imagen entre sus posibles electores. También, los industriales deseen medir alguna característica de todos los productos que fabrican. En estos y otros casos se presenta, con mucha frecuencia, una dificultad: no es posible contactar a todas las personas para interrogarlas sobre el aspecto de interés o tampoco es posible medir en todos los productos fabricados el valor de la variable cuyo comportamiento se desea establecer. Los usuarios de la información que se desea conocer deben, entonces, escoger entre realizar un censo, es decir, examinar a todos los elementos de la población objetivo o realizar un muestreo, es decir, examinar a algunos de los elementos de esa población. Entre los inconvenientes para realizar un censo se encuentran: El costo de realizarlo puede hacer prohibitiva esta opción El tiempo que puede demorar la realización de un censo puede ocasionar que la información no esté disponible en el momento en que se necesite Puede ser muy difícil o a veces, imposible, localizar a todos los elementos de una población con el fin de realizar el censo Cuando se trata de tomar medidas físicas con frecuencia, esto implica destruir el elemento medido Los censos, realmente, no aumentan la precisión de los estudios CONCEPTOS DE MUESTREO YA ESTUDIADOS En este punto, es preciso, que el lector de estas notas, repase algunos conceptos ya estudiados y que se utilizan en la teoría del muestreo. Estos conceptos son los siguientes: Concepto de elemento Concepto de población Cómo se define una población Tamaño de una población Como se clasifican las poblaciones Concepto de muestra Tamaño de una muestra Concepto de parámetro Concepto de estadístico Concepto de experimento aleatorio SITUACIONES EN QUE SE PUEDE APLICAR UN PROCESO DE MUESTREO Los procesos de muestreo se pueden aplicar, por ejemplo, cuando se trata de dar respuesta a alguna de las siguientes preguntas: ¿Cuál es la edad de las personas que ven un determinado programa de televisión? ¿Cuánto gastan los taxis para ir de un punto A hasta un punto B de la ciudad en la hora pico? ¿Cuál es el porcentaje de ciudadanos que están de acuerdo con las gestiones del alcalde de su ciudad? ¿Cuántas toneladas de basura producen por día los mercados de frutas y verduras de la ciudad? MÉTODOS DE MUESTREO Existen dos métodos para escoger a algunos de los elementos de una población con el fin de registrar el estado o valor de las variables que nos interesan. Estos métodos son: Muestreo no probabilístico Muestreo aleatorio o probabilístico MUESTREO NO PROBABILÍSTICO Este tipo de muestreo ocurre cuando no se conoce la probabilidad, que tienen de ser seleccionados, los elementos de la población que van a hacer parte de la muestra. Existen dos clases de muestreo no probabilístico: El muestreo de juicio El muestreo por conveniencia EL MUESTREO DE JUICIO En este método de muestreo los elementos que se van a investigar se escogen de acuerdo a las opiniones de expertos o se escogen a personas que tienen conocimiento o experiencia sobre el tema que se está examinando. Un ejemplo de muestreo de juicio ocurre cuando, para saber si la economía del país ha mejorado, se interroga a los directivos de agremiaciones bancarias, industriales y comerciales, pero, no se tienen en cuenta las opiniones de los ciudadanos corrientes. MUESTRO POR CONVENIENCIA En este método de muestreo los elementos que se van a observar, es decir, los que componen la muestra, se escogen por la facilidad para seleccionarlos o por el interés que tienen algunas personas en ser incluidas en la muestra. Son ejemplos de muestreo por conveniencia cuando las personas llaman a alguna emisora para dar su opinión sobre un tema de interés o cuando se realiza una encuesta preguntando algo a las personas que circulan por una calle determinada, también, cuando un supervisor examina sólo los productos que están en la parte superior de una caja para verificar su calidad. En estos tipos de muestreo no se puede medir la validez de las conclusiones que se obtengan o sobre el estado o valor de las características observadas. MUESTREO ALEATORIO O PROBABILISTICO Este tipo de muestreo se caracteriza porque el método utilizado garantiza que todos los elementos de una población tienen igual oportunidad de ser incluidos en la muestra que se va a tomar. Cuando esto ocurre, se dice, que los elementos de la muestra se escogieron al azar. En el muestreo probabilístico se puede medir el error de las estimaciones que se hacen y el grado de incertidumbre de estas estimaciones o de las conclusiones a las que llega el estudio Existen los siguientes métodos de muestreo aleatorio o probabilístico: El muestreo aleatorio simple El muestreo sistemático El muestreo estratificado El muestreo por conglomerados o racimos MUESTREO ALEATORIO SIMPLE En este método de muestreo, se seleccionan una muestra de n elementos de la población, de tal manera que todas las muestras del mismo tamaño tengan igual probabilidad de ser seleccionadas. Este proceso de selección se realiza en un solo paso. El muestreo aleatorio simple se utiliza, preferiblemente, en el caso de poblaciones finitas, es decir, cuando se conoce el tamaño N de la población investigada. CONDICIONES PARA EL MUESTREO ALEATORIO SIMPLE: Preferible una población finita El tamaño de la población debe ser moderado La variabilidad debe ser moderada Los elementos se deben encontrar en un área geográfica pequeña Los elementos de la población deben ser fáciles de enumerar MARCO MUESTRAL O MARCO DE REFERENCIA El marco muestral se construye asignando un número consecutivo a cada uno de los N elementos que componen la población de la que se va a extraer la muestra de tamaño n. Esta actividad tiene por objeto garantizar que todos los elementos de la población tienen igual probabilidad de ser incluidos en la muestra y que todas las muestras de un mismo tamaño tienen igual probabilidad de ser escogidas. LAS TABLAS DE NÚMEROS ALEATORIOS Alguien podría pensar que para garantizar la condición probabilística, del muestreo, es suficiente con depositar fichas o cartones con los números, que identifican a cada uno de los elementos de la población, en una caja o recipiente, revolver bien estos cartones o fichas y que alguien sin mirar escoja los n cartones o fichas que componen la muestra. Se ha encontrado que este método y otros similares, no garantizan la condición de muestreo probabilístico porque no se puede medir la probabilidad que tiene cada elemento de ser seleccionado, ya sea, porque las fichas o cartones no se mezclan de manera o adecuada o porque la persona que escoge las fichas o cartones, escoge más de ellos de un sector o espacio de la caja que de otros sectores o espacios del recipiente que contienen los cartones. Las tablas de números aleatorios son unas tablas que traen conjuntos de número agrupados en filas y columnas construidas de tal manera, que cada uno de los números de estas tablas tiene igual probabilidad de ser seleccionado, independientemente, del punto de la tabla donde se empiece a seleccionar los números. Estas tablas se encuentran en los apéndices de casi todos los textos de estadística. El docente, en la clase correspondiente a este tema, le instruirá sobre la forma de utilizar este tipo de tablas, para seleccionar a los elementos de la población que harán parte de la muestra. PROCEDIMIENTO DEL MUESTREO ALEATORIO SIMPLE Enumerar a todos los elementos de la población (Marco de Referencia o Marco Muestral) Utilizar una tabla de números aleatorios para seleccionar la muestra Alternativo: Procedimiento por rifa (poblaciones pequeñas) Calcular el tamaño de la muestra (se ve más adelante) Realizar la encuesta Calcular el estadístico o estadísticos EL MUESTREO SISTEMÁTICO No siempre es posible o práctico establecer el marco de referencia, por ejemplo, cuando el tamaño de la población es considerable, podría requerir una apreciable cantidad de tiempo, numerar a todos los elementos de la población. Estas situaciones que se dan en, por ejemplo, los siguientes casos: Cuando se van a examinar 50 documentos de una población de 1000 documentos que están archivados, en orden cronológico, en carpetas Cuando se van a examinar la calidad de 150 unidades de producto de las 2000 unidades de producto que salen por día de un proceso productivo. En estos casos, es más práctico utilizar el muestreo sistemático, que, en general, se ejecuta en los siguientes pasos: Se establece el tamaño, n, de la muestra como se verá más adelante. Se calcula k con la siguiente expresión: 𝑘 = 𝑁 𝑛 Sí k no da exacto se redondea Se escoge al azar un número entre 1 y k, por ejemplo, utilizando una tabla de números aleatorios. Se examina este elemento y a continuación todos los elementos que están a una distancia de de k elementos, a partir del primero, en el orden en que están almacenados o se producen o se localizan, hasta completar los n elementos de la muestra. PROCEDIMIENTO PARA EL MUESTREO ALEATORIO SISTEMÁTICO: Calcular el tamaño de la muestra (se estudia más adelante) Se calcula k = N / n Se utiliza un número aleatorio para seleccionar el primer elemento (Un número entre 1 y k) Se selecciona cada k-ésimo elemento Se registra el valor de la variable en estudio EJEMPLOS DE MUESTREO SISTEMÁTICO Situación: Se van a examinar 50 documentos de una población de 1000 documentos que están archivados, en orden cronológico, en carpetas Tamaño de la muestra n: 50 K = 1000/50 = 20 Número aleatorio entre 1 y 20 (supuesto: 11) Primer documento examinado: El número 11 (en el orden en que está archivado) Siguientes documentos examinados: 31, 51, 71,…….971 y 991, ( en el orden en que están archivados) Situación: Se van a examinar la calidad de 150 unidades de producto de las 2000 unidades de producto que salen por día de un proceso productivo Tamaño de la muestra n: 100 K = 2000/150 = 13,33 = 13 Número aleatorio entre 1 y 13 (supuesto: 9) Primera unidad de producto examinada: la que sale de 9° del proceso productivo Siguientes unidades examinadas: 22, 35, 48,…….1933 y 1946 (en el orden en que salen del proceso productivo) INCONVENIENTE DEL MUESTREO SISTEMÁTICO. Cuando la forma en que los elementos se encuentran ordenados coincide de alguna manera con la evolución de la variable que se estudia, no se puede aplicar el método de muestreo sistemático. Por ejemplo: sí los elementos de la población son facturas y la característica observada es el valor de cada factura, no se puede usar el muestreo sistemático cuando las facturas están archivadas en orden cronológico y el valor de las facturas aumenta con el tiempo. MUESTREO ALEATORIO ESTRATIFICADO El muestreo aleatorio estratificado se utiliza cuando la población se encuentra naturalmente dividida en grupos homogéneos respecto de la variable que se esté estudiando. A estos grupos se les llama estratos. Por ejemplo, los ingresos de la personas están relacionados con su ocupación. Si se está investigando el ingreso promedio de una comunidad, a esta comunidad se la puede dividir en los siguientes estratos, de acuerdo con su ocupación o grado de capacitación así: Operarios Técnicos Tecnólogos Profesionales Cada uno de estos grupos se llama estrato porque los ingresos de los operarios son muy parecidos entre sí (homogéneos), pero muy diferentes a los ingresos de las personas de los otros estratos, por ejemplo, del estrato de los profesionales. En otro ejemplo, el número de graduados de una institución universitaria que llevan un año o menos trabajando, se distribuyen por facultades, de esta institución de la siguiente manera: Facultad Administración Ingenierías Ciencias sociales Total No. de graduados 550 400 50 1000 La institución quiere estimar el ingreso promedio de estos mil egresados, teniendo en cuenta que la Oficina de Egresados, tiene establecido, por las condiciones del mercado laboral, que los ingresos, suelen variar apreciablemente, entre los egresados de los tres tipos de facultades. Sí se utiliza el muestreo aleatorio simple, puede ocurrir, por azar, que ningún egresado de la facultad de ciencias sociales, que representan únicamente el 5% de la población, quede representado en la muestra. Para evitar esta situación se puede dividir la muestra total, que se va a observar, proporcionalmente entre el volumen de egresados de cada facultad, aplicando la frecuencia relativa o porcentaje de egresados por facultad. Sí se ha establecido que el tamaño de la muestra que se va a observar es de 100 egresados, se puede proceder como se muestra en la siguiente tabla: Facultad Administración Ingenierías Ciencias sociales Total No. de graduados 550 400 50 1000 Frecuencia relativa 0,55 0,40 0,05 1,00 No. de egresados en la muestra 55 40 5 100 El número de egresados de la facultad de administración, que participa en la muestra se obtiene multiplicando 100 por 0,55 (el tamaño de la muestra por la frecuencia relativa), y así para las otras dos facultades. Cuando los elementos de la población se pueden dividir en grupos o “estratos” relativamente homogéneos, que presenten, usualmente, diferencias apreciables entre los estratos, el muestreo estratificado produce resultados más precisos que el muestreo aleatorio simple PROCEDIMIENTO PARA EL MUESTREO ALEATORIO ESTRATIFICADO Determinar el tamaño de la muestra total y repartirla en cada estrato siguiendo un criterio de aplicación Alternativo: Determinar directamente el tamaño de la muestra de cada estrato Aplicar el muestreo aleatorio simple para seleccionar los elementos de cada estrato Realizar la encuesta Calcular el estadístico o estadísticos MUESTREO ALEATORIO POR CONGLOMERADOS O RACIMOS Este muestreo se utiliza, preferiblemente, cuando la investigación abarca áreas geográficas grandes como una ciudad o un departamento. En estos casos, se divide a la población en secciones o subconjuntos de elementos llamados conglomerados o racimos, que pueden ser comunas, barrios o manzanas. Estos conglomerados deben tener las siguientes características: Variación pequeña entre conglomerados Variación alta entre los elementos de cada conglomerado Cada conglomerado es una versión en pequeña escala de toda la población (caso ideal) No se requiere listado de todos los elementos de la población El marco de referencia puede ser mapas, planos o fotografías aéreas EJEMPLO DE UN MUESTREO POR CONGLOMERADOS Objetivo del estudio: Registrar algunas características de la unidades habitacionales de una ciudad Unidad de investigación: la unidad habitacional. Procedimiento: La ciudad se divide en barrios Marco de referencia de los barrios: se numeran todos los barrios de la ciudad Se toma muestra aleatoria de los barrios Los barrios seleccionados se dividen en manzanas Marco de referencia de las manzanas: se numeran todas las manzanas de cada barrio seleccionado Se toma una muestra aleatoria de las manzanas Se encuestan todas las unidades habitacionales de cada manzana seleccionada CONCEPTOS BÁSICOS DE ESTIMACIÓN QUE ES ESTIMAR Estimar es establecer de alguna forma el valor de un parámetro de una población, cuando no se puede conocer su valor exacto, porque, por alguna razón, es imposible realizar un censo. Por ejemplo, si una EPS deseara conocer el peso promedio de todos los operarios de la construcción de una determinada ciudad, como cualquiera se puede imaginar, es muy difícil realizar un censo para obtener el valor de este parámetro, por lo que, como se anotó al comienzo de esta unidad, se recurre a un muestreo y como resultado de este muestreo se obtiene un estadístico que se usa para estimar el parámetro de la población. Hipotéticamente, se podría registrar el peso de, digamos, 200 operarios de la construcción, escogidos con uno de los métodos de muestreo, que se estudiaron anteriormente y encontrar que estos 200 operarios tienen un peso promedio de, también hipotéticamente, 78 kilogramos. Este valor que es el que se llama estadístico, se usa para estimar el parámetro de la población que nunca se va a conocer. Las técnicas estadísticas de estimación no hacen parte del objetivo de estos apuntes, por lo que sólo se van a mencionar los conceptos básicos para entender el cálculo del tamaño de una muestra, que es nuestro objetivo ERROR DE MUESTREO Se llama Error de Muestreo a la diferencia que existe entre el valor de un estadístico y el valor del parámetro de la población que se intenta estimar con el valor del estadístico. Este error, que nunca se conoce, se debe a la imposibilidad de realizar el censo. COMO SE PUEDE ESTIMAR Se pude estimar el valor del parámetro de una población de dos formas Por intuición Usando técnicas estadísticas Con frecuencia, recurrimos a la intuición para hacer estimaciones, como se puede ver en los siguientes ejemplos: Observando el comportamiento del clima de un día por la mañana, estimamos el comportamiento del clima por la tarde. Usando los resultados obtenidos por un equipo de fútbol, en encuentros anteriores, estimamos el resultado, de este equipo, en un encuentro próximo a realizarse Les preguntamos a algunos amigos si les gusta el sabor de un comestible y con base en sus respuestas estimamos las ventas de este producto. Las técnicas estadísticas, en cambio, permiten, a través de métodos establecidos y comprobados, estimar el valor de un parámetro, bajo incertidumbre, es decir, que la afirmación que se haga sobre el valor de este parámetro, debe contener el margen de error, que creemos se puede estar cometiendo y el grado de confianza que tenemos sobre lo que afirmamos. ESTIMADOR Se llama estimador al método de cálculo o fórmula que se usa para aproximarse al valor del parámetro de la población. Los estimadores que más se utilizan son: El estimador de la media aritmética simple El estimador de la proporción ESTIMADOR DE LA MEDIA ARITMÉTICA SIMPLE El estimador de la media aritmética simple es suficientemente conocido por los estudiantes, a esta altura del curso. Las fórmulas son: ∑ 𝑥𝑖 𝑛 ∑ 𝑥𝑖 𝐹𝐴𝑖 𝑥̅ = 𝑛 𝑥̅ = ESTIMADOR DE LA PROPORCIÓN El estimador de la proporción resulta cuando se quiere establecer la proporción o porcentaje de elementos de una población que poseen una determinada característica. Por ejemplo, una comercializadora de productos electrónicos puede desear estimar, a través de una muestra, la proporción o porcentaje de estudiantes universitarios de la ciudad que utilizan celulares de la marca Motorola. La fórmula para estimar proporciones es la siguiente: 𝑝= Dónde: 𝑥 𝑛 𝒑: 𝑃𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑑𝑒 𝑙𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝒙: 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑞𝑢𝑒 𝑡𝑖𝑒𝑛𝑒𝑛 𝑙𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎 𝒏: 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 El estadístico p se usa para estimar el parámetro P, la verdadera proporción de estudiantes de la ciudad que utilizan la marca Motorola, pero que por la imposibilidad de realizar un censo, no se conoce. ESTIMACIÓN Se llama estimación al valor calculado con la fórmulas o estimadores TIPOS DE ESTIMACIÓN La estimación de parámetros se puede realizar de dos formas: Estimación puntual Estimación por intervalos ESTIMACIÓN PUNTUAL La estimación puntual ocurre cuando el parámetro de la población se estima con un solo valor que se obtiene de aplicar la fórmula del estimador Ejemplo Para estimar la edad promedio de los estudiantes que ingresaron este semestre a una universidad, se escogieron al azar a 200 de ellos y se registraron sus edades. Al sumar todos estos valores se obtuvo un total de 3520. Es decir: ∑ 𝑥𝑖 = 3520 𝑛 = 200 ∑ 𝑥𝑖 3520 𝑥̅ = = = 17,6 𝑎ñ𝑜𝑠 𝑛 200 Con base en los datos de la muestra, la edad promedio de todos los estudiantes que ingresaron este semestre a la universidad se estima en 17,6 años Ejemplo Para estimar el porcentaje de estudiantes universitarios de la ciudad, que utilizan celulares marca Motorola, se escogieron al azar a 720 estudiantes universitarios, encontrando que 80 de ellos utilizan celular de la marca investigada. Es decir: 𝑥 = 80 𝑛 = 720 𝑥 80 𝑝= = = 0,11 = 11% 𝑛 720 Con base en los datos de la muestra se estima que la proporción de estudiantes de la ciudad que utilizan celulares marca Motorola es del 11% Como se puede ver la estimación puntual no mide la incertidumbre de la estimación, es decir no indica la magnitud del error ni el grado de confianza que se tiene en la estimación que se realiza. Por estas razones se prefiere la estimación por intervalos. ESTIMACIÓN POR INTERVALOS En la estimación por intervalos se construye un intervalo de valores dentro del cual se espera que contenga el parámetro de la población que se intenta estimar. A este intervalo de valores se le llama intervalo de confianza INTERVALO DE CONFIANZA Es el intervalo de valores construido con los datos de la muestra, dentro del cual es posible que se encuentre el parámetro de la población NIVEL DE CONFIANZA Es la probabilidad o riesgo de que el intervalo de confianza contenga el valor del parámetro de la población MARGEN DE ERROR Es un valor que se le suma y se le resta a la estimación puntual de la media o de la proporción, para construir el intervalo de confianza, es decir: 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 = 𝐸𝑠𝑡𝑖𝑚𝑎𝑐𝑖ó𝑛 𝑝𝑢𝑛𝑡𝑢𝑎𝑙 ± 𝑀𝑎𝑟𝑔𝑒𝑛 𝑑𝑒 𝑒𝑟𝑟𝑜𝑟 Para estimar la media de una población, el intervalo de confianza se construye así: 𝐼𝑛𝑡𝑟𝑒𝑣𝑎𝑙𝑜 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 = 𝑥̅ ± 𝑀𝑎𝑟𝑔𝑒𝑛 𝑑𝑒 𝑒𝑟𝑟𝑜𝑟 Para estimar la proporción de una característica en una población, el intervalo de confianza, se construye así: 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 = 𝑝 ± 𝑀𝑎𝑟𝑔𝑒𝑛 𝑑𝑒 𝑒𝑟𝑟𝑜𝑟 FACTORES EN LA CONSTRUCCIÓN DEL MARGEN DE ERROR En la construcción del margen de error para estimar la media de una población intervienen cinco elementos: El nivel de confianza La dispersión de los datos El tamaño de la muestra El nivel de confianza es la probabilidad o riesgo de que el intervalo de confianza contenga al parámetro de la población. Aunque se puede utilizar cualquier valor, los valores de probabilidad que con más frecuencia se emplean para fijar el nivel de confianza son: 90%, 95% y 99%. Por ejemplo, un nivel de confianza del 90% significa que se tiene una confianza del 90%, de que el intervalo de confianza, construido, contenga al parámetro de la población que se está estimando o dicho de otra manera: hay una probabilidad del 90% de que el intervalo de confianza, construido, contenga al parámetro de la población. El nivel de confianza lo fija el investigador escogiendo un valor que se llama VALOR Z o VALOR TIPIFICADO. Este valor Z depende del nivel de confianza escogido y se obtiene en una tabla que se llama la Tabla Normal. Los valores de Z correspondientes a los niveles de confianza antes mencionados: 90%, 95% y 99% obtenidos de esta tabla son los siguientes: La Tabla Normal la traen todos los textos de estadística, en el apéndice. En la exposición sobre este tema el docente le mostrará como determinar Z para otros niveles de confianza. La dispersión de los datos cuando se va a estimar la media de una población, se tiene cuando se conoce la varianza poblacional o la desviación estándar de la población. Sí no se conoce este parámetro se puede estimar tomando una muestra piloto y calculando la varianza de esta muestra La dispersión de los datos cuando se va a estimar la proporción de una característica en una población, se obtiene de una muestra piloto o fijando su valor en 0,50 CÁLCULO DEL TAMAÑO DE LA MUESTRA Los casos más comunes en el cálculo del tamaño de la muestra con un nivel de confianza y un margen de error establecido o deseado son: Cálculo del tamaño de la muestra para estimar la media de una población Cálculo del tamaño de la muestra para estimar la proporción de una característica en una población Para cada uno de estos casos existen dos variantes que son las siguientes: Cuando la población es infinita Cuándo la población es finita CÁLCULO DEL TAMAÑO DE UNA MUESTRA PARA ESTIMAR LA MEDIA DE UNA POBLACIÓN CUANDO LA POBLACIÓN ES INFINITA Para este caso se utiliza la siguiente fórmula: 2 2 𝑛= Dónde: 𝑧 𝜎 𝐸2 𝒛 𝑒𝑠 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 𝑑𝑒𝑠𝑒𝑎𝑑𝑜 𝑝𝑜𝑟 𝑒𝑙 𝑖𝑛𝑣𝑒𝑠𝑡𝑖𝑔𝑎𝑑𝑜𝑟 𝝈𝟐 𝑒𝑠 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑬 𝑒𝑠 𝑒𝑙 𝑚𝑎𝑟𝑔𝑒𝑛 𝑑𝑒 𝑒𝑟𝑟𝑜𝑟 𝑡𝑜𝑙𝑒𝑟𝑎𝑑𝑜 𝑝𝑜𝑟 𝑒𝑙 𝑖𝑛𝑣𝑒𝑠𝑡𝑖𝑔𝑎𝑑𝑜𝑟 Es muy común que la varianza de la población se desconozca. En estos casos, se toma una muestra piloto y se calcula la varianza muestral En esta expresión el margen es en valor absoluto. Cuando el margen de error se conoce en porcentaje, es necesario transformarlo a valor absoluto Ejemplo: Un supermercado quiere estimar el valor promedio de compra por factura, de todas las facturas emitidas por el supermercado durante el último año. Como el número de facturas es muy grande la población se considera infinita. El gerente del supermercado desea un nivel de confianza de la estimación del 95% y está dispuesto a tolerar un margen de error, en la estimación del promedio, de más o menos $5.000 Como es la primera vez que se realiza este estudio no se conoce la varianza de la población por lo que escogieron al azar 10 facturas y se registraron sus valores como se muestra en la siguiente tabla: VALOR POR FACTURA (Miles de pesos) 30 48 67 52 78 81 73 67 63 91 La desviación estándar de esta muestra s = $31,3276 miles, luego la varianza muestral es s2 = $317,778 miles2. 𝑛= 𝑧 2𝑠 2 (1,962 )(317,778) = = 48,83 𝑓𝑎𝑐𝑡𝑢𝑟𝑎𝑠 𝐸2 52 𝑛 = 49 𝑓𝑎𝑐𝑡𝑢𝑟𝑎𝑠 Se deben, entonces, revisar 49 facturas y registrar sus valores Supongamos hipotéticamente, que al sumar los valores de estas 49 facturas dio un valor total de $3.065 miles, entonces, el intervalo de confianza para el valor promedio de las facturas emitidas por el supermercado, durante el último año, se construye así: 𝑥̅ = 3065 = 62,551 49 𝐿í𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 = 62,551 + 5 = 67,551 𝐿í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 = 62,551 − 5 = 57,551 Podemos afirmar, entonces, que el valor promedio de todas las facturas emitidas por el supermercado, durante el último año se encuentra entre $57.551 y $67.551, con una probabilidad del 95% Esta afirmación significa que no conocemos el valor del parámetro de la población, es decir, el valor promedio de todas las facturas emitidas, durante el último año por el supermercado, pero, que estimamos que de 100 muestras que se tomen, de 49 facturas, 95 de estos 100 intervalos de valores construidos, con los datos de estas muestras, contendrán el valor de este parámetro CÁLCULO DEL TAMAÑO DE UNA MUESTRA PARA ESTIMAR LA MEDIA DE UNA POBLACIÓN CUANDO LA POBLACIÓN ES FINITA Para este caso se utiliza la siguiente fórmula: 2 2 𝑛= 𝑍 𝑁𝜎 (𝑁 − 1)𝐸 2 + 𝑍 2 𝜎 2 𝒛 𝑒𝑠 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 𝑑𝑒𝑠𝑒𝑎𝑑𝑜 𝑝𝑜𝑟 𝑒𝑙 𝑖𝑛𝑣𝑒𝑠𝑡𝑖𝑔𝑎𝑑𝑜𝑟 𝝈𝟐 𝑒𝑠 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑬 𝑒𝑠 𝑒𝑙 𝑚𝑎𝑟𝑔𝑒𝑛 𝑑𝑒 𝑒𝑟𝑟𝑜𝑟 𝑡𝑜𝑙𝑒𝑟𝑎𝑑𝑜 𝑝𝑜𝑟 𝑒𝑙 𝑖𝑛𝑣𝑒𝑠𝑡𝑖𝑔𝑎𝑑𝑜𝑟, 𝑒𝑛 𝑣𝑎𝑙𝑜𝑟 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑜 𝑁 𝑒𝑠 𝑒𝑙 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 En esta fórmula, si la varianza de la población no se conoce, se utiliza la varianza muestral que se obtiene tomando una muestrea piloto. Ejemplo: En una universidad, en la que están matriculados 1200 estudiantes en carreras nocturnas, se quiere estimar el ingreso promedio que recibe cada estudiante, con un margen de error del 5% y un nivel de confianza del 99%. Como no se conoce la varianza de la población se tomó una muestra piloto para estimarla Ingresos/estudiante (Miles de pesos) 1047 999 1011 1003 952 895 800 961 991 927 La media y la desviación estándar de esta muestra son: 𝑥̅ = 958,6 𝑠 = 71,071 Como el margen de error, en esta fórmula, es en valor absoluto, se obtiene multiplicando el porcentaje, del error, por la media 𝐸 = (0,05)(958,6) = 47,93 𝑛= 1200(2,57)2 (71,071)2 = 14,36 (1199)(47,93)2 + (2,57)2 (71,071)2 𝑛 = 15 𝑒𝑠𝑡𝑢𝑑𝑖𝑎𝑛𝑡𝑒𝑠 Se deben, entonces, encuestar a 15 estudiantes, calcular el ingreso promedio de estos estudiantes y construir el intervalo de confianza como se hizo en el ejemplo anterior, para estimar el ingreso promedio de todos los estudiantes nocturnos, de esta universidad, con un nivel de confianza del 99% y un margen de error del 5%, es decir, de $47.930 CÁLCULO DEL TAMAÑO DE LA MUESTRA PARA ESTIMAR LA PROPORCIÓN DE LA POBLACIÓN CUANDO LA POBLACIÓN ES INFINITA Para este caso se utiliza la siguiente fórmula: 𝑛= 𝑍 2 𝑃(1 − 𝑃) 𝐸2 Dónde: 𝒁 𝑒𝑠 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 𝑑𝑒𝑠𝑒𝑎𝑑𝑜 𝑝𝑜𝑟 𝑒𝑙 𝑖𝑛𝑣𝑒𝑠𝑡𝑖𝑔𝑎𝑑𝑜𝑟 𝑷 𝑒𝑠 𝑙𝑎 𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑞𝑢𝑒 𝑝𝑜𝑠𝑒𝑒𝑛 𝑙𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎 𝑒𝑥𝑎𝑚𝑖𝑛𝑎𝑑𝑎 𝑬 𝑒𝑠 𝑒𝑙 𝑚𝑎𝑟𝑔𝑒𝑛 𝑑𝑒 𝑒𝑟𝑟𝑜𝑟 𝑡𝑜𝑙𝑒𝑟𝑎𝑑𝑜 𝑝𝑜𝑟 𝑒𝑙 𝑖𝑛𝑣𝑒𝑠𝑡𝑖𝑔𝑎𝑑𝑜𝑟 𝑒𝑛 𝑝𝑜𝑟𝑐𝑒𝑛𝑡𝑎𝑗𝑒 𝟏 − 𝑷 𝑙𝑙𝑎𝑚𝑎𝑑𝑜, 𝑡𝑎𝑚𝑏𝑖é𝑛 𝑄, 𝑒𝑠 𝑙𝑎 𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑞𝑢𝑒 𝑛𝑜 𝑡𝑖𝑒𝑛𝑒𝑛 𝑙𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎 𝑒𝑥𝑎𝑚𝑖𝑛𝑎𝑑𝑎 Cuando P no se conoce se estima con una muestra piloto o se le asigna un valor igual a 0,50 Ejemplo: La fábrica de jabón para la loza “COQUITO”, quiere estimar la proporción de amas de casa de la ciudad que han utilizado su jabón. La fábrica desea que esta estimación tenga como máximo un error del 5% y un nivel de confianza del 95% Como la proporción de la población P, no se conoce, se estimó con una muestra piloto, en la cual se encuestaron 20 amas de casa, escogidas al azar, de las cuales 6 afirmaron que habían utilizado el jabón COQUITO. 𝑝= 𝑥 6 = = 0,3 𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑑𝑒 𝑙𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑛 20 𝑛= (1,962 )(0,3)(0,7) = 322,69 (0,05)2 𝑛 = 323 𝑎𝑚𝑎𝑠 𝑑𝑒 𝑐𝑎𝑠𝑎 Se deben encuestar a 323 amas de casa de la ciudad ¿Qué ocurre si se utiliza 0,5 para estimar la proporción de la población que ha utilizado esta marca de jabón? Haciendo otra vez los cálculos se obtiene: (1,96)2 (0,5)(0,5) 𝑛= = 384,16 (0,05)2 𝑛 = 385 𝑎𝑚𝑎𝑠 𝑑𝑒 𝑐𝑎𝑠𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑖𝑢𝑑𝑎𝑑 Conclusión: Cuando se utiliza p = 0,5 se obtiene el tamaño de muestra más grande posible CÁLCULO DEL TAMAÑO DE LA MUESTRA PARA ESTIMAR LA PROPORCIÓN DE LA POBLACIÓN CUANDO LA POBLACIÓN ES FINITA Para este caso se utiliza la siguiente fórmula: 𝑛= 𝑍 2 𝑁𝑃(1 − 𝑃) (𝑁 − 1)𝐸2 + 𝑍 2 𝑃 (1 − 𝑃) Dónde: 𝒁 𝑒𝑠 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 𝑑𝑒𝑠𝑒𝑎𝑑𝑜 𝑝𝑜𝑟 𝑒𝑙 𝑖𝑛𝑣𝑒𝑠𝑡𝑖𝑔𝑎𝑑𝑜𝑟 𝑵 𝑒𝑠 𝑒𝑙 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑷 𝑒𝑠 𝑙𝑎 𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑞𝑢𝑒 𝑝𝑜𝑠𝑒𝑒𝑛 𝑙𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎 𝑒𝑥𝑎𝑚𝑖𝑛𝑎𝑑𝑎 𝑬 𝑒𝑠 𝑒𝑙 𝑚𝑎𝑟𝑔𝑒𝑛 𝑑𝑒 𝑒𝑟𝑟𝑜𝑟 𝑡𝑜𝑙𝑒𝑟𝑎𝑑𝑜 𝑝𝑜𝑟 𝑒𝑙 𝑖𝑛𝑣𝑒𝑠𝑡𝑖𝑔𝑎𝑑𝑜𝑟 𝑒𝑛 𝑝𝑜𝑟𝑐𝑒𝑛𝑡𝑎𝑗𝑒 𝟏 − 𝑷 𝑙𝑙𝑎𝑚𝑎𝑑𝑜, 𝑡𝑎𝑚𝑏𝑖é𝑛 𝑄, 𝑒𝑠 𝑙𝑎 𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑞𝑢𝑒 𝑛𝑜 𝑡𝑖𝑒𝑛𝑒𝑛 𝑙𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎 𝑒𝑥𝑎𝑚𝑖𝑛𝑎𝑑𝑎 Aquí, también, cuando P no se conoce se estima con una muestra piloto o se le asigna un valor igual a 0,50 Ejemplo: En un complejo de oficinas en el que trabajan 500 empleados, un concesionario de una marca de celulares quiere estimar la proporción de estos empleados que tienen celular con el servicio de plan de datos. Este concesionario desea un nivel de confianza del 95% para esta estimación y un margen de error máximo del 5% Como la proporción de la población no se conoce se tomó una muestra piloto en la cual se preguntó a 10 empleados, escogidos al azar, si su celular tiene plan de datos. De estos 10 entrevistados, 2 respondieron afirmativamente. 𝑝= 𝑥 2 = = 0,2 𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑑𝑒 𝑙𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑛 10 𝑛= (1,962 )(500)(0,2)(0,8) = 71,13 499(0,052 ) + (1,962 )(0.8) 𝑛 = 72 𝑒𝑚𝑝𝑙𝑒𝑎𝑑𝑜𝑠 Si no se toma la muestra piloto, se toma P = 0,5. Los cálculos para calcular el tamaño de la muestra, quedan, entonces, así: 𝑛= (1,962 )(500)(0,5)(0,5) = 151,56 𝑒𝑚𝑝𝑙𝑒𝑎𝑑𝑜𝑠 499(0,052 ) + (1,962 )(0,5) 𝑛 = 152 𝑒𝑚𝑝𝑙𝑒𝑎𝑑𝑜𝑠 Que es más del doble del tamaño de muestra calculado cuando se tomó la muestra piloto