El intervalo de confianza es una fórmula para calcular un físico. Construcción del intervalo de confianza para la expectativa matemática de la población general. Método de intervalo de confianza

Última actualización: 3 de marzo de 2020
Archivo de ejemplo

Construyamos un intervalo de confianza en MS EXCEL para estimar el valor medio de la distribución en el caso de importancia conocida diferencia.

Por supuesto la eleccion nivel de confianza depende completamente del problema que se resuelva. Por lo tanto, el grado de confianza del pasajero aéreo en la confiabilidad de la aeronave, sin duda, debería ser mayor que el grado de confianza del comprador en la confiabilidad de la bombilla.

Planteamiento del problema

Supongamos que de la población en general habiendo tomado muestra tamaño n. Se asume que Desviación Estándar esta distribución es conocida. Es necesario sobre la base de este muestreo evaluar lo desconocido distribución media(μ,) y construya el correspondiente de dos carasintervalo de confianza .

Punto estimado

Como se sabe de, Estadísticas(lo denotamos X mié) es un estimación insesgada de la media esta la población en general y tiene la distribución N (μ; σ 2 / n).

Nota : Qué hacer si necesita construir intervalo de confianza en el caso de una distribución que no es¿normal? En este caso, viene al rescate, que dice que con un tamaño suficientemente grande muestreo n de distribución no sernormal , distribución muestral de estadísticas X av voluntad aproximadamente corresponder distribución normal con parámetros N (μ; σ 2 / n).

Entonces, punto estimadomediovalores de distribución tenemos - esto muestra promedio, es decir. X mié... Ahora vayamos a intervalo de confianza.

Trazar un intervalo de confianza

Por lo general, conociendo la distribución y sus parámetros, podemos calcular la probabilidad de que una variable aleatoria tome un valor del intervalo que especificamos. Ahora hagamos lo contrario: encuentre el intervalo en el que la variable aleatoria caerá con una probabilidad dada. Por ejemplo, de las propiedades distribución normal se sabe que con una probabilidad del 95%, una variable aleatoria distribuida ley normal, caerá dentro de un intervalo de aproximadamente +/- 2 desde valor medio(ver artículo sobre). Este intervalo nos servirá de prototipo intervalo de confianza .

Ahora averigüemos si conocemos la distribución , calcular este intervalo? Para responder a la pregunta, debemos indicar la forma de la distribución y sus parámetros.

Conocemos la forma de distribución, es distribución normal(recuerda que estamos hablando de distribución de la muestraEstadísticasX mié).

No conocemos el parámetro μ (solo necesita estimarse usando intervalo de confianza), pero tenemos su estimación X mié, calculado en base a muestreo, que se puede utilizar.

El segundo parámetro es desviación estándar de la media muestrallo consideraremos conocido, es igual a σ / √n.

Porque no sabemos μ, entonces construiremos el intervalo +/- 2 desviaciones estandar no de valor medio, y de su estimación conocida X mié... Aquellos. al calcular intervalo de confianza NO asumiremos que X mié cae dentro de +/- 2 desviaciones estandar de μ con una probabilidad del 95%, y asumiremos que el intervalo +/- 2 desviaciones estandar de X mié con una probabilidad del 95% cubrirá μ - promedio de la población general, de donde se toma muestra... Estas dos declaraciones son equivalentes, pero la segunda declaración nos permite construir intervalo de confianza .

Además, refinemos el intervalo: una variable aleatoria distribuida sobre ley normal, con una probabilidad del 95% cae dentro del intervalo +/- 1.960 desviaciones estandar, no +/- 2 desviaciones estandar... Esto se puede calcular usando la fórmula = NORM.ST.OBR ((1 + 0,95) / 2), cm. archivo de ejemplo Espaciado de hojas .

Ahora podemos formular un enunciado probabilístico que nos servirá para formar intervalo de confianza: "La probabilidad de que promedio de la población es desde muestra promedio dentro de 1,960 " desviaciones estándar de la media muestral " es igual al 95% ".

El valor de probabilidad mencionado en la declaración tiene un nombre especial que está asociado con nivel de significancia α (alfa) mediante una expresión simple nivel de confianza = 1 . En nuestro caso Nivel significativo α =1-0,95=0,05 .

Ahora, basándonos en este enunciado probabilístico, escribimos una expresión para calcular intervalo de confianza :

donde Z α / 2 estándardistribución normal(tal valor de la variable aleatoria z , qué PAG (z >= Z α / 2 ) = α / 2).

Nota : Cuantil α / 2 superior determina el ancho intervalo de confianza v desviaciones estandarmuestra promedio. Cuantil α / 2 superior estándardistribución normal siempre mayor que 0, lo cual es muy conveniente.

En nuestro caso, en α = 0.05, Cuantil α / 2 superior es igual a 1.960. Para otros niveles de significancia α (10%; 1%) Cuantil α / 2 superiorZ α / 2 se puede calcular usando la fórmula = OBR ESTÁNDAR (1-α / 2) o si se conoce nivel de confianza , = NORM.ST.OBR ((1 + nivel de confianza) / 2) .

Por lo general al construir intervalos de confianza para estimar la media uso único superior α /2- cuantil y no uses menor α /2- cuantil... Esto es posible porque estándardistribución normal simétricamente sobre el eje x ( su densidad de distribución simétrico con respecto a promedio, es decir 0) . Por lo tanto, no es necesario calcular cuantil α / 2 inferior(simplemente se llama α / 2-cuantil), porque es igual superior α /2- cuantil con un signo menos.

Recuerde que, a pesar de la forma de la distribución de la cantidad x, la variable aleatoria correspondiente X mié repartido aproximadamentemulta N (μ; σ 2 / n) (ver artículo sobre). Por lo tanto, en el caso general, la expresión anterior para intervalo de confianza es solo aproximada. Si la cantidad x se distribuye sobre ley normal N (μ; σ 2 / n), entonces la expresión para intervalo de confianza es preciso.

Cálculo del intervalo de confianza en MS EXCEL

Resolvamos el problema. Tiempo de respuesta Componente electrónico a la señal de entrada es una característica importante del dispositivo. El ingeniero desea trazar un intervalo de confianza para el tiempo de respuesta promedio con un nivel de confianza del 95%. El ingeniero sabe por experiencia previa que la desviación estándar del tiempo de respuesta es de 8 ms. Se sabe que el ingeniero realizó 25 mediciones para estimar el tiempo de respuesta, el valor promedio fue de 78 ms.

Solución: Un ingeniero quiere saber el tiempo de respuesta de un dispositivo electrónico, pero entiende que el tiempo de respuesta no es una variable fija, sino aleatoria que tiene su propia distribución. Así que lo mejor con lo que puede contar es determinar los parámetros y la forma de esta distribución.

Desafortunadamente, a partir del enunciado del problema, no conocemos la forma de la distribución del tiempo de respuesta (no tiene que ser normal). , esta distribución también es desconocida. Conocido solo por él Desviación Estándarσ = 8. Por lo tanto, hasta que podamos calcular las probabilidades y construir intervalo de confianza .

Sin embargo, a pesar de que no conocemos la distribución tiemporespuesta separada, sabemos que de acuerdo con CPT , distribución de la muestratiempo promedio de respuesta es aproximadamente normal(asumiremos que las condiciones CPT se realizan porque el tamaño muestreo suficientemente grande (n = 25)) .

Es más, la media de esta distribución es promedio la distribución de una sola respuesta, es decir μ. A Desviación Estándar de esta distribución (σ / √n) se puede calcular mediante la fórmula = 8 / ROOT (25).

También se sabe que el ingeniero recibió punto estimado parámetro μ igual a 78 mseg (X cf.). Por tanto, ahora podemos calcular las probabilidades, ya que conocemos la forma de distribución normal) y sus parámetros (X cf y σ / √n).

El ingeniero quiere saber valor esperadoμ de la distribución del tiempo de respuesta. Como se mencionó anteriormente, este μ es igual a la expectativa matemática de la distribución muestral del tiempo medio de respuesta... Si usamos distribución normal N (X cf; σ / √n), entonces el μ deseado estará en el rango +/- 2 * σ / √n con una probabilidad de alrededor del 95%.

Nivel significativo es igual a 1-0,95 = 0,05.

Finalmente, encuentre el borde izquierdo y derecho intervalo de confianza... Borde izquierdo: = 78-OBR ESTÁNDAR (1-0.05 / 2) * 8 / RAÍZ (25) = 74,864 Borde derecho: = 78 + NORM.ST.OBR (1-0.05 / 2) * 8 / RAÍZ (25) = 81.136

Borde izquierdo: = NORM.OBR (0.05 / 2; 78; 8 / RAÍZ (25)) Borde derecho: = INV.NORM (1-0,05 / 2; 78; 8 / RAÍZ (25))

Respuesta : intervalo de confianza a nivel de confianza 95% y σ =8 Sra es igual a 78 +/- 3,136 ms.

V archivo de ejemplo en la hoja de trabajo Sigma se conoce una forma de cálculo y construcción bilateralintervalo de confianza por arbitrario muestras con una σ dada y nivel de significancia .

Función CONFIDENCE.NORM ()

Si los valores muestreo están en el rango B20: B79 , a Nivel significativo igual a 0,05; luego la fórmula MS EXCEL: = PROMEDIO (B20: B79) -Confianza.NORM (0.05, σ, RECUENTO (B20: B79)) devolverá el borde izquierdo intervalo de confianza .

El mismo borde se puede calcular usando la fórmula: = PROMEDIO (B20: B79) -INV.ST.NORM (1-0,05 / 2) * σ / RAÍZ (RECUENTO (B20: B79))

Nota: La función CONFIDENCE.NORM () apareció en MS EXCEL 2010. En versiones anteriores de MS EXCEL, se usaba la función CONFIDENCE ().

En las subsecciones anteriores, consideramos la cuestión de estimar un parámetro desconocido a un número. Esta estimación se llama "punto". En una serie de tareas, es necesario no solo buscar el parámetro a un valor numérico adecuado, pero también evaluar su precisión y fiabilidad. Quiere saber qué errores puede provocar la sustitución de un parámetro a su estimación puntual a y ¿con qué grado de certeza podemos esperar que estos errores se mantengan dentro de los límites conocidos?

Los problemas de este tipo son especialmente relevantes para un pequeño número de observaciones, cuando la estimación puntual y en en gran medida es accidental y la sustitución aproximada de a por a puede dar lugar a errores graves.

Dar una idea de la precisión y fiabilidad de la evaluación. a,

en estadística matemática se utilizan los denominados intervalos de confianza y probabilidades de confianza.

Dejemos para el parámetro a a partir de la experiencia estimación imparcial una. Queremos evaluar el posible error en este caso. Asignemos alguna probabilidad p suficientemente grande (por ejemplo, p = 0,9, 0,95 o 0,99) de modo que un evento con una probabilidad p pueda considerarse prácticamente fiable, y encontremos un valor s para el que

Luego, el rango de valores prácticamente posibles del error que surge al reemplazar a sobre a, será ± s; los errores grandes en valor absoluto aparecerán solo con una pequeña probabilidad a = 1 - p. Reescribimos (14.3.1) como:

Igualdad (14.3.2) significa que con probabilidad p el valor desconocido del parámetro a cae dentro del intervalo

Al mismo tiempo, conviene señalar una circunstancia. Anteriormente, hemos considerado repetidamente la probabilidad de que una variable aleatoria caiga en un intervalo no aleatorio dado. Aquí la situación es diferente: la cantidad a no accidental, pero el intervalo / p es aleatorio. Al azar su posición en el eje de abscisas, determinada por su centro a; la longitud del intervalo 2s también es aleatoria en general, ya que el valor de s se calcula, por regla general, a partir de datos experimentales. Por tanto, en este caso, sería mejor interpretar el valor de p no como la probabilidad de "acertar" en el punto a en el intervalo / p, y como la probabilidad de que el intervalo aleatorio / p cubra el punto a(figura 14.3.1).

Arroz. 14.3.1

La probabilidad p generalmente se llama nivel de confianza, y el intervalo / p es intervalo de confianza. Límites de intervalo Si. a x = a- arena a 2 = a + pero llamado límites de confianza.

Demos una interpretación más del concepto de intervalo de confianza: se puede considerar como un intervalo de valores de parámetros. a, compatible con datos experimentales y no contradecirlos. De hecho, si aceptamos considerar un evento con probabilidad a = 1-p prácticamente imposible, entonces aquellos valores del parámetro a para los cuales a - a> s, debe reconocerse que contradice los datos experimentales, y aquellos para los que | a - a a t na 2.

Dejemos para el parámetro a hay una estimación no sesgada una. Si conociéramos la ley de distribución de la cantidad a, el problema de encontrar el intervalo de confianza sería muy simple: bastaría con encontrar un valor de s para el cual

La dificultad es que la ley de distribución de la estimación a depende de la ley de distribución de la cantidad X y, por tanto, sobre sus parámetros desconocidos (en particular, sobre el propio parámetro a).

Para sortear esta dificultad, se puede aplicar la siguiente aproximación aproximada: reemplace los parámetros desconocidos en la expresión para s con sus estimaciones puntuales. Con una cantidad relativamente grande de experimentos NS(alrededor de 20 ... 30) esta técnica suele dar resultados satisfactorios en términos de precisión.

Como ejemplo, considere el problema del intervalo de confianza para la expectativa matemática.

Deja que se produzca NS X, cuyas características son la expectativa matemática T y varianza D- desconocido. Para estos parámetros se obtuvieron las siguientes estimaciones:

Se requiere construir el intervalo de confianza / p, correspondiente a la probabilidad de confianza p, para la expectativa matemática T magnitudes X.

Al resolver este problema, utilizaremos el hecho de que la cantidad T representa la cantidad NS Variables aleatorias independientes distribuidas de forma idéntica X h y de acuerdo con el teorema del límite central para lo suficientemente grande NS su ley de distribución es cercana a la normal. En la práctica, incluso con un número relativamente pequeño de términos (alrededor de 10 ... 20), la ley de distribución de la suma puede considerarse aproximadamente normal. Partiremos del hecho de que la cantidad T distribuido según la ley normal. Las características de esta ley (expectativa matemática y varianza) son iguales, respectivamente T y

(ver capítulo 13 subsección 13.3). Suponga que la cantidad D conocemos y encontramos tal valor Ep, para el cual

Aplicando la fórmula (6.3.5) del Capítulo 6, expresamos la probabilidad en el lado izquierdo de (14.3.5) en términos de la función de distribución normal

donde es la desviación estándar de la estimación T.

De la ecuación

encontramos el valor de Sp:

donde arg Ф * (х) es la función inversa de Ф * (NS), aquellos. tal valor del argumento para el cual la función de distribución normal es igual a NS.

Dispersión D, a través del cual se expresa el valor a 1P, no lo sabemos exactamente; como valor aproximado, puede utilizar la estimación D(14.3.4) y poner aproximadamente:

Así, se ha resuelto aproximadamente el problema de construir un intervalo de confianza, que es igual a:

donde gp se define mediante la fórmula (14.3.7).

Para evitar la interpolación inversa en las tablas de la función Ф * (л) al calcular s p, es conveniente compilar una tabla especial (Tabla 14.3.1), donde los valores de la cantidad

dependiendo de la p. La cantidad (p determina para la ley normal el número de desviaciones estándar que deben separarse a la derecha y a la izquierda del centro de dispersión para que la probabilidad de golpear el área resultante sea igual ap.

Mediante el valor de 7 p, el intervalo de confianza se expresa como:

Tabla 14.3.1

Ejemplo 1. Realicé 20 experimentos sobre el valor X; los resultados se muestran en la tabla. 14.3.2.

Tabla 14.3.2

Se requiere encontrar una estimación de la expectativa matemática de la cantidad X y construya un intervalo de confianza correspondiente a un nivel de confianza de p = 0,8.

Solución. Tenemos:

Habiendo elegido como origen l: = 10, de acuerdo con la tercera fórmula (14.2.14) encontramos la estimación insesgada D :

Según la tabla. 14.3,1 encontrar

Límites de confianza:

Intervalo de confianza:

Valores paramétricos T, que se encuentran en este intervalo son consistentes con los datos experimentales dados en la tabla. 14.3.2.

El intervalo de confianza para la varianza se puede construir de manera similar.

Deja que se produzca NS experimentos independientes sobre una variable aleatoria X con parámetros desconocidos de y A, y para la varianza D se obtiene la estimación insesgada:

Se requiere construir aproximadamente el intervalo de confianza para la varianza.

De la fórmula (14.3.11) se ve que la cantidad D representa

la suma NS variables aleatorias de la forma. Estas cantidades no son

independiente, ya que cualquiera de ellos incluye la cantidad T, dependiente de todos los demás. Sin embargo, se puede demostrar que al aumentar NS la ley de distribución de su suma también es cercana a la normal. Prácticamente en NS= 20 ... 30 ya puede considerarse normal.

Supongamos que esto es así y encontremos las características de esta ley: expectativa matemática y varianza. Desde la partitura D- imparcial, entonces M [D] = D.

Calcular la varianza D D está asociado con cálculos relativamente complejos, por lo que presentamos su expresión sin salida:

donde q 4 es el cuarto momento central de la cantidad X.

Para usar esta expresión, debe sustituir los valores 4 y D(al menos aproximado). En lugar de D puedes usar su estimación D. En principio, el cuarto momento central también puede ser reemplazado por una estimación, por ejemplo, por un valor de la forma:

pero tal reemplazo dará una precisión extremadamente baja, ya que en general, con un número limitado de experimentos, los momentos de alto orden se determinan con grandes errores. Sin embargo, en la práctica sucede a menudo que la forma de la ley de distribución de la cantidad X conocido de antemano: sólo se desconocen sus parámetros. Entonces puedes intentar expresar q 4 en términos de D.

Tomemos el caso más frecuente cuando la cantidad X distribuido según la ley normal. Luego, su cuarto momento central se expresa en términos de varianza (ver Capítulo 6, Subsección 6.2);

y la fórmula (14.3.12) da o

Reemplazando en (14.3.14) lo desconocido D su evaluación D, obtenemos: de donde

El momento c 4 se puede expresar en términos de D también en algunos otros casos, cuando la distribución de la cantidad X no es normal, pero se conoce su apariencia. Por ejemplo, para la ley de densidad uniforme (ver Capítulo 5) tenemos:

donde (a, P) es el intervalo en el que se especifica la ley.

Por eso,

Por la fórmula (14.3.12) obtenemos: de donde encontramos aproximadamente

En los casos en que se desconozca la forma de la ley de distribución para 26, se recomienda usar la fórmula (14.3.16) al estimar aproximadamente el valor de a /), si no hay razones especiales para creer que esta ley difiere mucho de el normal (tiene una curtosis notable positiva o negativa) ...

Si el valor aproximado de a /) se obtiene de una forma u otra, entonces es posible construir un intervalo de confianza para la varianza de la misma manera que lo construimos para la expectativa matemática:

donde el valor, dependiendo de la probabilidad dada p, se encuentra de acuerdo con la tabla. 14.3.1.

Ejemplo 2. Encuentre un intervalo de confianza de aproximadamente 80% para la varianza de una variable aleatoria X en las condiciones del ejemplo 1, si se sabe que la cantidad X distribuido de acuerdo a una ley cercana a lo normal.

Solución. El valor sigue siendo el mismo que en la tabla. 14.3.1:

Según la fórmula (14.3.16)

Usando la fórmula (14.3.18), encontramos el intervalo de confianza:

El rango correspondiente de valores de la desviación estándar: (0.21; 0.29).

14.4. Métodos exactos para construir intervalos de confianza para los parámetros de una variable aleatoria distribuida según la ley normal.

En la subsección anterior, analizamos métodos aproximados para construir intervalos de confianza para la expectativa y la varianza. Aquí daremos una idea de los métodos exactos para resolver el mismo problema. Enfatizamos que para encontrar con precisión los intervalos de confianza, es absolutamente necesario conocer de antemano la forma de la ley de distribución de la cantidad X, mientras que para la aplicación de métodos aproximados esto no es necesario.

La idea detrás de métodos precisos para construir intervalos de confianza es la siguiente. Cualquier intervalo de confianza se encuentra a partir de la condición que expresa la probabilidad de cumplimiento de algunas desigualdades, que incluyen la estimación que nos interesa. una. Ley de distribución de estimación a en el caso general depende de los parámetros desconocidos de la cantidad X. Sin embargo, a veces es posible pasar desigualdades de una variable aleatoria a a alguna otra función de los valores observados X n X 2, ..., X p. cuya ley de distribución no depende de parámetros desconocidos, sino que depende únicamente del número de experimentos y de la forma de la ley de distribución para la cantidad X. Las variables aleatorias de este tipo juegan un papel importante en la estadística matemática; se han estudiado con mayor detalle para el caso de la distribución normal de la cantidad X.

Por ejemplo, se demostró que para una distribución normal de la cantidad X valor aleatorio

obedece al llamado Ley de distribución de estudiantes con NS- 1 grado de libertad; la densidad de esta ley tiene la forma

donde Г (х) es la función gamma conocida:

También se demostró que la variable aleatoria

tiene una "distribución% 2" con NS- 1 grado de libertad (ver Capítulo 7), cuya densidad se expresa mediante la fórmula

Sin detenernos en las derivaciones de las distribuciones (14.4.2) y (14.4.4), mostramos cómo se pueden aplicar al construir intervalos de confianza para los parámetros. ty D.

Deja que se produzca NS experimentos independientes sobre una variable aleatoria X, distribuido de acuerdo con la ley normal con parámetros desconocidos tio. Para estos parámetros, las estimaciones se obtuvieron

Se requiere construir intervalos de confianza para ambos parámetros correspondientes a la probabilidad de confianza p.

Construyamos primero el intervalo de confianza para la expectativa matemática. Naturalmente, este intervalo se toma simétrico con respecto a T; denotar por s p la mitad de la longitud del intervalo. El valor s p debe elegirse de modo que la condición

Intentemos pasar el lado izquierdo de la igualdad (14.4.5) de la variable aleatoria T a una variable aleatoria T, distribuido de acuerdo con la ley del estudiante. Para hacer esto, multiplicamos ambos lados de la desigualdad | m-w? |

por un valor positivo: o, usando la notación (14.4.1),

Encontremos un número / p tal que el valor / p se encuentre a partir de la condición

De la fórmula (14.4.2) se ve que (1) es una función par, por lo tanto (14.4.8) da

La igualdad (14.4.9) determina el valor de / p en función de p. Si tienes a tu disposición una tabla de valores de la integral

entonces el valor de / p se puede encontrar por interpolación inversa en la tabla. Sin embargo, es más conveniente compilar una tabla de valores de / p por adelantado. Este cuadro se incluye en el apéndice (cuadro 5). Esta tabla muestra los valores en función de la probabilidad de confianza py el número de grados de libertad NS- 1. Habiendo determinado / p según la tabla. 5 y asumiendo

encontraremos la mitad del ancho del intervalo de confianza / py el intervalo en sí

Ejemplo 1. Hizo 5 experimentos independientes con una variable aleatoria. X, normalmente distribuido con parámetros desconocidos T y sobre. Los resultados de los experimentos se muestran en la tabla. 14.4.1.

Tabla 14.4.1

Encuentra un grado T para la expectativa matemática y construya para ella un intervalo de confianza del 90% / p (es decir, el intervalo correspondiente a la probabilidad de confianza p = 0,9).

Solución. Tenemos:

Según la tabla 5 aplicaciones para NS - 1 = 4 y p = 0.9 encontramos dónde

El intervalo de confianza será

Ejemplo 2. Para las condiciones del ejemplo 1 de la subsección 14.3, asumiendo el valor X distribuidos normalmente, encuentre el intervalo de confianza exacto.

Solución. Según la tabla 5, encontramos aplicaciones para NS - 1 = 19ir =

0,8 / p = 1,328; de aquí

Comparando con la solución del ejemplo 1 de la subsección 14.3 (e p = 0.072), estamos convencidos de que la discrepancia es muy insignificante. Si mantenemos la precisión en el segundo decimal, entonces los intervalos de confianza encontrados por métodos exactos y aproximados coinciden:

Pasemos a construir un intervalo de confianza para la varianza. Considere la estimación de la varianza insesgada

y expresa la variable aleatoria D a través del valor V(14.4.3), que tiene una distribución x 2 (14.4.4):

Conociendo la ley de distribución de la cantidad V, se puede encontrar el intervalo / (1, en el que cae con una probabilidad p.

Ley de distribución k n _ x (v) La cantidad I 7 tiene la forma que se muestra en la Fig. 14.4.1.

Arroz. 14.4.1

Surge la pregunta: ¿cómo elegir el intervalo / p? Si la ley de distribución de la cantidad V fuera simétrico (como la ley normal o la distribución de Student), sería natural tomar el intervalo / p simétrico con respecto a la expectativa matemática. En este caso, la ley k n _ x (v) asimétrico. Acordemos elegir el intervalo / p de modo que las probabilidades de salida de la cantidad V fuera del intervalo a la derecha y a la izquierda (áreas sombreadas en la figura 14.4.1) eran iguales e iguales

Para construir un intervalo / p con tal propiedad, usaremos table. 4 apéndices: enumera números y) tal que

por la cantidad V, teniendo x 2 -distribución con r grados de libertad. En nuestro caso r = n- 1. Arreglemos r = n- 1 y busque en la línea correspondiente de la tabla. 4 dos significados x 2 - uno corresponde a la probabilidad el otro - probabilidades Denotemos estos

sentido a las 2 y ¿SG? El intervalo tiene a las 2, su izquierda, y y ~ extremo derecho.

Ahora encontremos el intervalo de confianza deseado / | para la varianza con límites D, y D 2, que cubre el punto D con probabilidad p:

Construyamos tal intervalo / (, = (?> B A), que cubre el punto D si y solo si la cantidad V cae en el intervalo / p. Demostremos que el intervalo

satisface esta condición. De hecho, las desigualdades son equivalentes a desigualdades

y estas desigualdades se satisfacen con probabilidad p. Por tanto, el intervalo de confianza para la varianza se encuentra y se expresa mediante la fórmula (14.4.13).

Ejemplo 3. Encuentre el intervalo de confianza para la varianza en las condiciones del Ejemplo 2 de la Subsección 14.3, si se sabe que el valor X distribuido normalmente.

Solución. Tenemos ... Según tabla 4 del apéndice

encontramos en r = n - 1 = 19

Usando la fórmula (14.4.13), encontramos el intervalo de confianza para la varianza

Intervalo correspondiente para la desviación estándar: (0,21; 0,32). Este intervalo solo excede ligeramente el intervalo (0.21; 0.29) obtenido en el ejemplo 2 de la subsección 14.3 por un método aproximado.

  • La figura 14.3.1 considera un intervalo de confianza que es simétrico con respecto a a. En general, como veremos más adelante, esto es opcional.

Intervalo de confianza(CI; en inglés, intervalo de confianza - CI) obtenido en un estudio con una muestra da una medida de la precisión (o incertidumbre) de los resultados del estudio para sacar conclusiones sobre la población de todos esos pacientes (población general). La definición correcta de IC del 95% se puede formular de la siguiente manera: el 95% de dichos intervalos contendrá el valor real en la población. Esta interpretación es algo menos precisa: CI es el rango de valores dentro del cual uno puede estar 95% seguro de que contiene el valor verdadero. Cuando se utilizan IC, el énfasis está en cuantificar el efecto, en contraposición al valor P que se obtiene al probar la significancia estadística. El valor P no mide ninguna cantidad, sino que sirve como una medida de la solidez de la evidencia contra la hipótesis nula de "ningún efecto". El valor P por sí solo no nos dice nada sobre la magnitud de la diferencia, ni siquiera sobre su dirección. Por lo tanto, los valores independientes de P son absolutamente desinformativos en artículos o resúmenes. Por el contrario, IC indica tanto la cantidad de efecto de interés inmediato, como la utilidad de un tratamiento, como la solidez de la evidencia. Por lo tanto, JI está directamente relacionado con la práctica de la MBE.

Enfoque de evaluación para análisis estadístico, ilustrado por el IC, tiene como objetivo medir la magnitud del efecto de interés (sensibilidad de la prueba diagnóstica, frecuencia de casos pronosticados, reducción del riesgo relativo en el tratamiento, etc.), así como medir la incertidumbre en este efecto. La mayoría de las veces, el IC es el rango de valores en ambos lados de la estimación, en el que es probable que se encuentre el valor real, y puede estar seguro al 95% de esto. El acuerdo de utilizar la probabilidad del 95% de forma arbitraria, así como el valor P<0,05 для оценки статистической значимости, и авторы иногда используют 90% или 99% ДИ. Заметим, что слово «интервал» означает диапазон величин и поэтому стоит в единственном числе. Две величины, которые ограничивают интервал, называются «доверительными пределами».

El IC se basa en la idea de que el mismo estudio realizado en otras muestras de pacientes no conduciría a resultados idénticos, sino que sus resultados se distribuirían en torno a un valor verdadero pero desconocido. En otras palabras, el IC describe esto como "variabilidad dependiente de la muestra". El IC no refleja incertidumbre adicional debido a otras causas; en particular, no incluye los efectos de la pérdida selectiva de pacientes en el seguimiento, cumplimiento deficiente o medición de resultados inexacta, falta de cegamiento, etc. Por tanto, CI siempre subestima la cantidad total de incertidumbre.

Calcular el intervalo de confianza

Cuadro A1.1. Errores estándar e intervalos de confianza para algunas mediciones clínicas

Normalmente, el IC se calcula a partir de una estimación observada de una medida cuantitativa, como la diferencia (d) entre dos proporciones y un error estándar (EE) en la estimación de esta diferencia. El IC del 95% aproximado así obtenido es d ± 1,96 SE. La fórmula cambia según la naturaleza de la medida de resultado y el alcance del IC. Por ejemplo, en un ensayo aleatorizado y controlado con placebo de la vacuna acelular contra la tos ferina, 72 de los 1.670 (4,3%) bebés que recibieron la vacuna desarrollaron tos ferina y 240 de los 1.665 (14,4%) controles. La diferencia de porcentaje, conocida como reducción del riesgo absoluto, es del 10,1%. El SE de esta diferencia es 0,99%. En consecuencia, el IC del 95% es 10,1% + 1,96 x 0,99%, es decir, de 8.2 a 12.0.

A pesar de los diferentes enfoques filosóficos, el IC y las pruebas de significación estadística están estrechamente relacionadas matemáticamente.

Por tanto, el valor P es "significativo"; R<0,05 соответствует 95% ДИ, который исключает величину эффекта, указывающую на отсутствие различия. Например, для различия между двумя средними пропорциями это ноль, а для относительного риска или отношения шансов - единица. При некоторых обстоятельствах эти два подхода могут быть не совсем эквивалентны. Преобладающая точка зрения: оценка с помощью ДИ - предпочтительный подход к суммированию результатов исследования, но ДИ и величина Р взаимодополняющи, и во многих статьях используются оба способа представления результатов.

La incertidumbre (incertidumbre) de la estimación, expresada en CI, está relacionada en gran medida con la raíz cuadrada del tamaño de la muestra. Las muestras pequeñas proporcionan menos información que las grandes, y el IC es correspondientemente más amplio en la muestra más pequeña. Por ejemplo, un artículo que compara las características de tres pruebas que se utilizan para diagnosticar la infección por Helicobacter pylori informó una sensibilidad del 95,8% de la prueba de urea en el aliento (95% CI 75-100). Si bien el número del 95,8% parece impresionante, una pequeña muestra de 24 pacientes adultos con I. pylori significa que existe una incertidumbre significativa en esta estimación, como lo muestra el IC amplio. De hecho, el límite inferior del 75% es mucho más bajo que la estimación del 95,8%. Si se observara la misma sensibilidad en una muestra de 240 personas, entonces el IC del 95% sería 92,5-98,0, lo que da más garantías de que la prueba es muy sensible.

En los ensayos controlados aleatorios (ECA), los resultados no significativos (es decir, aquellos con P> 0.05) son particularmente susceptibles a malas interpretaciones. El IC es especialmente útil aquí porque muestra cuán consistentes son los resultados con el verdadero efecto clínicamente beneficioso. Por ejemplo, en un ECA que comparó la sutura y la anastomosis con grapas al colon, la infección de la herida se desarrolló en el 10,9% y el 13,5% de los pacientes, respectivamente (p = 0,30). El IC del 95% para esta diferencia es del 2,6% (-2 a +8). Incluso en este estudio de 652 pacientes, existe la probabilidad de que exista una diferencia modesta en la incidencia de infecciones resultantes de los dos procedimientos. Cuanta menos investigación, mayor es la incertidumbre. Sung y col. realizaron un ECA para comparar la infusión de octreotida versus la escleroterapia de emergencia para la hemorragia aguda por várices en 100 pacientes. En el grupo de octreótido, la tasa de detención hemorrágica fue del 84%; en el grupo de escleroterapia - 90%, lo que da P = 0,56. Tenga en cuenta que las tasas de sangrado en curso son similares a las de infección de la herida en el estudio mencionado. En este caso, sin embargo, el IC del 95% para la diferencia de intervención es del 6% (-7 a +19). Este intervalo es bastante amplio en comparación con la diferencia del 5% que sería de interés clínico. Está claro que el estudio no descarta una diferencia significativa en la efectividad. Por lo tanto, la conclusión de los autores de que “la infusión de octreotida y la escleroterapia son igualmente eficaces para tratar el sangrado de las venas varicosas” definitivamente no es válida. En casos como este, donde, como aquí, el IC del 95% para la reducción del riesgo absoluto (ARR) incluye cero, el IC del número necesario a tratar (NNT) es bastante difícil de interpretar. ... El NPLP y su IC se derivan del recíproco del ACP (multiplicado por 100 si estos valores se dan como porcentajes). Aquí obtenemos BPHP = 100: 6 = 16.6 con un IC del 95% de -14.3 a 5.3. Como puede ver en la nota al pie "d" de la tabla. A1.1, este IC incluye los valores de BPHP de 5.3 a infinito y los valores de BPHP de 14.3 a infinito.

Los IC se pueden construir para las estimaciones o comparaciones estadísticas más comúnmente utilizadas. En el caso de los ECA, incluye la diferencia entre las proporciones medias, los riesgos relativos, las razones de probabilidad y la NPP. De manera similar, se pueden obtener IC para todas las estimaciones principales realizadas en estudios de la precisión de las pruebas de diagnóstico: sensibilidad, especificidad, valor predictivo de un resultado positivo (todos los cuales son proporciones simples) y razones de probabilidad: estimaciones obtenidas en metanálisis y estudios de comparación con controles. Un programa de computadora para computadoras personales que cubre muchos de estos usos de la identificación está disponible con la segunda edición de Statistics with Confidence. Las macros para calcular el IC para proporciones están disponibles de forma gratuita para Excel y los programas estadísticos SPSS y Minitab en http://www.uwcm.ac.uk/study/medicine/epidemiology_statistics / research / statistics / proporions, htm.

Múltiples evaluaciones del efecto del tratamiento.

Si bien los IC son deseables para los resultados del estudio primario, no son necesarios para todos los resultados. El IC se ocupa de comparaciones clínicamente relevantes. Por ejemplo, al comparar dos grupos, el IC que se construye para distinguir entre los grupos, como se muestra en los ejemplos anteriores, es correcto, y no el IC que se puede construir para la evaluación en cada grupo. No solo es inútil proporcionar IC separados para las calificaciones en cada grupo, esta representación puede ser engañosa. Asimismo, el enfoque correcto al comparar la eficacia del tratamiento en diferentes subgrupos es comparar dos (o más) subgrupos directamente. Es incorrecto suponer que el tratamiento es eficaz sólo en un subgrupo si su IC no excluye ningún efecto y otros no. Los IC también son útiles cuando se comparan resultados en varios subgrupos. En la Fig. Un 1.1 muestra el riesgo relativo de eclampsia en mujeres con preeclampsia en un subgrupo de mujeres de un ECA controlado con placebo de sulfato de magnesio.

Arroz. A1.2. El diagrama de bosque muestra los resultados de 11 ensayos clínicos aleatorizados de la vacuna contra el rotavirus bovino para la prevención de la diarrea versus placebo. Para evaluar el riesgo relativo de diarrea, se utilizó un intervalo de confianza del 95%. El tamaño del cuadrado negro es proporcional a la cantidad de información. Además, se muestran la puntuación acumulada de eficacia del tratamiento y el intervalo de confianza del 95% (indicado por un rombo). El metaanálisis utilizó un modelo de efectos aleatorios que supera algunos de los preestablecidos; por ejemplo, podría ser el tamaño utilizado para calcular el tamaño de la muestra. Para un criterio más estricto, todo el rango de IC debe mostrar beneficios por encima de un mínimo predeterminado.

Ya hemos comentado el error en el que la falta de significación estadística se toma como indicación de que dos tratamientos son igualmente efectivos. Es igualmente importante no equiparar significación estadística con significación clínica. Se puede inferir la importancia clínica cuando el resultado es estadísticamente significativo y la magnitud de la evaluación de la eficacia del tratamiento

La investigación puede mostrar si los resultados son estadísticamente significativos y cuáles son clínicamente importantes y cuáles no. En la Fig. A1.2 muestra los resultados de cuatro pruebas, para las cuales todo el IC<1, т.е. их результаты статистически значимы при Р <0,05 , . После высказанного предположения о том, что клинически важным различием было бы сокращение риска диареи на 20% (ОР = 0,8), все эти испытания показали клинически значимую оценку сокращения риска, и лишь в исследовании Treanor весь 95% ДИ меньше этой величины. Два других РКИ показали клинически важные результаты, которые не были статистически значимыми. Обратите внимание, что в трёх испытаниях точечные оценки эффективности лечения были почти идентичны, но ширина ДИ различалась (отражает размер выборки). Таким образом, по отдельности доказательная сила этих РКИ различна.

Intervalo de confianza para la expectativa - este es un intervalo calculado a partir de los datos, que con una probabilidad conocida contiene la expectativa matemática de la población general. Una estimación natural de la expectativa matemática es la media aritmética de sus valores observados. Por lo tanto, más adelante en la lección, usaremos los términos "promedio", "valor medio". En las tareas de cálculo del intervalo de confianza, con mayor frecuencia se requiere una respuesta del tipo "El intervalo de confianza de la media [el valor en un problema particular] es de [valor más bajo] a [valor más alto]". Con la ayuda del intervalo de confianza, es posible estimar no solo los valores promedio, sino también el peso específico de una característica particular de la población general. Los valores medios, varianza, desviación estándar y error, a través de los cuales llegaremos a nuevas definiciones y fórmulas, se desmontan en la lección. Características de la muestra y la población .

Estimaciones puntuales e intermedias de la media

Si el valor promedio de la población general se estima mediante un número (punto), entonces la estimación del valor promedio desconocido de la población general se toma como el promedio específico, que se calcula a partir de la muestra de observaciones. En este caso, el valor de la media muestral, una variable aleatoria, no coincide con el valor promedio de la población general. Por lo tanto, al especificar el valor medio de la muestra, es necesario indicar el error de muestreo al mismo tiempo. Como medida del error muestral, se utiliza el error estándar, que se expresa en las mismas unidades de medida que la media. Por lo tanto, a menudo se usa la siguiente notación :.

Si se requiere que la estimación de la media esté asociada con una cierta probabilidad, entonces el parámetro de interés para la población general debe estimarse no por un número, sino por un intervalo. El intervalo de confianza es el intervalo en el que, con cierta probabilidad PAG Se encuentra el valor del indicador estimado de la población general. Intervalo de confianza, en el que la probabilidad PAG = 1 - α se encuentra una variable aleatoria, calculada de la siguiente manera:

,

α = 1 - PAG, que se puede encontrar en el apéndice de casi cualquier libro de estadística.

En la práctica, la media y la varianza de la población no se conocen, por lo que la varianza de la población se reemplaza por la varianza de la muestra y la media de la población se reemplaza por la media de la muestra. Por tanto, el intervalo de confianza en la mayoría de los casos se calcula de la siguiente manera:

.

La fórmula del intervalo de confianza se puede utilizar para estimar la media de la población si

  • se conoce la desviación estándar de la población;
  • o se desconoce la desviación estándar de la población, pero el tamaño de la muestra es superior a 30.

La media muestral es la estimación insesgada de la media poblacional. A su vez, la varianza muestral no es una estimación insesgada de la varianza de la población. Para obtener una estimación insesgada de la varianza de la población general en la fórmula de varianza de la muestra, el tamaño de la muestra norte debe ser reemplazado con norte-1.

Ejemplo 1. Información recopilada de 100 cafés seleccionados al azar en una ciudad que el número promedio de empleados en ellos es 10,5 con una desviación estándar de 4,6. Determine el intervalo de confianza del 95% del número de trabajadores del café.

donde es el valor crítico de la distribución normal estándar para el nivel de significancia α = 0,05 .

Por tanto, el intervalo de confianza del 95% para el número medio de trabajadores de los cafés osciló entre 9,6 y 11,4.

Ejemplo 2. Para una muestra aleatoria de una población general de 64 observaciones, se calcularon los siguientes valores totales:

la suma de los valores en las observaciones,

la suma de los cuadrados de la desviación de los valores de la media .

Calcule el intervalo de confianza del 95% para la expectativa.

calcular la desviación estándar:

,

calcular el valor medio:

.

Sustituya los valores en la expresión del intervalo de confianza:

donde es el valor crítico de la distribución normal estándar para el nivel de significancia α = 0,05 .

Obtenemos:

Por tanto, el intervalo de confianza del 95% para la expectativa matemática de esta muestra osciló entre 7,484 y 11,266.

Ejemplo 3. Para una muestra aleatoria de una población general de 100 observaciones, se calculó una media de 15,2 y una desviación estándar de 3,2. Calcule el intervalo de confianza del 95% para la expectativa, luego el intervalo de confianza del 99%. Si el tamaño de la muestra y su variación permanecen sin cambios, pero el coeficiente de confianza aumenta, ¿se estrechará o ampliará el intervalo de confianza?

Sustituya estos valores en la expresión del intervalo de confianza:

donde es el valor crítico de la distribución normal estándar para el nivel de significancia α = 0,05 .

Obtenemos:

.

Por tanto, el intervalo de confianza del 95% para la media de esta muestra osciló entre 14,57 y 15,82.

Nuevamente sustituimos estos valores en la expresión del intervalo de confianza:

donde es el valor crítico de la distribución normal estándar para el nivel de significancia α = 0,01 .

Obtenemos:

.

Por tanto, el intervalo de confianza del 99% para la media de esta muestra osciló entre 14,37 y 16,02.

Como puede ver, con un aumento en el coeficiente de confianza, el valor crítico de la distribución normal estándar también aumenta y, por lo tanto, los puntos de inicio y finalización del intervalo se ubican más lejos de la media y, por lo tanto, del intervalo de confianza. porque la expectativa matemática aumenta.

Estimaciones puntuales e intermedias de la gravedad específica

El peso específico de alguna característica de la muestra se puede interpretar como una estimación puntual del peso específico pag la misma característica en la población general. Si este valor debe estar relacionado con la probabilidad, entonces se debe calcular el intervalo de confianza de la gravedad específica. pag rasgo en la población general con una probabilidad PAG = 1 - α :

.

Ejemplo 4. Hay dos candidatos en alguna ciudad A y B postularse para alcalde. Se entrevistó aleatoriamente a 200 habitantes de la ciudad, de los cuales el 46% respondió que votarían por el candidato. A, 26% - para el candidato B y el 28% no sabe por quién votarán. Determine el intervalo de confianza del 95% para la proporción de residentes de la ciudad que apoyan al candidato. A.

Konstantin Krawchik explica claramente qué es un intervalo de confianza en la investigación médica y cómo utilizarlo.

Katren-Stil continúa publicando un ciclo de Konstantin Kravchik sobre estadísticas médicas. En los dos artículos anteriores, el autor se ha ocupado de la explicación de conceptos como y.

Konstantin Kravchik

Matemático analítico. Especialista en Investigación Estadística en Medicina y Humanidades

Moscú

Muy a menudo, en los artículos sobre ensayos clínicos, puede encontrar una frase misteriosa: "intervalo de confianza" (IC del 95% o IC del 95% - intervalo de confianza). Por ejemplo, el artículo puede leer: "Para evaluar la importancia de las diferencias, se utilizó la prueba t de Student con el cálculo de un intervalo de confianza del 95%".

¿Cuál es el valor del "intervalo de confianza del 95%" y por qué calcularlo?

¿Qué es un intervalo de confianza? - Este es el rango en el que se encuentran las verdaderas medias en la población. ¿Y qué, hay valores medios "falsos"? En cierto sentido, sí, los hay. En explicamos que es imposible medir el parámetro de interés en toda la población, por lo que los investigadores se contentan con una muestra limitada. En esta muestra (por ejemplo, por peso corporal) hay un valor promedio (un cierto peso), por el cual juzgamos el valor promedio en toda la población general. Sin embargo, es poco probable que el peso medio de la muestra (especialmente pequeño) coincida con el peso medio de la población general. Por tanto, es más correcto calcular y utilizar el rango de valores medios de la población general.

Por ejemplo, imagine que el IC del 95% (IC del 95%) para la hemoglobina es de 110 a 122 g / L. Esto significa que con una probabilidad del 95%, el valor medio real de hemoglobina en la población general estará en el rango de 110 a 122 g / l. En otras palabras, no conocemos el promedio de hemoglobina en la población general, pero podemos indicar el rango de valores para este rasgo con un 95% de probabilidad.

El intervalo de confianza es especialmente relevante para la diferencia de medias entre grupos o, como se le llama, tamaño del efecto.

Digamos que comparábamos la eficacia de dos preparados de hierro: uno que lleva mucho tiempo en el mercado y otro que acaba de registrarse. Después del curso de la terapia, se evaluó la concentración de hemoglobina en los grupos de pacientes estudiados y el programa estadístico calculó que la diferencia entre los valores medios de los dos grupos con una probabilidad del 95% está en el rango de 1,72 a 14,36 g. / l (Tabla 1).

Pestaña. 1. Criterio para muestras independientes
(grupos comparados por nivel de hemoglobina)

Esto debe interpretarse de la siguiente manera: en algunos de los pacientes de la población general que toman el nuevo fármaco, la hemoglobina será en promedio 1,72-14,36 g / l más alta que en aquellos que tomaron el fármaco ya conocido.

En otras palabras, en la población general, la diferencia en los valores medios de hemoglobina en grupos con una probabilidad del 95% está dentro de estos límites. Dependerá del investigador juzgar si esto es mucho o no. El punto de todo esto es que no estamos trabajando con un valor promedio, sino con un rango de valores, por lo tanto, estimamos de manera más confiable la diferencia de parámetro entre grupos.

En los paquetes estadísticos, a discreción del investigador, puede reducir o ampliar de forma independiente los límites del intervalo de confianza. Al reducir la probabilidad del intervalo de confianza, reducimos el rango de las medias. Por ejemplo, al 90% de CI, el rango de medias (o diferencia de medias) será más estrecho que al 95%.

Por el contrario, aumentar la probabilidad al 99% amplía el rango de valores. Al comparar grupos, el límite inferior del IC puede cruzar la marca cero. Por ejemplo, si expandimos el intervalo de confianza al 99%, entonces los límites del intervalo variaron de –1 a 16 g / L. Esto significa que en la población general existen grupos, la diferencia entre las medias entre las cuales según el atributo estudiado es igual a 0 (M = 0).

Con el intervalo de confianza, puede probar hipótesis estadísticas. Si el intervalo de confianza cruza cero, entonces la hipótesis nula, que supone que los grupos no difieren en el parámetro estudiado, es correcta. Un ejemplo se describe arriba, cuando ampliamos los límites al 99%. En algún lugar de la población general, encontramos grupos que no diferían de ninguna manera.

Intervalo de confianza del 95% de la diferencia de hemoglobina, (g / l)


La línea muestra el intervalo de confianza del 95% para la diferencia en la hemoglobina media entre los dos grupos. La línea pasa la marca cero, por lo tanto, existe una diferencia entre las medias igual a cero, lo que confirma la hipótesis nula de que los grupos no difieren. El rango de diferencia entre los grupos es de -2 a 5 g / l, lo que significa que la hemoglobina puede disminuir en 2 g / lo aumentar en 5 g / l.

El intervalo de confianza es una métrica muy importante. Gracias a él, se puede ver si las diferencias en los grupos se debieron realmente a la diferencia de medias o debido a una muestra grande, ya que con una muestra grande las posibilidades de encontrar diferencias son mayores que con una pequeña.

En la práctica, podría verse así. Tomamos una muestra de 1000 personas, medimos el nivel de hemoglobina y encontramos que el intervalo de confianza para la diferencia en las medias era de 1.2 a 1.5 g / L. El nivel de significancia estadística en este caso p

Vemos que la concentración de hemoglobina aumentó, pero casi imperceptiblemente, por tanto, la significación estadística apareció precisamente por el tamaño de la muestra.

El intervalo de confianza se puede calcular no solo para valores medios, sino también para proporciones (y razones de riesgo). Por ejemplo, estamos interesados ​​en el intervalo de confianza de las proporciones de pacientes que lograron la remisión mientras tomaban un fármaco desarrollado. Supongamos que el IC del 95% para las proporciones, es decir, para la proporción de tales pacientes, se encuentra en el rango de 0,60 a 0,80. Así, podemos decir que nuestro fármaco tiene un efecto terapéutico del 60 al 80% de los casos.