L'intervallo di confidenza è una formula per calcolare un fisico. Costruzione dell'intervallo di confidenza per l'aspettativa matematica della popolazione generale. Metodo dell'intervallo di confidenza

Ultimo aggiornamento: 3 marzo 2020
File di esempio

Costruiamo un intervallo di confidenza in MS EXCEL per stimare il valore medio della distribuzione nel caso di nota importanza varianza.

Ovviamente la scelta livello di fiducia dipende completamente dal problema da risolvere. Pertanto, il grado di fiducia del passeggero aereo nell'affidabilità dell'aeromobile, senza dubbio, dovrebbe essere superiore al grado di fiducia dell'acquirente nell'affidabilità della lampadina.

Resoconto del problema

Supponiamo che da la popolazione generale avendo preso campione taglia nf. Si presume che deviazione standard questa distribuzione è nota. È necessario sulla base di questo campionamento valutare l'ignoto distribuzione media(μ,) e costruire il corrispondente doppia facciaintervallo di confidenza .

Stima del punto

Come è noto da, statistiche(noi lo denotiamo X mer) è un stima imparziale della media questo la popolazione generale e ha distribuzione N (μ; 2 / n).

Nota : Cosa fare se devi costruire intervallo di confidenza nel caso di una distribuzione che non ènormale? In questo caso, viene in soccorso, che dice che con una taglia sufficientemente grande campionamento n dalla distribuzione non essendonormale , distribuzione campionaria delle statistiche X av volere circa corrispondere distribuzione normale con parametri N (μ; σ 2 / n).

Così, stima del puntomezzovalori di distribuzione abbiamo - questo campione medio, cioè. X mer... Ora passiamo a intervallo di confidenza.

Tracciare un intervallo di confidenza

Solitamente, conoscendo la distribuzione ed i suoi parametri, possiamo calcolare la probabilità che la variabile casuale assuma un valore dall'intervallo da noi specificato. Ora facciamo il contrario: troviamo l'intervallo in cui cadrà la variabile casuale con una data probabilità. Ad esempio, dalle proprietà distribuzione normaleè noto che con una probabilità del 95%, una variabile casuale distribuita su legge normale, rientrerà in un intervallo di circa +/- 2 da valore medio(vedi articolo a riguardo). Questo intervallo servirà da prototipo per noi intervallo di confidenza .

Ora capiamo se conosciamo la distribuzione , calcolare questo intervallo? Per rispondere alla domanda, dobbiamo indicare la forma della distribuzione e i suoi parametri.

Conosciamo la forma di distribuzione - lo è distribuzione normale(ricordiamo che stiamo parlando distribuzione del campionestatisticheX mer).

Non conosciamo il parametro μ (deve solo essere stimato usando intervallo di confidenza), ma abbiamo la sua stima X mer, calcolato in base a campionamento, che può essere utilizzato.

Il secondo parametro è deviazione standard della media campionarialo considereremo noto, è uguale a / √n.

Perché non sappiamo μ, quindi costruiremo l'intervallo +/- 2 deviazioni standard non da valore medio, e dalla sua stima nota X mer... Quelli. quando si calcola intervallo di confidenza NON assumeremo che X mer rientra nell'intervallo +/- 2 deviazioni standard da μ con una probabilità del 95%, e assumeremo che l'intervallo +/- 2 deviazioni standard a partire dal X mer con una probabilità del 95% coprirà μ - media della popolazione generale, da cui è tratto campione... Queste due affermazioni sono equivalenti, ma la seconda affermazione ci permette di costruire intervallo di confidenza .

Inoltre, raffiniamo l'intervallo: una variabile casuale distribuita su legge normale, con una probabilità del 95% rientra nell'intervallo +/- 1.960 deviazioni standard, non +/- 2 deviazioni standard... Questo può essere calcolato usando la formula = NORM.ST.OBR ((1 + 0,95) / 2), cm. file di esempio Spaziatura foglio .

Possiamo ora formulare un'affermazione probabilistica che ci servirà per formare intervallo di confidenza: “La probabilità che media della popolazioneè da campione medio entro 1.960" deviazioni standard della media campionaria "è pari al 95%”.

Il valore di probabilità menzionato nell'affermazione ha un nome speciale a cui è associato livello di significatività α (alfa) con una semplice espressione livello di fiducia = 1 . Nel nostro caso livello di significatività α =1-0,95=0,05 .

Ora, sulla base di questa affermazione probabilistica, scriviamo un'espressione per calcolare intervallo di confidenza :

dove Z α / 2 standarddistribuzione normale(tale valore della variabile casuale z , che cosa P (z >= Z α / 2 ) = α / 2).

Nota : α superiore / 2-quantile determina la larghezza intervallo di confidenza v deviazioni standardcampione medio. α superiore / 2-quantile standarddistribuzione normale sempre maggiore di 0, il che è molto conveniente.

Nel nostro caso, ad α = 0,05, α superiore / 2-quantile è pari a 1.960. Per altri livelli di significatività α (10%; 1%) α superiore / 2-quantileZ α / 2 può essere calcolato utilizzando la formula = STANDARD ST.OBR (1-α / 2) o se noto livello di fiducia , = NORM.ST.OBR ((1 + livello di fiducia) / 2) .

Di solito durante la costruzione intervalli di confidenza per la stima della media usare solo α . superiore /2- quantile e non usare α . inferiore /2- quantile... Questo è possibile perché standarddistribuzione normale simmetricamente rispetto all'asse x ( la sua densità di distribuzione simmetrico rispetto a media, cioè 0) . Pertanto, non è necessario calcolare inferiore α / 2-quantile(si chiama semplicemente α / 2-quantile), perché è uguale α upper superiore /2- quantile con un segno meno.

Ricordiamo che, nonostante la forma della distribuzione della quantità x, la corrispondente variabile casuale X mer distribuito circabene N (μ; σ 2 / n) (vedi articolo a riguardo). Pertanto, nel caso generale, l'espressione di cui sopra per intervallo di confidenzaè solo approssimativo. Se la quantità x è distribuita su legge normale N (μ; σ 2 / n), quindi l'espressione per intervallo di confidenzaè preciso.

Calcolo dell'intervallo di confidenza in MS EXCEL

Risolviamo il problema. Tempo di risposta componente elettronico al segnale di ingresso è una caratteristica importante del dispositivo. Il tecnico desidera tracciare un intervallo di confidenza per il tempo di risposta medio a un livello di confidenza del 95%. L'ingegnere sa dalla precedente esperienza che la deviazione standard del tempo di risposta è di 8 ms. È noto che l'ingegnere ha effettuato 25 misurazioni per stimare il tempo di risposta, il valore medio è stato di 78 ms.

Soluzione: Un ingegnere vuole conoscere il tempo di risposta di un dispositivo elettronico, ma capisce che il tempo di risposta non è una variabile fissa, ma casuale che ha una propria distribuzione. Quindi il meglio su cui può contare è determinare i parametri e la forma di questa distribuzione.

Sfortunatamente, dalla dichiarazione del problema, non conosciamo la forma della distribuzione del tempo di risposta (non deve essere normale). , anche questa distribuzione è sconosciuta. Conosciuto solo per lui deviazione standard= 8. Pertanto, mentre non possiamo calcolare le probabilità e costruire intervallo di confidenza .

Tuttavia, nonostante non si conosca la distribuzione temporisposta separata, sappiamo che secondo CPT , distribuzione del campionetempo di risposta medioè approssimativamente normale(assumeremo che le condizioni CPT vengono eseguiti perché la dimensione campionamento abbastanza grande (n = 25)) .

Inoltre, la media di questa distribuzione è media la distribuzione di una singola risposta, cioè μ. UN deviazione standard di questa distribuzione (σ / √n) può essere calcolata con la formula = 8 / ROOT (25).

È anche noto che l'ingegnere ha ricevuto stima del punto parametro μ pari a 78 msec (X cfr.). Pertanto, ora possiamo calcolare le probabilità, poiché conosciamo la forma di distribuzione ( normale) e i suoi parametri (X cf e σ / √n).

L'ingegnere vuole sapere valore attesoμ della distribuzione del tempo di risposta. Come accennato in precedenza, questo μ è uguale a l'aspettativa matematica della distribuzione campionaria del tempo di risposta medio... Se usiamo distribuzione normale N (X cf; σ / √n), allora il μ desiderato sarà nell'intervallo +/- 2 * σ / √n con una probabilità di circa il 95%.

Livello di significativitàè uguale a 1-0,95 = 0,05.

Infine, trova il bordo sinistro e destro intervallo di confidenza... Bordo sinistro: = 78-STANDARD ST.OBR (1-0,05 / 2) * 8 / RADICE (25) = 74,864 Bordo destro: = 78 + NORM.ST.OBR (1-0,05 / 2) * 8 / RADICE (25) = 81,136

Bordo sinistro: = NORM.OBR (0,05 / 2; 78; 8 / ROOT (25)) Bordo destro: = INV.NORM. (1-0,05 / 2; 78; 8 / ROOT (25))

Risposta : intervallo di confidenza a livello di confidenza 95% e =8 SMè uguale a 78 +/- 3.136 ms.

V file di esempio sul foglio di lavoro Sigmaè nota una forma per il calcolo e la costruzione bilateraleintervallo di confidenza per arbitrario campioni con un dato σ e livello di significatività .

CONFIDENCE.NORM () funzione

Se i valori campionamento sono nell'intervallo B20: B79 , un livello di significatività pari a 0,05; quindi la formula MS EXCEL: = MEDIA (B20: B79) -NORM.FIDUCIA (0.05, σ, CONTEGGIO (B20: B79)) restituirà il bordo sinistro intervallo di confidenza .

Lo stesso bordo può essere calcolato utilizzando la formula: = MEDIA (B20: B79) -INV.ST.NORM (1-0,05 / 2) * σ / ROOT (CONTEGGIO (B20: B79))

Nota Nota: la funzione CONFIDENCE.NORM () è stata visualizzata in MS EXCEL 2010. Nelle versioni precedenti di MS EXCEL, è stata utilizzata la funzione CONFIDENCE ().

Nelle sottosezioni precedenti, abbiamo considerato la questione della stima di un parametro sconosciuto un un numero. Questa stima è chiamata "punto". In una serie di attività, è necessario non solo trovare il parametro un un valore numerico adeguato, ma anche valutarne l'accuratezza e l'affidabilità. Vuoi sapere a quali errori può portare la sostituzione di un parametro un la sua stima puntuale un e con quale grado di certezza possiamo aspettarci che questi errori rimangano entro limiti noti?

Problemi di questo tipo sono particolarmente rilevanti per un piccolo numero di osservazioni, quando la stima puntuale e in in larga misura, è accidentale e la sostituzione approssimativa di a con a può portare a gravi errori.

Per dare un'idea dell'accuratezza e dell'affidabilità della valutazione un,

nelle statistiche matematiche vengono utilizzati i cosiddetti intervalli di confidenza e le probabilità di confidenza.

Lascia per il parametro un per esperienza stima imparziale un. Vogliamo valutare il possibile errore in questo caso. Assegniamo una probabilità p sufficientemente grande (ad esempio, p = 0,9, 0,95 o 0,99) tale che un evento con probabilità p può essere considerato praticamente affidabile, e troviamo un tale valore s per il quale

Quindi l'intervallo di valori praticamente possibili dell'errore che si verifica durante la sostituzione un Su un, sarà ± s; grandi errori in valore assoluto appariranno solo con una piccola probabilità a = 1 - p. Riscriviamo la (14.3.1) come:

L'uguaglianza (14.3.2) significa che con probabilità p il valore incognito del parametro un rientra nell'intervallo

In questo caso, va annotata una circostanza. In precedenza, abbiamo ripetutamente considerato la probabilità che una variabile casuale rientri in un dato intervallo non casuale. Qui la situazione è diversa: la quantità un non casuale, ma l'intervallo / p è casuale. Casualmente la sua posizione sull'asse delle ascisse, determinata dal suo centro un; anche la lunghezza dell'intervallo 2s è in generale casuale, poiché il valore di s è calcolato, di regola, da dati sperimentali. Pertanto, in questo caso, sarebbe meglio interpretare il valore di p non come la probabilità di "colpire" il punto un nell'intervallo / p, e come la probabilità che l'intervallo casuale / p copra il punto un(fig. 14.3.1).

Riso. 14.3.1

La probabilità p è solitamente chiamata livello di confidenza, e l'intervallo / p è intervallo di confidenza. Confini dell'intervallo Se. a x = a- sabbia un 2 = un + ma chiamato limiti di confidenza.

Diamo un'altra interpretazione del concetto di intervallo di confidenza: può essere considerato come un intervallo di valori di parametro un, compatibile con i dati sperimentali e non contraddicendoli. Infatti, se accettiamo di considerare praticamente impossibile un evento con probabilità a = 1-p, allora quei valori del parametro a per cui aa> s, devono essere riconosciuti in contraddizione con i dati sperimentali, e quelli per i quali | a - un a t na 2.

Lascia per il parametro un c'è una stima imparziale un. Se conoscessimo la legge di distribuzione della quantità un, il problema di trovare l'intervallo di confidenza sarebbe molto semplice: basterebbe trovare un tale valore di s per cui

La difficoltà è che la legge di distribuzione della stima un dipende dalla legge di distribuzione della quantità X e, quindi, sui suoi parametri incogniti (in particolare, sul parametro stesso un).

Per aggirare questa difficoltà, si può applicare la seguente approssimazione approssimativa: sostituire i parametri incogniti nell'espressione per s con le loro stime puntuali. Con un numero relativamente elevato di esperimenti NS(circa 20...30) questa tecnica di solito dà risultati soddisfacenti in termini di accuratezza.

Ad esempio, si consideri il problema dell'intervallo di confidenza per l'aspettativa matematica.

Lascia che sia prodotto NS X, le cui caratteristiche sono l'aspettativa matematica T e varianza D- sconosciuto. Per questi parametri sono state ottenute le seguenti stime:

È necessario costruire l'intervallo di confidenza / p, corrispondente alla probabilità di confidenza p, per l'aspettativa matematica T grandezze X.

Nel risolvere questo problema, useremo il fatto che la quantità T rappresenta l'importo NS variabili casuali identicamente distribuite indipendenti X h e secondo il teorema del limite centrale per sufficientemente grande NS la sua legge di distribuzione è vicina alla normalità. In pratica, anche con un numero relativamente piccolo di termini (circa 10...20), la legge di distribuzione della somma può essere considerata approssimativamente normale. Procederemo dal fatto che la quantità T distribuito secondo la legge normale. Le caratteristiche di questa legge - aspettativa matematica e varianza - sono uguali, rispettivamente T e

(vedi capitolo 13 sottosezione 13.3). Supponiamo che la quantità D conosciamo e troviamo tale valore Ep, per cui

Applicando la formula (6.3.5) nel Capitolo 6, esprimiamo la probabilità a sinistra della (14.3.5) in termini della funzione di distribuzione normale

dove è la deviazione standard della stima T.

Dall'equazione

troviamo il valore di Sp:

dove arg Ф * (х) è la funzione inversa di Ф * (NS), quelli. un tale valore dell'argomento per cui la funzione di distribuzione normale è uguale a NS.

Dispersione D, attraverso il quale si esprime il valore un 1P, non lo sappiamo esattamente; come suo valore approssimativo, puoi usare la stima D(14.3.4) e poniamo approssimativamente:

È stato quindi risolto approssimativamente il problema della costruzione di un intervallo di confidenza, che è pari a:

dove gp è definito dalla formula (14.3.7).

Per evitare l'interpolazione inversa nelle tabelle della funzione Ф * (ë) nel calcolo di s p, è conveniente compilare una tabella speciale (Tabella 14.3.1), che fornisce i valori della quantità

a seconda del p. La quantità (p determina per la legge normale il numero di deviazioni standard che devono essere posticipate a destra e a sinistra del centro di scattering affinché la probabilità di colpire l'area risultante sia pari a p.

Attraverso il valore di 7 p, l'intervallo di confidenza è espresso come:

Tabella 14.3.1

Esempio 1. Condotto 20 esperimenti sul valore X; i risultati sono riportati in tabella. 14.3.2.

Tabella 14.3.2

È necessario trovare una stima per l'aspettativa matematica della quantità X e costruire un intervallo di confidenza corrispondente a un livello di confidenza di p = 0,8.

Soluzione. Abbiamo:

Avendo scelto come origine l: = 10, secondo la terza formula (14.2.14) troviamo la stima imparziale D :

Secondo la tabella. 14.3,1 trova

Limiti di fiducia:

Intervallo di confidenza:

Valori dei parametri T, giacenti in questo intervallo sono coerenti con i dati sperimentali riportati in tabella. 14.3.2.

L'intervallo di confidenza per la varianza può essere costruito in modo simile.

Lascia che sia prodotto NS esperimenti indipendenti su una variabile casuale X con parametri incogniti da e A, e per la varianza D la stima imparziale si ottiene:

È necessario costruire approssimativamente l'intervallo di confidenza per la varianza.

Dalla formula (14.3.11) si vede che la quantità D rappresenta

la somma NS variabili casuali della forma. Queste quantità non sono

indipendenti, poiché ciascuno di essi include la quantità T, dipendente da tutti gli altri. Tuttavia, si può dimostrare che all'aumentare NS anche la legge di distribuzione della loro somma è prossima alla normalità. Praticamente a NS= 20 ... 30 si può già considerare normale.

Supponiamo che sia così e troviamo le caratteristiche di questa legge: aspettativa matematica e varianza. Dal momento che il punteggio D- imparziale, allora M [D] = D.

Calcolo della varianza RE REè associato a calcoli relativamente complessi, quindi presentiamo la sua espressione senza output:

dove q 4 è il quarto momento centrale della quantità X.

Per utilizzare questa espressione, è necessario sostituire i valori \ u200b \ u200b4 e D(almeno approssimativo). Invece di D puoi usare il suo preventivo D. In linea di principio, il quarto momento centrale può essere sostituito anche da una stima, ad esempio da un valore della forma:

ma una tale sostituzione darà una precisione estremamente bassa, poiché in generale, con un numero limitato di esperimenti, i momenti di ordine elevato sono determinati con grandi errori. Tuttavia, in pratica, spesso accade che la forma della legge di distribuzione della quantità X noto in anticipo: solo i suoi parametri sono sconosciuti. Allora possiamo provare a esprimere q 4 in termini di D.

Prendiamo il caso più frequente in cui la quantità X distribuito secondo la legge normale. Quindi il suo quarto momento centrale è espresso in termini di varianza (vedi Capitolo 6 Sottosezione 6.2);

e la formula (14.3.12) dà o

Sostituendo nella (14.3.14) l'ignoto D la sua valutazione D, otteniamo: da dove

Il momento c 4 può essere espresso in termini di D anche in alcuni altri casi, quando la distribuzione della quantità X non è normale, ma il suo aspetto è noto. Ad esempio, per la legge della densità uniforme (vedi Capitolo 5) abbiamo:

dove (a, P) è l'intervallo in cui è posta la legge.

Quindi,

Con la formula (14.3.12) si ottiene: da cui troviamo approssimativamente

Nei casi in cui la forma della legge di distribuzione di 26 non è nota, si raccomanda comunque di utilizzare la formula (14.3.16) quando si stima approssimativamente il valore di a /), a meno che non vi siano ragioni speciali per ritenere che questa legge sia molto diversa da il normale (ha un evidente eccesso positivo o negativo) ...

Se si ottiene il valore approssimativo di a /) in un modo o nell'altro, è possibile costruire un intervallo di confidenza per la varianza nello stesso modo in cui l'abbiamo costruito per l'aspettativa matematica:

dove il valore, a seconda della data probabilità p, si trova secondo la tabella. 14.3.1.

Esempio 2. Trova un intervallo di confidenza di circa l'80% per la varianza di una variabile casuale X nelle condizioni dell'Esempio 1, se è noto che la quantità X distribuito secondo una legge prossima alla normalità.

Soluzione. Il valore rimane lo stesso della tabella. 14.3.1:

Secondo la formula (14.3.16)

Utilizzando la formula (14.3.18), troviamo l'intervallo di confidenza:

Il corrispondente intervallo di valori della deviazione standard: (0,21; 0,29).

14.4. Metodi esatti per costruire intervalli di confidenza per i parametri di una variabile casuale distribuita secondo la legge normale

Nella sottosezione precedente, abbiamo esaminato metodi approssimativamente approssimativi per la costruzione di intervalli di confidenza per aspettativa e varianza. Qui daremo un'idea dei metodi esatti per risolvere lo stesso problema. Sottolineiamo che per trovare con precisione gli intervalli di confidenza è assolutamente necessario conoscere in anticipo la forma della legge di distribuzione della quantità X, mentre per l'applicazione di metodi approssimativi ciò non è necessario.

L'idea alla base di metodi accurati per la costruzione di intervalli di confidenza è la seguente. Qualsiasi intervallo di confidenza è ricavato dalla condizione che esprime la probabilità del compimento di determinate disuguaglianze, che includono la stima di nostro interesse un. Legge di distribuzione della stima un nel caso generale dipende dai parametri incogniti della grandezza X. Tuttavia, a volte è possibile passare le disuguaglianze da una variabile casuale un a qualche altra funzione dei valori osservati X n X 2, ..., X pag. la cui legge di distribuzione non dipende da parametri incogniti, ma dipende solo dal numero di esperimenti e dalla forma della legge di distribuzione per la quantità X. Le variabili casuali di questo tipo giocano un ruolo importante nella statistica matematica; sono stati studiati più in dettaglio per il caso della distribuzione normale della quantità X.

Ad esempio, è stato dimostrato che per una distribuzione normale della quantità X valore casuale

obbedisce al cosiddetto Legge sulla distribuzione degli studenti insieme a NS- 1 grado di libertà; la densità di questa legge ha la forma

dove Г (х) è la funzione gamma nota:

È stato anche dimostrato che la variabile casuale

ha una "distribuzione% 2" con NS- 1 grado di libertà (vedi Capitolo 7), la cui densità è espressa dalla formula

Senza soffermarsi sulle derivazioni delle distribuzioni (14.4.2) e (14.4.4), mostriamo come possono essere applicate nella costruzione degli intervalli di confidenza per i parametri ty D.

Lascia che sia prodotto NS esperimenti indipendenti su una variabile casuale X, distribuito secondo la legge normale con parametri incogniti tio. Per questi parametri sono state ottenute le stime

È necessario costruire intervalli di confidenza per entrambi i parametri corrispondenti alla probabilità di confidenza p.

Costruiamo prima l'intervallo di confidenza per l'aspettativa matematica. Naturalmente questo intervallo si assume simmetrico rispetto a T; denotiamo con sp la metà della lunghezza dell'intervallo. Il valore s p deve essere scelto in modo che la condizione

Proviamo a passare a sinistra dell'uguaglianza (14.4.5) dalla variabile casuale T a una variabile casuale T, distribuito secondo la legge dello studente. Per fare ciò, moltiplichiamo entrambi i lati della disuguaglianza | m-w? |

da un valore positivo: oppure, usando la notazione (14.4.1),

Troviamo un numero / p tale che il valore / p si trovi dalla condizione

Si vede dalla formula (14.4.2) che (1) è una funzione pari, quindi (14.4.8) dà

L'uguaglianza (14.4.9) determina il valore di / p a seconda di p. Se hai a disposizione una tabella dei valori dell'integrale

quindi il valore di / p può essere trovato per interpolazione inversa nella tabella. Tuttavia, è più conveniente compilare in anticipo una tabella di valori / p. Tale tabella è riportata in appendice (Tabella 5). Questa tabella mostra i valori in funzione della probabilità di confidenza p e del numero di gradi di libertà NS- 1. Avendo determinato / p secondo la tabella. 5 e supponendo

troveremo metà della larghezza dell'intervallo di confidenza / p e l'intervallo stesso

Esempio 1. Fatto 5 esperimenti indipendenti su una variabile casuale X, distribuito normalmente con parametri sconosciuti T e a proposito di. I risultati degli esperimenti sono riportati in tabella. 14.4.1.

Tabella 14.4.1

Trova un preventivo T per l'aspettativa matematica e costruire un intervallo di confidenza del 90% / p per esso (cioè, l'intervallo corrispondente alla probabilità di confidenza p = 0,9).

Soluzione. Abbiamo:

Secondo la tabella 5 della domanda di NS - 1 = 4 e p = 0.9 troviamo dove

L'intervallo di confidenza sarà

Esempio 2. Per le condizioni dell'esempio 1 della sottosezione 14.3, assumendo il valore X distribuito normalmente, trovare l'intervallo di confidenza esatto.

Soluzione. Secondo la tabella 5, troviamo applicazioni per NS - 1 = 19ir =

0,8 / p = 1,328; da qui

Confrontando con la soluzione dell'esempio 1 della sottosezione 14.3 (e p = 0,072), siamo convinti che la discrepanza sia molto insignificante. Se manteniamo l'accuratezza alla seconda cifra decimale, gli intervalli di confidenza trovati con metodi esatti e approssimati coincidono:

Passiamo alla costruzione di un intervallo di confidenza per la varianza. Considera la stima imparziale della varianza

ed esprimi la variabile casuale D attraverso il valore V(14.4.3) con distribuzione x 2 (14.4.4):

Conoscere la legge di distribuzione della quantità V, si trova l'intervallo / (1, in cui cade con una data probabilità p.

Legge sulla distribuzione k n _ x (v) la quantità I 7 ha la forma mostrata in Fig. 14.4.1.

Riso. 14.4.1

La domanda sorge spontanea: come scegliere l'intervallo / p? Se la legge di distribuzione della quantità V fosse simmetrico (come la legge normale o la distribuzione di Student), sarebbe naturale assumere l'intervallo /p simmetrico rispetto all'aspettativa matematica. In questo caso, la legge k n _ x (v) asimmetrico. Concordiamo di scegliere l'intervallo / p in modo che le probabilità dell'output della quantità V al di fuori dell'intervallo a destra e a sinistra (aree ombreggiate in Fig. 14.4.1) erano uguali e uguali

Per costruire un intervallo / p con questa proprietà, useremo table. 4 appendici: elenca i numeri e) tale che

per il valore V, avente x 2 -distribuzione con r gradi di libertà. Nel nostro caso r = n- 1. Ripariamo r = n- 1 e trova nella riga corrispondente della tabella. 4 due significati x2 - una corrispondente alla probabilità l'altra - probabilità Indichiamole

significato alle 2 e xl? L'intervallo ha alle 2, la sua sinistra, e y ~ estremità destra.

Cerchiamo ora l'intervallo di confidenza desiderato / | per la varianza con limiti D, e D 2, che copre il punto D con probabilità p:

Costruiamo un tale intervallo / (, = (?> B A), che copre il punto D se e solo se la quantità V cade nell'intervallo / p. Dimostriamo che l'intervallo

soddisfa questa condizione. Infatti, le disuguaglianze sono equivalenti alle disuguaglianze

e queste disuguaglianze sono soddisfatte con probabilità p. Quindi, l'intervallo di confidenza per la varianza si trova ed è espresso dalla formula (14.4.13).

Esempio 3. Trovare l'intervallo di confidenza per la varianza nelle condizioni dell'Esempio 2 della Sottosezione 14.3, se è noto che il valore X distribuito normalmente.

Soluzione. Abbiamo ... Secondo la tabella 4 dell'appendice

troviamo a r = n- 1 = 19

Usando la formula (14.4.13), troviamo l'intervallo di confidenza per la varianza

Intervallo corrispondente per la deviazione standard: (0,21; 0,32). Questo intervallo supera solo leggermente l'intervallo (0,21; 0,29) ottenuto nell'esempio 2 della sottosezione 14.3 con un metodo approssimato.

  • La Figura 14.3.1 considera un intervallo di confidenza simmetrico rispetto a a. In generale, come vedremo in seguito, questo è facoltativo.

Intervallo di confidenza(CI; in inglese, intervallo di confidenza - CI) ottenuto in uno studio con un campione fornisce una misura dell'accuratezza (o incertezza) dei risultati dello studio al fine di trarre conclusioni sulla popolazione di tutti questi pazienti (popolazione generale). La corretta definizione di 95% CI può essere formulata come segue: il 95% di tali intervalli conterrà il valore vero nella popolazione. Questa interpretazione è un po' meno accurata: CI è l'intervallo di valori entro il quale si può essere sicuri al 95% che contenga il valore vero. Quando si utilizzano CI, l'enfasi è sulla quantificazione dell'effetto, in contrasto con il valore P che si ottiene testando la significatività statistica. Il valore P non misura alcuna quantità, ma serve piuttosto come misura della forza dell'evidenza contro l'ipotesi nulla di "nessun effetto". Il valore P di per sé non ci dice nulla sull'entità della differenza, né sulla sua direzione. Pertanto, i valori indipendenti di P sono assolutamente non informativi in ​​articoli o abstract. Al contrario, CI indica sia la quantità di effetto di interesse immediato, come l'utilità di un trattamento, sia la forza delle prove. Pertanto, JI è direttamente correlato alla pratica dell'EBM.

Approccio di valutazione a analisi statistica, illustrato dal CI, è finalizzato a misurare l'entità dell'effetto di interesse (sensibilità del test diagnostico, frequenza dei casi previsti, riduzione del rischio relativo nel trattamento, ecc.), nonché a misurare l'incertezza in questo effetto. Molto spesso, CI è l'intervallo di valori su entrambi i lati della stima, in cui è probabile che si trovi il valore vero, e puoi esserne sicuro al 95%. L'accordo per utilizzare arbitrariamente la probabilità del 95%, così come il valore P<0,05 для оценки статистической значимости, и авторы иногда используют 90% или 99% ДИ. Заметим, что слово «интервал» означает диапазон величин и поэтому стоит в единственном числе. Две величины, которые ограничивают интервал, называются «доверительными пределами».

L'IC si basa sull'idea che lo stesso studio eseguito su altri campioni di pazienti non porterebbe a risultati identici, ma che i loro risultati sarebbero distribuiti attorno a un valore vero ma sconosciuto. In altre parole, l'IC lo descrive come "variabilità dipendente dal campione". L'IC non riflette ulteriori incertezze dovute ad altre cause; in particolare, non include gli effetti della perdita selettiva del paziente nel monitoraggio, della scarsa compliance o della misurazione imprecisa dei risultati, della mancanza di accecamento e così via. CI quindi sottovaluta sempre la quantità totale di incertezza.

Calcolo dell'intervallo di confidenza

Tabella A1.1. Errori standard e intervalli di confidenza per alcune misurazioni cliniche

Tipicamente, l'IC viene calcolato da una stima osservata di una misura quantitativa, come la differenza (d) tra due proporzioni e un errore standard (SE) nella stima di questa differenza. L'IC del 95% approssimativo così ottenuto è d ± 1,96 SE. La formula cambia a seconda della natura della misura di esito e dell'ambito dell'IC. Ad esempio, in uno studio randomizzato e controllato con placebo sul vaccino contro la pertosse acellulare, 72 su 1.670 (4,3%) neonati che hanno ricevuto il vaccino hanno sviluppato la pertosse e 240 su 1.665 (14,4%) controlli. La differenza percentuale, nota come riduzione assoluta del rischio, è del 10,1%. Il SE di questa differenza è 0,99%. Di conseguenza, l'IC al 95% è 10,1% + 1,96 x 0,99%, cioè da 8.2 a 12.0.

Nonostante i diversi approcci filosofici, CI e test di significatività statistica sono strettamente correlati matematicamente.

Pertanto, il valore di P è "significativo", cioè R<0,05 соответствует 95% ДИ, который исключает величину эффекта, указывающую на отсутствие различия. Например, для различия между двумя средними пропорциями это ноль, а для относительного риска или отношения шансов - единица. При некоторых обстоятельствах эти два подхода могут быть не совсем эквивалентны. Преобладающая точка зрения: оценка с помощью ДИ - предпочтительный подход к суммированию результатов исследования, но ДИ и величина Р взаимодополняющи, и во многих статьях используются оба способа представления результатов.

L'incertezza (incertezza) della stima, espressa in CI, è in gran parte correlata alla radice quadrata della dimensione del campione. I campioni piccoli forniscono meno informazioni rispetto a quelli grandi e l'IC è corrispondentemente più ampio nel campione più piccolo. Ad esempio, un articolo che confronta le caratteristiche di tre test utilizzati per diagnosticare l'infezione da Helicobacter pylori ha riportato una sensibilità del 95,8% del test respiratorio dell'urea (IC 95% 75-100). Mentre il numero del 95,8% sembra impressionante, un piccolo campione di 24 pazienti adulti con I. pylori significa che c'è una significativa incertezza in questa stima, come mostrato dall'IC ampio. Infatti, il limite inferiore del 75% è molto inferiore alla stima del 95,8%. Se la stessa sensibilità fosse osservata in un campione di 240 persone, l'IC al 95% sarebbe 92,5-98,0, dando maggiori garanzie che il test sia altamente sensibile.

Negli studi randomizzati controllati (RCT), i risultati non significativi (cioè quelli con P>0,05) sono particolarmente suscettibili di interpretazioni errate. L'IC è particolarmente utile qui perché mostra quanto i risultati siano coerenti con il vero effetto clinicamente benefico. Ad esempio, in un RCT di confronto tra sutura e sutura anastomosi al colon, l'infezione della ferita si è sviluppata rispettivamente nel 10,9% e nel 13,5% dei pazienti (P ​​= 0,30). L'IC al 95% per questa differenza è del 2,6% (da -2 a +8). Anche in questo studio su 652 pazienti, rimane la probabilità che vi sia una modesta differenza nell'incidenza delle infezioni derivanti dalle due procedure. Meno ricerche, più incertezza. Cantato et al. ha eseguito un RCT per confrontare l'infusione di octreotide rispetto alla scleroterapia di emergenza per il sanguinamento acuto da varici in 100 pazienti. Nel gruppo octreotide, il tasso di arresto emorragico è stato dell'84%; nel gruppo scleroterapia - 90%, che dà P = 0,56. Si noti che i tassi di sanguinamento in corso sono simili a quelli dell'infezione della ferita nello studio menzionato. In questo caso, tuttavia, l'IC al 95% per la differenza di intervento è del 6% (da -7 a +19). Questo intervallo è piuttosto ampio rispetto alla differenza del 5% che sarebbe di interesse clinico. È chiaro che lo studio non esclude una differenza significativa in termini di efficacia. Pertanto, la conclusione degli autori "l'infusione di octreotide e la scleroterapia sono ugualmente efficaci nel trattamento del sanguinamento delle vene varicose" non è assolutamente valida. In casi come questo, dove, come qui, l'IC al 95% per la riduzione del rischio assoluto (ARR) include zero, l'IC per il numero necessario da trattare (NNT) è piuttosto difficile da interpretare. ... Il NPLP e il suo CI sono derivati ​​dal reciproco dell'ACP (moltiplicato per 100 se espresso in percentuale). Qui otteniamo BPHP = 100: 6 = 16,6 con un IC al 95% da -14,3 a 5,3. Come puoi vedere dalla nota "d" nella tabella. A1.1, questo CI include i valori BPHP da 5,3 a infinito e i valori BPHP da 14,3 a infinito.

Gli IC possono essere costruiti per le stime oi confronti statistici più comunemente usati. Per gli RCT, include la differenza tra proporzioni medie, rischi relativi, odds ratio e NPP. Allo stesso modo, gli IC possono essere ottenuti per tutte le principali stime effettuate negli studi sull'accuratezza dei test diagnostici - sensibilità, specificità, valore predittivo di un risultato positivo (che sono tutte proporzioni semplici) e rapporti di verosimiglianza - stime ottenute in meta-analisi e studi di confronto con il controllo. Un programma per personal computer che copre molti di questi usi dell'ID è disponibile con la seconda edizione di Statistics with Confidence. Le macro per il calcolo dell'IC per le proporzioni sono disponibili gratuitamente per Excel e i programmi statistici SPSS e Minitab all'indirizzo http://www.uwcm.ac.uk/study/medicine/epidemiology_statistics/search/statistica/proporzioni, htm.

Valutazioni multiple dell'effetto del trattamento

Sebbene gli IC siano desiderabili per i risultati dello studio primario, non sono richiesti per tutti i risultati. Il CI si occupa di confronti clinicamente rilevanti. Ad esempio, quando si confrontano due gruppi, l'IC che è costruito per distinguere tra i gruppi, come mostrato negli esempi sopra, è corretto e non l'IC che può essere costruito per la valutazione in ogni gruppo. Non solo è inutile fornire CI separati per le valutazioni in ciascun gruppo, questa rappresentazione può essere fuorviante. Allo stesso modo, l'approccio corretto quando si confronta l'efficacia del trattamento in diversi sottogruppi è confrontare direttamente due (o più) sottogruppi. Non è corretto presumere che il trattamento sia efficace in un solo sottogruppo se il suo IC non esclude alcun effetto e altri no. I CI sono utili anche quando si confrontano i risultati tra più sottogruppi. Nella fig. A 1.1 mostra il rischio relativo di eclampsia in donne con preeclampsia in un sottogruppo di donne da un RCT di solfato di magnesio controllato con placebo.

Riso. A1.2. La trama forestale mostra i risultati di 11 studi clinici randomizzati sul vaccino contro il rotavirus bovino per la prevenzione della diarrea rispetto al placebo. Nella valutazione del rischio relativo di diarrea, è stato utilizzato un intervallo di confidenza del 95%. La dimensione del quadrato nero è proporzionale alla quantità di informazioni. Inoltre, vengono mostrati il ​​punteggio cumulativo di efficacia del trattamento e l'intervallo di confidenza al 95% (indicato da un diamante). La meta-analisi ha utilizzato un modello a effetti casuali che supera alcuni di quelli prestabiliti; ad esempio, potrebbe essere la dimensione utilizzata nel calcolo della dimensione del campione. Per un criterio più rigoroso, l'intera gamma CI dovrebbe mostrare benefici superiori a un minimo predeterminato.

Abbiamo già discusso dell'errore in cui la mancanza di significatività statistica è presa come indicazione che due trattamenti sono ugualmente efficaci. È altrettanto importante non equiparare la significatività statistica alla significatività clinica. L'importanza clinica può essere dedotta quando l'esito è statisticamente significativo e l'ampiezza della valutazione dell'efficacia del trattamento

La ricerca può mostrare se i risultati sono statisticamente significativi e quali sono clinicamente importanti e quali no. Nella fig. A1.2 mostra i risultati di quattro prove per le quali l'intero CI<1, т.е. их результаты статистически значимы при Р <0,05 , . После высказанного предположения о том, что клинически важным различием было бы сокращение риска диареи на 20% (ОР = 0,8), все эти испытания показали клинически значимую оценку сокращения риска, и лишь в исследовании Treanor весь 95% ДИ меньше этой величины. Два других РКИ показали клинически важные результаты, которые не были статистически значимыми. Обратите внимание, что в трёх испытаниях точечные оценки эффективности лечения были почти идентичны, но ширина ДИ различалась (отражает размер выборки). Таким образом, по отдельности доказательная сила этих РКИ различна.

Intervallo di confidenza per il valore atteso - questo è un tale intervallo calcolato dai dati, che con una probabilità nota contiene l'aspettativa matematica della popolazione generale. Una stima naturale per l'aspettativa matematica è la media aritmetica dei suoi valori osservati. Pertanto, più avanti nella lezione, useremo i termini "media", "valore medio". Nei compiti di calcolo dell'intervallo di confidenza, è più spesso richiesta una risposta del tipo "L'intervallo di confidenza della media [il valore in un particolare problema] è da [valore più basso] a [valore più alto]". Con l'aiuto dell'intervallo di confidenza, è possibile stimare non solo i valori medi, ma anche il peso specifico di una particolare caratteristica della popolazione generale. I valori medi, varianza, deviazione standard ed errore, attraverso i quali arriveremo a nuove definizioni e formule, sono smontati nella lezione Caratteristiche del campione e della popolazione .

Stime puntuali e intervallari della media

Se il valore medio della popolazione generale è stimato da un numero (punto), allora la stima del valore medio sconosciuto della popolazione generale è considerata la media specifica, che viene calcolata dal campione di osservazioni. In questo caso, il valore della media campionaria - una variabile casuale - non coincide con il valore medio della popolazione generale. Pertanto, quando si specifica il valore medio del campione, è necessario indicare contemporaneamente l'errore di campionamento. Come misura dell'errore di campionamento viene utilizzato l'errore standard, espresso nelle stesse unità di misura della media. Pertanto, viene spesso utilizzata la seguente notazione:.

Se si richiede che la stima della media sia associata a una certa probabilità, allora il parametro di interesse per la popolazione generale deve essere stimato non da un numero, ma da un intervallo. L'intervallo di confidenza è l'intervallo in cui, con una certa probabilità P si trova il valore dell'indicatore stimato della popolazione generale. Intervallo di confidenza, in cui la probabilità P = 1 - α si trova una variabile casuale, calcolata come segue:

,

α = 1 - P, che si trova nell'appendice di quasi tutti i libri di statistica.

In pratica, la media e la varianza della popolazione non sono note, quindi la varianza della popolazione viene sostituita dalla varianza campionaria e la media della popolazione viene sostituita dalla media campionaria. Pertanto, l'intervallo di confidenza nella maggior parte dei casi viene calcolato come segue:

.

La formula dell'intervallo di confidenza può essere utilizzata per stimare la media della popolazione se

  • si conosce la deviazione standard della popolazione;
  • oppure la deviazione standard della popolazione non è nota, ma la dimensione del campione è maggiore di 30.

La media campionaria è la stima imparziale della media della popolazione. A sua volta, la varianza campionaria non è una stima imparziale della varianza della popolazione. Per ottenere una stima imparziale della varianza della popolazione generale nella formula della varianza campionaria, la dimensione del campione n dovrebbe essere sostituito con n-1.

Esempio 1. Informazioni raccolte da 100 caffè selezionati casualmente in una città che il numero medio di dipendenti in essi è 10,5 con una deviazione standard di 4,6. Determinare l'intervallo di confidenza del 95% del numero di lavoratori del bar.

dove è il valore critico della distribuzione normale standard per il livello di significatività α = 0,05 .

Pertanto, l'intervallo di confidenza al 95% per il numero medio di lavoratori del bar variava da 9,6 a 11,4.

Esempio 2. Per un campione casuale di una popolazione generale di 64 osservazioni, sono stati calcolati i seguenti valori totali:

la somma dei valori nelle osservazioni,

la somma dei quadrati della deviazione dei valori dalla media .

Calcolare l'intervallo di confidenza al 95% per l'aspettativa.

calcolare la deviazione standard:

,

calcolare il valore medio:

.

Sostituisci i valori nell'espressione per l'intervallo di confidenza:

dove è il valore critico della distribuzione normale standard per il livello di significatività α = 0,05 .

Noi abbiamo:

Pertanto, l'intervallo di confidenza del 95% per l'aspettativa matematica di questo campione variava da 7,484 a 11,266.

Esempio 3. Per un campione casuale di una popolazione generale di 100 osservazioni, il valore medio era 15,2 e la deviazione standard era 3,2. Calcolare l'intervallo di confidenza del 95% per l'aspettativa, quindi l'intervallo di confidenza del 99%. Se la dimensione del campione e la sua variazione rimangono invariate e il coefficiente di confidenza aumenta, l'intervallo di confidenza si restringerà o si allargherà?

Sostituisci questi valori nell'espressione per l'intervallo di confidenza:

dove è il valore critico della distribuzione normale standard per il livello di significatività α = 0,05 .

Noi abbiamo:

.

Pertanto, l'intervallo di confidenza al 95% per la media di questo campione variava da 14,57 a 15,82.

Sostituiamo nuovamente questi valori nell'espressione per l'intervallo di confidenza:

dove è il valore critico della distribuzione normale standard per il livello di significatività α = 0,01 .

Noi abbiamo:

.

Pertanto, l'intervallo di confidenza del 99% per la media di questo campione variava da 14,37 a 16,02.

Come puoi vedere, con un aumento del coefficiente di confidenza, aumenta anche il valore critico della distribuzione normale standard e, quindi, i punti di inizio e fine dell'intervallo si trovano più lontano dalla media e, quindi, l'intervallo di confidenza per l'aspettativa matematica aumenta.

Stime di punti e intervalli di gravità specifica

Il peso specifico di alcune caratteristiche del campione può essere interpretato come una stima puntuale del peso specifico P la stessa caratteristica nella popolazione generale. Se questo valore deve essere correlato alla probabilità, allora dovrebbe essere calcolato l'intervallo di confidenza del peso specifico P tratto nella popolazione generale con una probabilità P = 1 - α :

.

Esempio 4. Ci sono due candidati in qualche città UN e B candidarsi a sindaco. Sono stati intervistati in modo casuale 200 residenti della città, di cui il 46% ha risposto che avrebbe votato per il candidato UN, 26% - per il candidato B e il 28% non sa per chi voterà. Determinare l'intervallo di confidenza al 95% per la proporzione di residenti in città che supportano il candidato UN.

Konstantin Krawchik spiega chiaramente cos'è un intervallo di confidenza nella ricerca medica e come usarlo.

Katren-Stil continua a pubblicare un ciclo di Konstantin Kravchik sulle statistiche mediche. Nei due articoli precedenti l'autore si è occupato della spiegazione di concetti come e.

Konstantin Kravchik

Matematico analitico. Specialista in ricerca statistica in medicina e scienze umane

città di Mosca

Molto spesso negli articoli sugli studi clinici, puoi trovare una frase misteriosa: "intervallo di confidenza" (95% CI o 95% CI - intervallo di confidenza). Ad esempio, l'articolo potrebbe leggere: "Per valutare la significatività delle differenze, è stato utilizzato il test t di Student con il calcolo di un intervallo di confidenza del 95%".

Qual è il valore dell'"intervallo di confidenza al 95%" e perché calcolarlo?

Che cos'è un intervallo di confidenza? - Questo è l'intervallo in cui si trovano i veri mezzi nella popolazione. E cosa, ci sono valori medi "falsi"? In un certo senso sì, ci sono. In abbiamo spiegato che è impossibile misurare il parametro di interesse attraverso l'intera popolazione, quindi i ricercatori si accontentano di un campione limitato. In questo campione (ad esempio, per peso corporeo) c'è un valore medio (un certo peso), in base al quale giudichiamo il valore medio nell'intera popolazione generale. Tuttavia, è improbabile che il peso medio nel campione (soprattutto piccolo) coincida con il peso medio nella popolazione generale. Pertanto, è più corretto calcolare e utilizzare l'intervallo dei valori medi della popolazione generale.

Ad esempio, immagina che l'IC al 95% (IC al 95%) per l'emoglobina sia compreso tra 110 e 122 g / L. Ciò significa che con una probabilità del 95%, il vero valore medio dell'emoglobina nella popolazione generale sarà compreso tra 110 e 122 g / l. In altre parole, non conosciamo l'emoglobina media nella popolazione generale, ma con una probabilità del 95% possiamo indicare l'intervallo di valori per questo tratto.

L'intervallo di confidenza è particolarmente rilevante per la differenza nelle medie tra i gruppi o, come viene chiamato, la dimensione dell'effetto.

Diciamo che stavamo confrontando l'efficacia di due preparati di ferro: uno che è sul mercato da molto tempo e uno che è stato appena registrato. Dopo il corso della terapia, è stata valutata la concentrazione di emoglobina nei gruppi di pazienti studiati e il programma statistico ha calcolato che la differenza tra i valori medi dei due gruppi con una probabilità del 95% è nell'intervallo da 1,72 a 14,36 g / l (Tabella 1).

tab. 1. Criterio per campioni indipendenti
(vengono confrontati i gruppi per livello di emoglobina)

Questo dovrebbe essere interpretato come segue: in alcuni dei pazienti della popolazione generale che assumono il nuovo farmaco, l'emoglobina sarà in media superiore di 1,72-14,36 g / l rispetto a quelli che hanno assunto il farmaco già noto.

In altre parole, nella popolazione generale, la differenza dei valori medi dell'emoglobina in gruppi con una probabilità del 95% rientra in questi limiti. Starà al ricercatore giudicare se questo è molto o meno. Il punto di tutto questo è che stiamo lavorando non con un valore medio, ma con un intervallo di valori, quindi stimiamo in modo più affidabile la differenza di parametro tra i gruppi.

Nei pacchetti statistici, a discrezione del ricercatore, è possibile restringere o espandere in modo indipendente i confini dell'intervallo di confidenza. Riducendo la probabilità dell'intervallo di confidenza, restringiamo l'intervallo delle medie. Ad esempio, al 90% CI, l'intervallo delle medie (o la differenza nelle medie) sarà più ristretto rispetto al 95%.

Al contrario, aumentando la probabilità al 99% si allarga l'intervallo di valori. Quando si confrontano i gruppi, il limite inferiore dell'IC può superare lo zero. Ad esempio, se abbiamo ampliato l'intervallo di confidenza al 99%, i limiti dell'intervallo variavano da -1 a 16 g / L. Ciò significa che nella popolazione generale ci sono gruppi, la differenza tra le medie tra le quali secondo l'attributo studiato è uguale a 0 (M = 0).

Con l'intervallo di confidenza, puoi testare ipotesi statistiche. Se l'intervallo di confidenza attraversa il valore zero, allora l'ipotesi nulla, che assume che i gruppi non differiscono nel parametro studiato, è corretta. Un esempio è descritto sopra, quando abbiamo esteso i limiti al 99%. Da qualche parte nella popolazione generale, abbiamo trovato gruppi che non differivano in alcun modo.

Intervallo di confidenza al 95% della differenza di emoglobina, (g / l)


La linea mostra l'intervallo di confidenza al 95% per la differenza nell'emoglobina media tra i due gruppi. La linea passa il segno zero, quindi c'è una differenza tra le medie pari a zero, che conferma l'ipotesi nulla che i gruppi non differiscano. L'intervallo di differenza tra i gruppi va da -2 a 5 g / l, il che significa che l'emoglobina può diminuire di 2 g / l o aumentare di 5 g / l.

L'intervallo di confidenza è una metrica molto importante. Grazie a lui, puoi vedere se le differenze nei gruppi erano davvero dovute alla differenza di medie o a un campione ampio, poiché con un campione grande le possibilità di trovare differenze sono maggiori rispetto a uno piccolo.

In pratica, potrebbe assomigliare a questo. Abbiamo preso un campione di 1000 persone, misurato il livello di emoglobina e scoperto che l'intervallo di confidenza per la differenza nelle medie era compreso tra 1,2 e 1,5 g / L. Il livello di significatività statistica in questo caso p

Vediamo che la concentrazione di emoglobina è aumentata, ma quasi impercettibilmente, quindi, la significatività statistica è apparsa proprio a causa della dimensione del campione.

L'intervallo di confidenza può essere calcolato non solo per i valori medi, ma anche per le proporzioni (e i rapporti di rischio). Ad esempio, siamo interessati all'intervallo di confidenza delle proporzioni di pazienti che hanno raggiunto la remissione durante l'assunzione di un farmaco sviluppato. Supponiamo che l'IC al 95% per le proporzioni, cioè per la proporzione di tali pazienti, risieda nell'intervallo 0,60-0,80. Quindi, possiamo dire che la nostra medicina ha un effetto terapeutico dal 60 all'80% dei casi.