Konfidensintervall är en formel för att beräkna en fysiker. Konstruktion av konfidensintervallet för den matematiska förväntningen hos den allmänna befolkningen. Konfidensintervallmetod

Senast uppdaterad: 3 mars 2020
Exempelfil

Låt oss konstruera ett konfidensintervall i MS EXCEL för att uppskatta medelvärdet av fördelningen i fallet av känd betydelse variation.

Naturligtvis valet nivå av förtroende beror helt på att problemet ska lösas. Således bör flygpassagerarens förtroende för flygplanets tillförlitlighet utan tvekan vara högre än köparens förtroende för glödlampans tillförlitlighet.

Redogörelse av problemet

Antag att från allmänheten ha tagit prov storlek n. Det antas att standardavvikelse denna fördelning är känd. Det är nödvändigt utifrån detta provtagning utvärdera det okända medelfördelning(μ,) och konstruera motsvarande tvåsidigkonfidensintervall .

Poänguppskattning

Som man vet från, statistik(vi betecknar det X ons) är en opartisk uppskattning av medelvärdet detta allmänheten och har fördelningen N (μ; σ 2 / n).

Notera : Vad ska man göra om man behöver bygga konfidensintervall vid en distribution som är intevanligt? I det här fallet kommer det till undsättning, som säger att med en tillräckligt stor storlek provtagning n från distribution inte varavanligt , stickprovsfördelning av statistik X av kommer ungefär korrespondera normal distribution med parametrar N (μ; σ 2 / n).

Så, poänguppskattningmittenfördelningsvärden vi har - det här provmedelvärde, d.v.s. X ons... Låt oss nu gå ner till konfidensintervall.

Planera ett förtroendeintervall

Vanligtvis, med kunskap om fördelningen och dess parametrar, kan vi beräkna sannolikheten för att den slumpmässiga variabeln kommer att ta ett värde från intervallet vi angav. Låt oss nu göra det motsatta: hitta intervallet där den slumpmässiga variabeln kommer att falla med en given sannolikhet. Till exempel från egenskaperna normal distribution det är känt att med en sannolikhet på 95%, en slumpmässig variabel fördelad över normal lag, kommer att falla inom ett intervall på ungefär +/- 2 från medelvärde(se artikel om). Detta intervall kommer att fungera som en prototyp för oss konfidensintervall .

Låt oss nu ta reda på om vi känner till fördelningen , att beräkna detta intervall? För att svara på frågan måste vi ange fördelningens form och dess parametrar.

Vi känner till distributionsformen - det är det normal distribution(kom ihåg att vi pratar om provfördelningstatistikX ons).

Vi känner inte till parametern μ (den behöver bara uppskattas med konfidensintervall), men vi har hans uppskattning X onsdag, beräknat utifrån provtagning, som kan användas.

Den andra parametern är standardavvikelse för provvärdetvi kommer att betrakta det som känt, är det lika med σ / √n.

Eftersom vi vet inte μ, då konstruerar vi intervallet +/- 2 standardavvikelser inte från medelvärde, och från dess kända uppskattning X ons... De där. vid beräkning konfidensintervall det antar vi INTE X ons faller inom intervallet +/- 2 standardavvikelser från μ med en sannolikhet på 95%, och vi antar att intervallet +/- 2 standardavvikelser från X ons med en sannolikhet på 95% täcker μ - genomsnittet av den allmänna befolkningen, varifrån det är hämtat prov... Dessa två påståenden är likvärdiga, men det andra påståendet låter oss konstruera konfidensintervall .

Låt oss dessutom förfina intervallet: en slumpmässig variabel fördelad över normal lag, med en sannolikhet på 95% faller inom intervallet +/- 1.960 standardavvikelser, inte +/- 2 standardavvikelser... Detta kan beräknas med hjälp av formeln = NORM.ST.OBR ((1 + 0,95) / 2), centimeter. exempelfil Arkavstånd .

Vi kan nu formulera ett sannolikhetsuttalande som kommer att tjäna oss att bilda konfidensintervall: ”Sannolikheten att befolkningsgenomsnittär från genomsnittligt urval inom 1 960 " standardavvikelser för urvalet betyder "är lika med 95% ".

Sannolikhetsvärdet som nämns i uttalandet har ett särskilt namn som är associerad med signifikansnivå α (alfa) med ett enkelt uttryck tillitsnivå = 1 . I vårat fall signifikansnivå α =1-0,95=0,05 .

Nu, baserat på detta sannolikhetsuttalande, skriver vi ner ett uttryck för beräkning konfidensintervall :

där Z α / 2 standard-normal distribution(ett sådant värde för slumpvariabeln z , Vad P (z >= Z α / 2 ) = α / 2).

Notera : Övre α / 2-kvantil bestämmer bredden konfidensintervall v standardavvikelserprovmedelvärde. Övre α / 2-kvantil standard-normal distribution alltid större än 0, vilket är mycket bekvämt.

I vårt fall, vid α = 0,05, övre α / 2-kvantil är lika med 1.960. För andra signifikansnivåer α (10%; 1%) övre α / 2-kvantilZ α / 2 kan beräknas med hjälp av formeln = STANDARD ST.OBR (1-α / 2) eller om det är känt tillitsnivå , = NORM.ST.OBR ((1 + förtroende) / 2) .

Vanligtvis när man bygger konfidensintervall för uppskattning av medelvärdet bara använda övre α /2- kvantil och använd inte lägre α /2- kvantil... Detta är möjligt eftersom standard-normal distribution symmetriskt om x-axeln ( dess distributionstäthet symmetrisk med avseende på genomsnitt, d.v.s. 0) . Därför finns det ingen anledning att beräkna lägre α / 2-kvantil(det kallas helt enkelt α / 2-kvantil), eftersom det är lika övre α /2- kvantil med ett minustecken.

Minns att, trots formen på fördelningen av kvantiteten x, motsvarande slumpmässiga variabel X ons distribuerad ungefärbra N (μ; σ 2 / n) (se artikel om). Därför, i det allmänna fallet, ovanstående uttryck för konfidensintervallär bara ungefärligt. Om kvantiteten x fördelas över normal lag N (μ; σ 2 / n), sedan uttrycket för konfidensintervallär korrekt.

Beräkning av konfidensintervall i MS EXCEL

Låt oss lösa problemet. Respons tid elektronisk komponent till insignalen är en viktig egenskap hos enheten. Ingenjören vill rita upp ett konfidensintervall för den genomsnittliga svarstiden vid en konfidensnivå på 95%. Ingenjören vet av tidigare erfarenhet att svarstidens standardavvikelse är 8 ms. Det är känt att ingenjören gjorde 25 mätningar för att uppskatta svarstiden, medelvärdet var 78 ms.

Lösning: En ingenjör vill veta svarstiden för en elektronisk enhet, men han förstår att svarstiden inte är en fast utan en slumpmässig variabel som har sin egen distribution. Så det bästa han kan räkna med är att bestämma parametrarna och formen för denna fördelning.

Tyvärr, från problemmeddelandet, vet vi inte formen på svarstidsfördelningen (det behöver inte vara det vanligt). , denna fördelning är också okänd. Känd bara för honom standardavvikelseσ = 8. Därför, medan vi inte kan beräkna sannolikheterna och bygga konfidensintervall .

Trots att vi inte känner till fördelningen tidseparat svar, det vet vi enligt CPT , provfördelninggenomsnittlig svarstidär ungefär vanligt(vi antar att villkoren CPT utförs eftersom storleken provtagning tillräckligt stor (n = 25)) .

Dessutom, genomsnittet av denna distribution är genomsnitt fördelningen av ett enda svar, dvs. μ. A standardavvikelse av denna fördelning (σ / √n) kan beräknas med formeln = 8 / ROOT (25).

Det är också känt att ingenjören fick poänguppskattning parameter μ lika med 78 msek (X jfr). Därför kan vi nu beräkna sannolikheterna sedan vi känner distributionsformen ( vanligt) och dess parametrar (X cf och σ / √n).

Ingenjören vill veta förväntat värdeμ av svarstidsfördelningen. Som nämnts ovan är denna μ lika med den matematiska förväntningen på provfördelningen av den genomsnittliga svarstiden... Om vi ​​använder normal distribution N (X cf; σ / √n), då ligger önskad μ i intervallet +/- 2 * σ / √n med en sannolikhet på cirka 95%.

Signifikansnivåär lika med 1-0,95 = 0,05.

Slutligen, hitta vänster och höger kant konfidensintervall... Vänster gräns: = 78-STANDARD ST.OBR (1-0.05 / 2) * 8 / ROOT (25) = 74,864 Höger kant: = 78 + NORM.ST.OBR (1-0.05 / 2) * 8 / ROOT (25) = 81.136

Vänster gräns: = NORM.OBR (0,05 / 2; 78; 8 / ROOT (25)) Höger kant: = NORM.INV (1-0.05 / 2; 78; 8 / ROOT (25))

Svar : konfidensintervallkonfidensnivå 95% och σ =8 Frökenär lika med 78 +/- 3.136 msek.

V exempelfil på Sigma -kalkylblad en blankett för beräkning och konstruktion är känd bilateralkonfidensintervall för godtyckligt prover med ett givet σ och nivå av betydelse .

CONFIDENCE.NORM () -funktionen

Om värdena provtagning finns i intervallet B20: B79 , a signifikansnivå lika med 0,05; sedan MS EXCEL -formeln: = MEDEL (B20: B79) -TRUST.NORM (0.05, σ, COUNT (B20: B79)) kommer att återvända den vänstra gränsen konfidensintervall .

Samma gräns kan beräknas med hjälp av formeln: = MEDEL (B20: B79) -NORM.ST.INV (1-0.05 / 2) * σ / ROOT (RÄKNE (B20: B79))

Notera: Funktionen CONFIDENCE.NORM () visades i MS EXCEL 2010. I tidigare versioner av MS EXCEL användes CONFIDENCE () -funktionen.

I de föregående undersektionerna övervägde vi frågan om att uppskatta en okänd parameter a ett nummer. Denna uppskattning kallas "punkt". I ett antal uppgifter krävs det inte bara att hitta för parametern a ett lämpligt numeriskt värde, men också utvärdera dess noggrannhet och tillförlitlighet. Du vill veta vilka fel en parameterbyte kan leda till a dess uppskattning a och med vilken grad av säkerhet kan vi förvänta oss att dessa fel håller sig inom kända gränser?

Problem av detta slag är särskilt relevanta för ett litet antal observationer, när punkten uppskattar och i i stor utsträckning är det av misstag och den ungefärliga ersättningen av a med a kan leda till allvarliga fel.

För att ge en uppfattning om bedömningens noggrannhet och tillförlitlighet a,

i matematisk statistik används så kallade konfidensintervaller och konfidens sannolikheter.

Låt för parametern a från erfarenhet objektiv uppskattning a. Vi vill utvärdera det möjliga felet i det här fallet. Låt oss tilldela en tillräckligt stor sannolikhet p (till exempel p = 0,9, 0,95 eller 0,99) så att en händelse med sannolikhet p kan anses vara praktiskt tillförlitlig, och vi hittar ett sådant värde för vilket

Därefter intervallet för praktiskt möjliga värden för felet som uppstår vid byte aa, kommer att vara ± s; stora i absoluta värde visas endast med en liten sannolikhet a = 1 - p. Vi skriver om (14.3.1) som:

Jämlikhet (14.3.2) betyder att med sannolikhet p det okända värdet på parametern a faller inom intervallet

Samtidigt bör en omständighet noteras. Tidigare har vi upprepade gånger övervägt sannolikheten för att en slumpmässig variabel hamnar i ett givet icke-slumpmässigt intervall. Här är situationen annorlunda: kvantiteten a inte av misstag, men intervallet / p är slumpmässigt. Slumpmässigt dess position på abscissaxeln, bestämd av dess centrum a; längden på intervallet 2s är också slumpmässigt i allmänhet, eftersom värdet på s i regel beräknas från experimentella data. Därför skulle det i det här fallet vara bättre att tolka värdet av p inte som sannolikheten för att "slå" punkten a in i intervallet / p, och som sannolikheten att det slumpmässiga intervallet / p kommer att täcka punkten a(fig. 14.3.1).

Ris. 14.3.1

Sannolikheten p brukar kallas självförtroendenivå och intervallet / p är konfidensintervall. Intervallgränser Om. a x = a- s och a 2 = a + men ringde förtroendegränser.

Låt oss ge ytterligare en tolkning av begreppet konfidensintervall: det kan betraktas som ett intervall med parametervärden a, kompatibel med experimentella data och inte motsäger dem. Om vi ​​är överens om att betrakta en händelse med sannolikhet a = 1-p praktiskt taget omöjlig, då är dessa värden för parametern a för vilken a - a> s, måste erkännas som motsäger experimentella data, och de för vilka | a - a a t na 2.

Låt för parametern a det finns en opartisk uppskattning a. Om vi ​​visste fördelningslagen för kvantiteten a, problemet med att hitta konfidensintervallet skulle vara mycket enkelt: det skulle räcka med att hitta ett sådant värde av s som

Svårigheten är att fördelningslagen av uppskattningen a beror på fördelningslagen för kvantiteten X och därför på dess okända parametrar (i synnerhet på själva parametern a).

För att komma runt denna svårighet kan följande grova approximation tillämpas: ersätt de okända parametrarna i uttrycket för s med sina poänguppskattningar. Med ett relativt stort antal experiment NS(cirka 20 ... 30) denna teknik ger vanligtvis tillfredsställande resultat när det gäller noggrannhet.

Som ett exempel, betrakta problemet med konfidensintervallet för den matematiska förväntningen.

Låt det produceras NS X, vars egenskaper är den matematiska förväntningen T och varians D- okänd. För dessa parametrar erhölls följande uppskattningar:

Det krävs att konstruera konfidensintervallet / p, motsvarande konfidens sannolikheten p, för den matematiska förväntningen T storheter X.

När vi löser detta problem kommer vi att använda det faktum att kvantiteten T representerar beloppet NS oberoende identiskt fördelade slumpmässiga variabler X h och enligt den centrala gränssatsen för tillräckligt stor NS dess distributionslag är nära det normala. I praktiken, även med ett relativt litet antal termer (cirka 10 ... 20), kan fördelningslagen för summan anses vara ungefär normal. Vi kommer att utgå från det faktum att kvantiteten T distribueras enligt normal lag. Egenskaperna hos denna lag - matematisk förväntning och varians - är lika T och

(se kapitel 13, avsnitt 13.3). Antag att mängden D vi vet och hittar ett sådant värde Ep, för vilket

Genom att tillämpa formel (6.3.5) i kapitel 6 uttrycker vi sannolikheten på vänster sida av (14.3.5) i termer av normalfördelningsfunktionen

var är standardavvikelsen för uppskattningen T.

Från ekvationen

vi hittar värdet på Sp:

där arg Ф * (х) är den inversa funktionen av Ф * (NS), de där. ett sådant värde för argumentet som normalfördelningsfunktionen är lika med NS.

Dispersion D, genom vilket värdet uttrycks a 1P, vi vet inte exakt; som dess ungefärliga värde kan du använda uppskattningen D(14.3.4) och sätt ungefär:

Således har problemet med att konstruera ett konfidensintervall ungefär lösts, vilket är lika med:

där gp definieras med formeln (14.3.7).

För att undvika invers interpolation i funktionstabellerna Ф * (л) vid beräkning av s p är det bekvämt att sammanställa en speciell tabell (tabell 14.3.1), som anger värdena för kvantiteten

beroende på sid. Kvantiteten (p avgör för normal lag antalet standardavvikelser som måste avsättas till höger och vänster om spridningens centrum för att sannolikheten att träffa det resulterande området ska vara lika med p.

Genom värdet 7 p uttrycks konfidensintervallet som:

Tabell 14.3.1

Exempel 1. Utförde 20 experiment på värdet X; resultaten visas i tabellen. 14.3.2.

Tabell 14.3.2

Det är nödvändigt att hitta en uppskattning av den matematiska förväntningen av kvantiteten X och bygg ett konfidensintervall som motsvarar en konfidensnivå på p = 0,8.

Lösning. Vi har:

Efter att ha valt som ursprung l: = 10, enligt den tredje formeln (14.2.14) hittar vi den opartiska uppskattningen D :

Enligt tabellen. 14,3,1 hitta

Förtroendegränser:

Konfidensintervall:

Parametervärden T, ligger i detta intervall överensstämmer med de experimentella data som anges i tabellen. 14.3.2.

Konfidensintervallet för variansen kan konstrueras på ett liknande sätt.

Låt det produceras NS oberoende experiment på en slumpmässig variabel X med okända parametrar från och A, och för variansen D den opartiska uppskattningen erhålls:

Det krävs att grovt konstruera konfidensintervallet för variansen.

Av formeln (14.3.11) framgår att kvantiteten D representerar

summan NS slumpmässiga variabler i formuläret. Dessa mängder är det inte

oberoende, eftersom någon av dem inkluderar mängden T, beroende av alla andra. Det kan dock visas att med ökande NS fördelningslagen för deras summa är också nära det normala. Praktiskt taget kl NS= 20 ... 30 det kan redan betraktas som normalt.

Låt oss anta att det är så och hitta egenskaperna hos denna lag: matematisk förväntning och varians. Sedan poängen D- opartiskt alltså M [D] = D.

Beräkning av varians D Där associerad med relativt komplexa beräkningar, så vi ger sitt uttryck utan utdata:

där q 4 är det fjärde centrala momentet i kvantiteten X.

För att använda detta uttryck måste du ersätta värdena och D(åtminstone ungefärligt). Istället för D du kan använda hans uppskattning D. I princip kan det fjärde centrala momentet också ersättas av en uppskattning, till exempel av ett värde på formen:

men en sådan ersättning kommer att ge en extremt låg noggrannhet, eftersom i allmänhet, med ett begränsat antal experiment, bestäms ögonblick med hög ordning med stora fel. Men i praktiken händer det ofta att formen av fördelningslagen av kvantiteten X känt i förväg: endast dess parametrar är okända. Sedan kan du försöka uttrycka q 4 i termer av D.

Låt oss ta det vanligaste fallet när kvantiteten X distribueras enligt normal lag. Sedan uttrycks dess fjärde centrala moment i termer av varians (se kapitel 6, avsnitt 6.2);

och formel (14.3.12) ger eller

Ersätter i (14.3.14) det okända D hans bedömning D får vi: varifrån

Momentet c 4 kan uttryckas i termer av Däven i vissa andra fall, när fördelningen av kvantiteten Xär inte normalt, men dess utseende är känt. Till exempel för lagen om enhetlig densitet (se kapitel 5) har vi:

där (a, P) är intervallet vid vilket lagen sätts.

Därav,

Med formeln (14.3.12) får vi: varifrån vi hittar ungefär

I de fall där distributionslagens form 26 är okänd, rekommenderas det fortfarande att använda formel (14.3.16) vid grov uppskattning av värdet på a /), om det inte finns särskilda skäl att tro att denna lag skiljer sig mycket från normal (den har en märkbar positiv eller negativ kurtos) ...

Om det ungefärliga värdet av a /) erhålls på ett eller annat sätt är det möjligt att konstruera ett konfidensintervall för variansen på samma sätt som vi byggde det för den matematiska förväntningen:

där värdet, beroende på den givna sannolikheten p, finns enligt tabellen. 14.3.1.

Exempel 2. Hitta ett cirka 80% konfidensintervall för variansen av en slumpmässig variabel X under villkoren i exempel 1, om det är känt att kvantiteten X distribueras enligt en lag som är normal.

Lösning. Värdet förblir detsamma som i tabellen. 14.3.1:

Enligt formeln (14.3.16)

Med hjälp av formeln (14.3.18) hittar vi konfidensintervallet:

Motsvarande värdeintervall för standardavvikelsen: (0,21; 0,29).

14.4. Exakta metoder för att konstruera konfidensintervaller för parametrarna för en slumpmässig variabel fördelad enligt normallag

I föregående underavsnitt tittade vi på ungefärliga metoder för att konstruera konfidensintervall för förväntningar och varianser. Här kommer vi att ge en uppfattning om de exakta metoderna för att lösa samma problem. Vi betonar att för att exakt hitta konfidensintervallen är det absolut nödvändigt att i förväg veta formen av fördelningslagen för kvantiteten X, medan detta inte är nödvändigt för tillämpning av ungefärliga metoder.

Tanken bakom exakta metoder för att konstruera konfidensintervall är följande. Varje konfidensintervall hittas från villkoret som uttrycker sannolikheten för att vissa ojämlikheter uppfylls, vilket inkluderar uppskattningen av intresse för oss a. Uppskattningsfördelningslag a i allmänhet beror på de okända parametrarna för kvantiteten X. Men ibland är det möjligt att passera ojämlikheter från en slumpmässig variabel a till någon annan funktion av observerade värden X n X 2, ..., X sid. vars distributionslag inte beror på okända parametrar, utan endast beror på antalet experiment och på distributionslagens form för kvantiteten X. Slumpmässiga variabler av detta slag spelar en viktig roll i matematisk statistik; de har studerats närmast för den normala fördelningen av kvantiteten X.

Till exempel bevisades det för en normal fördelning av kvantiteten X slumpmässigt värde

lyder den så kallade Studentdistributionslag med NS- 1 frihetsgrad densiteten hos denna lag har formen

där Г (х) är den kända gammafunktionen:

Det bevisades också att slumpvariabeln

har en "distribution% 2" med NS- 1 frihetsgrader (se kapitel 7), vars densitet uttrycks med formeln

Utan att stanna kvar vid härledningen av fördelningar (14.4.2) och (14.4.4) kommer vi att visa hur de kan tillämpas vid konstruktion av konfidensintervall för parametrarna ty D.

Låt det produceras NS oberoende experiment på en slumpmässig variabel X, distribueras enligt normal lag med okända parametrar tio. För dessa parametrar erhölls uppskattningarna

Det krävs att konstruera konfidensintervall för båda parametrarna som motsvarar konfidens sannolikheten p.

Låt oss först konstruera konfidensintervallet för den matematiska förväntningen. Naturligtvis tas detta intervall symmetriskt med avseende på T; beteckna med s p halva intervallets längd. Värdet s p måste väljas så att villkoret

Låt oss försöka passera på vänster sida om jämlikhet (14.4.5) från den slumpmässiga variabeln T till en slumpmässig variabel T, distribueras enligt studentens lag. För att göra detta multiplicerar vi båda sidorna av ojämlikheten | m-w? |

med ett positivt värde: eller, med hjälp av notationen (14.4.1),

Låt oss hitta ett tal / p så att värdet / p hittas från villkoret

Det framgår av formel (14.4.2) att (1) är en jämn funktion, därför ger (14.4.8)

Jämlikhet (14.4.9) bestämmer värdet av / p beroende på p. Om du har en tabell med värden för integralen till ditt förfogande

då kan värdet på / p hittas genom invers interpolation i tabellen. Det är dock mer bekvämt att sammanställa en tabell med / p -värden i förväg. En sådan tabell ges i bilagan (tabell 5). Denna tabell visar värdena beroende på konfidens sannolikheten p och antalet frihetsgrader NS- 1. Efter att ha bestämt / p enligt tabellen. 5 och antar

vi hittar halva bredden av konfidensintervallet / p och själva intervallet

Exempel 1. Gjorde 5 oberoende experiment med en slumpmässig variabel X, normalt distribuerad med okända parametrar T och om. Resultaten av experimenten visas i tabell. 14.4.1.

Tabell 14.4.1

Hitta en uppskattning T för den matematiska förväntningen och konstruera ett 90% konfidensintervall / p för det (dvs. intervallet som motsvarar konfidens sannolikheten p = 0,9).

Lösning. Vi har:

Enligt tabell 5 ansökningar om NS - 1 = 4 och p = 0,9 hittar vi var

Konfidensintervallet blir

Exempel 2. För villkoren i exempel 1 i underavsnitt 14.3, förutsatt värdet X distribueras normalt, hitta det exakta konfidensintervallet.

Lösning. Enligt tabell 5 hittar vi applikationer för NS - 1 = 19ir =

0,8 / p = 1,328; härifrån

Jämfört med lösningen i exempel 1 i underavsnitt 14.3 (e p = 0.072) är vi övertygade om att skillnaden är mycket obetydlig. Om vi ​​håller noggrannheten till den andra decimalen, sammanfaller konfidensintervallen med exakta och ungefärliga metoder:

Låt oss gå vidare till att konstruera ett konfidensintervall för variansen. Tänk på en opartisk variansuppskattning

och uttrycka den slumpmässiga variabeln D genom värdet V(14.4.3) med en distribution x 2 (14.4.4):

Att veta fördelningslagen för kvantiteten V, man kan hitta intervallet / (1, där det faller med en given sannolikhet p.

Distributionslag k n _ x (v) kvantitet I 7 har formen som visas i fig. 14.4.1.

Ris. 14.4.1

Frågan uppstår: hur väljer man intervallet / p? Om fördelningslagen av kvantiteten V var symmetrisk (som den normala lagen eller studentens fördelning), skulle det vara naturligt att ta intervallet / p symmetriskt med avseende på den matematiska förväntningen. I det här fallet, lagen k n _ x (v) asymmetrisk. Låt oss komma överens om att välja intervallet / p så att sannolikheten för utmatningen av kvantiteten V bortom intervallet till höger och till vänster (skuggade områden i figur 14.4.1) var desamma och lika

För att konstruera ett intervall / p med den här egenskapen använder vi tabellen. 4 bilagor: det listar siffror y) Så att

för värdet V, ha x 2 -fördelning med r frihetsgrader. I vårat fall r = n- 1. Låt oss fixa r = n- 1 och hitta i motsvarande rad i tabellen. 4 två betydelser x 2 - en motsvarar sannolikhet den andra - sannolikheter Låt oss beteckna dessa

menande vid 2 och xl? Intervallet har vid 2, hans vänstra, och y ~ höger ände.

Låt oss nu hitta det önskade konfidensintervallet / | för variansen med gränserna D och D 2, som täcker punkten D med sannolikhet p:

Låt oss konstruera ett sådant intervall / (, = (?> B A), som täcker punkten D om och bara om kvantiteten V faller in i intervallet / p. Låt oss visa att intervallet

uppfyller detta villkor. Faktiskt ojämlikheterna motsvarar ojämlikheter

och dessa ojämlikheter är nöjda med sannolikheten p. Således hittas konfidensintervallet för variansen och uttrycks med formeln (14.4.13).

Exempel 3. Hitta konfidensintervallet för variansen under villkoren i exempel 2 i underavsnitt 14.3, om det är känt att värdet X distribueras normalt.

Lösning. Vi har ... Enligt tabell 4 i bilagan

vi hittar på r = n - 1 = 19

Med hjälp av formeln (14.4.13) hittar vi konfidensintervallet för variansen

Motsvarande intervall för standardavvikelse: (0,21; 0,32). Detta intervall överskrider endast något intervallet (0,21; 0,29) som erhållits i exempel 2 i avsnitt 14.3 med en ungefärlig metod.

  • Figur 14.3.1 betraktar ett konfidensintervall som är symmetriskt kring a. I allmänhet, som vi kommer att se senare, är detta valfritt.

Konfidensintervall(CI; på engelska, konfidensintervall - CI) som erhållits i en studie med ett urval ger ett mått på noggrannheten (eller osäkerheten) i studieresultaten för att dra slutsatser om befolkningen hos alla sådana patienter (allmän befolkning). Den korrekta definitionen av 95% CI kan formuleras enligt följande: 95% av sådana intervall kommer att innehålla det verkliga värdet i befolkningen. Denna tolkning är något mindre korrekt: CI är intervallet av värden inom vilka man kan vara 95% säker på att den innehåller det sanna värdet. När man använder CI ligger tyngdpunkten på att kvantifiera effekten, till skillnad från P -värdet som erhålls genom att testa statistisk signifikans. P -värdet mäter ingen kvantitet, utan fungerar snarare som ett mått på bevisets styrka mot nollhypotesen om "ingen effekt". P -värdet i sig säger inte någonting om skillnadens storlek, eller ens om dess riktning. Därför är oberoende värden av P absolut oinformativa i artiklar eller abstrakt. Däremot indikerar CI både mängden effekt av omedelbart intresse, såsom användbarheten av en behandling, och styrkan i bevisen. Därför är JI direkt relaterat till praxis för EBM.

Bedömningssätt till Statistisk analys, som illustreras av CI, syftar till att mäta mängden effekt av intresse (känslighet hos det diagnostiska testet, frekvensen av förutspådda fall, minskning av den relativa risken vid behandling, etc.), samt mäta osäkerheten i detta effekt. Oftast är CI intervallet av värden på båda sidor av uppskattningen, där det verkliga värdet sannolikt kommer att ligga, och du kan vara 95% säker på detta. Avtalet om att använda 95% sannolikheten godtyckligt, liksom P -värdet<0,05 для оценки статистической значимости, и авторы иногда используют 90% или 99% ДИ. Заметим, что слово «интервал» означает диапазон величин и поэтому стоит в единственном числе. Две величины, которые ограничивают интервал, называются «доверительными пределами».

CI är baserat på tanken att samma studie utförd på andra patientprov inte skulle leda till identiska resultat, utan att deras resultat skulle fördelas kring ett sant men okänt värde. Med andra ord beskriver CI detta som "provberoende variation". KI återspeglar inte ytterligare osäkerhet på grund av andra orsaker. i synnerhet omfattar det inte effekterna av selektiv patientförlust vid spårning, dålig följsamhet eller felaktiga resultatmätningar, brist på blindhet och så vidare. CI underskattar således alltid den totala mängden osäkerhet.

Beräkna konfidensintervallet

Tabell A1.1. Standardfel och konfidensintervall för vissa kliniska mätningar

Normalt beräknas CI från en observerad uppskattning av ett kvantitativt mått, såsom skillnaden (d) mellan två proportioner och ett standardfel (SE) i uppskattningen av denna skillnad. Den ungefärliga 95% CI som sålunda erhålls är d ± 1,96 SE. Formeln ändras beroende på utfallsmätningens art och CI: s omfattning. I en randomiserad, placebokontrollerad studie med acellulärt kikhostevaccin utvecklade till exempel 72 av 1670 (4,3%) spädbarn som fick vaccinet kikhosta och 240 av 1665 (14,4%) kontroller. Skillnaden i procent, känd som absolut riskreduktion, är 10,1%. SE för denna skillnad är 0,99%. Följaktligen är 95% CI 10,1% + 1,96 x 0,99%, dvs. från 8,2 till 12,0.

Trots olika filosofiska tillvägagångssätt är CI och statistiska signifikansprov nära besläktade matematiskt.

Sålunda är P -värdet "signifikant"; R<0,05 соответствует 95% ДИ, который исключает величину эффекта, указывающую на отсутствие различия. Например, для различия между двумя средними пропорциями это ноль, а для относительного риска или отношения шансов - единица. При некоторых обстоятельствах эти два подхода могут быть не совсем эквивалентны. Преобладающая точка зрения: оценка с помощью ДИ - предпочтительный подход к суммированию результатов исследования, но ДИ и величина Р взаимодополняющи, и во многих статьях используются оба способа представления результатов.

Osäkerheten (osäkerheten) för uppskattningen, uttryckt i CI, är till stor del relaterad till kvadratroten av provstorleken. Små prover ger mindre information än stora prover, och CI är motsvarande bredare i det mindre urvalet. Till exempel rapporterade en artikel som jämför egenskaperna hos tre tester som används för att diagnostisera Helicobacter pylori-infektion en känslighet på 95,8% av ureaandningstestet (95% CI 75-100). Medan antalet 95,8% ser imponerande ut, innebär ett litet urval av 24 vuxna patienter med I. pylori att det finns betydande osäkerhet i denna uppskattning, vilket visas av det breda CI. Den nedre gränsen på 75% är faktiskt mycket lägre än uppskattningen på 95,8%. Om samma känslighet observerades i ett urval på 240 personer, skulle 95% CI vara 92,5-98,0, vilket ger fler garantier för att testet är mycket känsligt.

I randomiserade kontrollerade studier (RCT) är icke-signifikanta resultat (dvs. de med P> 0,05) särskilt känsliga för misstolkningar. CI är särskilt användbart här eftersom det visar hur konsekvent resultaten är med den kliniskt fördelaktiga verkliga effekten. Till exempel, i en RCT som jämför sutur och häftningsanastomos med tjocktarmen, utvecklades sårinfektion hos 10,9% respektive 13,5% av patienterna (P = 0,30). 95% CI för denna skillnad är 2,6% (-2 till +8). Även i denna studie av 652 patienter kvarstår sannolikheten att det finns en blygsam skillnad i förekomsten av infektioner som följer av de två procedurerna. Ju mindre forskning, desto större osäkerhet. Sung et al. utförde en RCT för att jämföra oktreotidinfusion kontra akut skleroterapi för akut variceal blödning hos 100 patienter. I oktreotidgruppen var blödningshastigheten 84%; i skleroterapigruppen - 90%, vilket ger P = 0,56. Observera att frekvensen av pågående blödning liknar den för sårinfektion i den nämnda studien. I detta fall är emellertid 95% KI för skillnaden mellan insatser 6% (-7 till +19). Detta intervall är ganska brett jämfört med 5% skillnaden som skulle vara av kliniskt intresse. Det är klart att studien inte utesluter en signifikant skillnad i effektivitet. Därför är författarnas slutsats "oktreotidinfusion och skleroterapi lika effektiva vid behandling av åderbråck" definitivt inte giltig. I sådana fall där, som här, 95% KI för absolut riskreduktion (ARR) inkluderar noll, är CI för antal som behövs för att behandla (NNT) ganska svårtolkat. ... NPLP och dess CI härleds från ACS: s ömsesidiga (multiplicerat med 100 om det anges i procent). Här får vi BPHP = 100: 6 = 16,6 med ett 95% CI på -14,3 till 5,3. Som du kan se från fotnoten "d" i tabellen. A1.1, detta CI inkluderar BPHP -värdena från 5.3 till oändligt och BPHP -värdena från 14.3 till oändligt.

CI kan konstrueras för de mest använda statistiska uppskattningarna eller jämförelserna. För RCT inkluderar den skillnaden mellan medelproportioner, relativa risker, oddskvoter och NPP. På samma sätt kan CI erhållas för alla större uppskattningar som gjorts i studier av noggrannheten i diagnostiska tester - känslighet, specificitet, prediktivt värde för ett positivt resultat (som alla är enkla proportioner) och sannolikhetsförhållanden - uppskattningar som erhållits i metaanalyser och jämförelse-med-kontrollstudier. Ett datorprogram för persondatorer som täcker många av dessa användningsområden för ID är tillgängligt med den andra upplagan av Statistics with Confidence. Makron för beräkning av CI för proportioner finns gratis för Excel och statistikprogrammen SPSS och Minitab på http://www.uwcm.ac.uk/study/medicine/epidemiology_statistics/research/statistics/proportions, htm.

Flera utvärderingar av behandlingseffekten

Medan CI är önskvärda för de primära studieresultaten, krävs det inte för alla resultat. CI behandlar kliniskt relevanta jämförelser. Till exempel, när man jämför två grupper är det CI som är byggt för att skilja mellan grupperna, som visas i exemplen ovan, och inte CI som kan byggas för bedömningen i varje grupp. Det är inte bara värdelöst att tillhandahålla separata CI för betyg i varje grupp, denna representation kan vara vilseledande. På samma sätt är det korrekta tillvägagångssättet när man jämför behandlingseffekt i olika undergrupper att jämföra två (eller flera) undergrupper direkt. Det är felaktigt att anta att behandlingen endast är effektiv i en undergrupp om dess CI inte utesluter någon effekt och andra inte. CI är också användbara när man jämför resultat mellan flera undergrupper. I fig. A 1.1 visar den relativa risken för eklampsi hos kvinnor med preeklampsi hos en undergrupp av kvinnor från en placebokontrollerad RCT av magnesiumsulfat.

Ris. A1.2. Skogsplotten visar resultaten av 11 randomiserade kliniska prövningar av vaccin mot rotavirus från nötkreatur för förebyggande av diarré kontra placebo. Vid bedömning av den relativa risken för diarré användes ett konfidensintervall på 95%. Storleken på den svarta rutan är proportionell mot mängden information. Dessutom visas den kumulativa behandlingseffekten och 95% konfidensintervall (betecknad med en diamant). Metaanalysen använde en slumpmässig effektmodell som överstiger några av de förutbestämda; det kan till exempel vara storleken som används för att beräkna urvalet. För ett strängare kriterium bör hela CI -intervallet visa fördelar som överstiger ett förutbestämt minimum.

Vi har redan diskuterat felet där bristen på statistisk signifikans tas som en indikation på att två behandlingar är lika effektiva. Det är lika viktigt att inte jämföra statistisk signifikans med klinisk signifikans. Klinisk betydelse kan antas när resultatet är statistiskt signifikant och storleken på bedömningen av behandlingseffekt

Forskning kan visa om resultaten är statistiskt signifikanta och vilka som är kliniskt viktiga och vilka som inte är det. I fig. A1.2 visar resultaten från fyra tester, för vilka hela CI<1, т.е. их результаты статистически значимы при Р <0,05 , . После высказанного предположения о том, что клинически важным различием было бы сокращение риска диареи на 20% (ОР = 0,8), все эти испытания показали клинически значимую оценку сокращения риска, и лишь в исследовании Treanor весь 95% ДИ меньше этой величины. Два других РКИ показали клинически важные результаты, которые не были статистически значимыми. Обратите внимание, что в трёх испытаниях точечные оценки эффективности лечения были почти идентичны, но ширина ДИ различалась (отражает размер выборки). Таким образом, по отдельности доказательная сила этих РКИ различна.

Konfidensintervall för förväntningar - detta är ett sådant intervall beräknat från data, som med en känd sannolikhet innehåller den matematiska förväntningen hos den allmänna befolkningen. En naturlig uppskattning för den matematiska förväntningen är det aritmetiska medelvärdet av dess observerade värden. Därför kommer vi vidare i lektionen att använda termerna "genomsnitt", "medelvärde". I uppgifterna för att beräkna konfidensintervallet krävs oftast ett svar av typen "Konfidensintervallet för medelvärdet [värdet i ett visst problem] är från [lägre värde] till [högre värde]". Med hjälp av konfidensintervallet är det möjligt att uppskatta inte bara medelvärdena utan också den specifika vikten för en viss egenskap hos den allmänna befolkningen. Medelvärden, varians, standardavvikelse och fel, genom vilka vi kommer till nya definitioner och formler, demonteras i lektionen Prov- och populationsegenskaper .

Punkt- och intervalluppskattningar av medelvärdet

Om genomsnittsvärdet för den allmänna befolkningen uppskattas med ett antal (punkt), är uppskattningen av det okända medelvärdet för den allmänna befolkningen det specifika genomsnittet, som beräknas från urvalet av observationer. I detta fall sammanfaller värdet på urvalet - en slumpmässig variabel - inte med medelvärdet för den allmänna befolkningen. Därför är det nödvändigt att ange provtagningsfelet samtidigt när man anger provets medelvärde. Som ett mått på samplingsfel används standardfelet, vilket uttrycks i samma måttenheter som medelvärdet. Därför används ofta följande notation :.

Om uppskattningen av medelvärdet måste associeras med en viss sannolikhet, måste parametern av intresse för den allmänna befolkningen uppskattas inte med ett tal, utan med ett intervall. Konfidensintervallet är intervallet i vilket, med en viss sannolikhet P värdet av den uppskattade indikatorn för den allmänna befolkningen finns. Konfidensintervall, där sannolikheten P = 1 - α en slumpmässig variabel hittas, beräknat enligt följande:

,

α = 1 - P, som finns i bilagan till nästan vilken bok som helst om statistik.

I praktiken är populationsmedelvärdet och variansen inte känd, så befolkningsvariansen ersätts med urvalet, och populationsmedelvärdet ersätts med urvalet. Således beräknas konfidensintervallet i de flesta fall enligt följande:

.

Konfidensintervallformeln kan användas för att uppskatta populationsmedlet if

  • standardavvikelsen för befolkningen är känd;
  • eller standardavvikelsen för befolkningen är inte känd, men urvalet är större än 30.

Provmedelvärdet är den opartiska uppskattningen av befolkningsmedelvärdet. I sin tur provvariansen är inte en opartisk uppskattning av befolkningsvariansen. För att få en opartisk uppskattning av variansen för den allmänna befolkningen i urvalets variansformel, provstorleken n bör ersättas med n-1.

Exempel 1. Samlade information från 100 slumpmässigt utvalda kaféer i en stad om att det genomsnittliga antalet anställda i dem är 10,5 med en standardavvikelse på 4,6. Bestäm konfidensintervallet för 95% av antalet kaféarbetare.

var är det normala normalfördelningens kritiska värde för signifikansnivån α = 0,05 .

95% konfidensintervall för det genomsnittliga antalet kaféarbetare varierade således från 9,6 till 11,4.

Exempel 2. För ett slumpmässigt urval från en allmän befolkning på 64 observationer beräknades följande totala värden:

summan av värdena i observationerna,

summan av kvadraterna för avvikelsen av värdena från medelvärdet .

Beräkna 95% konfidensintervall för förväntningen.

beräkna standardavvikelsen:

,

beräkna medelvärdet:

.

Ersätt värdena i uttrycket för konfidensintervallet:

var är det normala normalfördelningens kritiska värde för signifikansnivån α = 0,05 .

Vi får:

95% konfidensintervall för den matematiska förväntningen av detta prov varierade således från 7,484 till 11,266.

Exempel 3. För ett slumpmässigt urval från en allmän befolkning på 100 observationer var medelvärdet 15,2 och standardavvikelsen 3,2. Beräkna 95% konfidensintervall för förväntan, sedan 99% konfidensintervall. Om provstorleken och dess variation förblir oförändrad och konfidenskoefficienten ökar, kommer konfidensintervallet att smalna eller öka?

Ersätt dessa värden i uttrycket för konfidensintervallet:

var är det normala normalfördelningens kritiska värde för signifikansnivån α = 0,05 .

Vi får:

.

95% konfidensintervall för medelvärdet av detta prov varierade således från 14,57 till 15,82.

Vi ersätter igen dessa värden i uttrycket med konfidensintervallet:

var är det normala normalfördelningens kritiska värde för signifikansnivån α = 0,01 .

Vi får:

.

99% konfidensintervall för medelvärdet av detta prov varierade således från 14,37 till 16,02.

Som du kan se, med en ökning av konfidenskoefficienten, ökar också det kritiska värdet för standardnormalfördelningen, och därför ligger intervallets start- och slutpunkter längre bort från medelvärdet, och därmed konfidensintervallet för den matematiska förväntan ökar.

Punkt- och intervalluppskattningar av specifik vikt

Den specifika vikten av en del av provet kan tolkas som en punktuppskattning av den specifika vikten sid samma inslag i den allmänna befolkningen. Om detta värde måste relateras till sannolikhet, bör konfidensintervallet för den specifika tyngdkraften beräknas sid egenskap hos den allmänna befolkningen med en sannolikhet P = 1 - α :

.

Exempel 4. Det finns två kandidater i någon stad A och B springa till borgmästare. 200 invånare i staden intervjuades slumpmässigt, varav 46% svarade att de skulle rösta på kandidaten A, 26% - för kandidaten B och 28% vet inte vem de kommer att rösta på. Bestäm 95% konfidensintervall för andelen stadsinvånare som stöder kandidaten A.

Konstantin Krawchik förklarar tydligt vad ett konfidensintervall är inom medicinsk forskning och hur man använder det.

Katren-Stil fortsätter att publicera en cykel av Konstantin Kravchik om medicinsk statistik. I de två tidigare artiklarna har författaren behandlat förklaringen av begrepp som och.

Konstantin Kravchik

Analytisk matematiker. Specialist i statistisk forskning inom medicin och humaniora

Moskva stad

Mycket ofta i artiklar om kliniska prövningar kan du hitta en mystisk fras: "konfidensintervall" (95% CI eller 95% CI - konfidensintervall). Till exempel kan artikeln läsa: "För att bedöma skillnadernas betydelse användes Studentens t-test vid beräkningen av ett 95% konfidensintervall."

Vad är värdet på "95% konfidensintervall" och varför beräkna det?

Vad är ett konfidensintervall? - Det här är intervallet där de sanna medlen i befolkningen finns. Och vad, det finns ”osanna” medelvärden? På ett sätt, ja, det finns det. I förklarade vi att det är omöjligt att mäta parametern av intresse över hela befolkningen, så forskare nöjer sig med ett begränsat urval. I detta urval (till exempel efter kroppsvikt) finns det ett medelvärde (en viss vikt), enligt vilket vi bedömer medelvärdet i hela befolkningen. Medelvikten i urvalet (särskilt liten) är dock osannolik att sammanfalla med medelvikten i den allmänna befolkningen. Därför är det mer korrekt att beräkna och använda intervallet av medelvärden för den allmänna befolkningen.

Tänk dig till exempel att 95% CI (95% CI) för hemoglobin är 110 till 122 g / L. Detta innebär att med en sannolikhet på 95%kommer det sanna genomsnittliga hemoglobinvärdet i befolkningen att ligga i intervallet från 110 till 122 g / l. Med andra ord, vi vet inte det genomsnittliga hemoglobinet i den allmänna befolkningen, men vi kan indikera intervallet för värden för detta drag med 95% sannolikhet.

Konfidensintervallet är särskilt relevant för skillnaden i medel mellan grupper, eller som det kallas, i effektens storlek.

Låt oss säga att vi jämförde effektiviteten av två järnpreparat: ett som har funnits på marknaden länge och ett som just har registrerats. Efter behandlingens gång bedömdes hemoglobinkoncentrationen i de studerade patientgrupperna och det statistiska programmet beräknade att skillnaden mellan medelvärdena för de två grupperna med 95% sannolikhet ligger i intervallet från 1,72 till 14,36 g / l (tabell 1).

Flik. 1. Kriterium för oberoende prover
(jämförde grupper efter hemoglobinnivå)

Detta bör tolkas så här: hos några av patienterna i den allmänna befolkningen som tar det nya läkemedlet kommer hemoglobin i genomsnitt att vara högre med 1,72–14,36 g / l än hos dem som tog det redan kända läkemedlet.

Med andra ord, i den allmänna befolkningen ligger skillnaden i medelvärden för hemoglobin i grupper med 95% sannolikhet inom dessa gränser. Det blir upp till forskaren att bedöma om detta är mycket eller lite. Poängen med allt detta är att vi inte arbetar med ett medelvärde, utan med ett värdeintervall, därför uppskattar vi mer pålitligt skillnaden i parameter mellan grupper.

I statistiska paket, efter forskarens bedömning, kan du självständigt begränsa eller utöka gränserna för konfidensintervallet. Genom att sänka sannolikheten för konfidensintervallet begränsar vi medelintervallet. Till exempel, vid 90% CI, kommer intervallet av medel (eller skillnad i medel) att vara smalare än vid 95%.

Omvänt ökar sannolikheten till 99% värdena. När man jämför grupper kan den nedre gränsen för CI passera nollmarkeringen. Om vi ​​till exempel utökade konfidensintervallet till 99%, varierade gränserna för intervallet från –1 till 16 g / L. Detta betyder att det i den allmänna befolkningen finns grupper, skillnaden mellan de medel mellan vilka för det studerade attributet är lika med 0 (M = 0).

Med konfidensintervallet kan du testa statistiska hypoteser. Om konfidensintervallet passerar nollvärdet är nollhypotesen, som förutsätter att grupperna inte skiljer sig i den studerade parametern, korrekt. Ett exempel beskrivs ovan när vi utvidgade gränserna till 99%. Någonstans i den allmänna befolkningen hittade vi grupper som inte skiljde sig på något sätt.

95% konfidensintervall för skillnaden i hemoglobin, (g / l)


I figuren visar raden 95% konfidensintervall för skillnaden i de genomsnittliga hemoglobinvärdena mellan de två grupperna. Linjen passerar nollmarkeringen, därför finns det en skillnad mellan medel som är lika med noll, vilket bekräftar nollhypotesen att grupperna inte skiljer sig åt. Skillnaden mellan grupperna är från –2 till 5 g / l, vilket innebär att hemoglobin antingen kan minska med 2 g / l eller öka med 5 g / l.

Konfidensintervallet är ett mycket viktigt mått. Tack vare honom kan du se om skillnaderna i grupperna verkligen berodde på skillnaden i medel eller på ett stort urval, eftersom med ett stort urval är chansen att hitta skillnader större än med ett litet.

I praktiken kan det se ut så här. Vi tog ett prov på 1000 personer, mätte hemoglobinnivån och fann att konfidensintervallet för skillnaden i medel var från 1,2 till 1,5 g / L. Nivån av statistisk signifikans i detta fall s

Vi ser att koncentrationen av hemoglobin ökade, men nästan omärkligt, därför visade sig den statistiska signifikansen just på grund av provstorleken.

Konfidensintervallet kan beräknas inte bara för medelvärden, utan också för proportioner (och riskförhållanden). Till exempel är vi intresserade av konfidensintervallet för andelen patienter som uppnått remission när de tog ett utvecklat läkemedel. Låt oss anta att 95% CI för proportioner, det vill säga för andelen sådana patienter, ligger i intervallet 0,60–0,80. Således kan vi säga att vårt läkemedel har en terapeutisk effekt från 60 till 80% av fallen.