Statistisk signifikans: definition, begrepp, signifikans, regressionsekvationer och hypotestestning

Innehållsförteckning:

Statistisk signifikans: definition, begrepp, signifikans, regressionsekvationer och hypotestestning
Statistisk signifikans: definition, begrepp, signifikans, regressionsekvationer och hypotestestning

Video: Statistisk signifikans: definition, begrepp, signifikans, regressionsekvationer och hypotestestning

Video: Statistisk signifikans: definition, begrepp, signifikans, regressionsekvationer och hypotestestning
Video: Crash Course i Sannstat med Rickard | Del 1 2024, November
Anonim

Statistik har länge varit en integrerad del av livet. Folk möter det överallt. Baserat på statistik dras slutsatser om var och vilka sjukdomar som är vanliga, vad som är mer efterfrågat i en viss region eller bland ett visst segment av befolkningen. Även konstruktionen av politiska program för kandidater för statliga organ bygger på statistiska data. De används också av detaljhandelskedjor när de köper varor, och tillverkare vägleds av dessa uppgifter i sina förslag.

Statistik spelar en viktig roll i samhällets liv och påverkar var och en av dess individuella medlemmar, även i små saker. Till exempel, om de flesta enligt statistik föredrar mörka färger i kläder i en viss stad eller region, då kommer det att vara extremt svårt att hitta en ljusgul regnrock med ett blommönster i lokala butiker. Men vilka mängderhar dessa uppgifter en sådan effekt? Till exempel, vad är "statistiskt signifikant"? Vad exakt menas med denna definition?

Vad är det här?

Statistik som vetenskap består av en kombination av olika kvantiteter och begrepp. En av dem är begreppet "statistisk signifikans". Detta är namnet på värdet på variabler, sannolikheten för att andra indikatorer ska dyka upp är försumbar.

Beräkning av statistiska indikatorer
Beräkning av statistiska indikatorer

Till exempel tar 9 av 10 personer på sig gummiskor på fötterna under en morgonpromenad efter svamp i höstskogen efter en regnig natt. Sannolikheten att någon gång 8 av dem sätter på canvasmockasiner är försumbar. I det här exemplet är alltså siffran 9 vad som kallas "statistisk signifikans."

Följaktligen, om vi utvecklar det givna praktiska exemplet ytterligare, köper skobutiker gummistövlar i slutet av sommarsäsongen i större kvantiteter än under andra tider på året. Således har storleken på det statistiska värdet en inverkan på det vanliga livet.

Naturligtvis, i komplexa beräkningar, säg, när man förutsäger spridning av virus, tas ett stort antal variabler i beaktande. Men själva kärnan i att fastställa en signifikant indikator för statistiska data är liknande, oavsett komplexiteten i beräkningarna och antalet variabelvärden.

Hur beräknas det?

Används vid beräkning av värdet på ekvationens "statistisk signifikans"-indikator. Det vill säga, man kan hävda att i det här fallet bestäms allt av matematiken. Det enklaste beräknings alternativet är en kedja av matematiska operationer, där följande parametrar är inblandade:

  • två typer av resultat erhållna från undersökningar eller studier av objektiva data, såsom antalet köp, betecknade med a och b;
  • provstorleksindikator för båda grupperna – n;
  • värde för den kombinerade provandelen - p;
  • standardfel - SE.

Nästa steg är att fastställa det totala testresultatet - t, dess värde jämförs med siffran 1,96. 1,96 är medelvärdet, vilket ger ett intervall på 95 %, enligt studentens t-fördelningsfunktion.

Formel för enkel beräkning
Formel för enkel beräkning

Frågan uppstår ofta om vad som är skillnaden mellan värdena på n och p. Denna nyans är lätt att förtydliga med ett exempel. Låt oss säga att den statistiska signifikansen av lojalitet till någon produkt eller märke av män och kvinnor beräknas.

I detta fall kommer bokstäverna att följas av följande:

  • n – antal svarande;
  • p - antal nöjda med produkten.

Antalet intervjuade kvinnor i det här fallet kommer att anges som n1. Följaktligen, män - n2. Samma värde kommer att ha siffrorna "1" och "2" för symbolen p.

Jämförelse av testresultatet med genomsnittet av Students kalkylblad blir vad som kallas "statistisk signifikans".

Vad menas med verifiering?

Resultaten av alla matematiska beräkningar kan alltid kontrolleras, detta lärs ut till barn i grundskolan. Det är logiskt att antaatt eftersom statistiken bestäms med hjälp av beräkningskedjan så kontrolleras den.

Men att testa för statistisk signifikans är inte bara matematik. Statistiken handlar om ett stort antal variabler och olika sannolikheter, som långt ifrån alltid är beräkningsbara. Det vill säga, om vi återvänder till exemplet med gummiskor i början av artikeln, kan den logiska konstruktionen av statistiska data som köpare av varor för butiker kommer att förlita sig på störas av torrt och varmt väder, vilket inte är typiskt för hösten. Som ett resultat av detta fenomen kommer antalet personer som köper gummistövlar att minska och butiker kommer att drabbas av förluster. Naturligtvis kan en matematisk formel inte förutse en väderavvikelse. Det här ögonblicket kallas "misstag".

Verktyg för statistisk datavisualisering
Verktyg för statistisk datavisualisering

Det är bara sannolikheten för sådana fel och tar hänsyn till kontrollen av nivån för beräknad signifikans. Den tar hänsyn till både beräknade indikatorer och accepterade nivåer av signifikans, såväl som kvantiteter som konventionellt kallas hypoteser.

Vilken är signifikansnivån?

Begreppet "nivå" ingår i huvudkriterierna för statistisk signifikans. Det används i tillämpad och praktisk statistik. Detta är ett slags värde som tar hänsyn till sannolikheten för möjliga avvikelser eller fel.

Nivån är baserad på identifiering av skillnader i färdiga prover, den låter dig fastställa deras betydelse eller, omvänt, slumpmässighet. Detta begrepp har inte bara digitala betydelser, utan också deras säregna tolkningar. De förklararhur du behöver förstå värdet, och själva nivån bestäms genom att jämföra resultatet med det genomsnittliga indexet, detta avslöjar graden av tillförlitlighet hos skillnaderna.

Diskussion om statistik
Diskussion om statistik

Därmed kan vi helt enkelt föreställa oss konceptet med en nivå - det är en indikator på ett acceptabelt, troligt fel eller fel i slutsatserna från de erhållna statistiska uppgifterna.

Vilka nivåer av betydelse används?

Den statistiska signifikansen av felsannolikhetskoefficienter i praktiken baseras på tre grundläggande nivåer.

Den första nivån är tröskeln vid vilken värdet är 5 %. Det vill säga att sannolikheten för fel inte överstiger signifikansnivån på 5 %. Detta innebär att förtroendet för oklanderligheten och ofelbarheten i slutsatserna som gjorts på grundval av statistiska forskningsdata är 95%.

Den andra nivån är tröskeln på 1 %. Följaktligen betyder denna siffra att man kan vägledas av data som erhållits under statistiska beräkningar med 99 % konfidens.

Tredje nivå - 0,1 %. Med detta värde är sannolikheten för ett fel lika med en bråkdel av en procent, det vill säga att fel praktiskt taget elimineras.

Vad är en hypotes i statistik?

Fel som begrepp är uppdelade i två områden, gällande acceptans eller förkastande av nollhypotesen. En hypotes är ett begrepp bakom vilket, enligt definitionen, en uppsättning undersökningsresultat, andra data eller påståenden döljs. Det vill säga en beskrivning av sannolikhetsfördelningen för något relaterat till ämnet statistisk redovisning.

statistisk signifikans av regressionen
statistisk signifikans av regressionen

Det finns två hypoteser i enkla beräkningar - noll och alternativ. Skillnaden mellan dem är att nollhypotesen bygger på tanken att det inte finns några fundamentala skillnader mellan de stickprov som är involverade i att bestämma den statistiska signifikansen, och den alternativa är helt motsatt den. Det vill säga, den alternativa hypotesen är baserad på närvaron av en signifikant skillnad i dessa prover.

Vilka är misstagen?

Fel som begrepp i statistik står i direkt proportion till acceptansen av den eller den hypotesen som sann. De kan delas in i två riktningar eller typer:

  • den första typen beror på acceptansen av nollhypotesen, som visade sig vara felaktig;
  • second - orsakas av att man följer alternativet.
Visa statistiska grafer
Visa statistiska grafer

Den första typen av fel kallas falskt positiva och är ganska vanligt inom alla områden där statistik används. Följaktligen kallas felet av den andra typen ett falskt negativt.

Varför behöver vi regression i statistiken?

Regressionens statistiska signifikans är att det med dess hjälp är möjligt att fastställa hur mycket modellen av olika beroenden som beräknats på basis av data motsvarar verkligheten; låter dig identifiera tillräckligheten eller bristen på faktorer för redovisning och slutsatser.

Regressionsvärdet bestäms genom att jämföra resultaten med data som listas i Fisher-tabellerna. Eller med hjälp av variansanalys. Regressionsindikatorer är viktiga närkomplexa statistiska studier och beräkningar som involverar ett stort antal variabler, slumpmässiga data och troliga förändringar.

Rekommenderad: