I statistik er en outlier eller "outlier" et datum, der afviger meget langt fra ethvert andet datum inden for en prøve eller et sæt datums (datasættet kaldes data). Ofte kan en outlier i et datasæt fungere som en advarsel til statistikeren om en abnormitet eller eksperimentel fejl i de foretagne målinger, hvilket kan få statistikeren til at fjerne outlieret fra datasættet. Hvis statistikeren fjerner outliers fra datasættet, kan konklusionerne fra undersøgelsen være meget forskellige. Derfor er det meget vigtigt at vide, hvordan man beregner og analyserer outliers, for at sikre den korrekte forståelse af et statistisk datasæt.
Trin
Trin 1. Lær, hvordan du identificerer potentielt outlier -datums
Inden vi beslutter os for, om vi vil fjerne outlier -datums fra datasættet eller ej, skal vi selvfølgelig identificere, hvilke datums der har potentiale til at blive outliers. Generelt er en outlier et datum, der afviger meget langt fra de andre datums i et datasæt - med andre ord er en outlier "uden for" de andre datums. Det er normalt let at opdage afvigelser i en datatabel eller (især) en graf. Hvis et sæt datums beskrives visuelt med en graf, vil outlier -datoen synes at være "meget langt" fra de andre datums. Hvis for eksempel de fleste af dataene i et datasæt danner en lige linje, vil outlier -datumet ikke med rimelighed blive fortolket som at danne denne linje.
Lad os se på et sæt datums, der repræsenterer temperaturen på 12 forskellige objekter i et rum. Hvis 11 genstande har en temperatur på omkring 70 Fahrenheit (21 grader Celsius), men det 12. objekt, en ovn, har en temperatur på 300 Fahrenheit (150 grader Celsius), kan det med det samme ses, at ovntemperaturen meget sandsynligt er en outlier
Trin 2. Arranger datums i et sæt datums fra laveste til højeste
Det første trin til at beregne ekstremværdier i et nulstillingssæt er at finde medianen (middelværdien) for det nulstillede sæt. Denne opgave bliver meget enkel, hvis datums i et sæt datums er arrangeret fra den mindste til den største. Så før du fortsætter, skal du arrangere datums i et sådant datasæt.
Lad os fortsætte eksemplet ovenfor. Dette er vores sæt datums, der repræsenterer temperaturen på flere objekter i et rum: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Hvis vi arrangerer datums fra laveste til højeste, bliver datums rækkefølge: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}
Trin 3. Beregn medianen for nulpunktsættet
Medianen for et nulpunktssæt er et nulpunkt, hvor den anden halvdel af nulpunktet er over dette nulpunkt, og den resterende halvdel er under det - grundlæggende er dette nulpunkt det nulpunkt, der er i "midten" af nulpunktsættet. Hvis antallet af data i et datasæt er ulige, er det meget let at finde - medianen er det datum, der har det samme tal over og under det. Men hvis antallet af datum i datasættet er lige, da ingen datum passer i midten, beregnes de 2 datum i midten i gennemsnit for at finde medianen. Det skal bemærkes, at medianen til beregning af outliers normalt tildeles variablen Q2-ni, fordi Q2 er mellem Q1 og Q3, den nedre og øvre kvartil, som vi vil diskutere senere.
- For ikke at forveksle med et datasæt, hvor antallet af data er lige-gennemsnittet af de 2 midterste datum vil ofte returnere et tal, der ikke er i selve datasættet-dette er okay. Men hvis de 2 midterste datum er det samme tal, vil gennemsnittet selvfølgelig også være det samme tal, hvilket også er fint.
- I eksemplet ovenfor har vi 12 datums. De 2 midterste datums er henholdsvis 6. og 7. datums-70 og 71. Så medianen for vores sæt datums er gennemsnittet af disse 2 tal: ((70 + 71) / 2), = 70.5.
Trin 4. Beregn den nederste kvartil
Denne værdi, som vi giver variablen Q1, er det datum, der repræsenterer 25 procent (eller en fjerdedel) af datums. Med andre ord er det datoen, der halverer de datums, der er under medianen. Hvis antallet af datums under medianen er lige, skal du igen gennemsnit de 2 datum i midten for at finde Q1, ligesom du ville finde selve medianen.
I vores eksempel er der 6 datums, der ligger over medianen, og 6 datums, der ligger under medianen. Dette betyder, at for at finde den nederste kvartil skal vi gennemsnitliggøre de 2 datum i midten af de 6 datums under medianen. Tredje og fjerde datum af 6 datum under medianen er begge 70. Så gennemsnittet er ((70 + 70) / 2), = 70. 70 bliver vores første kvartal.
Trin 5. Beregn det øvre kvartil
Denne værdi, som vi giver variablen Q3, er det datum, hvorpå der er 25 procent af datumerne i nulpunktsættet. At finde Q3 er stort set det samme som at finde Q1, bortset fra at vi i dette tilfælde ser på dataene over medianen, ikke under medianen.
I forlængelse af vores eksempel ovenfor er de 2 datum i midten af de 6 datums over medianen 71 og 72. Gennemsnittet af disse 2 datum er ((71 + 72)/2), = 71, 5. 71, 5 er vores Q3.
Trin 6. Find den mellemkvartile afstand
Nu hvor vi har fundet Q1 og Q3, skal vi beregne afstanden mellem disse to variabler. Afstanden fra Q1 til Q3 findes ved at trække Q1 fra Q3. De værdier, du får for mellemkvartile afstande, er meget vigtige for at definere grænserne for ikke-udgående data i dit datasæt.
- I vores eksempel er vores værdier for Q1 og Q3 70 og 71, 5. For at finde den mellemkvartile afstand trækker vi Q3 - Q1 = 71,5 - 70 = 1, 5.
- Det skal bemærkes, at dette også er sandt, selvom Q1, Q3 eller begge er negative tal. For eksempel, hvis vores Q1 -værdi var -70, ville vores korrekte interkvartile afstand være 71,5 -(-70) = 141, 5.
Trin 7. Find det "indre hegn" i nulpunktsættet
Outliers findes ved at kontrollere, om nulpunktet falder inden for de talgrænser, der kaldes "indre hegn" og "ydre hegn". Et nulpunkt, der falder uden for nulpunktets indre hegn, omtales som en "mindre udgang", mens et nulpunkt, der falder uden for det ydre hegn, omtales som en "større udfald". For at finde det indre hegn i dit nulstillingssæt skal du først multiplicere den interkvartile afstand med 1, 5. Tilføj derefter resultatet med Q3 og træk det også fra Q1. De to værdier, du får, er de indre hegnsgrænser for dit datasæt.
-
I vores eksempel er interkvartilafstanden (71,5 - 70) eller 1,5. Gang 1,5 med 1,5, hvilket resulterer i 2,25. Vi tilføjer dette tal til Q3, og vi trækker Q1 med dette tal for at finde grænserne for det indre hegn som følger:
- 71, 5 + 2, 25 = 73, 75
- 70 - 2, 25 = 67, 75
- Så grænserne for vores indre hegn er 67, 75 og 73, 75.
-
I vores sæt datums er kun ovntemperaturen, 300 Fahrenheit - uden for disse grænser, og derfor er dette dato et mindre udfald. Vi har dog stadig ikke beregnet, om denne temperatur er en større outlier, så spring ikke til konklusioner, før vi har foretaget vores beregninger.
Trin 8. Find det "ydre hegn" i nulpunktsættet
Dette gøres på samme måde som at finde det indre hegn, bortset fra at interkvartilafstanden ganges med 3 i stedet for 1,5. Resultatet tilføjes derefter til Q3 og trækkes fra Q1 for at finde det øvre og nedre grænser for det ydre hegn.
-
I vores eksempel multiplicerer den interkvartile afstand med 3 (1, 5 x 3) eller 4, 5. Vi finder grænserne for det ydre hegn på samme måde som før:
- 71, 5 + 4, 5 = 76
- 70 - 4, 5 = 65, 5
- Grænserne for det ydre hegn er 65,5 og 76.
-
De datums, der ligger uden for grænsen for det ydre hegn, omtales som store udfald. I dette eksempel er ovntemperaturen, 300 Fahrenheit, klart uden for det ydre hegn, så dette dato er "absolut" en stor outlier.
Trin 9. Brug kvalitativ dømmekraft til at afgøre, hvorvidt man skal "kassere" outlier -datoen eller ej
Ved hjælp af den ovenfor beskrevne metode kan det bestemmes, om et nulpunkt er et mindre nulpunkt, et større nulpunkt eller slet ikke et udfald. Tag dog ikke fejl - at finde et nulpunkt som en outlier markerer kun dette nulpunkt som en "kandidat", der skal fjernes fra nulpunktsættet, ikke som et nulpunkt, der "bør" kasseres. "Grunden", der får et udfaldsdato til at afvige fra andre datums i et datasæt er meget vigtig for at afgøre, om det skal kasseres eller ej. Generelt kan en outlier forårsaget af en fejl i måling, registrering eller eksperimentel planlægning for eksempel kasseres. På den anden side kasseres outliers, der ikke er forårsaget af fejl, og som angiver nye oplysninger eller tendenser, der ikke tidligere var forudsagt, ikke.
- Et andet kriterium, der skal overvejes, er, om outlier har en stor effekt på middelværdien af et datasæt, dvs. om outlier forvirrer det eller får det til at se forkert ud. Dette er meget vigtigt at overveje, hvis du har til hensigt at drage konklusioner fra gennemsnittet af dit datasæt.
-
Lad os studere vores eksempel. Da det i dette eksempel forekommer "meget" usandsynligt, at ovnen nåede 300 Fahrenheit gennem uforudsigelige naturkræfter, kan vi med næsten sikkerhed konkludere, at ovnen ved et uheld blev tændt, hvilket resulterede i et datum abnormitet ved høj temperatur. Hvis vi ikke fjerner ekstremværdierne, er vores nulstillede middelværdi (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Fahrenheit (32 grader Celsius)), mens gennemsnittet, hvis vi fjerner outliers, er (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Fahrenheit (21 grader Celsius).
Da disse udsving blev forårsaget af menneskelige fejl, og fordi det ville være forkert at sige, at den gennemsnitlige stuetemperatur når næsten 90 Fahrenheit (32 grader Celsius), er det bedre, at vi vælger at "smide" vores udliggere
Trin 10. Kend vigtigheden (nogle gange) af at opretholde outliers
Selvom nogle afvigelser bør fjernes fra nulpunktsættet, fordi de forårsager fejl og/eller gør resultaterne unøjagtige eller fejlagtige, bør nogle afvigelser opretholdes. Hvis for eksempel en outlier ser ud til at være naturligt erhvervet (det vil sige ikke resultatet af en fejl) og/eller giver et nyt perspektiv på det undersøgte fænomen, bør outlier ikke fjernes fra datasættet. Videnskabelig forskning er sædvanligvis en meget følsom situation, når det drejer sig om udsving - forkert fjernelse af afvigelser kan betyde at kassere oplysninger, der indikerer en ny trend eller opdagelse.