Bereken uitskieters

`n uitbijter

of uitskieter In statistiek is `n data punt wat aansienlik verskil van die ander data punte in `n steekproef. Dikwels dui statistici op afwykings of foute in die metings, waarna hulle die uitskieter van die datastel kan verwyder. As hulle eintlik kies om die uitskieters uit die datastel te verwyder, kan dit lei tot aansienlike veranderinge in die gevolgtrekkings wat uit die navorsing getrek word. Dit is hoekom dit belangrik is om uitskieters te bereken en te bepaal as u die statistiese data korrek wil interpreteer.

stappe

Prent getiteld Bereken Outliers Stap 1
1
Leer hoe jy moontlike uitskieters kan herken. Voordat ons kan besluit of afwykende waardes van `n spesifieke datastel verwyder moet word, moet ons eers die moontlike uitskieters in die datastel erken. Oor die algemeen is uitskieters die datapunte wat sterk afwyk van die tendens wat die ander waardes in die gestelde vorm is - met ander woorde: hulle skiet uit van die ander waardes. Dit is gewoonlik maklik om dit in tabelle en (veral) in grafieke te herken. As die datastel visueel in `n grafiek uitgedruk word, sal die uitskieters `ver weg` van die ander waardes wees. Byvoorbeeld, as die meeste punte in `n datastel `n reguitlyn vorm, sal uitskieters nie hierdie reël kan reël nie.
  • Kom ons kyk na `n datastel wat die temperature van 12 verskillende voorwerpe in `n kamer aandui. As die temperatuur van 11 van die voorwerpe met hoogstens `n paar grade skommel rondom die 21 ° C, terwyl een voorwerp, `n oond, `n temperatuur het van 150 ° C, kan jy in één oogopslag sien dat die oond waarskynlik `n uitbijter is.
  • Prent getiteld Bereken Outliers Stap 2
    2
    Sorteer alle data punte van laag na hoog. Die eerste stap in die berekening van uitskieters is die vind van die mediaanwaarde (of die middelwaarde) van die datastel. Hierdie taak word baie makliker as die waardes in die stel van laag na hoog bestel word. Dus, voordat jy voortgaan, sorteer die waardes in jou datastel op hierdie manier.
  • Kom ons gaan voort met die voorbeeld hierbo. Hier is ons gegevensset wat die temperature in grade Fahrenheit van verskillende voorwerpe in `n kamer laat sien: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. As ons die waardes in die versameling van lae na hoog sorteer, sal dit ons nuwe stel wees: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  • Prent getiteld Bereken Outliers Stap 3
    3
    Bereken die mediaan van die datastel. Die mediaan van `n datastel is die data punt met die helfte van die data hierbo en die helfte van die data daaronder - dit is eintlik die middelpunt van die datastel. As die datastel `n vreemde aantal punte bevat, is die mediaan maklik om te vind - die mediaan is die punt met soveel punte bokant dit soos hieronder. As daar `n ewe aantal punte is, want daar is nie een middelpunt nie, moet jy die gemiddelde van die twee middelpunte neem om die mediaan te vind. By die berekening van uitskieters word die mediaan gewoonlik die veranderlike Q2 genoem - want dit is tussen Q1 en Q3, die eerste en derde kwartiele. Ons sal later hierdie veranderlikes bepaal.
  • Moenie deurdatastelle met `n ewe aantal punte verstrik word nie. Die gemiddeld van die twee middelpunte is dikwels `n getal wat nie in die datastel voorkom nie - dit is goed. As die twee middelpunte egter dieselfde is, sal die gemiddelde natuurlik ook hierdie getal wees oké.
  • In ons voorbeeld het ons 12 punte. Die middel twee terme is onderskeidelik punte 6 en 7 - 70 en 71. Die mediaan van ons datastel is dus die gemiddelde van hierdie twee punte: ((70 + 71) / 2) =70,5.
  • Prent getiteld Bereken Outliers Stap 4
    4
    Bereken die eerste kwartiel. Hierdie punt, wat ons met die veranderlike Q1 aandui, is die datapunt hieronder waarvan 25 persent (of kwart) van die waarnemings lê. Met ander woorde, dit is die middelpunt van alle punte in u datastel onder die mediaan. As daar `n ewe aantal waardes onder die mediaan is, moet u weer die gemiddelde van die twee middelwaardes neem om Q1 te vind, soos u reeds gedoen het om die mediaan self te bepaal.
  • In ons voorbeeld is ses punte bokant die mediaan, en ses is onder. Om die eerste kwartiel te vind, moet ons die gemiddeld van die twee middelpunte in die onderste ses punte neem. Punte 3 en 4 van die onderste ses is albei 70, so hul gemiddelde is ((70 + 70) / 2) =70. Ons waarde vir Q1 is dus 70.
  • Prent getiteld Bereken Outliers Stap 5
    5
    Bereken die derde kwartiel. Hierdie punt, wat ons met die veranderlike Q3 aandui, is die datapunt waaroor 25 persent van die data lê. Om Q3 te vind is feitlik dieselfde as die eerste kwartaal, behalwe dat ons in hierdie geval na die punte kyk bo die mediaan.
  • As ons voortgaan met bogenoemde voorbeeld, sien ons dat die twee middelpunte van die ses punte bokant die mediaan 71 en 72 is. Die gemiddelde van hierdie twee punte is ((71 + 72) / 2) =71,5. Ons waarde vir Q3 is dus 71,5.
  • Prent getiteld Bereken Outliers Stap 6
    6


    Vind die interkwartielafstand. Noudat ons Q1 en Q3 bepaal het, moet ons die afstand tussen hierdie twee veranderlikes bereken. U kan die afstand tussen Q1 en Q3 vind deur Q1 van Q3 af te trek. Die waarde wat jy kry vir die interkwartielafstand is noodsaaklik om die grense vir nie-afwykende punte in jou datastel te bepaal.
  • In ons voorbeeld is die waardes vir Q1 en Q3 onderskeidelik 70 en 71,5. Om die interkwartielafstand te bepaal, bereken ons Q3 - Q1: 71.5 - 70 =1,5.
  • Dit werk selfs as Q1, Q3 of albei getalle negatief is. Byvoorbeeld, as ons waarde vir Q1 -70 sou wees, sou die interkwartiele afstand 71.5 - (-70) = 141.5 wees, wat korrek is.
  • Prent getiteld Bereken Outliers Stap 7
    7
    Vind die "binne grense" van die datastel. U kan uitskieters identifiseer deur te bepaal of hulle binne `n aantal numeriese grense val - die sogenaamde `innerlike grenswaardes` en `buitenste grenswaardes`. `N Punt wat buite die binnegrenswaardes van die datastel val, word as a geklassifiseer ligte uitskieter, en `n punt wat buite die buitenste grenswaardes val, word as a geklassifiseer uiterste uitskieter. Om die binne grenswaardes van u datastel te vind, vermenigvuldig u die eerste kwartaalafstand met 1.5. Voeg die resultaat by Q3 en trek dit af vanaf Q1. Die twee resultate is die binne grense van u datastel.
  • In ons voorbeeld, die interkwartielafstand (71.5 - 70), of 1.5. Vermenigvuldig dit met 1.5 en jy eindig op 2.25. Ons tel hierdie getal in Q3 en trek dit van Q1 af, om die interne perke soos volg te vind:
  • 71,5 + 2,25 = 73,75
  • 70-2.25 = 67.75
  • Die binnengrenzen is dus 67,75 en 73,75.
  • In ons data stel is slegs die temperatuur van die oond - 300 grade Fahrenheit - buite hierdie reeks. Dit is dus moontlik `n ligte uitskieter. Ons moet egter ook bepaal of hierdie temperatuur `n uiterste uitskieter is, dus laat ons nie voortydige gevolgtrekkings maak nie.
    Prent getiteld Bereken Outliers Stap 7Bullet2
  • Prent getiteld Bereken Outliers Stap 8
    8
    Vind die "buitenste limietwaardes" van die datastel. Jy doen dit op dieselfde manier as met die binne grense, met die enigste verskil dat jy die interkwartielafstand vermenigvuldig met 3 in plaas van 1.5. U tel dan die uitslag by Q3 en trek van Q1 af om die buitenste limietwaardes te vind.
  • In ons voorbeeld vermenigvuldig ons die interkwartielreeks met 3 en kom ons by (1.5 * 3) of 4.5. Ons kan nou die buitenste limietwaardes op dieselfde manier vind as die binne grenswaardes:
  • 71,5 + 4,5 = 76
  • 70 - 4.5 = 65.5
  • Die buitenste grenswaardes is dus 65.5 en 76.
  • Data punte wat buite die buitengrenzen lê, word beskou as uiterste uitskieters. In ons voorbeeld is die oond temperatuur, 300 grade Fahrenheit, ver buite die buitengrenzen. Die oond temperatuur is dus seker `n uiterste uitskieter.
    Prent getiteld Bereken Outliers Stap 8Bullet2
  • Prent getiteld Bereken Outliers Stap 9
    9
    Gebruik `n kwalitatiewe assessering om te bepaal of jy die uitskieters moet gooi. Met die bostaande metode kan jy bepaal of sekere punte ligte uitskieters, ekstreme uitskieters of geen uitskieters is. Maar maak geen fout nie - erken `n punt wanneer `n buitestaander dit een maak kandidaat om uit die datastel verwyder te word, en nie onmiddellik `n punt wat uitgevee is nie moet word. die rede waarom `n uitskieter verskil van die res van die punte in die stel is noodsaaklik om te bepaal of die uitskieter verwyder moet word. Oor die algemeen word uitskieters veroorsaak deur een of ander fout - `n fout in die metings, in die opnames of in die eksperimentele ontwerp, byvoorbeeld, verwyder. Omgekeerd, uitskieters wat nie deur foute veroorsaak word nie en wat gewoonlik nuwe, onvoorspelbare inligting of tendense openbaar nie verwyder.
  • Nog `n kriterium om te oorweeg, is of die uitskieters die gemiddelde van `n datastel beïnvloed op `n manier wat skeef of misleidend is. Dit is baie belangrik as u van plan is om gevolgtrekkings te maak uit die gemiddelde van u datastel.
  • Kom ons kyk na ons voorbeeld. Sedert dit hoogs onwaarskynlik is dat die oond `n temperatuur bereik van 300 ° F deur een of ander onvoorsiene natuurkrag, kan ons in ons voorbeeld met byna 100% sekerheid aflei dat die oond per ongeluk was aangelaten, wat gesorg het vir `n abnormaal hoë temperatuur. Verder, as ons die uitbijter nie verwyder kom die gemiddelde van ons gegevensset uit op (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 ° F, terwyl die gemiddelde sonder die buitestaander eindig by (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70.55 ° F.
  • Aangesien die outlier deur `n menslike fout veroorsaak is, en omdat dit verkeerd is om te sê dat die gemiddelde kamertemperatuur byna 32 ° C was, moet ons kies om ons uitskieter in te sluit. verwyder.
  • Prent getiteld Bereken Outliers Stap 10
    10
    Verstaan ​​die belangrikheid om (soms) uitskieters te behou. Hoewel sommige uitbijters verwyder moet word uit `n gegevensset omdat hulle die resultaat is van foute, of omdat hulle die resultate op `n misleidende manier skeef, moet ander uitbijters juis behoue ​​bly. As `n uitbijter byvoorbeeld korrek is verkry (en dus nie die gevolg is van `n fout) en / of as die uitbijter `n nuwe insig bied in die te meet verskynsel, moet dit nie dadelik verwyder word. Wetenskaplike eksperimente is veral sensitiewe situasies wanneer dit gaan om die hantering van uitskieters - die foutiewe verwydering van `n uitskieter kan beteken dat jy belangrike inligting oor `n nuwe neiging of ontdekking gooi.
  • Byvoorbeeld: Stel jou voor dat ons `n nuwe dwelm ontwerp om vis in `n visplaas te laat groei. Laat ons ou gegevensset gebruik ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), met die verskil dat elke punt nou vir die massa van `n vis (in gram) na behandeling met `n ander eksperimentele middel vanaf die geboorte. Met ander woorde, die eerste medisyne het `n vis `n massa van 71 gram gegee, die tweede het `n ander vis `n massa van 70 gram, ensovoorts gegee. In hierdie situasie is 300 nog steeds `n groot uitskieter, maar ons moet dit nie nou verwyder nie. Want as ons aanneem dat die uitskieter nie die gevolg is van `n fout nie, is dit `n groot sukses in ons eksperiment. Die medisyne wat `n 300 gram vis gemaak het, het beter gewerk as enige ander medikasie, en so is dit presies dit mees belangrike data wys in ons stel, in plaas daarvan minste belangrike data punt.
  • wenke

    • As u uitskieters vind, probeer om dit te verduidelik voordat u dit uit die datastel verwyder. Dit kan metingsfoute of afwykings in die verspreiding aandui.

    voorrade

    • sakrekenaar
    Deel op sosiale netwerke:

    Verwante