Bereken uitskieters
`n uitbijter
of uitskieter In statistiek is `n data punt wat aansienlik verskil van die ander data punte in `n steekproef. Dikwels dui statistici op afwykings of foute in die metings, waarna hulle die uitskieter van die datastel kan verwyder. As hulle eintlik kies om die uitskieters uit die datastel te verwyder, kan dit lei tot aansienlike veranderinge in die gevolgtrekkings wat uit die navorsing getrek word. Dit is hoekom dit belangrik is om uitskieters te bereken en te bepaal as u die statistiese data korrek wil interpreteer.stappe
1
Leer hoe jy moontlike uitskieters kan herken. Voordat ons kan besluit of afwykende waardes van `n spesifieke datastel verwyder moet word, moet ons eers die moontlike uitskieters in die datastel erken. Oor die algemeen is uitskieters die datapunte wat sterk afwyk van die tendens wat die ander waardes in die gestelde vorm is - met ander woorde: hulle skiet uit van die ander waardes. Dit is gewoonlik maklik om dit in tabelle en (veral) in grafieke te herken. As die datastel visueel in `n grafiek uitgedruk word, sal die uitskieters `ver weg` van die ander waardes wees. Byvoorbeeld, as die meeste punte in `n datastel `n reguitlyn vorm, sal uitskieters nie hierdie reël kan reël nie.
- Kom ons kyk na `n datastel wat die temperature van 12 verskillende voorwerpe in `n kamer aandui. As die temperatuur van 11 van die voorwerpe met hoogstens `n paar grade skommel rondom die 21 ° C, terwyl een voorwerp, `n oond, `n temperatuur het van 150 ° C, kan jy in één oogopslag sien dat die oond waarskynlik `n uitbijter is.
2
Sorteer alle data punte van laag na hoog. Die eerste stap in die berekening van uitskieters is die vind van die mediaanwaarde (of die middelwaarde) van die datastel. Hierdie taak word baie makliker as die waardes in die stel van laag na hoog bestel word. Dus, voordat jy voortgaan, sorteer die waardes in jou datastel op hierdie manier.
3
Bereken die mediaan van die datastel. Die mediaan van `n datastel is die data punt met die helfte van die data hierbo en die helfte van die data daaronder - dit is eintlik die middelpunt van die datastel. As die datastel `n vreemde aantal punte bevat, is die mediaan maklik om te vind - die mediaan is die punt met soveel punte bokant dit soos hieronder. As daar `n ewe aantal punte is, want daar is nie een middelpunt nie, moet jy die gemiddelde van die twee middelpunte neem om die mediaan te vind. By die berekening van uitskieters word die mediaan gewoonlik die veranderlike Q2 genoem - want dit is tussen Q1 en Q3, die eerste en derde kwartiele. Ons sal later hierdie veranderlikes bepaal.
4
Bereken die eerste kwartiel. Hierdie punt, wat ons met die veranderlike Q1 aandui, is die datapunt hieronder waarvan 25 persent (of kwart) van die waarnemings lê. Met ander woorde, dit is die middelpunt van alle punte in u datastel onder die mediaan. As daar `n ewe aantal waardes onder die mediaan is, moet u weer die gemiddelde van die twee middelwaardes neem om Q1 te vind, soos u reeds gedoen het om die mediaan self te bepaal.
5
Bereken die derde kwartiel. Hierdie punt, wat ons met die veranderlike Q3 aandui, is die datapunt waaroor 25 persent van die data lê. Om Q3 te vind is feitlik dieselfde as die eerste kwartaal, behalwe dat ons in hierdie geval na die punte kyk bo die mediaan.
6
Vind die interkwartielafstand. Noudat ons Q1 en Q3 bepaal het, moet ons die afstand tussen hierdie twee veranderlikes bereken. U kan die afstand tussen Q1 en Q3 vind deur Q1 van Q3 af te trek. Die waarde wat jy kry vir die interkwartielafstand is noodsaaklik om die grense vir nie-afwykende punte in jou datastel te bepaal.
7
Vind die "binne grense" van die datastel. U kan uitskieters identifiseer deur te bepaal of hulle binne `n aantal numeriese grense val - die sogenaamde `innerlike grenswaardes` en `buitenste grenswaardes`. `N Punt wat buite die binnegrenswaardes van die datastel val, word as a geklassifiseer ligte uitskieter, en `n punt wat buite die buitenste grenswaardes val, word as a geklassifiseer uiterste uitskieter. Om die binne grenswaardes van u datastel te vind, vermenigvuldig u die eerste kwartaalafstand met 1.5. Voeg die resultaat by Q3 en trek dit af vanaf Q1. Die twee resultate is die binne grense van u datastel.
8
Vind die "buitenste limietwaardes" van die datastel. Jy doen dit op dieselfde manier as met die binne grense, met die enigste verskil dat jy die interkwartielafstand vermenigvuldig met 3 in plaas van 1.5. U tel dan die uitslag by Q3 en trek van Q1 af om die buitenste limietwaardes te vind.
9
Gebruik `n kwalitatiewe assessering om te bepaal of jy die uitskieters moet gooi. Met die bostaande metode kan jy bepaal of sekere punte ligte uitskieters, ekstreme uitskieters of geen uitskieters is. Maar maak geen fout nie - erken `n punt wanneer `n buitestaander dit een maak kandidaat om uit die datastel verwyder te word, en nie onmiddellik `n punt wat uitgevee is nie moet word. die rede waarom `n uitskieter verskil van die res van die punte in die stel is noodsaaklik om te bepaal of die uitskieter verwyder moet word. Oor die algemeen word uitskieters veroorsaak deur een of ander fout - `n fout in die metings, in die opnames of in die eksperimentele ontwerp, byvoorbeeld, verwyder. Omgekeerd, uitskieters wat nie deur foute veroorsaak word nie en wat gewoonlik nuwe, onvoorspelbare inligting of tendense openbaar nie verwyder.
10
Verstaan die belangrikheid om (soms) uitskieters te behou. Hoewel sommige uitbijters verwyder moet word uit `n gegevensset omdat hulle die resultaat is van foute, of omdat hulle die resultate op `n misleidende manier skeef, moet ander uitbijters juis behoue bly. As `n uitbijter byvoorbeeld korrek is verkry (en dus nie die gevolg is van `n fout) en / of as die uitbijter `n nuwe insig bied in die te meet verskynsel, moet dit nie dadelik verwyder word. Wetenskaplike eksperimente is veral sensitiewe situasies wanneer dit gaan om die hantering van uitskieters - die foutiewe verwydering van `n uitskieter kan beteken dat jy belangrike inligting oor `n nuwe neiging of ontdekking gooi.
wenke
- As u uitskieters vind, probeer om dit te verduidelik voordat u dit uit die datastel verwyder. Dit kan metingsfoute of afwykings in die verspreiding aandui.
voorrade
- sakrekenaar
Deel op sosiale netwerke:
Verwante
- Skep `n ewekansige steekproef in Excel
- Skep `n tendens analise in Excel
- Voeg `n tweede y-as by `n grafiek in Excel
- Skep staafgrafieke
- Bereken afwyking
- Bereken Covariance
- Bepaal die interkwartielafstand
- Bereken die spreidingswydte
- Bereken die standaardfout
- Bereken `n groeifaktor
- Bereken `n P-waarde
- Bereken die vertrouensinterval
- Bereken die gemiddelde
- Bereken die gemiddelde en standaardafwyking
- Bereken die geweegde gemiddelde
- Bereken molekulêre absorbansie
- Bereken Spearman se rangkorrelasiekoëffisiënt
- Bereken standaardafwyking
- Bereken standaardafwyking in Excel
- Assesseer statistiese betekenisvolheid
- Bepaal die omvang van `n datastel