Kaip (ir kodėl) naudoti „Outliers“ funkciją „Excel“
Išeiga yra reikšmė, kuri yra žymiai didesnė arba mažesnė už daugumą jūsų duomenų reikšmių. Naudojant „Excel“ duomenų analizei, išskirtiniai rezultatai gali susilpninti rezultatus. Pavyzdžiui, vidutinis duomenų rinkinio vidurkis gali iš tikrųjų atspindėti jūsų vertybes. „Excel“ pateikia keletą naudingų funkcijų, padedančių valdyti savo išskirtines vertes, todėl pažiūrėkime.
Greitas pavyzdys
Toliau pateiktame paveikslėlyje išskirtiniai yra gana lengvai pastebimi - dviejų „Eric“ priskirtų vertybių ir „Ryan“ priskirtos 173 vertės. Tokiame duomenų rinkinyje pakankamai paprasta pastebėti ir tvarkyti šiuos išsklaidymus rankiniu būdu.
Didesniame duomenų rinkinyje taip nebus. Galimybė nustatyti išskirtinius duomenis ir pašalinti juos iš statistinių skaičiavimų yra svarbus, ir tai, ką mes ieškosime, kaip tai padaryti šiame straipsnyje.
Kaip surasti savo duomenis
Jei norite rasti duomenų rinkinio išskirtines reikšmes, mes atlikiame šiuos veiksmus:
- Apskaičiuokite pirmąjį ir trečiąjį kvartilus (kalbėsime apie tai, kas yra tik šiek tiek).
- Įvertinkite interkvartilinį diapazoną (mes taip pat paaiškinsime juos šiek tiek toliau).
- Grąžinkite viršutines ir apatines mūsų duomenų diapazono ribas.
- Naudokite šias ribas, kad nustatytumėte atokiausius duomenų taškus.
Šių dydžių išsaugojimui bus naudojamas ląstelių diapazonas, esantis dešiniajame paveikslėlyje esančiame duomenų rinkinyje.
Pradėkime.
Pirmas žingsnis: Apskaičiuokite kvartilus
Jei suskirstysite savo duomenis į ketvirčius, kiekvienas iš šių rinkinių vadinamas kvartiliu. Mažiausias 25% numerių diapazone sudaro 1-ą kvartilį, kitą 25% - antrąjį kvartilį ir pan. Pirmiausia mes žengiame šį žingsnį, nes plačiausiai naudojamas išeities apibrėžimas yra duomenų taškas, kuris yra daugiau kaip 1,5 tarpkvartilių intervalų (IQR) žemiau 1-osios kvartilės, ir 1,5 interkvartilinis diapazonas virš 3-osios kvartilio. Norėdami nustatyti šias vertybes, pirmiausia turime išsiaiškinti, kas yra kvartilai.
„Excel“ suteikia QUARTILE funkciją, kad būtų galima apskaičiuoti kvartilius. Tam reikalingi du duomenys: masyvas ir kvarcas.
= QUARTILE (masyvas, kvarcas)
The masyvas yra vertybių diapazonas. Ir quart yra numeris, kuris žymi ketvirtį, kurią norite grąžinti (pvz., 1 1g kvartilis, 2 - antrasis kvartilis ir tt).
Pastaba: „Excel 2010“ „Microsoft“ išleido QUARTILE.INC ir QUARTILE.EXC funkcijas kaip „QUARTILE“ funkcijos patobulinimus. QUARTILE yra labiau suderinama, kai dirbate keliose „Excel“ versijose.
Grįžkime prie mūsų pavyzdžių lentelės.
Apskaičiuoti 1g Kvartilis mes galime naudoti šią formulę ląstelėje F2.
= QUARTILE (B2: B14,1)
Kai įvesite formulę, „Excel“ pateikia quart argumento parinkčių sąrašą.
Apskaičiuoti 3rd kvartilis, mes galime įvesti formulę kaip ir ankstesnę formulę F3, bet naudojant tris, o ne vieną.
= QUARTILE (B2: B14,3)
Dabar turime ląstelėse rodomus kvartilinius duomenų taškus.
Antras žingsnis: Įvertinkite interkvartilinį diapazoną
Tarpkvartilinis diapazonas (arba IQR) yra vidutinis 50% jūsų duomenų reikšmių. Jis apskaičiuojamas kaip skirtumas tarp 1-ojo kvartilio ir 3-osios kvartilės vertės.
Mes ketiname naudoti paprastą formulę į F4 langelį, kuris atima 1g kvartilis iš 3rd kvartilis:
= F3-F2
Dabar matome mūsų interkvartilinį diapazoną.
Trečias žingsnis: grąžinkite apatines ir viršutines sienas
Apatinės ir viršutinės ribos yra mažiausios ir didžiausios duomenų diapazono vertės, kurias norime naudoti. Bet kokios vertės, mažesnės ar didesnės už šias ribines vertes, yra išskirtinės vertės.
Apskaičiuosime apatinę ribą F5 ląstelėje, IQR reikšmę padauginus iš 1,5 ir tada atimdami jį iš Q1 duomenų taško:
= F2- (1,5 * F4)
Pastaba: Šioje formulėje esantys skliausteliai nėra būtini, nes dauginimo dalis apskaičiuojama prieš atimant dalį, bet formulę lengviau skaityti.
Norėdami apskaičiuoti viršutinę ribą ląstelėje F6, IQR padauginsime dar kartą 1,5, bet šį kartą papildyti į Q3 duomenų punktą:
= F3 + (1,5 * F4)
Ketvirtas žingsnis: nustatykite nuokalnės
Dabar, kai turime visus mūsų pagrindinius duomenis, atėjo laikas nustatyti mūsų atokiausius duomenų taškus - tuos, kurie yra mažesni už apatinę ribinę vertę arba didesnius už viršutinę ribinę vertę.
Naudodamiesi OR funkcija atliksime šį loginį testą ir parodysime šiuos kriterijus atitinkančias vertes įvedant šią formulę į C2 langelį:
= AR (B2 $ F $ 6)
Tuomet šią vertę nukopijuosime į mūsų C3-C14 ląsteles. TRUE reikšmė rodo išeities tašką, ir, kaip matote, turime du duomenis.
Neatsižvelgiant į „Outliers“, kai apskaičiuojamas vidutinis vidurkis
Naudodami QUARTILE funkciją leiskite mums apskaičiuoti IQR ir dirbti su plačiausiai naudojamu outlier apibrėžimu. Tačiau apskaičiuojant vidutinį vidurkį vertybių diapazonui ir ignoruojant išskirtines reikšmes, yra greitesnė ir lengvesnė funkcija. Šis metodas neatpažins nei ankstesnio, bet ir leis mums būti lankstiems su tuo, ką galėtume apsvarstyti mūsų nepagrįstai.
Funkcija, kurios mums reikia, vadinama TRIMMEAN, o sintaksę galite pamatyti toliau:
= TRIMMEAN (masyvas, proc.)
The masyvas yra verčių, kurias norite vidutiniškai, diapazonas. The procentų yra duomenų taškų procentinė dalis, kurią norite pašalinti iš duomenų rinkinio viršaus ir apačios (galite ją įvesti kaip procentinę ar dešimtainę reikšmę).
Toliau pateiktą formulę į mūsų D pavyzdį įdėjome į D3 langelį, kad apskaičiuotume vidurkį ir neįtrauktume 20 proc.
= TRIMMEAN (B2: B14, 20%)
Čia jūs turite dvi skirtingas funkcijas išsklaidyti. Nesvarbu, ar norite juos atpažinti kai kuriems ataskaitų teikimo poreikiams, ar išskirti juos iš skaičiavimų, tokių kaip vidurkiai, „Excel“ turi funkciją, atitinkančią jūsų poreikius.