Calculeu valors atípics

Autora: Charles Brown
Data De La Creació: 8 Febrer 2021
Data D’Actualització: 1 Juliol 2024
Anonim
Calculeu valors atípics - Consells
Calculeu valors atípics - Consells

Content

A més anormal o bé més anormal a estadístiques és un punt de dades que difereix significativament dels altres punts de dades d’una mostra. Sovint, els valors atípics assenyalen discrepàncies o errors en les mesures als estadístics, després dels quals poden eliminar els valors extrems del conjunt de dades. Si realment opten per eliminar els valors atípics del conjunt de dades, podrien produir canvis significatius en les conclusions extretes de l’estudi. Per això, és important calcular i determinar valors atípics si voleu interpretar correctament les dades estadístiques.

Per trepitjar

  1. Apreneu a detectar possibles valors atípics. Abans de decidir si volem eliminar valors anòmals d’un conjunt de dades concret, és clar que primer cal identificar els possibles valors atípics del conjunt de dades. En general, els valors atípics són els punts de dades que es desvien significativament de la tendència que constitueixen els altres valors del conjunt, és a dir, disparar dels altres valors. Normalment és fàcil reconèixer-ho en taules i (especialment) en gràfics. Si el conjunt de dades es mostra gràficament visualment, els valors atípics estaran "lluny" dels altres valors. Per exemple, si la majoria dels punts d'un conjunt de dades formen una línia recta, els valors atípics no s'ajustaran a aquesta línia.
    • Vegem un conjunt de dades que mostren les temperatures de 12 objectes diferents d’una habitació. Si la temperatura de 11 dels objectes fluctua uns quants graus com a màxim al voltant dels 21 ° C, mentre que un objecte, un forn, té una temperatura de 150 ° C, es pot veure a simple vista que el forn és probablement un valor atípic.
  2. Ordeneu tots els punts de dades de menor a major. El primer pas per calcular valors atípics és trobar el valor mitjà (o el valor mitjà) del conjunt de dades. Aquesta tasca es fa molt més fàcil si els valors del conjunt estan en ordre de menor a major. Per tant, abans de continuar, ordeneu els valors del vostre conjunt de dades així.
    • Continuem amb l'exemple anterior. Aquí teniu el nostre conjunt de dades que mostra les temperatures en graus Fahrenheit de diferents objectes d’una habitació: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Si ordenem els valors del conjunt de menor a major, aquest es convertirà en el nostre nou conjunt: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. Calculeu la mediana del conjunt de dades. La mediana d’un conjunt de dades és el punt de dades on la meitat de les dades es troben a sobre i la meitat de les dades es troben a sota - és, en efecte, el "centre" del conjunt de dades. Si el conjunt de dades conté un nombre senar de punts, la mediana és fàcil de trobar: la mediana és el punt amb tants punts a sobre com a sota. Si hi ha un nombre parell de punts, perquè no hi ha un centre, cal agafar la mitjana dels dos punts centrals per trobar la mediana. Quan es calculen valors atípics, la variable Q2 se sol referir a la mediana, perquè es troba entre Q1 i Q3, el primer i el tercer quartil. Determinarem aquestes variables més endavant.
    • No us deixeu confondre pels conjunts de dades amb un nombre parell de punts (la mitjana dels dos punts centrals sovint és un nombre que no es troba al conjunt de dades en si), està bé. Tanmateix, si els dos punts centrals són els mateixos, la mitjana serà, per descomptat, també aquest número, també ho és .
    • En el nostre exemple, tenim 12 punts. Els dos termes centrals són els punts 6 i 7 - 70 i 71, respectivament. Per tant, la mediana del nostre conjunt de dades és la mitjana d’aquests dos punts: ((70 + 71) / 2) =70,5.
  4. Calculeu el primer quartil. Aquest punt, que denotem amb la variable Q1, és el punt de dades per sota del qual es troba el 25 per cent (o una quarta part) de les observacions. En altres paraules, aquest és el centre de tots els punts del vostre conjunt de dades baix la mediana. Si hi ha un nombre parell de valors per sota de la mediana, heu de tornar a agafar la mitjana dels dos valors mitjans per trobar Q1, tal com podríeu haver fet per determinar vosaltres mateixos la mediana.
    • En el nostre exemple, hi ha sis punts per sobre de la mediana i sis punts per sota. Per trobar el primer quartil, hem de prendre la mitjana dels dos punts mitjans dels sis punts inferiors. Els punts 3 i 4 dels sis inferiors són 70, de manera que la seva mitjana és ((70 + 70) / 2) =70. Per tant, el nostre valor per al primer trimestre és de 70.
  5. Calculeu el tercer quartil. Aquest punt, que denotem amb la variable Q3, és el punt de dades per sobre del qual es troba el 25% de les dades. Trobar Q3 és pràcticament el mateix que trobar Q1, tret que estem veient els punts en aquest cas a sobre la mediana.
    • Continuant amb l'exemple anterior, veiem que els dos punts mitjans dels sis punts per sobre de la mediana són 71 i 72. La mitjana d’aquests dos punts és ((71 + 72) / 2) =71,5. Per tant, el nostre valor per al tercer trimestre és de 71,5.
  6. Cerqueu el rang interquartil. Ara que hem determinat Q1 i Q3 hem de calcular la distància entre aquestes dues variables. Podeu trobar la distància entre Q1 i Q3 restant Q1 de Q3. El valor que obteniu per a l’interval de quarts és crucial per determinar els límits dels punts que no es desvien del vostre conjunt de dades.
    • En el nostre exemple, els valors de Q1 i Q3 són 70 i 71,5, respectivament. Per trobar l’interval interquartil, calculem Q3 - Q1: 71,5 - 70 =1,5.
    • Això funciona fins i tot si Q1, Q3 o els dos números són negatius. Per exemple, si el nostre valor per Q1 fos -70, l'interval intercuartil seria de 71,5 - (-70) = 141,5, que és correcte.
  7. Cerqueu els "Límits interns" del conjunt de dades. Podeu reconèixer valors atípics determinant si es troben dins d’un nombre de límits numèrics; els anomenats "límits interiors" i "límits exteriors". Un punt que queda fora dels límits interns del conjunt de dades es classifica com un sol suau atípic, i un punt fora dels límits externs es classifica com un extrem atípic. Per trobar els límits interns del vostre conjunt de dades, primer multipliqueu l'interval intercuartil per 1,5. Afegiu el resultat a Q3 i resteu-lo de Q1. Els dos resultats són els límits interns del vostre conjunt de dades.
    • En el nostre exemple, l’interval interquartil és (71,5 - 70), o 1,5. Multipliqueu això per 1,5 per obtenir 2,25. Afegim aquest número a Q3 i el restem de Q1 per trobar els límits interns de la següent manera:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • Així doncs, les fronteres internes ho són 67,75 i 73,75.
    • Al nostre conjunt de dades, només la temperatura del forn (300 graus Fahrenheit) està fora d’aquest rang. Per tant, pot ser que sigui un valor atípic suau. Tot i això, encara hem de determinar si aquesta temperatura és un valor extremadament extrem, així que no saltem a conclusions encara.
  8. Cerqueu els "límits externs" del conjunt de dades. Ho feu de la mateixa manera que amb els límits interns, amb l'única diferència que multipliqueu la distància intercuartil per 3 en lloc d'1,5. A continuació, afegiu el resultat a Q3 i restareu de Q1 per trobar els valors límit externs.
    • En el nostre exemple, multipliquem la distància interquartil per 3 per obtenir (1,5 * 3) o 4,5. Ara podem trobar els límits externs de la mateixa manera que els límits interns:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • Així doncs, els límits exteriors són 65,5 i 76.
    • Els punts de dades que es troben fora dels límits externs es consideren valors extrems extrems. En el nostre exemple, la temperatura del forn, a 300 graus Fahrenheit, està molt més enllà dels límits externs. Així doncs, la temperatura del forn és certament un valor atípic extrem.
  9. Utilitzeu una avaluació qualitativa per determinar si haureu de "llençar" els valors atípics. Amb el mètode anterior es pot determinar si certs punts són valors atípics lleus, valors extrems extrems o cap valor atípic. Però no us enganyeu: reconèixer un punt com a valor atípic en fa només un candidat que s’eliminarà del conjunt de dades i no immediatament un punt que s’elimini haver de convertir en. El raó per què un valor atípic difereix de la resta de punts del conjunt és crucial per determinar si s’ha de suprimir el valor atípic. En general, s’eliminen els valors atípics causats per algun error (un error en les mesures, en els enregistraments o en el disseny experimental, per exemple). En canvi, normalment es converteixen en valors atípics que no són causats per errors i que revelen informació o tendències noves i no previstes no suprimit.
    • Un altre criteri a tenir en compte és si els valors atípics afecten la mitjana d’un conjunt de dades d’una manera esbiaixada o enganyosa. Això és especialment important si teniu previst treure conclusions de la mitjana del vostre conjunt de dades.
    • Jutgem el nostre exemple. Des del més alt És poc probable que el forn arribés a una temperatura de 300 ° F a causa d’una força natural imprevista, en el nostre exemple podem concloure amb gairebé el 100% de certesa que el forn es va encendre accidentalment, provocant una lectura de temperatura anormalment alta. A més, si no eliminem els valors atípics, la mitjana del nostre conjunt de dades surt a (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 ° F, mentre que la mitjana sense el valor atípic surt a (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 ° F.
      • Atès que el valor atípic va ser causat per un error humà i com que és incorrecte dir que la temperatura mitjana de l'habitació era propera als 32 ° C, hem de triar utilitzar el nostre valor atípic. eliminar.
  10. Comprendre la importància de (de vegades) conservar valors atípics. Tot i que s’han d’eliminar alguns valors atípics d’un conjunt de dades perquè són el resultat d’errors o perquè distorsionen els resultats d’una manera enganyosa, s’han de conservar altres valors atípics. Per exemple, si s’ha obtingut correctament un valor atípic (i per tant no és el resultat d’un error) i / o si el valor atípic ofereix una nova visió del fenomen a mesurar, no s’hauria d’eliminar immediatament. Els experiments científics són situacions particularment sensibles a l’hora de tractar amb valors atípics: eliminar erròniament un valor atípic pot significar llençar informació important sobre una nova tendència o descobriment.
    • Per exemple, imaginem que estem dissenyant un medicament nou per fer que els peixos d’una piscifactoria creixin. Utilitzem el nostre conjunt de dades antic ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), amb la diferència que ara cada punt representa la massa d’un peix (en grams ) després del tractament amb un altre fàrmac experimental des del naixement. En altres paraules, el primer medicament donava a un peix una massa de 71 grams, el segon donava a un altre peix una massa de 70 grams, etc. En aquesta situació, 300 encara un valor atípic enorme, però no l’hem d’eliminar ara. Perquè, si suposem que el valor atípic no és el resultat d’un error, representa un gran èxit en el nostre experiment. El medicament que produïa un peix de 300 grams funcionava millor que qualsevol altre medicament, per tant, això és tot la majoria punt de dades important del nostre conjunt, en lloc de menys punt de dades important.

Consells

  • Si trobeu valors atípics, intenteu explicar-los abans d’eliminar-los del conjunt de dades; poden indicar errors de mesura o desviacions en la distribució.

Necessitats

  • Calculadora