Skip to main content

Hva er histogramfordeling?

Histogramfordeling i statistikk refererer til mønstre, former og plasseringer av univariate datapinjer på et histogram.Hvordan og hvor stolpene distribueres kan brukes til å analysere og trekke konklusjoner om dataene.Histogramfordelingsanalyse er viktig for å identifisere egenskaper som dataporalitet, multimodale distribusjoner og skjeve data.

Et histogram er et univariat datavisning som bruker rektangler proporsjonalt i område til klasse eller binfrekvens for å visuelt vise funksjoner i data.Datapunktene i histogrammet er organisert i binger, og selve histogramfordelingen er en visuell tilnærming av datasfrekvensfordelingen eller sannsynlighetstetthetsfunksjonen.Formen på fordelingen kan endres basert på antall binger.

Histogramfordelingsanalyse brukes ofte som en kvalitativ sjekk for dataporalitet.Selv om analysemetoder for å bestemme normalitet eksisterer, kan histogrammer brukes til å gi en rask, sunn fornuft sjekk for å spare tid.Hvis histogramdataene vises omtrent jevn og sentrert om gjennomsnittet, antas dataene å være normale.Data skjevhet er definert som uttalt asymmetri i dataene.Negativ skjevhet, eller skjevt til venstre, sees i datasett med svært få lave verdier.Positiv skjevhet, eller skjevt til høyre, oppstår i datasett med få høye verdier.Å observere histogramfordelingen kan avsløre outliers og skjeve data.

I tillegg til å avsløre egenskapene til data med en enkelt modus, kan formen på et histogram også avsløre egenskaper ved multimodale data.Multimodale datasett inneholder mer enn en modus og er preget av frekvensfordelinger som har mer enn en topp eller maksima.Politiske tilknytninger i en by, meningsmålinger og kroppsstørrelser på bier er eksempler på datasett som kan være multimodale.Å observere formen på histogrammet og merke de forskjellige toppene i multimodale data kan ofte gi en forsker mer innsikt enn enkle univariate statistiske beregninger ville.

Analysen av histogrammer og distribusjonen av data er svært avhengig av de valgte søppelstørrelsene.I praksis kan antall binger estimeres ved å ta kvadratroten til antall observasjoner, selv om andre søppelstørrelser kan brukes.For eksempel kan en lærer velge å analysere testkarakterer ved å velge søppelstørrelser som gjenspeiler bokstavkarakterer.