A dobozdiagram magyarázata


A dobozdiagram egy több szempontból is speciális grafikontípus, a különböző részei közötti távolságok szemléletesen mutatják be egy vagy több, jellemzően nagyszámú, akár több száz, több ezer vagy még nagyobb elemszámú adatsor teljes és ún. interkvartilis terjedelemét.

Fogalmak

Minimum: az adatsor legkisebb értéke.

Maximum: az adatsor legnagyobb értéke.

Medián: a rendezett adatsor középső értéke, páros elemszám esetén a két középső érték számtani közepe, vagyis az a szám, aminél az adatsor elemeinek a fele kisebb, a fele pedig nagyobb.

Alsó kvartilis (Q1): a rendezett adatsornak az az értéke, amelynél az adatsor értékeinek negyede kisebb és a háromnegyede nagyobb, másképpen megfogalmazva a minimum és a medián közötti értékek mediánja.

Felső kvartilis (Q3): a rendezett adatsornak az az értéke, amelynél az adatsor értékeinek háromnegyede kisebb és a negyede nagyobb, azaz a medián és a maximum közötti értékek mediánja.

Terjedelem (mintaterjedelem, teljes terjedelem): az adatsor legnagyobb és legkisebb értékeinek különbsége (maximum–minimum).

Interkvartilis terjedelem (IQR): a felső kvartilis és az alsó kvartilis értékeinek különbsége (Q3–Q1), vagyis az a tartomány, ahol az adatsor értékeinek középső fele található.

Mi micsoda a dobozdiagramon?

Vízszintes dobozdiagram esetében a doboz bal széle jelzi az adatsor alsó kvartilisének (Q1), a jobb széle pedig az adatsor felső kvartilisének (Q3) értékét, így a kettő közötti távolság az ún. interkvartilis terjedelem, ahol az adatok középső 50%-a található. A doboz közepén lévő vonal az adatok mediánja, vagyis az az érték, aminél az adatsor elemeinek a fele kisebb, a fele pedig nagyobb. A doboztól balra található vízszintes vonal az adatsor minimumáig tart, így ez jelzi az adatok alsó 25%-ának tartományát, míg a doboztól jobbra található, az adatsor maximumáig tartó vonal az adatok felső 25%-ának tartományát mutatja.

Például az adatsor értékei a következők: 25, 28, 21, 19, 23, 6, 18, 38, 32.

Ugyanez a számsor rendezetten így néz ki: 6, 18, 19, 21, 23, 25, 28, 32, 38.

A 9 elemet tartalmazó adatsor legkisebb értéke, vagyis a minimuma a 6, a középső (5.) eleme, másképpen a mediánja a 23, míg a legnagyobb érték a sorban, ezáltal az adatok maximuma a 38. Az alsó öt elem középső eleme, azaz az alsó kvartilis (Q1) a 19, míg a felső öté, így a felső kvartilis (Q3) a 28, a kettő közötti szakasz az interkvartilis terjedelem.

Ugyanezek az értékek grafikusan ábrázolva így néznek ki: