Explorační analýza dat v R

Z WikiSkript

Explorační analýzu dat (exploratory data analysis, EDA) můžeme chápat jako aplikovanou popisnou statistiku: cílem je zkrátka prozkoumat získaná data, odfiltrovat chyby a chybějící data, zobrazit několik základních grafů a získat přehled, s jakým datasetem vlastně pracuji. To pak usnadní rozmýšlení, jakou statistickou metodu a jaké analýzy mohu nad daty provádět.

V tomto článku se pokusíme ukázat základní nástroje explorační analýzy v jazyce a prostředí R.

Pro správnou funkci kódu v tomto článku bude potřeba nainstalovat balíček lattice:

# balicky pro tuto kapitolu
library(lattice)

Čísla[upravit | editovat zdroj]

Základním nástrojem může být např. zobrazení minima, prvního a třetího kvartilu, mediánu, průměru a maxima.

# vyrobim si nahodnou velicinu
a <- rnorm(100)

# a vypisu souhrn
summary(a)

#>    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
#> -2.65361 -0.62364  0.06343  0.05238  0.75077  2.60554

Podobného výsledku bez průměru můžeme dosáhnout i jinou funkcí.

# stejna velicina, jiny souhrn
fivenum(a)

#> [1] -2.65361146 -0.63345254  0.06343441  0.75899874  2.60553666

Grafy[upravit | editovat zdroj]

Stem and leaf[upravit | editovat zdroj]

Zajímavým přechodem mezi čísly (textem) a grafy je stem-and-leaf diagram. Ve své jednoduché podobě ho vídáme na zastávkách hromadné dopravy. Vlevo od vertikály je "kořen" a vpravo je "větev" nebo "list". U jízdních řádů jsou vlevo hodiny a vpravo minuty, každý autobus je zmíněn samostatně (i kdyby jely dva v jeden čas). Stejné je to u jiných diagramů, vzniká vlastně jakýsi textový histogram převrácený na bok.

# vykon automobilu v konich
stem(mtcars$hp)

#>  The decimal point is 2 digit(s) to the right of the |
#>
#>  0 | 5677799
#>  1 | 0011111122
#>  1 | 55888888
#>  2 | 123
#>  2 | 556
#>  3 | 4

Histogram[upravit | editovat zdroj]

Zde je histogram se stejnou veličinou jako u předchozího zobrazení.

hist(x    = mtcars$hp,
     main = "",
     xlab = "Vykon vozu v hp")

Krabicový graf[upravit | editovat zdroj]

Krabicový graf také ukazuje minimum, maximum, první a třetí kvantil a průměr. Můžeme si nechat zobrazit i odlehlé hodnoty.

# pouziju vygenerovanou nahodnou velicinu z prvniho prikladu
boxplot(x    = a,
        xlab = "Velicina 'a'",
        ylab = "Hodnota")

Sloupcový graf[upravit | editovat zdroj]

Sloupcový graf ukazuje složení souboru pomocí výšky sloupců.

barplot(height = table(mtcars$cyl),
        xlab   = "Pocet valcu v motoru",
        ylab   = "Cetnost")

Mozaikový graf[upravit | editovat zdroj]

Mozaikový graf ukazuje vztah mezi vícero kvalitativními proměnnými.

mosaicplot(x    = apply(HairEyeColor, c(1, 2), sum),
           main = "Vztah mezi barvou oci a barvou vlasu")

Lattice[upravit | editovat zdroj]

Dobré možnosti nabízí balíček lattice, který obsahuje funkce tvořící pokročilé grafy.

lattice::dotplot(weight ~ feed,
                 data = chickwts)
lattice::bwplot(weight ~ feed,
                data = chickwts)
lattice::xyplot(Petal.Length ~ Petal.Width | Species,
                data = iris)

Příjemná je také možnost barvení podle kategorií.

lattice::xyplot(Petal.Length ~ Petal.Width,
                data  = iris,
                group = Species)

Odkazy[upravit | editovat zdroj]

Použitá literatura[upravit | editovat zdroj]

  • OLDŘICH, Neubauer. Základy statistiky. - vydání. Grada Publishing a.s., 2012. 236 s. ISBN 9788024742731.
  • KERNS, G Jay. Introduction to Probability and Statistics Using R. 1. vydání. IPSUR, 2018. ISBN 978-1726343909.

Použité balíčky R[upravit | editovat zdroj]

  • SARKAR, Deepayan. Lattice: Multivariate Data Visualization with R. 1. vydání. New York : Springer, 2008. ISBN 978-0-387-75968-5.