ANOVA
Analýza rozptylu (variance), z anglického pojmu Analysis of variance, je druh statistického testování hypotéz. Užíváme ji pro testování hypotéz setávající z více než dvou sledovaných skupin, u nichž známe střední hodnotu. Studentův t-test je analýze rozptylu podobný, ale aplikuje se pro testování pouze dvou výběrů.
Nulová hypotéza předpokládá, že všechny skupiny mají stejnou střední hodnotu. Alternativní hypotéza naopak předpokládá, že střední hodnoty jsou odlišné.
Klasifikace[upravit | editovat zdroj]
Vstupním proměnným (základní rozdělení do skupin) říkáme faktory, jedná se o kategoriální data. Na základě počtu faktorů rozdělujeme možnosti samotné analýzy:
- jednofaktorová ANOVA (one-way ANOVA) = máme pouze jeden faktor, například pohlaví (muž, žena);
- dvoufaktorová ANOVA (two-way ANOVA) = faktorů máme více, například faktor pohlaví a faktor vzdělání, kdy jejich kombinace vytváří celkem šest skupin;
- vícefaktorová ANOVA (n-way ANOVA) = více než dva faktory.
Základní předpoklady[upravit | editovat zdroj]
Abychom mohli analýzu rozptylu provést, je nutné zjistit, zda:
- jsou hodnoty sledované veličiny na sobě vzájemně nezávislé a zda jsou normálně rozložené;
- mají srovnatelný rozptyl .
Pokud tyto podmínky splněny nejsou, je nutné použít neparametrické testy, které neuvažují normálně rozdělené hodnoty, jedinou podmínkou je, že musí být spojité. Jednofaktorová neparametrická ANOVA pro nezávislá měření se nazývá Kruskal-Wallis test, v případě závislých měření se používá Friedmanův test.
Příklad[upravit | editovat zdroj]
Představme si, že máme celkem 24 osob s hepatitidou. Těchto 24 pacientů rozdělíme do tří skupin: jedna skupina budou osoby s infekční hepatitidou, jedna s autoimunitní a jedna s toxickou hepaptitidou. U každé této skupiny chceme zjistit, jak (zda) se liší střední hodnota jejich věku a váhy.
Provádět pro jednoduchost budeme dvě jednofaktorové analýzy rozptylu – jednu pro věk a jednu pro váhu.
Navrhněme si proto dvě tabulky, jednu pro věk a jednu pro váhu jednotlivých osob rozdělených ve třech skupinách:
Infekční hepatitida | Autoimunitní hepatitida | Toxická hepatitida |
---|---|---|
55 | 24 | 35 |
56 | 18 | 59 |
62 | 32 | 44 |
64 | 26 | 60 |
48 | 30 | 32 |
42 | 28 | 56 |
36 | 19 | 39 |
79 | 16 | 40 |
Infekční hepatitida | Autoimunitní hepatitida | Toxická hepatitida |
---|---|---|
93 | 56 | 78 |
105 | 61 | 66 |
89 | 50 | 85 |
97 | 73 | 94 |
99 | 50 | 63 |
125 | 71 | 100 |
87 | 64 | 92 |
110 | 59 | 81 |
Výpočet[upravit | editovat zdroj]
Abychom samotnou analýzu rozptylu mohli provést, je nutné zjistit, zda jsou naše data normálně rozdělená – pro zjednodušení test normality v našem příkladu provádět nebudeme, v praxi je ale nutné jej udělat.
Pro výpočet zavádíme tři tzv. odhady variability.
1. Celkový počet čtverců (tzv. total sum of squares), = charakterizuje celkovou variabilitu v daném výběru, počítá se pomocí kvadrátů rozdílů pozorovaných hodnot od celkového průměru:
- Tento odhad variability je funkce pozorovaných hodnot statistikou, která má své vlastní rozdělení pravděpodobnosti − i proto následně můžeme říci, že za platnosti má chí-kvadrát distribuci s určitým počtem stupňů volnosti roven .
2. Skupinový součet čtverců (tzv. group sum of squares), = charakterizuje variabilitu mezi skupinovými průměry. Spočítat ho lze pomocí součtu kvadrátů rozdílů průměrů od celkového průměru:
- Analogicky i statistika má své chí-kvadrát rozdělení pravděpodobnosti, v tomto případě jsou ale stupně volnosti rovny .
3. Reziduální počet čtverců (tzv. residual sum of squares), = charakterizuje variabilitu v rámci jednotlivých skupin. Jeho hodnota je rovna součtu kvadrátů rozdílů pozorovaných hodnot od jednotlivých průměrů daných skupin:
Důležitým je zmínit statistiku (Fisherovo rozdělení), která je testovou statistikou pro analýzu rozptylu. V případě neplatnosti nulové hypotézy bude výsledná hodnota statistiky větší než 1. Počítá se jako podíl rozdílu mezi skupinami a rozptylu uvnitř skupin. Abychom ale mohli zamítnout, musíme znát kvantil rozdělení , jenž je příslušný určité hladině významnosti testu .
Po dosazení dostáváme následující výsledky:
Zdroj variability | Součet čtverců | Počet stupňů volnosti | Průměrný čtverec | Statistika F | p-hodnota |
---|---|---|---|---|---|
Mezi skupinami | 6457,6 | 2 | 3228,8 | 23,978 | <0,001 |
Uvnitř skupin | 2827,8 | 21 | 134,7 | ||
Celkem | 9285,3 | 23 |
Zdroj variability | Součet čtverců | Počet stupňů volnosti | Průměrný čtverec | Statistika F | p-hodnota |
---|---|---|---|---|---|
Mezi skupinami | 4063,08 | 2 | 2031,54 | 17,774 | <0,001 |
Uvnitř skupin | 2400,25 | 21 | 114,30 | ||
Celkem | 6463,33 | 23 |
Finální tabulkou by bylo porovnání jednotlivých průměrů s uvedením p-hodnoty, například:
Proměnná | Pacienti s infekční hepatitidou | Pacienti s autoimunitní hepatitidou | Pacienti s toxickou hepatitidou | p-hodnota |
---|---|---|---|---|
Váha v kg (průměr) | 100,6 | 60,5 | 82,4 | <0,001 |
Věk v letech (průměr) | 55,3 | 24,1 | 45,6 | <0,001 |
Post-hoc analýzy[upravit | editovat zdroj]
Je zřemé, že samotná p-hodnota vycházející z analýzy rozptylu více skupin neříká, jaké konkrétní proměnné (jejich rozptyly) se nejvíce liší. Pokud přijímáme na základě signifikantní p-hodnoty, je to vhodné zjistit. K účelu testování jednotlivých dvojic tedy využíváme tzv. post-hoc testy, které jsou v podstatě obdobou t-testu pro potřeby ANOVA. Nejčastěji se pro post-hoc analýzy využívá Fisherova LSD testu.
Odkazy[upravit | editovat zdroj]
Související články[upravit | editovat zdroj]
Externí odkazy[upravit | editovat zdroj]
- ANOVA (česká wikipedie)
- Portál matematické biologie Masarykovy univerzity
- Výukový text o analýze rozptylu
- Výpočet Fisherova LSD testu, v anglickém jazyce.
Použitá literatura[upravit | editovat zdroj]
- KLASCHKA, Jan. Studentův t-test [přednáška k předmětu Zdravotnická statistika 1,2, obor Všeobecné lékařství, 1. LF Univerzita Karlova]. Praha. 10.5.2011.
- WOOLSON, Robert F. a William CLARKE. Statistical Methods for the Analysis of Biomedical Data. 2. vydání. New York : John Wiley & Sons. Inc., 2002. 368 s. ISBN 9780471394051.