T-TEST a ANOVA
T-TEST vs. ANOVA
Shromažďování a výpočet statistických údajů pro získání průměrné hodnoty je často dlouhý a zdlouhavý proces. T-test a jednosměrná analýza rozptylu (ANOVA) jsou dva nejčastější testy používané k tomuto účelu.
T-test je test statistické hypotézy, kde testovací statistika následuje po rozdělení studenta t, pokud je podporována nulová hypotéza. Tato zkouška se použije, když statistická data o zkoušce odpovídají normálnímu rozložení a je známa hodnota měřítka ve zkušební statistice. Není-li měřítko neznámé, pak je nahrazeno odhadem založeným na dostupných datech. Statistická zkouška bude následovat Studentův t-distribuce.
William Sealy Gosset představil t-statistiku v roce 1908. Gosset byl chemikem pro pivovar Guinness v irském Dublinu. Guinnessský pivovar měl politiku náboru nejlepších absolventů z Oxfordu a Cambridge, kteří si vybrali ty, kteří by mohli poskytnout aplikace biochemie a statistiky na zavedené průmyslové procesy společnosti. William Sealy Gosset byl jeden takový absolvent. V tomto procesu William Sealy Gosset vymyslel t-test, který byl původně představen jako způsob, jak sledovat kvalitu stout (tmavé pivo, které pivovar produkuje) nákladově efektivním způsobem. Gosset publikoval test pod názvem "Student" v biometriky kolem roku 1908. Důvodem pro název pera byla Guinnessova důraz, protože společnost chtěla dodržovat svou politiku využívání statistik jako součást svého "obchodního tajemství".
Statistika T-testu obvykle vyplývá z formuláře T = Z / s, kde Z a s jsou funkce dat. Proměnná Z je navržena tak, aby byla citlivá na alternativní hypotézu; efektivně je velikost proměnné Z větší, když je alternativní hypotéza pravdivá. Mezitím je 's' parametr měřítka, který umožňuje určení rozdělení T. Předpoklady, které jsou základem t-testu, spočívají v tom, že a) Z následuje standardní normální rozdělení pod nulovou hypotézou; b) ps2 následuje rozdělení Ï ‡ 2 s p stupni volnosti pod nulovou hypotézou (kde p je kladná konstanta); a c) hodnota Z a hodnota s jsou nezávislé. V konkrétním typu t-testu jsou tyto podmínky důsledky studované populace a také způsob, jakým jsou data odebírána.
Na druhou stranu analýza rozptylu (ANOVA) je souborem statistických modelů. Zatímco principy ANOVA byly využívány vědci a statistici po dlouhou dobu, to nebylo dokud ne 1918, že Sir Ronald Fisher navrhl formalizovat analýzu rozptylu v článku s názvem "Korelace mezi příbuznými na předpokladu Mendelian dědičnosti". Od té doby byla společnost ANOVA rozšířena o oblast působnosti a použití. ANOVA je vlastně nesprávné pojmenování, protože není odvozeno z rozdílů odchylek, ale spíše od rozdílů mezi skupinami. Zahrnuje související postupy, při kterých je zjištěná odchylka v konkrétní proměnné rozdělena do složek, které lze přičíst různým zdrojům změn.
V zásadě poskytuje ANOVA statistickou zkoušku, která určuje, zda jsou prostředky několika skupin stejné, a v důsledku toho generalizuje t-test na více než dvě skupiny. ANOVA může být mnohem užitečnější než t-test s dvěma vzorky, protože má menší šanci spáchat chybu typu I. Například mít několik testů t-testů s dvěma vzorky by mělo větší šanci spáchat chybu než ANOVA stejných proměnných použitých k získání průměru. Model je stejný a testovací statistika je poměr F. Zjednodušeneji jsou t-testy jenom zvláštním případem ANOVA: děláním ANOVA bude mít stejný výsledek několika t-testů. Existují tři třídy modelů ANOVA: a) modely s pevnými efekty, které předpokládají, že data pocházejí od normálních populací, liší se pouze jejich prostředky; b) modely náhodných efektů, které přebírají data, popisují hierarchii různých populací, jejichž rozdíly jsou omezeny hierarchií; a c) modely se smíšeným účinkem, které jsou situacemi, kdy existují jak pevné, tak náhodné efekty.
Souhrn:
- T-test se používá při určování, zda jsou dva průměry nebo prostředky stejné nebo odlišné. ANOVA je preferována při porovnávání tří nebo více průměrů nebo prostředků.
- T-test má větší šanci na chybu, čím více prostředků se používá, proto se ANOVA používá při porovnávání dvou nebo více prostředků.