Testování hypotéz

Dušan Polanský

Nějakou hypotézu v životě vyslovil asi každý z nás. Její pravdivost, nebo nepravdivost otestoval nejednou sám život, což je ideální způsob testování jakékoliv hypotézy. Ovšem ne všechny hypotézy jsou tímto způsobem otestovatelné, již jenom proto, že takové testování může někdy trvat pěkně dlouho a praxe obvykle nepočká. Statistika, obor matematiky, nám sice na testování hypotéz nabízí poměrně širokou paletu metod, leč žádná není univerzálně použitelná na testování všech typů hypotéz. Myšlenku testování hypotéz si vysvětlíme na testování kvalitativních znaků. Zní to vše učeně, ale uvidíte, že to nakonec spolu zvládneme. K vysvětlení, co za znaky to jsou, se za chvíli dostaneme. Jinak jako obvykle předpokládám znalost matematiky maximálně na úrovni prvního ročníku střední školy. Text je úmyslně psán volně bez použití jakékoliv literatury, takže snad bude čtivý.

Proč jsem vybral právě testování zavislosti kvalitativních znaků? Hlavní důvod je, že se mi jeví přirozené a pochopitelné i pro lidi, co o statistice nic neví. Je tu i důvod vedlejší, osobní. Když starší dcera před 5 lety psala kvalifikační práci na získání titulu Ph.D., hledala metodu, která by se hodila na otestování hypotézy vyslovené na základě experimentálně získaných dat o zdravotním stavu pacientů. Problém mě trochu zaujal, jenomže o statistice jsem toho moc nevěděl. Abych vůbec pochopil o jaká data se z pohledu statistiky jedná, musel jsem se do pojmů, metod a technik statistiky jemně vnořit. Nejtěžší pro mne bylo pochopení testování hypotéz. Dcera si k vyhodnocení dat zakoupila licenci na program pro vyhodnocování statistických dat STATISTICA; program velice kvalitní, ale přiznám se narovinu, že nejsem typ, který se vyžívá v dlouhém dumání nad tím, jak se s programem pracuje, jak se do něj data zadávají. To chce bystrost a té se mi až tak moc nedostává. Kdyby mi to někdo ukázal, budiž. Nezbylo nic jiného, než metodu pochopit a příslušné vzorečky a podmínky pro testování hypotéz si napsat v Excelu. Správnost jsem si ověřil na publikovaných příkladech v literatuře a na Internetu. Výsledky souhlasily. Nakonec i dcera využila moji jednoduchou pomůcku pro otestování hypotézy ve své práci. Uvádím to jenom proto, že někdy mechanické používání nějakého programu bez pochopení vlastního algoritmu, tedy co a jak program něco počítá, nemusí být nejšťastnější volbou pro hlubší pochopení příslušné metody. Neboli někdy je dobré vědět, jak program alespoň principiálně funguje.

Co to vůbec ty kvalitativní znaky – někdy se jim říká také kategoriální znaky – jsou? Jsou to znaky, které nabývají nečíselných hodnot, např. pohlaví (muž, žena); barva očí (hnědá, modrá, …); povaha (flegmatik, cholerik, sangvinik, melancholik); očkován (byl, nebyl), kouření (ano, ne). O co vůbec při testování závislosti kvalitativních znaků běží?

Příklad, který teď uvedu, určitě znáte ze života. „Kouření škodí zdraví“, toť upozornění na každém balíčku cigaret, dokonce i na těch z černého trhu. Kuřáky má především varovat před zvýšeným rizikem onemocnění rakovinou. Proto i my pravdivost nebo nepravdivost upozornění budeme pro zjednodušení zkoumat pouze na výskytu rakoviny. Jak bychom tohle tvrzení mohli nějak rozumně dokázat nebo vyvrátit? Určitě nás napadnou tyhle dva postupy. První. Když někdo onemocní rakovinou, šetrně a s taktem se jej zeptáme, zda kouří nebo nekouří. Je zřejmé, že při vyhodnocení odpovědí musíme nějak rozumně zohlednit dobu kouření. Pokud někdo onemocněl rakovinou a přitom kouří velice krátce, např. měsíc, těžko tvrdit, že je to kvůli kouření, raději jej zařadíme mezi nekuřáky, kteří onemocněli rakovinou. Druhý. Vybereme dostatečně veliký náhodný výběrový soubor, vzorek, přičemž náhodnost výběru je stěžejní požadavek – kuřáků a nekuřáků např. nad třicet let, např. 200 těch a těch, a budeme dlouhodobě sledovat, kolik jich časem onemocní rakovinou. Výsledkem našeho sledování u obou postupů bude vyplněná tabulka o dvou sloupcích a o dvou řádcích, celkem tabulka bude mít 4 buňky. V nich vyplníme tyto 4 údaje: počet těch co kouří a dostali rakovinu; počet těch co kouří a nedostali rakovinu; počet těch co nekouří a dostali rakovinu a nakonec počet těch co nekouří a rakovinu nedostali. To by byly naše výchozí data.

Ovšem než nějakou hypotézu na základě získaných dat vyslovíme, musíme si uvědomit, že statistika nám nikdy jednoznačně neříká, že se něco stane nebo nestane nebo že hypotéza platí či neplatí na 100 %. Na to je statistika až moc opatrná z již své podstaty. Představme si, že u dvoustovky sledovaných kuřáků jich nakonec zemřelo na rakovinu 54. U dvoustovky nekuřáků „jenom“ 46. Lze již na základě tohoto výsledku pouze z jednoho výběrového vzorku testovaných osob tvrdit, že kouření škodí zdraví? Nejedná se jenom o pouhou odchylku, která má charakter náhody? Na tuhle otázku a podobné otázky se nám snaží odpovědět metody používané k testování hypotéz. Někdo může namítnout, že náš vzorek 200 kuřáků a nekuřáků je dost malý, že jsme nezohlednili genetickou předispozici a další náhodné faktory, jako je prostředí, kde osoba žije, práce jakou vykonává, osobní životní styl atd. Lze dokázat, že vzorek až tak malý není, a pokud se jedná o další zmíněné faktory, ty si vybírají svoji krutou daň daň jak v skupině kuřáků tak i nekuřáků zcela náhodně. Tak náhodně, jak náhodný musí být i náš výběr testovaných osob, což je základní podmínkou všech testů. Je matematicky dokázané, že součty mnohých malých vlivů jsou normálně rozděleny. Normální rozdělení má tvar zvonu. Uprostřed zvonu je maximum a pak pozvolna křivka klesá. Typickými, často uváděnými, příklady náhodné proměnné s normálním rozdělením je výška mužů, dosažené IQ, váha novorozeňat.

Teď trochu terminologie. V statistice se výchozí hypotéza, říká se jí nulová hypotéza, definuje obvykle tak, že neexistuje významný rozdíl, závislost, mezi zkoumanými daty. Opačné hypotéze vůči nulové hypotéze se říká alternativní hypotéza. V našem příkladě bychom nulovou hypotézu formulovali nějak takto: není žádná závislost mezi onemocněním rakovinou a kouřením, alternativní hypotéza by pak zněla: je závislost onemocnění rakovinou na kouření.

Řekli jsme si, že statistika je v soudech dost opatrná. Opatrnost prezentuje v rafinované terminologii, koneckonců tak to opatrníci dělají i v běžném životě. Maximálně může říct, že testovaná odchylka je nebo není statisticky významná na konkrétní hladině významnosti. Hladina významnosti se udává v procentech, nebo jako poměrná část z 1, kde 1 je 100%. Nejčastěji se volí hodnota 5 % neboli zapsáno druhým způsobem 0,05. Co tahle učenost prakticky znamená? Zhruba tohle: kdybychom náš průzkum o závislosti mezi onemocněním rakovinou a kouřením zopakovali 100 krát, pokaždé na jiných 200 kuřácích a 200 nekuřácích, tak v případě potvrzení alternativní hypotézy o škodlivosti kouření na 0,05 hladině významnosti bychom mohli očekávat, že u 5 průzkumů ze sta provedených, závislost onemocnění rakovinou na kouření nebude zřejmá, kdežto u 95 průzkumů ano. Neboli ještě jinak: v 95 % testovaná odchylka (mezi výskytem rakoviny u kuřáků a někuřáků) nemá náhodný charakter, ale je statisticky významná. Takže žádné platí, neplatí, ano, ne, pravda, nepravda jako v hospodě u piva, ale zamítáme nebo nezamítáme nulovou hypotézu. To si dobře zapamatujeme.

Než budu pokračovat malý slib. V dalším výkladu nebudu kuřákům kazit radost ze života a kouření a vymyslím si nekuřácký příklad. Snad tím potěším v nebi či pekle tátu, který kdysi dávno,v letech 1960 až 1966 dělal správce ve Výzkumnom ústave tabákového priemyslu (již zanikl) na Alexandrovom dvore (leží na Slovensku mezi městy Nitra a Sereď) a v té době kouřil 30 za den. Na jeho obranu uvádím, že by bylo neprofesionální, kdyby nekouřil, to jako kdybychom chtěli od vinaře, aby nepil víno nebo od politika, aby nehrabal do své kapsy jako křeček.

Obvykle se v učebnicích statistiky uvádí postup a příslušné vzorečky, jak se metoda na zkoumaná data aplikuje za těch a těch podmínek. Někdy je lépe metodu pochopit, aby člověk nepostupoval mechanicky, čímž i zvyšuje šanci dopátrat se chyby, kdyby ve výpočtu něco nesedělo. Také proto jsem zvolil zcela elementární příklad, abych logiku celého testu, pokud možno, jasně a srozumitelně vyložil. Tedy doufám, že to jakž takž zvládnu.

Náš příklad. Myslíme si, že mezi muži a ženami je významný rozdíl mezi věřícímí a nevěřícími v křesťanského Boha. Jak bychom postupovali při testování této hypotézy? Nejdřív bychom náhodně sestavili výběrový vzorek mužů a žen o stejném počtu osob a každém z nich bychom položili anonymně otázku, zda věří nebo nevěří v Pána Našeho. Nech je mužů i žen po stovce. Získaná data, často jim říkáme experimentální, bychom zanesli do tabulky, které se často říká kontingenční tabulka. Řádky kontingenční tabulky odpovídají možným hodnotám prvního znaku, sloupce pak možným hodnotám druhého znaku. Klidně jsme řádky a sloupce mohli zaměnit.

Experimentální data
Znak Muž Žena Celkem
Věřící 24 32 56
Nevěřící 76 68 144
Celkem 100 100 200

Při prvním pohledu na data získaná z výběrového vzorku se zdá, že ženy jsou věřící o něco více než muži, což jsme si mysleli i před provedením průzkumu. Nulovou hypotézu vyslovíme takto: mezi muži a ženami není statisticky významná odchylka mezi počtem věřících a nevěřících. Alternativní bude znít: mezi muži a ženami je statisticky významná odchylka mezi počtem věřících a nevěřících. My si předběžně myslíme, že spíš je pravdivá alternativní hypotéza, ale uvidíme, co ukáže výpočet.

Jaký bude náš další krok? Do formálně stejné tabulky doplníme očekávaná data v souladu s nulovou hypotézou. Jak spočteme očekávaná data? Uvažujme logicky. Věrících je celkem 56, na jednu osobu připadá 56/200 = 0,28 víry. A protože víra a nevíra musí dát 1, na jednu osobu připadá 0,72 nevíry. Mužů je 100, takže očekávaná hodnota věřících můžů by měla být 0,28 × 100 = 28 věřících mužů. U žen je to stejný počet. Nevěřících je 144, takže na jednu osobu připadá 144/200 = 0,72 nevíry, což ale již víme i jinak, takže jenom kontrola. Mužů je 100, takže očekávaný počet nevěřících mužů je 0,72 × 100 = 72. Stejně je i žen. Když jsme logiku výpočtu očekávaných hodnot pochopili, lze si výpočet očekávaných hodnot lehce zautomatizovat, u příslušné buňky použijeme tento vzoreček: (příslušný řádkový součet × příslušný sloupcový součet) / celkový součet. Výpočet pro věřící muže: (56 × 100) / 200 = 28. My jsme počítali takto: (56/200) × 100, což je identický výpočet, jenom jinak zapsán. A zde je tabulka očekávaných dat.

Očekávaná data
Znak Muž Žena Celkem
Věřící 28 28 56
Nevěřící 72 72 144
Celkem 100 100 200

Asi začínáte tušit, že měřítkem zamítnutí nebo nezamítnutí nulové hypotézy budou odchylky (rozdíly) mezi experimentálně získanými a očekávanými daty. Když odchylky budou veliké budeme očekávat zamítnutí nulové hypotézy, když budou malé, tak nezamítnutí. Do stejné tabulky si tedy odchylky zapíšeme. Jako referenční (vztažnou) tabulku uvažujeme tabulku s experimentálními daty. Klidně bychom mohli za vztažnou tabulku vzít tabulku s očekávanými daty, vždyť vše na světě je relativní. Co by se změnilo? Jenom znaménka u jednotlivých odchylek.

Odchylky mezi experimentálními a očekávanými daty
Znak Muž Žena Celkem
Věřící -4 +4 0
Nevěřící +4 -4 0
Celkem 0 0 0

Ale co je veliká a co malá odchylka? Často věc názoru, znáte to, pro pracháče je 100 Kč doslova nic, pro bezdomovce důvod k radosti po celý den. Další problém je se znaménky. Jaký je z pohledu statistiky rozdíl mezi odchylkou +4 a –4? Principiálně žádný, koneckonců znaménko odchylky závisí na tom, ke které tabulce hodnoty vztahujeme. Nejlépe by se bylo znamének zbavit. Jak? Osvědčeným postupem, umocníme získané odchylky na druhou a dostaneme jenom kladné hodnoty. Sice z odchylek jsme tímto krokem vytvořili podstatně větší čísla, ale o tom víme. Určitě tento fakt zohlednili i autoři námi použité metody.

Také tušíme, že testovacím kritériem musí být veličina, která zohlední odchylky mezi experimentálními a očekávanými daty bez ohledu na znaménko. Výsledkem bude, že pří výpočtu testovacího kritéria se se v něm objeví druhá mocnina odchylek. Ovšem zohlednit odchylky nestačí, důležité je s čím budeme odchylky porovnávat. 1 Kč proti milionu je málem nic, proti pětikoruně celá pětina. Nejlogičtější se jeví umocněné odchylky porovnávat s očekávanými daty. A jak vypadá výsledný vzoreček pro výpočet testovacího kritéria, veličiny zvané chi2 (za chi si povinně domyslete tvar příslušného řeckého písmena)?

Chi2 = suma přes všechny buňky (experimentální data – očekávaná data)2 / očekávaná data. Zde je výpočečt pro náš příklad:

Chi2 = (–4)2/28 + (+4)2/28 + (+4)2/72 + (-4)2/72 = 1,58.

Než budeme pokračovat dál, malá poznámka k podmínkám, za nichž tento způsob testování aplikovat, ono totiž žádnou univerzální metodu testování kvalitativních dat nemáme k dispozici. Podmínky jsou dvě. První říká, že žádná hodnota dat nesmí být nulová a druhá podmínka, že nanejvýš 20 % hodnot může být menších než 5. V našem příkladu jsme těmto podmínkám vyhověli. A můžeme se s klidem vrátit k našemu testování.

Teď jde o to, s čím vypočtenou hodnotu Chi2 porovnáme? Musíme ji porovnat s nějakou kritickou hodnotou, která bude těsně provázaná s hladinou významnosti a strukturou naší tabulky - v našem příkladu 2 řádky, dva sloupce -, a bude to jakýsi pomyslný kritický bod, před jehož hodnotou nezamítneme nulovou hypotézu a za jeho hodnotou již ano.

Ona tajemná kritická hodnota souvisí s rozdělením chi2, což je speciální teoretické rozdělení, které se využíva, mimo jiné, i pro testování kvalitativních dat při splnění určitých podmínek. Detaily o těchto podmínkách lze nalézt v učebnicích statistiky. Důležité je, že v našem příkladě podmínky jsou splněny. Kritické hodnoty chi2 rozdělení jsou tabelovány. Kritická hodnota chi2 s 1 stupněm volnosti testovaného vzorku na nejpoužívanější 5% hladině významnosti je 3,84. Nám vychází 1,58 < 3,84. A zase jsem hodil do placu nový pojem: stupeň volnosti. Ale klídek, nic děsivého, souvisí to právě se strukturou naší tabulky: dva řádky, dva sloupce. Pokud víme, že věřících mužů je 24, tak počet nevěřících je jednoznačně dán vztahem: 100 – 24 = 76. V tomto případě říkáme, že počet stupňů volnosti sledovaných dat je 1. Opravdu, volnost máme pouze při určení počtu věřících mužů, respektive nevěřích a pak je již jednoznačně dán počet těch na druhé straně. Podobně je tomu u žen. Nebo jiný příklad. Mějme dvě jamky a dvě kuličky. V každé jamce má skončit jedna kulička. Při první kuličce máme na výběr, do které jamky kuličku vložíme. U druhé kuličky již na výběr nemáme, musíme ji vložit do neobsazené jamky. Opět příklad s 1 stupněm volnosti, jelikož se můžeme svobodně rozhodnout pouze jednou. Výsledný stupeň volnosti u naší tabulky lze spočíst formálně takto: (2-1).(2-1) = 1. První dvojka je počet řádků, druhá počet sloupců. Podobně by tomu bylo u tabulky s více řádky nebo sloupci.

A jsme málem ve finále, vyšlo nám, že námi spočtené testovací kritérium, veličina chi2 není větší než kritická hodnota, takže nezamítáme nulovou hypotézu na 5 % hladině významnosti. Možná že u víry v romantickou lásku by vše dopadlo jinak.

I přes naši opatrnost se mohlo stát, že jsme zamítli nulovou hypotézu, že ženy věří stejně jako muži. Takové chybě říkáme chyba prvního druhu. Soudce poslal do vězení nevinného. Chyba druhého druhu nastane v případě, že neprávem zamítneme alternativní hypotézu. Soudce osvobodil viníka. Právě oněch 5 % znamená maximální pravděpodobnost chyby prvního druhu. Co by se stalo, kdybychom snížili pravděpodobnost chyby prvního druhu např. na 2,5 %? Zjistili bychom, že naměřené rozdíly ve vzorku mezi počty věrících mužů a žen mohou být ještě větší než ve výše uvedeném příkladu a přesto nulová hypotéza nebude zamítnuta. Něco za něco. Menší pravděpodobnost chyby prvního druhu za cenu větších rozdílů v počtech věřících mužů a žen. Tohle je celá pointa pochopení maximální pravděpodobnosti prvního druhu neboli hladiny významnosti, a tím také testování hypotéz. Bohužel v našich učebnicích statistiky je tahle skutečnost podána většinou rafinovaně nesrozumitelně.

Představme si, ale čistě teoreticky, že by nám vyšlo, že na dané hladině významnosti platí alternativní hypotéza, to znamená, že mezi muži a ženami je statisticky významná odchylka mezi počtem věřících a nevěřících. Jistě by nás zajímala intenzita této odchylky. V praxi se nejčastěji k jejímu výpočtu používá Cramerův koeficient kontingence. Výpočte se podle vzorce, v němž pod druhou odmocninou je zlomek: Chi2/n.min(r-1,s-1). Malé n v našem příkladu by bylo 200, r je počet řádků, s počet sloupců, tedy zlomek pod odmocninou by v našem příkladu byl: 1,58/200. Stupnice závislosti je rozpětí od 0, což znamená nezávislost, až po 1, což je velice silná závislost, tedy v našem příkladu rozdíly mezi počty věřících mužů a žen by byly veliké. V našem příkladu vychází 1,58/200 = 0,0079, tedy hodnota velice blízká nule. Tento výsledek nás ale nepřekvapuje, jelikož z předchozího výpočtu víme, že mezi muži a ženami není statisticky významná odchylka mezi počtem věřících a nevěřících.

Taháková rekapitulace fungování každého statistického testu. Musíme mít: výchozí (nulovou) hypotézu, proti ní postavíme hypotézu alternativní, což není nic jiného než opak výchozí hypotézy; náhodný výběrový vzorek, z něhož vypočteme testovací kritérium; hladinu významnosti, z níž určíme kritický bod. Pokud hodnota testovacího kritéria leží za hodnotou kritického bodu, výchozí hypotézu zamítáme a nezamítáme alternativní. Pokud neleží za hodnotou kritického bodu, tak nulovou hypotézu nezamítáme. Ne na 100 %, to v statistice dost dobře nejde, ale pouze na příslušné hladině významnosti.

Pochopení či nepochopení mého výkladu si zkuste otestovat tím, že experimentální data v našem příkladě zvolíte tak, aby se ukázalo, opět na 5 % hladině významnosti, že ženy věří opravdu více v Pána Našeho než my muži, ale jenom o chloupek, to znamená že vámi spočtené testovací kritérium, veličina chi2 bude nepatrně větší než 3,84. Také jinak: najdete odchylku, která na 0,05 hladině významnosti není náhodná, ale statisticky významná, ale jenom o chlup. A to je snad vše. Nakonec přece jenom jedna rada: Snažte se věci pochopit do takové hloubky, abyste o nich dokázali vyprávět zcela přirozeně a volně. Matematika je vždy jenom pouho pouhý nástroj, opravdovým pánem je příběh o tom, co vám matematika pomohla zjistit.

V Brně ve dnech 6. až 10. července 2013.

Domů | Prolog 2001: Vesmírná odysea | Nejen básně v próze | Střípky