Heteroskedasticita - disperzia náhodných chýb (epsilon) je je konštantná, porušenie predpokladu o konštantnosti disperzií.
Aerial survey methods are regularly used to estimate the number of snow geese in their summer range areas west of Hudson Bay in Canada. To obtain estimates, small aircraft fly over the range and, when a flock of geese is spotted, an experienced person estimates the number of geese in the stock. To investigate the reliability of this method of counting, an experiment was conducted in which an airplane carrying two observers flew over n = 45 flocks, and each observer made an independent estimate of the of birds in each flock. Also, a photograph of the flock was taken so that an exact count of the number of birds in the flock could be made. The resulting data are in given in geese.txt.
As a result of this experiment, the practice of using visual counts of flock size to determite population estimates was discontinued in favor of using photographs.
S. Weisberg: Applied Linear Regression. John Wiley & Sons, 1985.
R. D. Cook, J. O. Jacobsen: Analysis of 1977 West Hudson Bay snow goose surveys. Unpublished report, Canadian Wildlife Services, 1977.
PHOTO = c(1) + c(2) OBS1 + ε,
kde PHOTO je skutočný počet husí (získaný z fotografie) a OBS1 je počet odhadnutý prvým pozorovatežom, najskôr odhadneme klasickým odhadom:
Idea:. Zoradíme dáta podľa tejto premennej Prvá polovica takto zoradených dát bude tvoriť prvú skupinu dát v teste, druhá polovica dát bude tvoriť druhú skupinu. Teraz odhadneme dve regresie: regresiu z prvej skupiny dát (dáta s menšími hodnotami "podozrivej premennej") a regresiu z druhej skupiny dát (dáta s väčšími hodnotami). Inou možnosťou je rozdeliť dáta na tri skupiny a strednú vynechať. V kadom prípade dostávame dve skupiny dát. Ak je naše podozrenie správne, v jednej skupine je variancia väčšia. Nulová hypotéza testu je, že variancie v oboch skupinách sú rovnaké, čo zodpovedá homoskedasticite. Ak túto hypotézu zamietneme, znamená to heteroskedasticitu.
Testovacia štatistika. Odhadneme model v oboch skupiných dát a odhadneme aj disperziu náhodnej zložky. Testovacou štatistikou je podiel odhadov disperzií náhodných chýb, pričom v čitateli je väčšia hodnota. Rozdelenie za platnosti nulovej hypotézy je Fisherovo, stupne voľnosti sú n1-k, n2-k (n1 je počet dát v skupine, ktorej odhad je v čitateli; n2 počet dát v skupine, ktorá je v menovateli; k je počet parametrov modelu).
Idea: Druhé mocniny rezíuí modelujeme pomocou pôvodných regresorov a ich kombinácií. Ako kombinácie sa berú ich druhé mocniny (tzv. "no cross terms" verzia testu) alebo druhé mocniny a vzájomné súčiny (tzv. "cross terms"). Dobrý fit takejto regresie nasvedčuje tomu, že je v modeli heteroskedasticita. Nulová hypotéza je homoskedasticita.
Testovacia štatistika: počet dát krát koeficient determinácie v horeuvedenej pomocnej regresii. Za platnosti nulovej hypotézy má chí kvadrát rozdelenie, počet stupňov vožnosti je počet parametrov v pomocnej regresii okrem konštanty.
Testujte heteroskadasticitu najskôr Whitovym testom.
Model dáva určitú teoretickú hodnotu výdavkov (čo očakávame u daného človeka na základe jeho charakteristík). Dá sa však očakávať, že príjem bude mať vyplyv na disperziu odchýlok od tejto teoretickej hodnoty - čím väčší príjem, tým väčšia dispezia (väčší priestor pre rôzne správanie, čo sa týka platieb kreditnou kartou).
Beáta Stehlíková (www)
Cvičenia z ekonometrie, LS 2008/2009