Поправка Шидака для t-теста - Šidák correction for t-test

Одно из приложений T-тест Стьюдента состоит в том, чтобы проверить расположение одной последовательности независимые и одинаково распределенные случайные величины. Если мы хотим проверить расположение нескольких последовательностей таких переменных, Поправка Шидака следует применять для калибровки уровня t-критерия Стьюдента. Более того, если мы хотим проверить расположение почти бесконечного числа последовательностей переменных, следует использовать поправку Шидака, но с осторожностью. В частности, достоверность поправки Шидака зависит от того, насколько быстро число последовательностей стремится к бесконечности.

Вступление

Предположим, нас интересует $м$ разные гипотезы, ${ displaystyle H_ {1}, ..., H_ {m}}$ , и хотел бы проверить, все ли они верны. Теперь схема проверки гипотез становится

{ displaystyle H_ {null}}

: все

{ displaystyle H_ {i}}

верны;

{ displaystyle H_ {альтернатива}}

: хотя бы один из

{ displaystyle H_ {i}}

ложно.

Позволять ${ displaystyle alpha}$ быть уровнем этого теста (ошибка типа I), то есть вероятностью того, что мы ошибочно отвергаем ${ displaystyle H_ {null}}$ когда это правда.

Мы стремимся разработать тест определенного уровня ${ displaystyle alpha}$ .

Предположим, при проверке каждой гипотезы ${ displaystyle H_ {i}}$ , мы используем тестовую статистику ${ displaystyle t_ {i}}$ .

Если эти ${ displaystyle t_ {i}}$ независимы, то тест на ${ displaystyle H_ {null}}$ может быть разработан с помощью следующей процедуры, известной как коррекция Шидака.

Шаг 1, мы тестируем каждый из

м

нулевые гипотезы на уровне

{ Displaystyle 1- (1- альфа) ^ { гидроразрыва {1} {м}}}

.

Шаг 2, если любой из них

м

нулевые гипотезы отклоняются, мы отклоняем

{ displaystyle H_ {null}}

.

Конечный случай

Предположим, что для конечного числа t-критериев ${ displaystyle Y_ {ij} = mu _ {i} + epsilon _ {ij}, i = 1, ..., N, j = 1, ..., n,}$ где для каждого $я$ , ${ displaystyle epsilon _ {i1}, ..., epsilon _ {in}}$ независимо и одинаково распределены, для каждого $j$ ${ displaystyle epsilon _ {1j}, ..., epsilon _ {Nj}}$ независимы, но не обязательно одинаково распределены, и ${ displaystyle epsilon _ {ij}}$ имеет конечный четвертый момент.

Наша цель - разработать тест для ${ displaystyle H_ {null}: mu _ {i} = 0, forall i = 1, ..., N}$ с уровнем $α$ . Этот тест может быть основан на t-статистика каждой последовательности, то есть

{ displaystyle t_ {i} = { frac {{ bar {Y}} _ {i}} {S_ {i} / { sqrt {n}}}},}

куда:

{ displaystyle { bar {Y}} _ {i} = { frac {1} {n}} sum _ {j = 1} ^ {n} Y_ {ij}, qquad S_ {i} ^ { 2} = { frac {1} {n}} sum _ {j = 1} ^ {n} (Y_ {ij} - { bar {Y}} _ {i}) ^ {2}.}

Используя поправку Шидака, мы отклоняем ${ displaystyle H_ {null}}$ если какой-либо из t-тестов, основанных на t-статистике выше, отклоняется на уровне ${ displaystyle 1- (1- alpha) ^ { frac {1} {N}}.}$ В частности, мы отклоняем ${ displaystyle H_ {null}}$ когда

{ Displaystyle существует я в {1, ldots, N }: | t_ {i} |> zeta _ { alpha, N},}

куда

{ Displaystyle P (| Z |> zeta _ { alpha, N}) = 1- (1- alpha) ^ { frac {1} {N}}, qquad Z sim N (0,1 )}

Определенный выше тест имеет асимптотический уровень $α$ , потому что

{ displaystyle { begin {align} { text {level}} & = P_ {null} left ({ text {reject}} H_ {null} right) & = P_ {null} left ( существует i in {1, ldots, N }: | t_ {i} |> zeta _ { alpha, N} right) & = 1-P_ {null} left ( forall i in {1, ldots, N }: | t_ {i} | leq zeta _ { alpha, N} right) & = 1- prod _ {i = 1} ^ { N} P_ {null} left (| t_ {i} | leq zeta _ { alpha, N} right) & to 1- prod _ {i = 1} ^ {N} P left (| Z_ {i} | leq zeta _ { alpha, N} right) && Z_ {i} sim N (0,1) & = alpha end {выровнено}}}

Бесконечный случай

В некоторых случаях количество последовательностей, ${ displaystyle N}$ , увеличиваться по мере увеличения размера данных каждой последовательности, ${ displaystyle n}$ , увеличивать. В частности, предположим ${ Displaystyle N (N) rightarrow infty { text {as}} п rightarrow infty}$ . Если это правда, то нам нужно будет проверить нуль, включая бесконечное множество гипотез, то есть

{ displaystyle H_ {null}: { text {all of}} H_ {i} { text {верны,}} i = 1,2, ....}

Чтобы разработать тест, Поправка Шидака может применяться, как и в случае конечного числа t-критерия. Однако когда ${ Displaystyle N (N) rightarrow infty { text {as}} п rightarrow infty}$ , поправка Шидака для t-критерия может не достичь желаемого уровня, то есть истинный уровень теста может не сходиться к номинальному уровню ${ displaystyle alpha}$ когда n стремится к бесконечности. Этот результат связан с многомерная статистика и доказано Fan, Hall and Yao (2007).^[1] В частности, если мы хотим, чтобы истинный уровень теста сходился к номинальному уровню ${ displaystyle alpha}$ , то нам нужно ограничить скорость ${ Displaystyle N (п) rightarrow infty}$ . В самом деле,

Когда все ${ displaystyle epsilon _ {ij}}$ имеют симметричное относительно нуля распределение, то достаточно потребовать ${ Displaystyle журнал N = о (п ^ {1/3})}$ чтобы гарантировать, что истинный уровень сходится к ${ displaystyle alpha}$ .
Когда раздачи ${ displaystyle epsilon _ {ij}}$ асимметричны, то необходимо наложить ${ Displaystyle журнал N = о (п ^ {1/2})}$ чтобы истинный уровень сходился к ${ displaystyle alpha}$ .
Собственно, если мы применим самонастройка метод калибровки уровня, тогда нам понадобится только ${ Displaystyle журнал N = о (п ^ {1/3})}$ даже если ${ displaystyle epsilon _ {ij}}$ имеет асимметричное распределение.

Приведенные выше результаты основаны на Центральная предельная теорема. Согласно Центральной предельной теореме каждая из наших t-статистик ${ displaystyle t_ {i}}$ обладает асимптотическим стандартным нормальным распределением, поэтому разница между распределением каждого ${ displaystyle t_ {i}}$ и стандартное нормальное распределение асимптотически пренебрежимо. Вопрос в том, суммируем ли мы все различия между распределением каждого ${ displaystyle t_ {i}}$ и стандартное нормальное распределение, эта совокупность различий все еще асимптотически игнорируется?

Когда у нас есть конечное количество ${ displaystyle t_ {i}}$ , ответ - да. Но когда у нас бесконечно много ${ displaystyle t_ {i}}$ , некоторое время ответ будет отрицательным. Это потому, что в последнем случае мы суммируем бесконечно много бесконечно малых членов. Если количество членов слишком быстро стремится к бесконечности, то есть ${ Displaystyle N (п) rightarrow infty}$ слишком быстро, тогда сумма не может быть равна нулю, распределение t-статистики не может быть аппроксимировано стандартным нормальным распределением, истинный уровень не сходится к номинальному уровню ${ displaystyle alpha}$ , а затем коррекция Шидака не срабатывает.

Смотрите также

Примечания

^ Фань, Цзяньцин; Холл, Питер; Яо, Цивэй (2007). "Сколько одновременных проверок гипотез можно применить к нормальному, t-тесту Стьюдента или калибровке начальной загрузки ". Журнал Американской статистической ассоциации. 102 (480): 1282–1288. arXiv:математика / 0701003. Дои:10.1198/016214507000000969.CS1 maint: ref = harv (связь)