Новый многодиапазонный тест Дунканса - Википедия - Duncans new multiple range test

В статистика, Новый многодиапазонный тест Дункана (MRT) это множественное сравнение процедура, разработанная Дэвид Б. Дункан в 1955 году. MRT Дункана принадлежит к общему классу процедур множественного сравнения, которые используют стьюдентизированный диапазон статистика q_р сравнивать наборы средств.

Дэвид Б. Дункан разработал этот тест как модификацию Метод Стьюдента – Ньюмана – Кеулса это будет иметь большую силу. MRT Дункана особенно защищает от ложноотрицательная (тип II) ошибка за счет большего риска сделать ложноположительные (тип I) ошибки. Тест Дункана обычно используется в агрономия и другие сельскохозяйственные исследования.

Результатом теста является набор подмножеств средних значений, причем в каждом подмножестве было обнаружено, что средние значения существенно не отличаются друг от друга.

Определение

Предположения:
1. образец наблюдаемых средних ${ displaystyle m_ {1}, m_ {2}, ..., m_ {n}}$ , которые были получены независимо от n нормальных популяций с "истинными" средними значениями, ${ displaystyle mu _ {1}, mu _ {2}, ..., mu _ {n}}$ соответственно.
2. общий стандартная ошибка ${ displaystyle sigma}$ . Этот стандартная ошибка неизвестно, но есть обычная оценка ${ displaystyle s_ {m}}$ , который не зависит от наблюдаемых средних значений и основан на ряде степени свободы, обозначаемый ${ displaystyle n_ {2}}$ . (Точнее, ${ displaystyle S_ {m}}$ , имеет свойство ${ displaystyle { frac {n_ {2} cdot S_ {m} ^ {2}} { sigma _ {m} ^ {2}}}}$ распространяется как ${ displaystyle chi ^ {2}}$ с ${ displaystyle n_ {2}}$ степеней свободы, независимо от выборочных средних).

Точное определение теста:

Разница между любыми двумя средними в наборе из n средних является значимой при условии, что диапазон каждого и каждого подмножества, которое содержит данное среднее значение, является значительным в соответствии с ${ displaystyle alpha _ {p}}$ тест диапазона уровней, где ${ displaystyle alpha _ {p} = 1- gamma _ {p}}$ , ${ Displaystyle гамма _ {p} = (1- альфа) ^ {(p-1)}}$ и ${ displaystyle p}$ - количество средних в рассматриваемом подмножестве.

Исключение: Единственным исключением из этого правила является то, что никакое различие между двумя средними значениями не может быть объявлено значимым, если оба рассматриваемых средства содержатся в подмножестве средств, диапазон которых незначителен.

Процедура

Процедура состоит из серии попарные сравнения между средствами. Каждое сравнение выполняется на уровне значимости ${ displaystyle alpha _ {p}}$ , определяемый количеством средств, разделяющих два сравниваемых средства ( ${ displaystyle alpha _ {p}}$ за ${ displaystyle p-2}$ разделяющие средства). Тесты выполняются последовательно, где результат теста определяет, какой тест будет выполнен следующим.

Тесты выполняются в следующем порядке: наибольший минус наименьший, наибольший минус второй наименьший, до наибольшего минус второй по величине; затем второй по величине минус самый маленький, второй по величине минус второй по размеру и так далее, заканчивая вторым по величине минус самым маленьким.

За исключением одного, приведенного ниже, каждое различие является значимым, если оно превышает соответствующий кратчайший значимый диапазон; в противном случае это не имеет значения. Где самый короткий значимый диапазон - это значительный стьюдентизированный диапазон, умноженное на стандартную ошибку. Самый короткий значимый диапазон обозначим как ${ displaystyle R _ {(p, alpha)}}$ , куда ${ displaystyle p}$ является числовым средним в подмножестве. Единственным исключением из этого правила является то, что никакое различие между двумя средними не может быть объявлено значимым, если оба рассматриваемых средства содержатся в подмножестве средств, которое имеет незначительный диапазон.

Алгоритм проведения теста следующий:

       1. Ранжируйте средние выборки от наибольшего к наименьшему. 2. Для каждого  ${ displaystyle m_ {i}}$  выборочное среднее, от наибольшего к наименьшему, выполните следующие действия: 2.1 для каждого выборочного среднего (обозначено  ${ displaystyle m_ {j}}$ ), от самых маленьких до  ${ Displaystyle м _ {(я-1)}}$ . 2.1.1 сравнить  ${ displaystyle m_ {i} -m_ {j}}$  до критического значения  ${ displaystyle sigma _ {m} cdot R _ {(p, alpha)}}$ , ${ displaystyle P = i-j, alpha = alpha _ {p}}$        2.1.2 если  ${ displaystyle m_ {i} -m_ {j}}$  не превышает критического значения, подмножество  ${ displaystyle (m_ {j}, m_ {j + 1}, ..., m_ {I})}$  объявлен несущественно другим: 2.1.2.1 Перейти к следующей итерации цикла 2. 2.1.3 В противном случае продолжите цикл 2.1.

Критические ценности

В тесте Дункана с несколькими диапазонами используется студентизированное распределение диапазона для определения критических значений для сравнения средних. Обратите внимание, что разные сравнения между средними значениями могут различаться по уровням значимости, поскольку уровень значимости зависит от размера рассматриваемого подмножества средних.

Обозначим ${ Displaystyle Q _ {(p, nu, gamma _ {(p, alpha)})}}$ как ${ displaystyle gamma _ { alpha}}$ квантиль студентизированное распределение диапазона, с p наблюдениями, и ${ displaystyle nu}$ степени свободы для второго образца (см. стьюдентизованный диапазон для получения дополнительной информации). ${ Displaystyle г _ {(п, ню, альфа)}}$ как стандартизованное критическое значение, определяемое правилом:

Если p = 2
${ Displaystyle г _ {(п, ню, альфа)} = Q _ {(р, ню, гамма _ {(р, альфа)})}}$
Еще
${ displaystyle r _ {(p, nu, alpha)} = max (Q _ {(p, nu, gamma _ {(p, alpha)})}, r _ {(p-1, nu, alpha)})}$

Кратчайший критический диапазон (фактическое критическое значение теста) рассчитывается как: ${ Displaystyle R _ {(} p, nu, alpha) = sigma _ {m} cdot r _ {(p, nu, alpha)}}$ .За ${ displaystyle nu}$ -> ∞, таблица существует для точного значения Q (см. Ссылку). Здесь необходимо одно предостережение: обозначения для Q и R в литературе неодинаковы, где Q иногда обозначается как самый короткий значимый интервал, и R как значимый квантиль за студентизированное распределение диапазона (В статье Дункана 1955 года оба обозначения используются в разных частях).

Числовой пример

Разберем на примере 5 лечебных средств:

Лечение	Т1	Т2	Т3	Т4	Т5
Средства лечения	9.8	15.4	17.6	21.6	10.8
Классифицировать	5	3	2	1	4

Со стандартной ошибкой ${ displaystyle s_ {m} = 1,796}$ , и ${ displaystyle nu = 20}$ (степени свободы для оценки стандартной ошибки). Используя известную таблицу для Q, можно достичь значений ${ Displaystyle г _ {(п, ню, альфа)}}$ :

${ displaystyle r _ {(2,20,0.05)} = 2,95}$
${ displaystyle r _ {(3,20,0.05)} = 3.10}$
${ displaystyle r _ {(4,20,0.05)} = 3,18}$
${ displaystyle r _ {(5,20,0.05)} = 3,25}$

Теперь мы можем получить значения самого короткого значимого диапазона по формуле:
${ Displaystyle R _ {(p, nu, alpha)} = sigma _ {m} * r _ {(p, nu, alpha)}}$

Достижение:

${ displaystyle R _ {(2,20,0.05)} = 3,75}$
${ displaystyle R _ {(3,20,0.05)} = 3,94}$
${ displaystyle R _ {(4,20,0.05)} = 4.04}$
${ displaystyle R _ {(5,20,0.05)} = 4,13}$

Затем проверяются наблюдаемые различия между средними значениями, начиная с наибольшего и наименьшего значений, которые сравниваются с наименьшим значимым диапазоном. ${ displaystyle R _ {(5,20,0.05)} = 4,13.}$ Затем вычисляется разница между наибольшим и вторым наименьшим и сравнивается с наименее значимой разницей. ${ Displaystyle R _ {(4,20,0,05)} = 4,04}$ .

Если наблюдаемая разница больше соответствующего кратчайшего значимого диапазона, то мы заключаем, что рассматриваемая пара средних значений значительно отличается. Если наблюдаемая разница меньше соответствующего кратчайшего значимого диапазона, все различия, имеющие одно и то же верхнее среднее значение, считаются незначительными. , чтобы предотвратить противоречия (различия, имеющие одинаковое верхнее среднее, короче по построению).

В нашем случае сравнение даст:

${ displaystyle 4vs.1: 21.6-9.8 = 11.8> 4.13 (R_ {5})}$
${ displaystyle 4vs.5: 21.6-10.8 = 10.8> 4.04 (R_ {4})}$
${ displaystyle 4vs.2: 21.6-15.4 = 6.2> 3.94 (R_ {3})}$
${ displaystyle 4vs.3: 21.6-17.6 = 4.0> 3.75 (R_ {2})}$
${ displaystyle 3vs.1: 17.6-9.8 = 7.8> 4.04 (R_ {4})}$
${ displaystyle 3vs.5: 17.6-10.8 = 6.8> 3.94 (R_ {3})}$
${ displaystyle 3vs.2: 17,6-15,4 = 2,2 <3,75 (R_ {2})}$
${ displaystyle 2vs.1: 15.4-9.8 = 5.6> 3.94 (R_ {3})}$
${ displaystyle 2vs.5: 15.4-10.8 = 4.6> 3.75 (R_ {2})}$
${ displaystyle 5vs.1: 10,8–9,8 = 1,0 <3,75 (R_ {2})}$

Мы видим, что есть существенные различия между всеми парами обработок, кроме (T3, T2) и (T5, T1). График, подчеркивающий те средства, которые существенно не отличаются, показан ниже:
Т1 Т5 Т2 Т3 Т4

Уровни защиты и значимости на основе степеней свободы

Новый многодиапазонный тест, предложенный Дунканом, использует специальные уровни защиты, основанные на степени свободы. Позволять ${ displaystyle gamma _ {2, alpha} = {1- alpha}}$ быть уровнем защиты для проверки значимости разницы между двумя средствами; это вероятность что существенная разница между двумя средними не будет обнаружена, если средние значения генеральной совокупности равны. Дункан считает, что у человека есть p-1 степени свободы для тестирования p ранжированного среднего, и, следовательно, можно проводить независимые тесты p-1, каждое с уровнем защиты ${ displaystyle gamma _ {2, alpha} = {1- alpha}}$ . Следовательно, уровень совместной защиты составляет:

${ displaystyle gamma _ {p, alpha} = gamma _ {2, alpha} ^ {p-1} = (1- alpha) ^ {p-1}}$ куда ${ displaystyle alpha _ {p} = 1- gamma _ {p}}$

то есть вероятность того, что не будет обнаружено значительных различий в проведении независимых тестов p-1, каждое на уровне защиты ${ displaystyle gamma _ {2, alpha} = {1- alpha}}$ , является ${ displaystyle gamma _ {2, alpha} ^ {p-1}}$ в соответствии с гипотезой о том, что все p средние по совокупности равны. В общем: разница между любыми двумя средними в наборе из n средних значима при условии, что диапазон каждого и каждого подмножества, который содержит данное среднее значение, является значимым в соответствии с ${ displaystyle alpha _ {p}}$ –Уровневый тест диапазона, где p - количество средних в рассматриваемом подмножестве.

За ${ Displaystyle альфа = 0,05}$ , уровень защиты можно табулировать для различных значений r следующим образом:

	Уровень защиты ${ displaystyle: gamma _ {p, alpha}}$	вероятность ложного отклонения ${ displaystyle H_ {0}: alpha _ {p}}$
р = 2	0.95	0.05
р = 3	0.903	0.097
р = 4	0.857	0.143
р = 5	0.815	0.185
р = 6	0.774	0.226
р = 7	0.735	0.265

Обратите внимание, что хотя в этой процедуре используется Студентизированный диапазон, его коэффициент ошибок не основан ни на экспериментах (как у Тьюки), ни на основе сравнений. Многодиапазонный тест Дункана не контролирует частота ошибок в семье. См. Дополнительную информацию в разделе «Критика».

Байесовская процедура множественного сравнения Дункана

Дункан (1965) также дал первую байесовскую процедуру множественного сравнения для попарные сравнения среди средств в односторонней схеме. Эта процедура множественного сравнения отличается от описанной выше.

Байесовская MCP Дункана обсуждает различия между упорядоченными групповыми средними, где рассматриваемая статистика попарное сравнение (эквивалент не определен для свойства подмножества, имеющего «существенно отличающееся» свойство).

Дункан смоделировал последствия равенства двух или более средств с помощью аддитивного функции потерь внутри и через попарные сравнения. Если предположить то же самое функция потерь для парных сравнений необходимо указать только одну константу K, и это указывает на относительную серьезность ошибок типа I и типа II в каждом парном сравнении.

Исследование, проведенное Джульеттой Поппер Шаффер (1998), показало, что метод, предложенный Дунканом, был модифицирован для обеспечения слабого контроля FWE и с использованием эмпирической оценки отклонение популяции, имеет хорошие свойства как с байесовской точки зрения, как метод минимального риска, так и с точки зрения частотного анализа, с хорошей средней мощностью.

Кроме того, результаты указывают на значительное сходство рисков и средних значений. мощность между модифицированной процедурой Дункана и Бенджамини и Hochberg (1995) Уровень ложного обнаружения -контрольная процедура, с таким же слабым контролем семейных ошибок.

Критика

Тест Дункана критиковался многими статистиками как слишком либеральный, в том числе Генри Шеффе, и Джон В. Тьюки Дункан утверждал, что более либеральная процедура была подходящей, потому что в реальной практике глобальная нулевая гипотеза H₀ = «Все средние равны» часто ложно, и поэтому традиционные статистики чрезмерно защищают возможно ложную нулевую гипотезу от ошибок типа I. Согласно Дункану, следует корректировать уровни защиты для различных сравнений p-средних в соответствии с обсуждаемой проблемой. Пример, обсужденный Дунканом в его статье 1955 года, представляет собой сравнение многих средних (например, 100), когда интересуются только сравнения с двумя средними и тремя средними, а также общие сравнения p-средних (определение наличия некоторой разницы между p-means) не представляют особого интереса (например, если p равно 15 или больше). Тест множественного диапазона Дункана очень «либерален» с точки зрения ошибок типа I. Следующий пример поясняет, почему:

Предположим, что кто-то действительно заинтересован, как предположил Дункан, только при правильном ранжировании подмножеств размера 4 или ниже. Предположим также, что выполняется простое попарное сравнение с уровнем защиты ${ displaystyle gamma _ {2} = 0,95}$ . Учитывая общий набор из 100 средних, давайте посмотрим на нулевые гипотезы теста:

Есть ${ displaystyle 100 choose 2}$ нулевые гипотезы для правильного ранжирования каждых 2 средних. Уровень значимости каждой гипотезы равен ${ displaystyle 1-0,95 = 0,05}$

Есть ${ displaystyle 100 choose 3}$ нулевые гипотезы для правильного ранжирования каждых 3 средних. Уровень значимости каждой гипотезы равен ${ displaystyle 1- (0,95) ^ {2} = 0,097}$

Есть ${ displaystyle 100 choose 4}$ нулевые гипотезы для правильного ранжирования каждых 4 средних. Уровень значимости каждой гипотезы равен ${ displaystyle 1- (0,95) ^ {3} = 0,143}$

Как мы видим, у теста есть две основные проблемы, касающиеся ошибок типа I:

Тесты Дункана основаны на Процедура Ньюмана – Кеулса, что не защищает частота ошибок в семье (хотя и защищает альфа-уровень сравнения)
Тест Дункана намеренно повышает альфа-уровни (Частота ошибок типа I ) на каждом шаге Процедура Ньюмана – Кеулса (уровни значимости ${ displaystyle alpha _ {p} geq alpha}$ ).

Поэтому рекомендуется не использовать описанную процедуру.

Позже Дункан разработал тест Дункана – Уоллера, основанный на байесовских принципах. Он использует полученное значение F для оценки априорной вероятности нулевая гипотеза быть правдой.

Разные подходы к проблеме

Если кто-то все еще хочет решить проблему поиска похожих подмножеств групповых средних, в литературе можно найти другие решения.

Тест дальности Тьюки обычно используется для сравнения пар средних, эта процедура контролирует частота ошибок в семье в сильном смысле.

Другое решение - выполнить T-критерий Стьюдента всех пар средств, а затем использовать процедуру FDR Controlling (для контроля ожидаемой доли неправильно отклоненных нулевые гипотезы ).

Другие возможные решения, которые не включают проверку гипотез, но приводят к разделению подмножеств, включают Кластеризация & Иерархическая кластеризация. Эти решения отличаются от подхода, представленного в этом методе:

Основываясь на расстоянии / плотности, а не на распределении.
Требуется большая группа средств для получения значимых результатов или работа со всем набором данных.

внешняя ссылка

Критические значения для тестов Дункана с несколькими диапазонами