Лекции_2

6.2.1. Объединение однородных выборок

Простое объединение рекомендуется только для однородных выборок. Постановка задачи проверки однородности выборок формулируется следующим образом.

Имеются результаты наблюдений в виде совокупности выборок типа (6.1), задан уровень значимости a для проверки статистической гипотезы об однородности выборок.

Необходимо проверить однородность слоев.

Допущение: законы распределения случайных величин для различных слоев неизвестны.

Проверка однородности полной расслоенной выборки относительно сложна в реализации и не позволяет выделить те выборки, которые существенно различаются по своим свойствам. Более практично использовать последовательную процедуру проверки и попарного объединения выборок. В качестве исходной выборки можно взять любую, например, первую или наибольшую по количеству элементов. В качестве второй выбирается любая из оставшихся выборок. Эти две выборки проверяются на однородность. При ее наличии выборки объединяются в одну, а при ее отсутствии вторая выборка остается самостоятельной. Указанную проверку и объединение повторяют для всех слоев исходной выборки.

Определение однородности двух выборок проводится на основе проверки статистической гипотезы Н₀ о том, что выборки и принадлежат одному, пусть и неизвестному, закону распределения. При этом применяют критерии знаков, критерий Вилкоксона (Вилкоксона – Мана – Уитни) и другие. Существенной особенностью критерия знаков является требование равного объема сравниваемых выборок, правда, это требование легко выполнить, "обрезав" при рассмотрении более длинную выборку (но такая операция приводит к потере части информации при сопоставлении выборок). В интересах решения поставленной задачи целесообразно применять второй критерий – критерий Вилкоксона.

_{Проверка однородности выборок по критерию Вилкоксона состоит в следующем. Пусть для случайной величины Х имеется выборка объема n}_x_{и для случайной величины Y выборка объема n}_y_{. По этим выборкам необходимо с уровнем значимости a проверить гипотезу Н}₀_{о том, что функция распределения F(x) случайной величин Х равна функции распределения F(y) случайной величины Y. Конкурирующая гипотеза – функции распределения случайных величин различны: F(x) < F(y) или F(x) > F(y), т.е. критическая область двусторонняя.}

_{Сущность проверки основана на простой идее: если верна гипотеза Н}₀_, то нельзя ожидать преобладания наблюдений одной из выборок на любом из концов вариационного ряда, иначе говоря, результаты наблюдений из каждого слоя должны быть рассеяны по всему вариационному ряду. Такая _{проверка осуществляется только по порядковым соотношениям x > y и x < y между элементами выборок.}

_{Далее считается, что объем первой выборки не превышает объема второй. Если это условие не выполняется, то выборки просто меняются местами. Проверка гипотезы однородности имеет свою специфику для разных объемов выборок.}

_{Пусть n}_x_{>3, n}_y_{>3 и суммарный объем обеих выборок не превосходит} 25. Проверка гипотезы осуществляется поэтапно:

из выборок исключаются одинаковые элементы (вероятность совпадения элементов весьма невелика, поэтому число исключаемых членов выборок не будет большим);
на основе элементов обеих выборок строится общий вариационный ряд, индексы и конкретные значения элементов можно опустить. В результате получится просто последовательность букв y и x, например xxxyxyyxxxyyy;
подсчитывается сумма порядковых номеров u вариант первой (меньшей по объему) выборки. В приведенном примере n_x > n_y (n_x = 7 и n_y = 6), поэтому первой будем считать выборку для величины Y. Буква y встречается на четвертом, шестом, седьмом, одиннадцатом, двенадцатом и тринадцатом местах, следовательно

u=4+6+7+11+12+13=53.

Случайная величина u имеет распределение Вилкоксона. Для нее построена специальная таблица нижних критических точек распределения.

по таблице критических точек для n_y = 6, n_x = 7, заданного уровня значимости, например a = 0,05 (критическая область двусторонняя, следовательно, каждая сторона критической области соответствует уровню значимости a/2 = 0,025), определяется нижняя критическая точка ин. В данном случае u_н = 27;
вычисляется верхняя критическая точка u_в = (n_y+n_x+1)n_y – u_н. Для рассматриваемого примера

u_в = (6+7+1)6 – 27 = 57;

если u < u_н или u > u_в, то нулевую гипотезу отвергают. В противном случае нет оснований для отклонения нулевой гипотезы. В приведенном примере нулевая гипотеза об однородности выборок принимается.

Сумма порядковых номеров вариант первой выборки с увеличением общего объема выборок стремится к нормальному распределению. Нормальное распределение можно применять, если n_x >3, n_y >3 и объем хотя бы одной из выборок превосходит 25. В таком случае значение нижней критической точки величины u при n_x · n_y

(6.2)

где t_{1– a/2} – квантиль уровня 1–a/2 стандартизованной нормальной случайной _{величины.}

_{Остальные этапы проверки ничем не отличаются от рассмотренных выше, применительно к малому объему слоев.}

_{В результате выполнения рассмотренных процедур однородные выборки будут объединены.}

Содержание