6.2.1. Объединение однородных выборок
Простое объединение рекомендуется только для однородных выборок. Постановка задачи проверки однородности выборок формулируется следующим образом.
Имеются результаты наблюдений в виде совокупности выборок типа (6.1), задан уровень значимости a для проверки статистической гипотезы об однородности выборок.
Необходимо проверить однородность слоев.
Допущение: законы распределения случайных величин для различных слоев неизвестны.
Проверка однородности полной расслоенной выборки относительно сложна в реализации и не позволяет выделить те выборки, которые существенно различаются по своим свойствам. Более практично использовать последовательную процедуру проверки и попарного объединения выборок. В качестве исходной выборки можно взять любую, например, первую или наибольшую по количеству элементов. В качестве второй выбирается любая из оставшихся выборок. Эти две выборки проверяются на однородность. При ее наличии выборки объединяются в одну, а при ее отсутствии вторая выборка остается самостоятельной. Указанную проверку и объединение повторяют для всех слоев исходной выборки.
Определение однородности двух выборок проводится на основе проверки статистической гипотезы Н0 о том, что выборки и принадлежат одному, пусть и неизвестному, закону распределения. При этом применяют критерии знаков, критерий Вилкоксона (Вилкоксона – Мана – Уитни) и другие. Существенной особенностью критерия знаков является требование равного объема сравниваемых выборок, правда, это требование легко выполнить, "обрезав" при рассмотрении более длинную выборку (но такая операция приводит к потере части информации при сопоставлении выборок). В интересах решения поставленной задачи целесообразно применять второй критерий – критерий Вилкоксона.
Проверка однородности выборок по критерию Вилкоксона состоит в следующем. Пусть для случайной величины Х имеется выборка объема nx и для случайной величины Y выборка объема ny. По этим выборкам необходимо с уровнем значимости a проверить гипотезу Н0 о том, что функция распределения F(x) случайной величин Х равна функции распределения F(y) случайной величины Y. Конкурирующая гипотеза – функции распределения случайных величин различны: F(x) < F(y) или F(x) > F(y), т.е. критическая область двусторонняя.
Сущность проверки основана на простой идее: если верна гипотеза Н0, то нельзя ожидать преобладания наблюдений одной из выборок на любом из концов вариационного ряда, иначе говоря, результаты наблюдений из каждого слоя должны быть рассеяны по всему вариационному ряду. Такая проверка осуществляется только по порядковым соотношениям x > y и x < y между элементами выборок.
Далее считается, что объем первой выборки не превышает объема второй. Если это условие не выполняется, то выборки просто меняются местами. Проверка гипотезы однородности имеет свою специфику для разных объемов выборок.
Пусть nx >3, ny >3 и суммарный объем обеих выборок не превосходит 25. Проверка гипотезы осуществляется поэтапно:
из выборок исключаются одинаковые элементы (вероятность совпадения элементов весьма невелика, поэтому число исключаемых членов выборок не будет большим);
на основе элементов обеих выборок строится общий вариационный ряд, индексы и конкретные значения элементов можно опустить. В результате получится просто последовательность букв y и x, например xxxyxyyxxxyyy;
подсчитывается сумма порядковых номеров u вариант первой (меньшей по объему) выборки. В приведенном примере nx > ny (nx = 7 и ny = 6), поэтому первой будем считать выборку для величины Y. Буква y встречается на четвертом, шестом, седьмом, одиннадцатом, двенадцатом и тринадцатом местах, следовательно
u=4+6+7+11+12+13=53.
Случайная величина u имеет распределение Вилкоксона. Для нее построена специальная таблица нижних критических точек распределения.
по таблице критических точек для ny = 6, nx = 7, заданного уровня значимости, например a = 0,05 (критическая область двусторонняя, следовательно, каждая сторона критической области соответствует уровню значимости a/2 = 0,025), определяется нижняя критическая точка ин. В данном случае uн = 27;
вычисляется верхняя критическая точка uв = (ny+nx+1)ny – uн. Для рассматриваемого примера
uв = (6+7+1)6 – 27 = 57;
если u < uн или u > uв, то нулевую гипотезу отвергают. В противном случае нет оснований для отклонения нулевой гипотезы. В приведенном примере нулевая гипотеза об однородности выборок принимается.
Сумма порядковых номеров вариант первой выборки с увеличением общего объема выборок стремится к нормальному распределению. Нормальное распределение можно применять, если nx >3, ny >3 и объем хотя бы одной из выборок превосходит 25. В таком случае значение нижней критической точки величины u при nx · ny
(6.2)
где t1– a/2 – квантиль уровня 1–a/2 стандартизованной нормальной случайной величины.
Остальные этапы проверки ничем не отличаются от рассмотренных выше, применительно к малому объему слоев.
В результате выполнения рассмотренных процедур однородные выборки будут объединены.
- Лекции по дисциплине курса «Теория вероятностей и математическая статистика»
- Часть II
- Введение
- 1. Закон больших чисел
- 1.2. Неравенства чебышева
- 1.3. Сходимость по вероятности
- 1.4.Теоремы чебышева
- 1.4.1.Первая теорема Чебышева.
- 1.4.2. Вторая теорема Чебышева:
- 1.5. Теорема бернулли
- 1.6. Центральная предельная теорема
- 1.7. Предельные теоремы
- 1.7.1. Локальная теорема Муавра-Лапласа.
- 1.7.2. Интегральная теорема Муавра-Лапласа.
- 2. Базовые понятия математической статистики
- 2.1. Эмпирическая функция распределения
- 2.2. Гистограмма
- 2.3. Оценки параметров распределения и их свойства
- 2.4. Оценки моментов и квантилей распределения
- 2.5. Точечная оценка параметров распределения
- 2.5.1. Сущность задачи точечного оценивания параметров
- 2.5.2. Метод максимального правдоподобия
- 2.5.3. Метод моментов
- 2.5.4. Метод квантилей
- 3. Проверка статистических гипотез
- 3.1. Сущность задачи проверки статистических гипотез
- 3.2. Типовые распределения
- 3.2.1. Нормальное распределение
- 3.2.2. Распределение χ2 (хи-квадрат)
- 3.2.3. Распределение Стьюдента
- 3.3.4. Распределение Фишера
- 3.3. Проверка гипотез о законе распределения
- 3.3.1. Критерий хи-квадрат к. Пирсона
- 3.3.2. Критерий а.Н. Колмогорова
- 3.3.3. Критерий р. Мизеса
- 4. Интервальная оценка параметров распределения
- 4.1. Сущность задачи интервального оценивания параметров
- 4.2. Общий метод построения доверительных интервалов
- 4.3. Доверительный интервал для математического ожидания
- 4.4. Доверительный интервал для дисперсии
- 4.5. Доверительный интервал для вероятности
- 5. Аппроксимация закона распределения экспериментальных данных
- 5.1. Задачи аппроксимации
- 5.2. Аппроксимация на основе типовых распределений
- 6. Обработка однотипных выборок
- 6.1. Однотипные выборки эд и задачи их обработки
- 6.2. Объединение выборок
- 6.2.1. Объединение однородных выборок
- 6.2.2. Объединение неоднородных выборок
- 6.3. Однофакторный дисперсионный анализ
- 6.3.1. Задачи дисперсионного анализа
- 6.3.2. Проверка однородности совокупности дисперсий
- 6.3.3. Сравнение факторной и остаточной дисперсий
- 7. Корреляционный и регрессионный анализ
- 7.1. Матрица данных
- 7.2. Корреляционный анализ
- 7.3. Регрессионный анализ
- 7.3.1. Постановка задачи
- 7.3.2. Выбор вида уравнения регрессии
- 7.3.4. Вычисление коэффициентов уравнения регрессии