Исследование классических методов анализа экспериментальных данных

дипломная работа

3.2 Практическая работа

3.3 Выводы

  • Заключение
  • Список использованных источников
  • Введение

    статистика доверительный интервал регрессионный

    Целью данной работы является изучение методов анализа экспериментальных данных на ряде конкретных примеров, в частности, построении гистограмм, расчете доверительных интервалов, использовании критерия согласия хи-квадрат Пирсона при проверке гипотез (этим задачам посвящена первая часть работы). Во второй части работы для выделения тренда использован классический регрессионный анализ (метод МНК).

    Приобретённые в ходе выполнения работы навыки часто весьма востребованы в инженерной деятельности, а техническая и экономическая целесообразность подобных исследований очевидна.

    1. Постановка задачи

    Работа состоит из двух частей. В первой части приводится обзор методов точечного и доверительного оценивания параметров закона распределения, критериях согласия (в частности, ч2 - Пирсона), и четыре задачи, объединённые общей идеей. Во второй части, посвященной классическому регрессионному анализу, содержится обзор классических методов МНК и результаты модельного эксперимента по выделению тренда, выполненного в пакете MathCAD.

    Часть 1

    1. Случайная величина имеет нормальное распределение с неизвестными математическим ожиданием а и дисперсией .

    При выборке (к1, к2, …, кN) объёма N = 28 вычислены оценки неизвестных параметров

    Найти доверительный интервал для математического ожидания а при доверительной вероятности = 0,9.

    2. В условиях задачи № 1 найти доверительный интервал для дисперсии D при доверительной вероятности = 0,99

    (N = 10, ).

    3. В серии из N = 100 выстрелов по мишени наблюдалось m = 8 попаданий. Найти доверительный интервал для вероятности p попадания в мишень при доверительной вероятности= 0, 95.

    4. Дана выборка из N =100 значений.

    Требуется:

    а) найти статистический ряд;

    б) построить гистограмму и полигон частот;

    в) найти оценки для математического ожидания и дисперсии;

    г) считая распределение генеральной совокупности нормальным, найти границы доверительного интервала для математического ожидания и дисперсии при надёжности = 0,95;

    д) проверить с помощью критерия гипотезу о том, что выборка извлечена из нормальной генеральной совокупности с математическим ожиданием и средним квадратическим отклонением равными соответственно статистическому среднему и статистическому среднему квадратичному отклонению. Уровень значимости принять равным = 0,05.

    Часть 2

    В MathCAD (вне зависимости от версии) имеются датчики (генераторы) случайных чисел с разнообразными законами распределения. В частности, rnorm(m,м,у) возвращает вектор m случайных чисел, имеющих нормальное распределение с математическим ожиданием м и среднеквадратическим отклонением у. Мы будем использовать rnorm(m,0,1) -- датчик нормальных случайных чисел с нулевым математическим ожиданием и единичной дисперсий.

    Пусть истинный тренд имеет вид

    Тогда сумма тренда и шума с фиксированной амплитудой, имеет вид:

    2. Интервальное оценивание параметров. Критерий согласия Пирсона

    2.1 Теоретические сведения

    Математическая статистика опирается на методы и понятия теории вероятностей, но решает, в определенном смысле, обратные задачи.

    В теории вероятностей рассматриваются случайные величины с заданными законами распределения или случайные эксперименты, свойства которых целиком известны. Предмет теории вероятностей -- свойства и взаимосвязи этих величин распределений.

    Однако, часто эксперимент представляет собой черный ящик, выдающий лишь некие результаты, по которым требуется сделать вывод о свойствах самого эксперимента.

    Наблюдатель имеет набор числовых (или их можно сделать числовыми) результатов, полученных повторением одного и того же случайного эксперимента в «одинаковых условиях».

    Часто бывает, можно высказать некие предположения о распределении, спрятанном в «черном ящике», или о его свойствах. В этом случае по опытным данным требуется подтвердить или опровергнуть эти предположения («гипотезы»). При этом надо помнить, что ответ «да» или «нет» может быть дан лишь с определенной степенью достоверности, и чем дольше мы можем продолжать эксперимент, тем точнее могут быть выводы.

    2.1.1 Точечное оценивание неизвестных параметров

    На практике вид функции распределения часто бывает известен с точностью до неизвестных параметров Fо(x) = F(х, и).В этом случае определение функции распределения сводится к определению неизвестных параметров и.

    Например, если случайная величина о -- результат прямых измерений некоторой физической величины а, то, при отсутствии систематических ошибок, распределение вероятностей случайной величины о будет описываться нормальным законом распределения с двумя параметрами: математическим ожиданием M[о] = а и дисперсией D[о] = у2, которые нужно оценить по имеющейся выборке.

    Определение 2.1. Статистикой называют любую функцию от выборки, не содержащую неизвестных параметров.

    Всякая оценка неизвестного параметра по выборке (статистика) -- является функцией выборочных значений: И= И(x), следовательно, есть случайная величина со своим законом распределения.

    Один и тот же параметр можно оценивать с помощью различных статистик. Поэтому возникает вопрос о выборе наилучшей в некотором смысле оценочной функции И.

    2.1.2 Требования к оценкам

    О качестве оценок неизвестных параметров будем судить по тому, насколько хорошо выполняется приближенное равенство:

    и?И

    Рассмотрим ошибку Д, возникающей при замене неизвестного точного значения параметра и его приближенным значением И:

    Д = и - И(2.1.)

    В виду случайности, ошибка Д также является случайной величиной со своим законом распределения. Найдем числовые характеристики ошибки:

    Математическое ожидание.

    M[Д] = M[и - И]= и - M[И] = b(2.2.)

    Дисперсия.

    D[Д]] = D[и - И] = D[И] = M[(Д)2] - b2(2.3.)

    Величина b называется смещением оценки. Из (2.3) найдем среднее квадратичное отклонение, которое примем за меру близости оценки и оцениваемого параметра:

    д2 = M [(Д)2] = D[И] + b2(2.4.)

    Наилучшей в своем классе оценок будем считать такую оценку, которая имеет наименьшее среднее квадратичное отклонение д2 ( 2.4.).

    Так как д2 складывается из двух частей: квадрата смещения и дисперсии оценки, то наилучшими оценками мы будем считать оценки с нулевым смещением и минимальной дисперсией.

    Определение 2.2. Несмещенными называют оценки с нулевым смещением, т.е. математическое ожидание несмещенной оценки равно оцениваемому параметру.

    Определение 2.3. Если несмещенная оценка обладает минимальной в своем классе оценок дисперсией, то она называется эффективной.

    Еще один подход к анализу качества оценок связан с поведением оценок с ростом объема выборки: чем больше объем выборки, чем точнее должна быть оценка.

    Определение 2.4. Оценка параметра называется состоятельной если она при n >? сходится по вероятности к оцениваемому параметру

    Если И -- неизвестная числовая характеристика распределения, то оценочную функцию можно строить, например, следующим образом. Строим по имеющейся выборке статистический аналог нужной числовой характеристики и принимаем его за оценку неизвестного параметра.

    Обоснованием данного метода служит асимптотическое поведение статистических аналогов параметров распределений - сходимость по вероятности к теоретическим характеристикам.

    При этом учитываем, что моделью выборки является дискретная случай-ная величина, для которой pi =

    Оценка математического ожидания

    Оценкой математического ожидания является выборочное среднее:

    (2.5)

    Оценка дисперсии

    Оценкой дисперсии будет выборочная дисперсия:

    Аналогично рассчитываются оценки и для других числовых характеристик распределения.

    Рассмотренный выше способ оценки (с помощью статистических аналогов) пригоден не для всех параметрических функций распределения. Кроме того, он не всегда приводит к наилучшим оценкам. Возникает вопрос -- какую оценочную функцию (статистику) считать наилучшей или «хорошей»?

    2.1.3 Требования к статистикам

    Несмещенность. Оценка называется несмещенной, если при любом и M[И]=и, т. е. нет систематической ошибки.

    Эффективность Несмещенные оценки различаются своими дисперсиями. Оценка с наименьшей для оценок данного класса оценок дисперсией называется эффективной.

    Состоятельность Оценка параметра называется состоятельной если она при n >? сходится по вероятности к оцениваемому параметру: И(x) > и.

    2.1.4 Интервальное оценивание неизвестных параметров распределений

    Мы оценивали неизвестные параметры одним числом, т. е. одной точкой из области возможных значений оцениваемого параметра. В ряде задач требуется найти не только числовое значение параметра, но и оценить его точность и надежность. Т. е. надо знать, какая ошибка появится при замене неизвестного параметра и его оценкой И и какова вероятность того, что эти ошибки не выйдут за известные пределы. Любая точечная оценка параметра есть функция выборки, т. е. является случайной величиной и содержит ошибки, которые становятся большими при малых объемах выборки.

    2.1.5 Понятие доверительного интервала

    Точность и надежность оценки задаются так называемыми доверительными интервалами и доверительными вероятностями.

    Интервал lг, содержащий с вероятностью г, точное значение оцениваемого параметра, называется доверительным интервалом.

    Вероятность г того, что истинное значение и лежит в интервале lг называется доверительной вероятностью (коэффициентом доверия) или надежностью, соответствующей данному доверительному интервалу.

    Доверительный интервал lг и доверительная вероятность г связаны соотношением

    P([и - И]<е)=г

    или

    P(И - е <и< И + е ) = г.

    Отсюда:

    lг = (T1 (x), T2 (x))=(И - е,И + е)

    Этот интервал называют г - доверителъным интервалом параметра и.

    T1 (x), T2 (x) - нижняя и верхняя доверительная границы.

    Таким образом, диапазон возможных ошибок при замене параметра и его оценкой И будет равен ±е; большие ошибки появляются с малой вероятностью б = 1 - г.

    Рис. 1. К понятию доверительного интервала.

    Часто задача оценивания ставится таким образом, чтобы найти такой интервал, в котором истинное значение параметра находится с определенной вероятностью.

    Если надо найти непосредственное решение задачи, нам потребуется знание истинного значения параметра, а мы его не знаем. Знание необходимо, потому что для нахождения границ доверительного интервала надо знать распределение функции от выборки.

    Есть два способа решения этой проблемы:

    1. Строить такие функции выборки, чтобы не надо было знать истинного значения параметра.

    2. N надо брать достаточно большим, чтобы практическое исчезала зависимость от знания значения истинного параметра.

    Для построения доверительного интервала требуется знание закона распределения статистики. Закон распределения этой величины называется закон распределения Стьюдента. Закон известен и табулирован, в частности существует таблица квантилей Стьюдента.

    Доверительный интервал для математического ожидания при неизвестной дисперсии генеральной совокупности имеет вид:

    ,

    где - квантиль распределения Стьюдента уровня с N-1 степенями свободы, - доверительная вероятность, - уровень значимости,

    - точечная оценка математического ожидания,

    - точечная оценка дисперсии,

    N - объем выборки.

    Доверительный интервал для дисперсии при неизвестном математическом ожидании имеет вид:

    ,

    где - квантиль распределения хи-квадрат уровня с N-1 степенью свободы.

    Как видно из формул, для нахождения доверительных интервалов математического ожидания и дисперсии не требуется знания истинных значений параметров закона распределения. Достаточно знания лишь точечных оценок.

    2.1.6 Критерий согласия (хи-квадрат) Пирсона

    Критерий согласия Пирсона применим для проверки гипотезы о любом теоретическом распределении: равномерном, гауссовом, биномиальном, пуассоновом и т.д. Он основан на сравнении эмпирических частот интервалов группировки с теоретическими (ожидаемыми) частотами, рассчитываемыми по формулам теоретического распределения.

    Условия применения: объем выборки , выборочные данные сгруппированы в интервальный вариационный ряд с числом интервалов не менее 7, ожидаемые (теоретические) частоты интервалов не должны быть меньше 5.

    Гипотеза Н0: -- плотность распределения генеральной совокупности, из которой взята выборка, соответствует теоретической модели нормального распределения.

    Альтернатива Н1:

    Уровень значимости: .

    Порядок, применения:

    1. Формулируется гипотеза, выбирается уровень значимости .

    2. Получается выборка объема независимых наблюдений и представляется эмпирическое распределение в виде интервального вариационного ряда.

    3. Рассчитываются выборочные характеристики и S. Их используют в качестве генеральных параметров и нормального распределения, с которым предстоит сравнить эмпирическое распределение.

    4. Вычисляются значения теоретических частот попадания в i-й интервал группировки. Для этого необходимо вычислить:

    где Ф0(u) -- функции Лапласа, xвi и хнi -- верхняя и нижняя границы i-го интервала группировки.

    Если окажется, что вычисленные ожидаемые частоты некоторых интервалов группировки меньше 5, то соседние интервалы объединяются так, чтобы сумма их ожидаемых частот была больше или равна 5. Соответственно складываются и эмпирические частоты объединяемых интервалов.

    5. Значение -критерия рассчитывается по формуле:

    где ni -- эмпирические частоты; - ожидаемые (теоретические) частоты; k -- число интервалов группировки после объединения.

    6. Из таблиц распределения находится критическое значение критерия для уровня значимости и числа степеней свободы r = k-3

    7. Вывод: если то эмпирическое распределение не соответствует нормальному распределению на уровне значимости , в противном случае нет оснований отрицать это соответствие.

    2.1.7 Распределение Стьюдента

    Распределение Стьюдента (t- распределение) имеет важное значение при статических вычислениях, связанных с нормальным законом, а именно тогда, когда среднеквадратичное отклонение не известно и еще подлежит определению по опытным данным.

    Пусть X и X1, X2, …Xn - независимые случайные величины, имеющие нормальное распределение с параметрами:

    M[X] = M[X1] = M [X2] = … = M[Xn] = 0

    Случайная величина:

    являющаяся функцией нормально распределенных случайных величин, называется безразмерной дробью Стьюдента.

    Рис. 2. Плотность вероятностей распределения Стьюдента для чиста степеней свободы r = 3 (заштрихованная область равна ).

    Распределения случайной величины T не зависит от параметров распределения независимых случайных величин X и X1, X2, …Xn, а зависит только от одного параметра - числа степеней свободы r.

    Математическое ожидание и дисперсия случайной величины T соответственно равны:

    M[T] = 0D[T] = r > 2

    При неограниченном увеличении числа степеней свободы распределения Стьюдента асимптотически переходит в нормальное распределение Гаусса с параметрами

    M[T] = 0 и D[T] = 1.

    В математической статистике часто используется квантили распределения Стьюдента в зависимости от числа степеней свободы r и заданного уровня вероятности .

    С геометрической точки зрения нахождение квантилей распределения Стьюдента , заключается в таком выборе значения , при котором суммарная площадь под кривой плотности на участках и была бы равно .

    Делись добром ;)