logo
Определение данных натуральных наблюдений методами математической статистики

Проверка статистических гипотез.

Приведем порядок выполнения задания, расчетные формулы, основные положения и характеристика этапов обработки.

2. Расчетно-графическая часть

Имеем ряд данных натурных наблюдений (Х1, Х2,. ХN).

Построение вариационного ряда

(Операция заключается в расположении данных натурных наблюдений в порядке возрастания Xmin. Xmax) -

Группировка вариационного ряда - деление вариационного ряда на части

Необходимо определить: количество классов (интервалов), длину и границы каждого класса, частоту.

а) Количество классов, на которые необходимо разделить вариационный ряд, определяется различными способами (4, 7, 8, 12, 14, 15): с помощью таблиц или формул; в подавляющем большинстве случаев количество интервалов зависит от объема выборки.

Для определения количества классов используем формулу Старжесса:

К = 1 + 3,3-lgN

где К-количество классов;

N - объем выборки или количество значений в ряду.

б) Определение длины каждого интервала:

Определение размаха или амплитуды колебания случайной величины:

R = Xmax - Xmin

где R - размах (мг/л); h - длина каждого интервала.

в) Определение границ каждого интервала:

1. - границы 1-го интервала;

2. - границы 2-го интервала;

……………………………………………………………

6. - границы 6-го интервала.

г) Определение эмпирической частоты

Частота - это количество значений, попавших в каждый интервал.

Определение мер положения, рассеивания и характеристики формы кривой распределения

а) Определение мер положения:

Целью исследования является определение центра распределения:

Среднее арифметическое значение (основной показатель, входящий в характеристику большинства законов распределения) является первым начальным моментом и вычисляется по следующей формуле:

где Хср - среднее арифметическое значение выборки (мг/л);

Xi - элементы выборки (мг/л).

Если учитывать, что ряд натурных наблюдений вариационный и сгруппированный, то среднее арифметическое значение можно рассчитать по следующей зависимости:

где ni - частота каждого интервала;

Хi* - среднее значение каждого интервала (мг/л).

Среднее арифметическое значение каждого интервала рассчитывается, как полусумма границ интервалов.

Мода (значение имеющее максимальную частоту, т.е. наиболее часто встречаемое значение случайной величины в выборке) определяется по формуле:

где X0 - начало модального интервала (мг/л);

ni - частота модального интервала;

n (i-1) и n (i+1) - соответственно частоты предыдущего и последующего за модальным интервалов.

Медиана (определение серединного элемента выборки):

где X0 - начало медианного интервала;

T (i-1) - сумма частот интервалов предшествовавших медианному;

ni - частота медианного интервала,

б) Меры рассеивания:

Характеристикой рассеивания или отклонения случайной величины от центра распределения выступает дисперсия - второй центральный момент.

Согласно методу моментов дисперсия определяется по формуле:

Для определения стандартного отклонения из дисперсии извлекается квадратный корень, полученная величина называется средним квадратичным отклонением и обозначается у (мг/л). Нормированное отклонение определяется коэффициентом вариации:

в) Характеристики формы кривой распределения:

Характеристиками формы кривых распределения выступают третий и четвертый центральные моменты) третий центральный момент характеризует асимметричность ряда, т.е. неравномерность распределения случайной величины относительно центра и определяется по формуле:

Безразмерный коэффициент асимметрии (Сs) определяется отношением третьего центрального момента к кубу среднего квадратичного отклонения.

Четвертый центральный момент характеризует форму симметричной кривой распределения:

Показателем остро - или плосковершинности выступает коэффициент эксцесса (Се), который определяется отношением четвертого центрального момента к среднему квадратичному отклонению в четвертой степени, за вычетом коэффициента три.

Графическое изображение кривых распределения

Графическое изображение сгруппированных вариационных рядов распределения облегчает их анализ и позволяет в первом приближении судить о форме кривой генеральной совокупности. Для графического изображения рядов распределения применяют гистограмму (кривая распределения плотности вероятностей, дифференциальная кривая распределения). Гистограмма строится следующим образом: на оси абсцисс откладываются равные отрезки, которые в принятом масштабе соответствуют величинам границ интервалов вариационного ряда, на отрезках строятся прямоугольники с высотами, равными относительным частотам (относительная частота определяется отношением частоты каждого интервала объему выборки и характеризует вероятность попадания случайной величины в интервал). Гистограмму принято преобразовывать в полигон распределения путем соединения середин верхних сторон прямоугольников отрезками. График, построенный по результатам натурных наблюдений, обуславливает вид эмпирической кривой распределения.

Дополнительно к гистограмме строится суммарная кривая распределения (интегральная функция распределения). В практике гидрологических расчетов принято использовать обратную функцию суммарной кривой распределения, называемую обеспеченностью. Обеспеченность характеризует вероятность превышения данной случайной величины. Принцип построения суммарной кривой распределения приводится на примере.

Изучение формы кривой распределения

Для получения приблизительного представления о форме кривой распределения строят графики распределения (гистограмму и полигон распределения). Число наблюдений, по которому строится эмпирическое распределение, обычно невелико и представляет собой выборку из исследуемой генеральной совокупности. Эмпирические данные в определенной степени связаны со случайными ошибками, возникновение которых зачастую неизвестно, что искажает основную закономерность изменение величины признака. При увеличении числа наблюдений одновременно с увеличением количества интервалов и уменьшением их длины полигон постепенно перерастает в кривую распределения.

Кривая распределения характеризует теоретическое (аналитическое) распределение, т.е. распределение, которое получилось бы при полном погашении всех случайных причин, искажающих основную закономерность. Исследование формы распределения включает решение следующих задач:

1) Определение общего характера распределения;

2) Выравнивание эмпирического распределения (построение аналитической кривой распределения);

3) Проверка соответствия найденного теоретического распределения эмпирическому.

В практике статистического исследования природоохранной деятельности приходится встречаться с самыми разными видами распределений. Как правило, однородные, совокупности имеют одновершинную форму, многовершинность свидетельствует о неоднородности изучаемой совокупности.

Выявление общего характера распределения предполагает оценку степени его однородности, а также вычисление показателей асимметрии и эксцесса. Для симметричных распределений среднее арифметическое, мода и медиана совпадают, коэффициент асимметрии равен нулю (С, = 0). При правосторонней (С, > 0) между показателями центра распределения существует следующее соотношение М0 < Ме< Хср. Отрицательный знак показателя асимметрии (Cs < 0) свидетельствует о наличии левосторонней асимметрии. Между показателями центра распределения в этом случае имеем М0 > Mt> ХСр.

Оценку степени существенности асимметрии выборки можно определить с помощью средней квадратичной ошибки, которая зависит от объема наблюдений и рассчитывается по формуле:

Wcs=

Если отношение CS/Wcs > 3, асимметрия существенна и распределение признака в генеральной совокупности не является симметричным.

Для симметричных распределений оценивается существенность эксцесса. Эксцесс представляет собой выпад вершины эмпирической кривой распределения вверх или вниз от вершины кривой нормального распределения (кривая Гаусса). Если величина коэффициента эксцесса положительная, то распределение островершинное, отрицательная - плосковершинное. Средняя квадратичная ошибка эксцесса рассчитывается по формуле:

Wce=

Если отношение Ce! Wce < 3, то эксцесс не свойственен распределению признака в генеральной совокупности.

Оценка существенности показателей асимметрии и эксцесса позволяет сделать вывод о возможном использовании для анализа эмпирического материала кривых по типу нормального закона распределения.

Если случайная величина имеет плотность распределения то она подчиняется нормальному закону распределения. Нормальное распределение является двух параметрическим, т.е. для его построения необходимо определить среднее арифметическое и среднее квадратическое отклонение. Для приведения кривых к одному началу случайные величины нормируются и центрируются по следующему механизму: из каждого значения вариационного ряда вычитается среднее арифметическое, результат от разности делится на среднее квадратическое отклонение. В данном случае полученный новый ряд величин имеет следующие характеристики: Хср = 0 и у = 1, Исходя из принципа нормирования и центрирования составлены таблицы теоретических кривых распределения. Количественные значения, имеющие плотность распределения вероятности случайных величин называются нормированной и центрированной функцией нормального закона распределения.

Приведем некоторые свойства нормальной кривой распределения:

1) Значения функции определены на всей протяженности числовой прямой;

2) Кривая симметрична относительно максимальной ординаты;

3) Максимальная ордината соответствует Mо= Ме= Хср

4) Кривая асимптотически приближается к оси абсцисс, чем больше

значения отклоняются от Хср, тем реже они встречаются;

5) Одинаковые по абсолютному значению, но противоположные по знаку отклонения случайной величины от среднего арифметического равновероятны;

6) Кривые имеют две точки перегиба, находящиеся на расстоянии ± у от Хср;

7) При ХСр - const увеличением у кривая становится более пологой, при у = const с изменением Хср кривая не изменяет своей формы, а лишь сдвигается вправо или влево по оси абсцисс;

8) Отклонение случайной величины от среднего арифметического на ± у определяет площадь фигуры, равную 68,3% от общей площади, в промежутке Хср ± 2 у находится 95,4% всех значений признака, Хср ± 3 у приходится 99,7%.

Использование нормального закона распределения основано на центральной предельной теореме, которая формулируется следующим образом: нормальное распределение возможно в том случае, когда на величину признака влияет большое число случайных факторов, действие этих факторов независимо, и ни одна из причин не имеет преобладающего влияния над другими.