Точечные оценки параметров распределения
При исследовании экспериментальных данных перед исследователем стоит задача анализа имеющихся данных с целью принятия определенных решений в соответствующей области. В частности одной из таких задач является получение информации о распределении вероятностей случайной величины, выборка значений которой наблюдается исследователем. В большинстве случаев имеющийся объем данных, их вариативность, не позволяют произвести точную классификацию. В этих случаях решение задачи связывают с оценкой определенных числовых характеристик изучаемой случайной величины. Поскольку параметры распределения вероятностей этой случайной величины неизвестны, по экспериментальным данным производят точечное оценивание этих характеристик. Оценивание называется точечным, если интересующий параметр оценивается некоторым числом. При этом необходимо понимать, что любое решение носит приблизительный характер: в силу ограниченности исследуемых данных, вычисленные по выборке характеристики (оценки) могут быть приняты за искомые значения с определенной долей уверенности (с некоторой вероятностью).
Вариационные ряды позволяют получить некоторое представление об изучаемом распределении. По вариационному ряду строятся числовые параметры распределения, такие как характеристики положения данных в выбранном пространстве (выборочное среднее, медиана, мода), характеристики рассеивания (дисперсия, стандартное отклонение, коэффициент вариации, минимальное и максимальное значение, размах выборки, стандартная ошибка среднего арифметического), характеристики симметричности (коэффициент асимметрии), характеристика островершинности кривой плотности заданного распределения (коэффициент эксцесса).
Для того чтобы статистические характеристики, построенные по выборке, давали хорошие приближения оцениваемых параметров (генеральной совокупности), они должны удовлетворять определенным требованиям. Напомним, что каждая характеристика строится по ограниченной случайной выборке и, по своей сути, является значением некоторой случайной величины. Многократные вычисления значений исследуемого параметра по различным выборкам, могут давать различные результаты. При условии, что среднее значение оценки, взятое по множеству выборок одинакового объема, совпадает со значением исследуемого параметра по всей генеральной совокупности, оценка называется несмещенной. Смещенной называют точечную оценку, математическое ожидание которой не равно оцениваемому параметру. Ошибка в расчетах может быть вызвана ошибками в исходных данных, которые могут быть вызваны различными причинами: ограниченностью точности приборов, производящих измерения, округлением данных, человеческим фактором и т.п. Однако подобные ошибки, как правило, взаимно воздействуя друг на друга не сильно ухудшают общую оценку. А вот смещенность оценки означает наличие систематической ошибки, что является нежелательным фактором, поэтому при построении точечных оценок предпочитают несмещенные оценки. Однако несмещенность оценки не является единственным условием ее качества. Важным фактором является величина степени разброса полученных оценок вокруг своего среднего значения. Чем больше разброс, тем больше может быть отклонение (значение ошибки) от среднего значения. Эффективной называют статистическую оценку, которая при заданном объеме выборки имеет наименьшую дисперсию. При построении точечных оценок требование эффективности имеет большое значение. Третьим показателем является состоятельность оценки. Состоятельной называют статистическую оценку, которая при неограниченном увеличении объема выборки стремится по вероятности (почти наверняка) к оцениваемому параметру. В частности, если дисперсия несмещенной оценки при увеличении объема выборки стремится к нулю, такая оценка оказывается и состоятельной. Можно заметить, что все (за редчайшими исключениями) оценки параметров, используемые в вероятностно-статистических методах принятия решений, являются состоятельными.
Средней арифметической дискретного вариационного ряда называется отношение суммы вариантов к объему совокупности:
.
В первой формуле среднее берется по всей совокупности выборки, во втором случае среднее вычисляется по группам вариационного ряда (количество групп равно и в каждую группу входят варианты, имеющие одинаковые значения) с учетом частот их появления. Среднее арифметическое характеризует положение данных выборки на оси и представляет несмещенную, состоятельную и эффективную оценку математического ожидания исследуемой случайной величины.
Ниже показаны зависимость расположения кривых плотности нормального распределения от среднего значения
Модой дискретного вариационного ряда называется варианта наиболее часто встречающаяся в этом ряду, т.е. являющееся в некоторой степени "модной". Распределения, имеющие единственную моду, называются унимодальными. Таковым является нормальное распределение. В приведенном выше примере каждая из трех представленных кривых имеет один пик, совпадающий со значением математического ожидания. Для номинальной шкалы мода - единственный способ указать наиболее типичное, распространенное значение.
Медиана вариационного ряда представляет варианту, относительно которой ранжированный (упорядоченный) ряд делится на две равные части: в обе стороны от медианы располагается одинаковое число вариант. Для того чтобы найти медиану, нужно отыскать значение признака, которое находится в середине упорядоченного ряда.
Среднее, мода и медиана различным образом характеризуют заданную выборку.
Квартили – значения вариант, отсекающие по 1/4 части вариационного ряда. Квартили определяют три точки, которые разбивают числовой ряд на четыре области, содержащие одинаковые количество элементов вариационного ряда. Первый квартиль отсекает 25% наблюдений с наименьшим значением признака, второй (медиана) - 50%, третий - 75%. В статистике часто необходимо определять такие значения для произвольного разбиения. Точки, разбивающие область значений вариант на две произвольные области, называются квантилями.
Квантили (процентные точки) Пусть задана функция распределения случайной величины . -квантилью распределения называется решение уравнения . Решение уравнения (что эквивалентно решению уравнения ) называют верхней -квантилью. Если обозначить через верхнюю -квантиль, то -квантиль будет равна . При заданной функции плотности распределения -квантили можно графически представить следующим образом:
Как видно из рисунка квантили представляют точки на оси абсцисс, отсекающие под кривой плотности области, площади которых соответственно равны и . Квартили являются частным случаем квантилей при . Случай определяет медиану. Для симметричных распределений с нулевым математическим ожиданием выполняется .
Размах выборки определяется числом , где -соответственно максимальное (минимальное) значение варианты, и характеризует степень рассеивания варианты.
Выборочная дисперсия дискретного ряда характеризует степень разброса данных вокруг среднего значения и определяется по формуле
,
где через обозначено значение среднего арифметического вариационного ряда. Выборочная дисперсия является оценкой дисперсии случайной величины, характеризующей генеральную совокупность. Напомним, что для дискретной случайной величины, определенной на множестве при условии, что значение появляется с вероятностью , дисперсия определяется по формуле
.
В приведенном выше виде оценка дисперсии является смещенной. Несмещенную и эффективную оценку дает формула
На рисунке приведены графики плотности распределения вероятностей с различными значениями дисперсии и одинаковыми математическими ожиданиями. При уменьшении дисперсии график плотности сужается. Понятно, что из приведенных вариантов более предпочтительной является случайная величина, имеющая наименьшую дисперсию, поскольку ее значения являются более предсказуемыми.
Стандартное (средне-квадратичное) отклонение находится как корень из дисперсии. Рассмотрение такой оценки связано с желанием привести среднее арифметическое и выборочную дисперсию к единой системе единиц измерения.
Коэффициент вариации характеризует относительное значение средне-квадратичного отклонения. Этот коэффициент применяется для сравнения степени разброса значений признака в нескольких совокупностях с различным средним арифметическим. Коэффициент вариации также используется для характеристики однородности совокупности. Совокупность считается количественно однородной, если коэффициент вариации не превышает 33%.
Стандартная ошибка среднего арифметического вычисляется по формуле , где - число значений варианты. Необходимость такой оценки, возникает при оценке показателей значения суммы независимых случайных величин, которая часто используется при построении различных статистик.
Коэффициент асимметрии позволяет измерить степень симметричности функции плотности (при наличии симметричности коэффициент равен 0, если функция плотности асимметрична и имеет длинный хвост справа, то значение коэффициента положительно, если асимметрична и имеет длинный хвост слева, то отрицательно). Коэффициент асимметрии задается формулой
.
На рисунке показана зависимость формы кривой плотности распределения от значения коэффициента асимметрии.
Коэффициент эксцесса дает представление о вытянутости пикового значения кривой, описывающей распределение с.в. и вычисляется по формуле
.
Коэффициент эксцесса служит мерой сосредоточенности данных около среднего. У нормального распределения этот коэффициент равен нулю. При положительных значениях коэффициента плотность распределения будет иметь более острый пик, при отрицательных значениях – пик будет более плоским.
На рисунке ниже показана зависимость формы кривой плотности распределения от значения коэффициента эксцесса.
.
Коэффициенты асимметрии и эксцесса обычно используются для проверки согласия выборочных данных с нормальной моделью распределения.
Знание статистических характеристик, полученных по выборке, позволяет с определенной погрешностью судить о свойствах генеральной совокупности. Погрешность зависит от репрезентативности выборки (отражает ли структура выборки по изучаемому признаку структуру всей совокупности) и от ее объема. Можно показать, что увеличение объема выборки увеличивает степень надежности полученных результатов. В предельном случае, когда выборка совпадает с генеральной совокупностью, выборочные характеристики совпадают с исследуемыми характеристиками генеральной совокупности.
Интервальное оценивание
На выборке малого объема точечная оценка может значительно отличаться от оцениваемого параметра. По этой причине при небольшом объеме выборки следует рассматривать интервальную оценку.
Пусть найденная по данным выборки статистическая характеристика служит оценкой неизвестного параметра . Оценка тем точнее, чем меньше разность . Однако статистические методы для некоторого заранее выбранного значения ошибки не позволяют абсолютно точно утверждать, что , об этом можно говорить лишь с некоторой вероятностью. Надежностью (доверительной вероятностью) оценки по найденному значению называют вероятность , с которой осуществляется неравенство . Обычно, надежность задается наперед, причем в качестве берут число близкое к единице. Тогда имеем , что равносильно соотношению . Интервал , который покрывает неизвестный параметр с надежностью , называют доверительным. Величина называется уровнем значимости или вероятностью ошибки. Из сказанного выше следует, что доверительный интервал – это интервал, который с заданной вероятностью накроет неизвестное значение оцениваемого параметра распределения. Границы доверительного интервала называют доверительными границами. Например, в случае нормального закона распределения с параметрами и , доверительный интервал для среднего значения при известной дисперсии удовлетворяет условию , где
.
Как видно, вычисляя функцию стандартного нормального распределения с использованием таблиц или программных средств можно по значению определить значение , характеризующего длину доверительного интервала. Аналогично можно построить оценку при неизвестном значении дисперсии , которое в этом случае аппроксимируется несмещенной оценкой
- Введение
- Литература
- Элементы теории вероятностей
- Случайное событие и вероятность
- Определение вероятности
- Принцип практической невозможности маловероятных событий
- Формулы комбинаторики
- Условная вероятность
- Независимые события
- Свойства вероятности
- Формула полной вероятности
- Формула Байеса
- Случайная величина
- Свойства математического ожидания
- Дисперсия дискретной с.В.
- Свойства дисперсии
- Закон больших чисел.
- Функция распределения случайной величины
- Свойства функции распределения
- Односторонние и двухсторонние значения вероятностей
- Нормальное распределение
- Взаимосвязи случайных величин Парная корреляция
- Элементы математической статистики
- Генеральная и выборочная совокупность
- Основные шкалы измерений
- Точечные оценки параметров распределения
- Проверка статистических гипотез
- Исследование зависимости между двумя характеристиками
- Лабораторная работа Задание 1. Нахождение выборочных характеристик
- Задача 1.1.
- Задача 1.2.
- Задача 1.3.
- Задача 1.4.
- Задача 1.5.
- Задача 1.6.
- Задание 2 Построение гистограммы выборки
- Задача 2.1
- Задание 3 Проверка статистических гипотез
- Одновыборочный критерий Стьюдента
- Двухвыборочный критерий Стьюдента
- Критерий согласия хи-квадрат
- Задание 4. Интервальные оценки
- Задача 4.1.
- Задача 4.2.
- Анализ значения коэффициента корреляции
- Построение линий регрессии
- Преподавателю и студенту было предложено расположить 15 профессий в порядке их восстребованности на рынке. В результате получилась следующая таблица:
- Оглавление