Лекция 17 (уир). Понятие о корреляционном анализе.
Экономические явления и процессы находятся в тесной взаимосвязи, и исследование этой взаимосвязи играет важную роль в экономических исследованиях. Знание взаимосвязей отдельных экономических параметров дает возможность прогнозировать развитие ситуации при изменении конкретных характеристик объекта исследования. Основное содержание экономической политики, в конечном счете, может быть сведено к регулированию экономических переменных, осуществляемому на базе выявленной информации об их взаимовлиянии. Поэтому проблема изучения взаимосвязей показателей является одной из важнейших в статистическом анализе экономических систем.
Для исследования силы связи между переменными широко применяется корреляционный анализ, позволяющий, совместно с регрессионным анализом, решать задачи прогнозирования, планирования и анализа хозяйственной деятельности экономических систем (предприятий, фирм, отраслей и т.д.).
Корреляция в широком смысле слова означает связь, соотношение между объективно существующими явлениями. Связи между явлениями могут быть различны по силе (интенсивности). Если случайные переменные причинно обусловлены, то имеется корреляция.
Таким образом, если в регрессионном анализе исследуется форма связи между переменными, то в корреляционном анализе исследуется сила (теснота) связи.
Корреляция может быть:
В зависимости от характера - положительной или отрицательной;
В зависимости от числа переменных – простой или множественной;
В зависимости от формы связи – линейной или нелинейной.
К важнейшим задачам корреляционного анализа можно отнести:
Измерение силы связи двух или более факторов;
Отбор факторов, оказывающих существенное влияние на результативный признак (зависимую переменную) на основании измерения тесноты связи.
В случае лишь одной независимой переменой X в качестве меры связи между ней и зависимой переменной Y служит коэффициент корреляции. Он оценивается по выборке объема n связанных пар наблюдений (xi, yi). В случае нескольких переменных необходимо последовательно вычислять коэффициенты корреляции по нескольким рядам числовых данных. Полученные коэффициенты сводят в таблицы, называемые корреляционными матрицами.
Корреляционная матрица представляет собой квадратную матрицу, на пересечении строки и столбца которой находится коэффициент корреляции между соответствующими переменными.
Если в результате испытаний система двух случайных величин приняла значения , то коэффициент корреляции равен
где - средние значения, а - средние квадратические отклонения случайных величин соответственно.
Для многомерной выборки (т. е. в случае более двух факторов) необходимо рассчитать корреляционную матрицу
,
которая является симметричной относительно главной диагонали.
Пример
Имеются ежемесячные данные наблюдений за состоянием погоды и посещаемостью музея и парка, приведенные в таблице
Число ясных дней (X1) | Количество посетителей музея (X2) | Количество посетителей парка (X3) |
8 | 495 | 132 |
14 | 503 | 348 |
20 | 380 | 643 |
25 | 305 | 865 |
20 | 348 | 743 |
15 | 465 | 541 |
Необходимо определить, существует ли взаимосвязь между состоянием погоды и посещаемостью музеев и парков. В результате расчета получим корреляционную матрицу
Из корреляционной матрицы видно, что корреляция между состоянием погоды и посещаемостью музея равна -0,921, а между состоянием погоды и посещаемостью парка 0,975. Таким образом, выявлена отрицательная корреляция между посещаемостью музея и количеством солнечных дней и практически линейная положительная корреляция между посещаемостью парка и состоянием погоды.
Чрезвычайно важным понятием корреляционного анализа является остаточная дисперсия. Фактически, выбор вида уравнения регрессии осуществляется экспериментальным методом – путем сравнения величины остаточной дисперсии, рассчитанной при разных моделях.
Если кривая регрессии проходит через все точки корреляционного поля (что возможно лишь при функциональной связи), то фактические значения результативного признака Y совпадают с теоретическими. При этом значения результативного признака полностью обусловлены влиянием рассматриваемого фактора и остаточная дисперсия равна нулю.
На практике, как правило, наблюдается некоторое рассеяние точек относительно линии регрессии из-за влияния не учитываемых в уравнении регрессии факторов и ошибок измерений. Иными словами, имеют место отклонения фактических данных от теоретических ( ). Величина этих отклонений и определяет величину остаточной дисперсии
,
где - фактические, - теоретические данные.
Чем меньше величина остаточной дисперсии, тем меньше влияние не учитываемых в уравнении регрессии факторов, и тем лучше уравнение регрессии соответствует исходным данным. При обработке статистических данных на компьютере перебираются разные математические функции, и из них выбирается та, для которой остаточная дисперсия является наименьшей.
Рассмотрим сначала случай парной корреляции.
- Лекция 1. Предмет теории вероятностей и математической статистики и их роль в экономике и менеджменте
- Лекция 2. Аксиоматика теории вероятности Понятие случайного эксперимента.
- Пространство элементарных событий.
- Совместные и несовместные события.
- Операции над событиями (сумма, разность, произведение).
- Свойства операций над событиями.
- Алгебра и сигма-алгебра событий.
- Лекция 3. Методы определения вероятностей событий
- Классическое определение вероятности события. Случаи равновероятных исходов.
- Статистическое определение вероятности события. Случаи неравновероятных исходов.
- Геометрические вероятности.
- Аксиоматическое построение теории вероятностей.
- Вероятностное пространство
- Лекция 4. Основные теоремы теории вероятностей. Формула полной вероятности и формула Байеса Полная группа событий.
- Условная вероятность.
- Формула умножения вероятностей.
- Формула сложения вероятностей.
- Независимость событий.
- Формула полной вероятности.
- Формула Байеса
- Основные понятия комбинаторики.
- Правила суммы и произведения.
- Лекция 5. Схема независимых испытаний Бернулли
- Случай непостоянной вероятности появления события в опытах
- Наивероятнейшее число наступления событий в схеме Бернулли.
- Предельные теоремы для схемы Бернулли.
- Теорема Пуассона.
- Понятие потока событий.
- Локальная теорема Муавра –Лапласа.
- Интегральная (глобальная) теорема Муавра – Лапласа.
- Лекция 6. Виды случайных величин и расчет вероятностей событий с использованием функций и плотностей распределения
- Закон распределения дискретной случайной величины.
- Функция распределения случайной величины и ее свойства.
- Свойства функции распределения
- Плотность распределения вероятностей.
- Лекция 7. Основные параметры распределений одномерных случайных величин.
- Математическое ожидание случайной величины
- Свойства математического ожидания:
- Дисперсия случайной величины и ее свойства.
- Среднее квадратическое отклонение.
- Лекция 8. Основные законы распределений случайных величин
- Биномиальное распределение, его математическое ожидание и дисперсия.
- Распределение Пуассона.
- Геометрическое распределение
- Гипергеометрическое распределение (урновая схема)
- Равномерное распределение.
- Показательное распределение.
- Лекция 9. Нормальное распределение и его свойства
- Свойства функции Гаусса.
- Вероятность попадания нормальной случайной величины в заданный интервал.
- Функция Лапласа и ее свойства.
- О тклонение нормальной случайной величины от ее математического ожидания. Правило «трех сигм».
- Лекция 10. Многомерные случайные величины
- Закон распределения вероятностей двумерной случайной величины
- Совместная функция распределения двух случайных величин
- Свойства совместной функции распределения двух случайных величин
- Плотность совместного распределения вероятностей непрерывной двумерной случайной величины
- Свойства двумерной плотности вероятности
- Независимые случайные величины
- Для независимых случайных величин справедливы соотношения
- Числовые характеристики системы двух случайных величин
- Корреляционный момент
- Коэффициент корреляции
- Свойства коэффициента корреляции
- Лекция 11. Предельные теоремы теории вероятностей.
- Неравенство Чебышева
- Теорема Чебышева.
- Центральная предельная теорема.
- Лекция 12. Выборочный метод анализа свойств генеральной совокупности.
- Выборочный метод и его основные понятия. Случайная выборка и ее объем
- Способы отбора
- Вариационный ряд для дискретных и непрерывных случайных величин.
- Полигон и гистограмма
- Лекция 13. Понятие о статистических оценках случайных величин Эмпирическая функция распределения
- Важнейшие свойства статистических оценок
- Надежность и доверительный интервал.
- Лекция 14. Доверительные интервалы для математического ожидания и дисперсии Доверительный интервал для математического ожидания нормального распределения при известной дисперсии.
- Доверительный интервал для математического ожидания нормального распределения при неизвестной дисперсии
- . Доверительный интервал для оценки среднего квадратического отклонения нормального распределения
- Лекция 15. Проверка статистических гипотез.
- Статистический критерий
- Критическая область. Область принятия гипотезы. Критические точки.
- Критерий согласия Пирсона о виде распределения.
- Лекция 16. (уир) Понятие о регрессионном анализе
- Понятие о регрессионном анализе
- Выборочные уравнения регрессии.
- Линейная регрессия
- Множественная линейная регрессия
- Нелинейная регрессия
- Логарифмическая модель.
- Обратная модель.
- Степенная модель.
- Показательная модель.
- Лекция 17 (уир). Понятие о корреляционном анализе.
- А. Парная корреляция
- Б. Множественная корреляция
- Лекция 18 (уир). Цепи Маркова с дискретным временем
- Однородные цепи Маркова
- Переходные вероятности. Матрица перехода.
- Равенство Маркова
- Лекция 19 (уир). Цепи Маркова с непрерывным временем.
- Уравнения Колмогорова
- Финальные вероятности состояний системы
- Лекция 20 (уир). Системы массового обслуживания.
- Расчет характеристик систем массового обслуживания Одноканальные модели а. Одноканальная модель с отказами
- Б. Одноканальная модель с ожиданием
- Многоканальные модели