Элементы теории линейной корреляции.
Во многих задачах требуется установить и оценить зависимость изучаемой случайной величины от одной или нескольких других величин. Случайные величины могут быть связаны либо функциональной зависимостью, либо зависимостью другого рода, называемой статистической, либо быть независимыми. Строгая функциональная зависимость реализуется редко, так как обе величины или одна из них подвержены еще действию случайных факторов, причем среди них могут быть и общие для обеих величин. В этом случае возникает статистическая зависимость.
Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения другой. В частности, статистическая зависимость проявляется в том, что при изменении одной из величин изменяется среднее значение другой; в этом случае статистическую зависимость называют корреляционной зависимостью или корреляцией. В отличие от функциональной зависимости корреляция, как правило, рассматривается тогда, когда одна из величин зависит не только от данной другой случайной величины, но и от ряда случайных факторов. Как известно, зависимость между двумя случайными событиями проявляется в том, что условная вероятность одного из них при наступлении другого отличается от безусловной вероятности. Пусть X и Y - некоторые случайные величины, mx и my - математические ожидания, а и дисперсии случайных величин X и Y соответственно. Тогда, величина
называется коэффициентом корреляции.
Коэффициент корреляции – числовая характеристика совместного распределения двух случайных величин, выражающая их взаимосвязь и обладающая следующими, очевидными, свойствами:
.
Если величины X и Y независимы, то . Обратное утверждение может оказаться неверным, о величинах, для которых говорят, что они некоррелированы. Коэффициент корреляции тогда и только тогда, когда величины X и Y связаны линейной зависимостью.
Пусть, далее для каждого возможного значения X определено условное математическое ожидание величины Y, тогда линейная функция
называется линейной регрессией величины Y по X, а ее график прямой линией регрессии Y по X. Аналогично
линейная регрессия величины X по Y.
Угловой коэффициент – прямой линии регрессии Y по X называется выборочным коэффициентом регрессии Y по X, .
Условным средним называют среднее арифметическое наблюдавшихся значений Y, соответствующих Х = х.
Условным средним называют среднее арифметическое наблюдавшихся значений X, соответствующих Y = y.
В математической статистики разработаны методы оценки коэффициентов, характеризующих корреляцию между случайными величинами. Совокупность таких методов называется корреляционным анализом. Корреляционный анализ статистических данных включает в себя:
1) Построение корреляционной таблицы;
2) Вычисление выборочного коэффициента корреляции по формуле , где - выборочные средние, -выборочные среднеквадратические отклонения признаков X и Y, а ni,j количество пар (xi,yj) в исследуемой выборке;
3) Построение корреляционного поля (нанесение на координатную плоскость выборочных точек (xi,yj);
4) Построение графика линейной регрессии.
Отметим, что линейная регрессия наилучшим образом приближает значения величины Y по значениям случайной величины X.
Мы рассмотрели оценку тесноты линейной корреляционной связи. Как оценить тесноту любой корреляционной связи?
Пусть данные наблюдений над количественными признаками Х и Y сведены в корреляционную таблицу. Можно считать, что тем самым наблюдаемые значения Y разбиты на группы; каждая группа содержит те значения Y, которые соответствуют определенному значению X. Найти групповые средние, внутригрупповую межгрупповую и общие дисперсии. Причем, как известно , и если Y связан с X функциональной зависимостью, то , а если Y связан с Х корреляционной зависимостью, то .
Отсюда видно, что чем связь между признаками ближе к функциональной, тем меньше и, следовательно, тем больше приближается к , а значит, отношение единице.
Для оценки тесноты линейной корреляционной связи между признаками в выборке служит выборочный коэффициент корреляции. Для оценки тесноты нелинейной корреляционной связи вводят новые сводные характеристики :
– выборочное корреляционное отношение Y к X;
– выборочное корреляционное отношение Х к Y.
Выборочным корреляционным отношением Y к Х называют отношение межгруппового среднеквадратического отклонения к общему среднему квадратическому отклонению признака Y: или в других обозначениях
.
Здесь ; , n – объем выборки (сумма всех частот); – частота значения x; признака X; – частота значения y признака Y; – общая средняя признака Y; – условная средняя признака Y. Аналогично определяется выборочное корреляционное отношение X к Y: .
Приведем свойства корреляционного отношения.
Свойство 1. Корреляционное отношение удовлетворяет неравенству ; .
Свойство 2. Если , то признак Y с признаком X корреляционной зависимость не связан. Аналогично, если , то X с Y корреляционной зависимость не связан. Наоборот, Если признак Y с признаком X корреляционной зависимость не связан, то , а если X с Y корреляционной зависимость не связан, то .
Свойство 3. Если ( ), то признак Y связан с признаком X (признак X связан с признаком Y) функциональной зависимостью.
Обратное утверждение также имеет место.
Свойство 4. Выборочное корреляционное отношение не меньше абсолютной величины выборочного коэффициента корреляции.
Свойство 5. Если выборочное корреляционное отношение равно абсолютной величине выборочного коэффициента корреляции, то имеет место точная линейная корреляционная зависимость.
Корреляционное отношение служит мерой тесноты связи любой, в том числе и линейной, формы. В этом состоит преимущество корреляционного отношения перед коэффициентом корреляции, который оценивает тесноту лишь линейной зависимости. Вместе с тем корреляционное отношение обладает недостатком: оно не позволяет судить, насколько близко расположены точки, найденные по данным наблюдений, к кривой определенного вида, например к параболе, гиперболе и т. д. Это объясняется тем, что при определении корреляционного отношения форма связи во внимание не принималась.
- Основные понятия, используемые в математической обработке психологических данных Признаки и переменные
- Шкалы измерения
- Математическая статистика. Первоначальные понятия математической статистики
- Измерение значений психологических признаков
- Разные виды случайных выборок
- Статистическое распределение выборки.
- Типы выборки
- Эмпирическая функция распределения.
- Гистограмма
- Статистические оценки параметров распределения.
- Групповая и общая средние
- Групповая, внутри групповая, межгрупповая и общая дисперсии
- Интервальные оценки.
- Доверительные интервалы для оценки среднеквадратического отклонения нормального распределения
- Характеристики вариационного ряда
- Обычные, начальные и центральные эмпирические моменты
- Эмпирические и выравнивающие (теоретические) частоты
- Асимметрия и эксцесс
- Метод моментов.
- Метод наибольшего правдоподобия.
- Элементы теории линейной корреляции.
- Статистическая проверка гипотез о виде и о параметрах распределений.
- Статистический критерий проверки нулевой гипотезы
- Критерий Пирсона проверки гипотезы о нормальном распределении генеральной совокупности
- Сравнение двух дисперсий нормальных генеральных совокупностей
- Сравнение исправленной выборочной дисперсии с гипотетической генеральной дисперсией нормальной совокупности
- Сравнение двух средних нормальных генеральных совокупностей, дисперсии которых известны (независимые выборки)
- Сравнение двух средних произвольно распределенных генеральных совокупностей (большие независимые выборки)
- Сравнение двух средних нормальных генеральных совокупностей, дисперсии которых неизвестны и одинаковы (малые независимые выборки)
- Сравнение выборочной средней с гипотетической генеральной средней нормальной совокупности
- Связь между двусторонней критической областью и доверительным интервалом
- Определение минимального объема выборки при сравнении выборочной и гипотетической генеральной средних
- Сравнение двух средних нормальных генеральных совокупностей с неизвестными дисперсиями (зависимые выборки)
- Сравнение наблюдаемой относительной частоты с гипотетической вероятностью появления события
- Сравнение двух вероятностей биномиальных распределений
- Сравнение нескольких дисперсий нормальных генеральных совокупностей по выборкам различного объема. Критерий Бартлетта
- Сравнение нескольких дисперсий нормальных генеральных совокупностей по выборкам одинакового объема. Критерий Кочрена
- Проверка гипотезы о значимости выборочного коэффициента корреляции
- Выборочный коэффициент ранговой корреляции Спирмена и проверка гипотезы о его значимости
- Выборочный коэффициент ранговой корреляции Кендалла и проверка гипотезы о его значимости
- Критерий Вилкоксона и проверка гипотезы об однородности двух выборок
- Однофакторный дисперсионный анализ Сравнение нескольких средних. Понятие о дисперсионном анализе
- Общая факторная и остаточная суммы квадратов отклонений
- Общая, факторная и остаточная дисперсии
- Сравнение нескольких средних методом дисперсионного анализа
- Критические точки распределения
- Критические точки распределения Стьюдента
- Критические точки распределения f Фишера — Снедекора
- Критические точки распределения Кочрена
- Критические точки распределения Кочрена (продолжение)
- Критические точки критерия Вилкоксона
- Критические точки критерия Вилкоксона (продолжение)
- Критические точки критерия Вилкоксона (продолжение)