46. Коэффициент корреляции и проверка его значимости. Линейная регрессия и прогноз
В п. 29 – 32 были даны определения теоретического коэффициента корреляции и коррелированных величин, перечислены свойства коэффициента корреляции.
Точечной оценкой теоретического коэффициента корреляции является выборочный коэффициент корреляции , который находится по формуле:
,
где и – выборочные средние; , – выборочные средние квадратические отклонения переменных Х и Y соответственно; – выборочное среднее значение переменной .
Можно показать, что выборочный коэффициент корреляции обладает всеми свойствами теоретического коэффициента корреляции, т.е.
1. Для любых переменных Х и Y абсолютная величина коэффициента корреляции не превосходит единицы, т.е. ;
Если Х и Y независимы, то = 0;
Абсолютная величина коэффициента корреляции равна единице тогда и только тогда, когда между переменными Х и Y существует линейная связь, т.е. , где и b – некоторые постоянные величины. При этом = 1, если a>0, и = -1, если a<0.
В силу всего сказанного выше, можно заключить, что изучение вида линейной зависимости между переменными Х и Y имеет смысл лишь тогда, когда величина значима или существенна, т.е. не очень близка к нулю. Если выборка имеет достаточно большой объем и хорошо представляет генеральную совокупность, то заключение о тесноте линейной зависимости между переменными, полученное по выборочным данным, в известной мере может быть распространено и на генеральную совокупность. Для достижения этой цели может быть использован критерий, основанный на распределении Стьюдента.
Для оценки достоверности коэффициента корреляции проверяется гипотеза Н0 об отсутствии линейной корреляционной связи между переменными в генеральной совокупности (против альтернативной гипотезы, состоящей в том, что зависимость между Х и Y значима), т.е. Н0: , по следующей схеме:
Вычисляется статистика отклонения выборочного коэффициента корреляции от генерального коэффициента корреляции , где n – число наблюдений;
По таблице критических точек распределения Стьюдента на уровне значимости и при числе степеней свободы находим значение ;
Если не выполняется неравенство , гипотеза Н0 отвергается, т.е. выборочный коэффициент корреляции существенно отличается от нуля, что свидетельствует о достоверности коэффициента корреляции.
Задача. Выборочный коэффициент корреляции между переменными Х и Y при числе наблюдений n = 50 оказался равным 0,74. Оценить достоверность коэффициента корреляции на 5% уровне значимости.
Решение. Найдем статистику критерия по формуле :
.
Для уровня значимости и числа степеней свободы , находим критическое значение статистики . Поскольку , то коэффициент корреляции достоверен на 5% уровне значимости.
Как было отмечено в п. 32, при линейной зависимости между переменными Х и Y уравнение регрессии Y на Х представляет собой прямую
,
где а и b – неизвестные коэффициенты.
Исходя из выборочных данных, методом наименьших квадратов находят следующие оценки неизвестных коэффициентов уравнения:
,
,
где , , , , r определяются формулами, приведенными в предыдущих разделах.
Оценкой теоретической прямой регрессии является выборочная прямая регрессии
.
Чтобы подчеркнуть, что речь идет о выборочном условном среднем, прямую, определяемую последним уравнением, обозначают .
Точность линейной аппроксимации выборочных данных визуально можно оценить, сравнив поле рассеяния с графиком выборочной прямой регрессии.
Наилучший точечный линейный прогноз среднего значения зависимой переменной Y при любом фиксированном значении независимой переменной Х = х0 задается при помощи выборочного уравнения регрессии Y на Х:
.
Задача 2. В детской поликлинике была собрана следующая информация о связи между временем реакции ребенка Y и его возрастом (в месяцах) X:
-
Возраст (мес.)
1
2
3
4
Время реакции (сек)
1,5
0,8
0,5
0,4
Используя полученные данные, необходимо вычислить выборочный коэффициент корреляции, проанализировать степень тесноты и направление связи между изучаемыми переменными. Предскажите время реакции ребенка в возрасте 4,5 месяца.
Решение. По данным таблицы найдем выборочные средние и среднее квадратические отклонения переменных Х и Y:
Вычислим выборочное среднее значение величины :
.
Выборочный коэффициент корреляции найдем по формуле:
Полученное значение выборочного коэффициента корреляции показывает, что между переменными Х и Y существует достаточно тесная связь, близкая к линейной. Поскольку , то эта связь убывающая, т.е. по мере увеличения возраста, уменьшается время реакции ребенка.
Выборочное уравнение линейной регрессии Y на Х будем искать в виде:
,
и в данной задаче оно таково:
.
Подставляя в последнее соотношение значение х = 4,5 (мес.), найдем ожидаемое время реакции ребенка:
(сек).
- Бийский технологический институт (филиал)
- Теория вероятностей и математическая статистика
- Введение
- События. Классификация событий. Классическое определение вероятности
- Статистическое определение вероятности
- Геометрическая вероятность
- Контрольные вопросы
- Контрольные задания
- 4. Операции над событиями. Соотношения между событиями
- 5.Теорема сложения вероятностей
- 6. Теорема умножения вероятностей
- Контрольные вопросы
- Контрольные задания
- 7. Формула полной вероятности
- 8. Теорема гипотез (формула Бейеса)
- Контрольные вопросы
- Контрольные задания
- Литература
- 9. Повторение опытов. Формула Бернулли
- 10. Локальная формула Муавра-Лапласа. Формула Пуассона
- 11. Интегральная формула Муавра-Лапласа. Вероятность отклонения частоты события от его вероятности в n независимых испытаниях
- Контрольные вопросы
- Контрольные задания
- Литература
- 12. Понятие случайной величины. Ряд распределения. Многоугольник распределения
- 13. Функция распределения. Вероятность попадания непрерывной случайной величины в заданный интервал
- Контрольные вопросы
- Контрольные задания
- 14. Плотность распределения
- Контрольные вопросы
- Контрольные задания
- 15. Числовые характеристики случайных величин. Математическое ожидание и его свойства
- Свойства математического ожидания
- 16. Дисперсия и ее свойства. Среднее квадратическое отклонение
- 17. Моменты распределения случайной величины
- Контрольные вопросы
- Контрольные задания
- 18. Типы распределений дискретных случайных величин
- Биномиальное распределение
- 18.2 Гипергеометрическое распределение
- 18.3 Геометрическое распределение
- 4. Распределение Пуассона
- Контрольные вопросы
- Контрольные задания
- 19. Типы распределений непрерывных случайных величин
- 19.1 Равномерное распределение
- 19.2 Показательное распределение
- 20. Нормальный закон распределения
- 21. Вероятность попадания нормально распределенной случайной величины в заданный интервал. Правило трёх сигма
- Контрольные вопросы
- Контрольные задания
- Литература
- 22. Понятие системы случайных величин
- 23. Закон распределения вероятностей дискретной двумерной случайной величины
- Контрольные вопросы
- 24. Функция распределения двух случайных величин. Вероятность попадания случайной величины в полуполосу и прямоугольник
- 25. Плотность распределения системы двух случайных величин. Законы распределения отдельных величин, входящих в систему
- 26. Условные законы распределения
- Контрольные вопросы
- 27. Зависимые и независимые случайные величины
- 28. Числовые характеристики составляющих системы двух случайных величин. Условное математическое ожидание
- 29. Корреляционный момент. Коэффициент корреляции
- 30. Коррелированность и зависимость случайных величин
- Если величины независимы, то они некоррелированы.
- 31. Линейная регрессия. Прямые линии среднеквадратической регрессии
- Контрольные вопросы
- Контрольные задания
- Литература
- 32. Закон больших чисел
- 33. Центральная предельная теорема
- Контрольные вопросы
- Контрольные задания
- Литература
- Математическая статистика
- 34. Понятие о выборочном методе. Генеральная и выборочная совокупность
- 35. Статистические данные и их представление
- 36. Статистические аналоги теоретических законов распределения
- 36.1 Эмпирическая функция распределения
- 36.2 Полигон и гистограмма
- Контрольные вопросы
- Контрольные задания
- Литература
- 37. Точечное оценивание параметров распределения
- 38. Свойства статистических оценок
- Контрольные вопросы
- Контрольные задания
- 39. Интервальное оценивание параметров распределения
- 40. Интервальное оценивание параметров нормального распределения
- 40.1 Интервальная оценка математического ожидания нормального распределения при известной дисперсии
- 40.2 Интервальная оценка математического ожидания нормального распределения при неизвестной дисперсии
- Контрольные вопросы
- Контрольные задания
- Литература
- 41. Статистические гипотезы
- 42. Критерии проверки гипотез
- Контрольные вопросы
- Контрольные задания
- 43.Критерий согласия Пирсона «Хи-квадрат» ( )
- Контрольные вопросы
- Контрольные задания
- Литература
- 44. Элементы теории корреляции. Задачи корреляционного анализа
- 45. Выбор формы зависимости между переменными. Метод наименьших квадратов
- Контрольные вопросы
- 46. Коэффициент корреляции и проверка его значимости. Линейная регрессия и прогноз
- Контрольные вопросы
- Контрольные задания
- Литература
- Глоссарий