7.2. Проведение корреляционного анализа
с помощью коэффициента парной корреляции
Допустим, проводится независимое измерение различных параметров у одного типа объектов. Из этих данных можно получить качественно новую информацию – о взаимосвязи этих параметров.
Например, измеряем рост и вес человека, или рост и размер обуви. Каждое измерение представлено точкой в двумерном пространстве:
Рис. 4
Несмотря на то, что величины носят случайный характер, в общем, наблюдается некоторая зависимость – величины коррелируют. В данном случае это положительная корреляция (при увеличении одного параметра второй тоже увеличивается).
Возможны также такие случаи:
-
Отрицательная корреляция:
EMBED Word.Picture.8
Отсутствие корреляции:
EMBED Word.Picture.8
Рис. 5 Рис.6
Связь между величинами может быть и нелинейной (рис. 7).
EMBED PBrush Рис. 7
Взаимосвязь между переменными необходимо охарактеризовать численно, чтобы, например, различать случаи, приведенные на рис.8 и рис.9.
-
EMBED Word.Picture.8
EMBED Word.Picture.8
Рис. 8 Рис. 9
Все, что мы видим на приведенных выше рисунках, называют диаграммой рассеивания.
Если облако точек напоминает очертания некоторой линии, то можно предполагать, что мы видим на диаграмме рассеяния именно такую по форме зависимость, однако искаженную воздействием как случайных, так и неучтенных факторов, вызывающим отклонение точек от теоретической формы.
Поскольку наиболее простой формой в математике является прямая пропорциональная зависимость, то в корреляционном и регрессионном анализе наиболее популярны линейные модели.
Для численных оценок вводится коэффициент корреляции (коэффициент парной корреляции) EMBED Equation.3 . Для линейной связи переменных он рассчитывается по формуле Пирсона.
EMBED Equation.3
Коэффициент корреляции EMBED Equation.3 изменяется в пределах от -1 до 1. В данном случае это линейный коэффициент корреляции, он показывает линейную взаимосвязь между EMBED Equation.3 и xi. Коэффициент корреляции равен 1 (или -1), если связь линейна.
Коэффициент парной корреляции вычисляется для количественных признаков. Коэффициент корреляции симметричен, т.е. не изменяется, если X и Y поменять местами, и является величиной безразмерной.
Коэффициент корреляции не изменяется при изменении единиц измерения признаков X и Y.
Сам по себе коэффициент корреляции не имеет содержательной интерпретации. Однако его квадрат (r2), называемый коэффициентом детерминации (обозначается d и обычно выражается в %), имеет простой смысл – это показатель того, насколько изменения зависимого признака объясняются изменениями независимого.
Более точно, это доля дисперсии (разброса) одного признака, объясняемая влиянием другого (если связь интерпретировать как причинно-следственную).
Из определения коэффициента детерминации следует, что он принимает значения в диапазоне от 0% до 100%.
Если две переменные функционально линейно зависимы (точки на диаграмме рассеяния лежат на одной прямой), то можно сказать, что изменение одной из них полностью объясняется изменением другой. Это как раз тот случай, когда коэффициент детерминации равен 100% (при этом коэффициент корреляции может быть равен как 1, так и –1).
Коэффициенты корреляции и детерминации
Если две переменные линейно независимы (метод наименьших квадратов, о котором пойдет речь в следующем параграфе, дает горизонтальную прямую), то одна из них в своих изменениях никоим образом не определяет другую – в этом случае коэффициент детерминации равен нулю. В остальных случаях коэффициент детерминации указывает, какая часть изменений одной переменной объясняется изменениями другой переменной.
Чем выше по модулю (по абсолютной величине) значение коэффициента корреляции, тем сильнее связь между признаками.
Принято считать, что коэффициенты корреляции, которые по модулю больше 0,7, говорят о сильной связи (при этом коэффициенты детерминации > 50%, т.е. один признак определяет другой более чем наполовину). Коэффициенты корреляции, которые по модулю меньше 0,7, но больше 0,5, говорят о связи средней силы (при этом коэффициенты детерминации меньше 50%, но больше 25%). Наконец, коэффициенты корреляции, которые по модулю меньше 0,5, говорят о слабой связи (при этом коэффициенты детерминации меньше 25%).
Оценить глубину корреляционной связи и характер связи можно, пользуясь табл. 2:
Таблица 2.
EMBED Equation.3 | Глубина связи |
EMBED Equation.3 =0 | Отсутствует |
EMBED Equation.3 | Слабая |
EMBED Equation.3 | Умеренная |
EMBED Equation.3 | Значительная |
EMBED Equation.3 | Сильная |
EMBED Equation.3 | Очень сильная |
EMBED Equation.3 =1 | Полная |
Если EMBED Equation.3 >0, то связь прямая (положительная), при EMBED Equation.3 <0 связь – обратная (отрицательная).
Методами корреляционного анализа решаются задачи:
Взаимосвязь. Есть ли взаимосвязь между параметрами?
Прогнозирование. Если известно поведение одного параметра, то можно предсказать поведение другого параметра, коррелирующего с первым.
Классификация и идентификация объектов. Корреляционный анализ помогает подобрать набор независимых признаков для классификации.
Yandex.RTB R-A-252273-3
- Содержание
- «Никакой достоверности нет в науках там, где нельзя приложить ни одной из математических наук, и в том, что не имеет связи с математикой»
- Глава 1 пределы
- Глава 2 дифференциальное исчисление функций одной независимой переменной
- § 1. Понятие производной
- §2. Основные правила дифференцирования.
- §3. Дифференцирование сложной функции.
- §4. Производные высших порядков
- §5. Дифференциал функции
- Тогда, воспользовавшись формулой embed Equation.3 ,
- §6. Применение производной при решении
- Решение. Скорость прямолинейного движения
- Глава 3 Исследование функций методами дифференциального исчисления
- §1. Интервалы монотонности функции
- Решение. Найдем производную заданной функции: embed Equation.3 .
- §2. Экстремум функции
- Глава 4 неопределенный интеграл4
- §1. Непосредственное интегрирование.
- Основные свойства неопределенного интеграла
- §2.Интегрирование способом подстановки
- § 3. Интегрирование по частям.
- Например:
- §4. Применение неопределенного интеграла при решении прикладных задач.
- Глава 5 определенный интеграл
- §1.Определенный интеграл и его непосредственное
- Основные свойства определенного интеграла
- §2. Приложение определенного интеграла для вычисления площадей плоских фигур.
- §3. Приложение определенного интеграла к решению физических задач.
- Глава 6 дифференциальные уравнения
- §1.Основные понятия.
- §2.Уравнения с разделяющимися переменными.
- §3. Однородные дифференциальные уравнения.
- §4. Задачи на составление дифференциальных уравнений.
- Глава 7 Элементы теории вероятностей и математической статистики
- § 1. Основные понятия
- Вероятность случайного события – это количественная оценка объективной возможности появления данного события.
- § 2. Числовые характеристики распределения случайных величин
- §4. Генеральная совокупность.
- §5. Интервальная оценка. Интервальная оценка
- §6. Проверка гипотез. Критерии значимости
- § 7. Элементы корреляционного и регрессионного анализа
- 7.1. Характер взаимосвязи между признаками
- 7.2. Проведение корреляционного анализа
- 7.3. Элементы регрессионного анализа
- Статистическая обработка данных измерения роста.
- Глава 4
- Глава 5
- Список литературы
- 614990, Г. Пермь,ул. Большевистская,85