logo search
UMKD_po_VM

Элементы теории корреляции.

Во многих задачах требуется установить и оценить зависимость изучаемой случайной величины Y от одной или нескольких других величин. Рассмотрим зависимость У от одной случайной (или неслучайной) величины X.

Две случайные величины могут быть связаны либо функциональной зависимостью, либо зависимостью другого рода, называемой статистической, либо быть независимыми.

Строгая функциональная зависимость реализуется редко, так как обе величины или одна из них подвержены еще действию случайных факторов, причем среди них могут быть и общие для обеих величин (под «общими» здесь подразумеваются такие факторы, которые воздействуют и на У и на К). В этом случае возникает статистическая зависимость.

Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения другой. В частности, статистическая зависимость проявляется в том, что при изменении одной из величин изменяется среднее значение другой; в этом случае статистическую зависимость называют корреляционной.

Приведем пример случайной величины Y, которая не связана с величиной X функционально, а связана корреляционно. Пусть Y — урожай зерна, X—количество удобрений. С одинаковых по площади участков земли при равных количествах внесенных удобрений снимают различный урожай, т. Е. Y не является функцией от X. Это объясняется влиянием случайных факторов (осадки, температура воздуха и др.). Вместе с тем, как показывает опыт, средний урожай является функцией от количества удобрений, т. Е. Y связан с X корреляционной зависимостью.

Пусть изучается система количественных признаков (X, Y). В результате п независимых опытов получены n пар чисел (x1; y1), (х2; у2), . .., (хn; уn).

Найдем по данным наблюдений выборочное уравнение прямой линии среднеквадратичной регрессии . Для определенности будем искать уравнение

Yx=kx + b регрессии Y на X.

Поскольку различные значения х признака X и соответствующие им значения у –признака Y наблюдались по одному разу, то группировать данные нет необходимости. Также нет надобности использовать понятие условной средней, поэтому искомое уравнение можно записать так:

y=kx+b.

Угловой коэффициент прямой линии регрессии Y на X называют выборочным коэффициентом регрессии Y на X и обозначают через рyx; он является оценкой коэффициента регрессии .

Итак, будем искать выборочное уравнение прямой линии регрессии Y на X вида

y= рyx x+b.

Выборочный коэффициент корреляции определяется равенством

,

где х, у — варианты (наблюдавшиеся значения) признаков X и Y; nxy – частота пары вариант (х, у); n— объем выборки (сумма всех частот); - выборочные средние квадратические отклонения; - выборочные средние.

Если величины У и X независимы, то коэффициент корреляции г = 0 ; если г = ±1, то У и X связаны линейной функциональной зависимостью. Отсюда следует, что коэффициент корреляции г измеряет силу (тесноту) линейной связи между Y и X.

Выборочный коэффициент корреляции является оценкой коэффициента корреляции г генеральной совокупности и поэтому также служит для измерения линейной связи между величинами – количественными признаками У и X. Допустим, что выборочный коэффициент корреляции, найденный по выборке, оказался отличным от нуля. Так как выборка отобрана случайно, то отсюда еще нельзя заключить, что коэффициент корреляции генеральной совокупности также отличен от нуля.

Для оценки тесноты линейной корреляционной связи между признаками в выборке служит выборочный коэффициент корреляции. Для оценки тесноты нелинейной корреляционной связи вводят новые сводные характеристики:

- выборочное корреляционное отношение Y к X;

- выборочное корреляционное отношение X к Y.

Выборочным корреляционным отношением Y к X называют: отношение межгруппового среднего квадратического отклонения к общему среднему квадратическому отклонению признака Y: