logo
Отчет по 4 лабе

Основы регрессионного и корреляционного анализа Основные понятия и определения

Во многих технических, экономических, организационных задачах требуется установить и оценить зависимость изучаемой случайной величины (СВ) Y от одной или нескольких других величин X. Например, в ситуациях, когда необходимо оценить как влияет:

  1. количество внесенных удобрений на снимаемый урожай;

  2. величина затрат компании на рекламу своего товара на объемы продаж этого товара;

  3. изменение цены товара на объем его продаж;

  4. величина доходов населения на величину их сбережений.

Зависимость между значениями параметров X и Y может быть:

Случайной называют величину, которая в результате испытания примет одно и только одно возможное значение, наперед неизвестное и зависящее от случайных причин, которые заранее не могут быть учтены.

Параметр Y связан с параметром X функциональной зависимостью в том случае, когда конкретному значению соответствует одно и только одно значение . Например, если принять, что X - это градусы по шкале Цельсия, а Y - градусы по шкале Фаренгейта, то между этими параметрами существует функциональная зависимость

и наоборот .

Функциональность связи определяется тем, что для конкретной температуры по Цельсию существует одна и только одна температура по Фаренгейту.

В экономических процессах строгая функциональная зависимость реализуется редко, т.к. часто оба параметра или один из них подвержены еще действию разнообразных случайных факторов, например, объем продаж товара не определяется жестко его ценой. На него могут влиять такие случайные факторы, как погода, сезон, эффект ажиотажного спроса, массовая невыплата или выплата зарплаты. Статистической называют зависимость, при которой изменение одной из величин X влечет изменение распределения (т.е. множества возможных значений) Y другой. Например, пусть при цене на лимоны в 15 руб. семья со средним достатком покупает в месяц от 10 до 15 лимонов, при цене в 25 руб. - от 7 до 10 шт., а при цене в 40 руб. - 3-5 шт. Т.е. изменение цены X изменяет возможное количество покупаемых цитрусовых Y.

Статистическую зависимость называют корреляционной, если при изменении одной из величин X изменяется среднее значение другой. Например, с одинаковых по площади участков земли при равных количествах внесенных удобрений X снимают различный урожай Y, т.е. Y не является функцией от X. Это объясняется влиянием случайных факторов (осадки, температура воздуха, плодородие почвы и др.). Но как показывает опыт, средний урожай является функцией от количества удобрений, т.е. Y связан с X корреляционной зависимостью.

Рассмотрим графическое представление данных о расходах на рекламу товара и (см. рис.1.3).

Рис.1.3. Зависимость объема продаж товара от расходов на рекламу

Из графика a) видно, что связь между параметрами близка к линейной. В случае данных, представленных на графике b) можно предположить, что линейная модель неприменима для описания связи между расходами на рекламу и объемами продаж.

Уравнение прямой из рис.1.3.а) является моделью связи, существующей между параметрами X и Y. Эту модель можно использовать для объяснения конкретной ситуации и для прогнозов.

Первым шагом в анализе связи между параметрами является изучение переменных. Параметр Y, значение которого нужно предсказывать, является зависимым. Параметр X, значения которого нам известны заранее, и который влияет на значения Y называется независимым. В описанной ситуации Y - это объем продаж товара, X - затраты на рекламу. В действительности не существует теоретической основы, исходя из которой можно было бы написать уравнение, которое бы точно показало связь продаж с расходами на рекламу. Имеется ряд факторов, неразрывно связанных между собой, такие как цена товара, цена товара-конкурента, сезон, погодные условия. Тем не менее, если предположить, что в конкретном случае, расходы на рекламу являются главным фактором, определяющим продажу, то знание этой связи было очень полезным для оценки объема продаж и соответствующего планирования финансовой политики компании.

Важным моментом является то, что для любого конкретного объема рекламы x существует распределение возможного объема продаж, т.е. не одно, а несколько значений . Т.е. если два месяца подряд фирма будет выделять на рекламу одну и ту же сумму средств, например, x=5 тыс.руб., то объемы продаж в каждом месяце будут отличаться, будучи близкими по значению, например, в первом месяце штук, во втором – штук.

Эта идея очень важна для дальнейшего анализа. Для усреднения всех возможных значений параметра Y, которые соответствуют значению , используют понятие условного среднего , т.е. среднего арифметического всех значений Y, которые наблюдались при значении . Если каждому значению x соответствует одно значение условной средней , то условная средняя есть функция от x; в этом случае говорят, что СВ Y зависит от X корреляционно.

Корреляционная зависимость Y от X - это функциональная зависимость условной средней от x:

.

(1)

Уравнение (1) называется уравнением регрессии Y на X. Функция наз. регрессией Y на X, а ее график - линией регрессии Y на X.

Две основные задачи регрессионного и корреляционного анализа:

  1. Установить форму корреляционной связи, т.е. вид функции регрессии (линейная, квадратичная, показательная и т.д.).

  2. Оценить тесноту (силу) корреляционной связи. Теснота корреляционной зависимости Y от X оценивается по величине рассеяния значений Y вокруг условного среднего . Большое рассеяние говорит о слабой зависимости Y от X, либо об ее отсутствии. И наоборот, Малое рассеяние указывает наличие достаточно сильной зависимости.