Технологияопределения в среде эт коэффициентовлинейнойрегрессии в случае малых выборок
А. По статистикам распределения и связи
Ввести исходную информацию (массивы ).
Установить курсор на ячейке, в которую будет записываться значение определяемой статистики.
Щелкнуть на кнопке мастера функций .
Выбрать категорию статистическиеи найти требуемую функцию, щелкнуть на кнопке ОК.
Заполнить поле диалогового окна определяемой функции (СРЗНАЧ, СТАНДОТКЛОН). При вычислении коэффициента корреляции в поле массив 1 диалогового окна функцииКОРРЕЛввести диапазон ячеек, в котором расположен массив Х, в поле массив 2 – диапазон ячеек, в котором расположен массив.
По формулам (3.13), (3.14), (3.17) выполнить расчет коэффициентов регрессии и записать уравнения регрессии
Б. По формуле массива ЛИНЕЙН.
Выделить смежный диапазон ячеек для размещения коэффициентов уравнения регрессии и регрессионных статистик. Щелкнуть в строке формул и на кнопке мастера функций.
В диалоговом окне мастера функций выбрать категорию статистическиеи функциюЛИНЕЙН.
Рис.3.3. Диалоговое окно функции ЛИНЕЙН
Заполнить поля диалогового окна функции ЛИНЕЙН (рис.3.3) (b2:b11;а2:а11;истина;истина) дляи =ЛИНЕЙН(а2:а11;b2:b11;истина;истина) для , в случае размещения элементов массива Х в диапазоне ячеек а2:а11 и элементов массивав диапазоне ячеекb2:b11 (пример 3.3).
Для получения результата в выделенном диапазоне ячеек выполнить совместное нажатие клавиш [Ctrl]+[Shift]+[Enter].
Пример 3.3. Информация по однотипным предприятиям о возрасте (продолжительности эксплуатации) типового оборудования и затратах на его ремонт приведена в таблице 3.2.
Таблица 3.2. Исходные данные
Номер предприятия | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
Возраст оборудования лет | 4 | 5 | 5 | 6 | 8 | 10 | 8 | 7 | 11 | 6 |
Затраты на ремонт, тыс.грн. | 1,5 | 2 | 1,4 | 2,3 | 2,7 | 4,0 | 2,3 | 2,5 | 6,6 | 1,7 |
Требуется установить корреляционную связь между затратами на ремонт оборудования и его возрастом. Результаты расчета в среде ЭТ по статистикам распределения и связи представлены в таблице 3.3.
Таблица 3.3. Результаты расчета по статистикам распределения и связи
| A | B | C | D | E |
1 | x | y | Yx | e | e^2 |
2 | 4 | 1,5 | 0,86739 | 0,63261 | 0,40019 |
3 | 5 | 2 | 1,47826 | 0,52174 | 0,27221 |
4 | 5 | 1,4 | 1,47826 | -0,0783 | 0,00612 |
5 | 6 | 2,3 | 2,08913 | 0,21087 | 0,04447 |
6 | 8 | 2,7 | 3,31087 | -0,6109 | 0,37316 |
7 | 10 | 4 | 4,53261 | -0,5326 | 0,28367 |
8 | 8 | 2,3 | 3,31087 | -1,0109 | 1,02186 |
9 | 7 | 2,5 | 2,7 | -0,2 | 0,04 |
10 | 11 | 6,6 | 5,14348 | 1,45652 | 2,12146 |
11 | 6 | 1,7 | 2,08913 | -0,3891 | 0,15142 |
12 | 7 | 2,7 |
|
| 4,71457 |
13 | 2,26078 | 1,5592 |
| 0,76767 | |
14 | 0,88573 |
|
|
| |
15 | a | b |
|
|
|
16 | 0,61087 | -1,5761 |
|
|
|
Результаты расчета по функции ЛИНЕЙН представлены в таблице 3.4.
Таблица 3.4. Результаты расчета по функции ЛИНЕЙН
| A | B |
1 | x | Y |
2 | 4 | 1,5 |
3 | 5 | 2 |
4 | 5 | 1,4 |
5 | 6 | 2,3 |
6 | 8 | 2,7 |
7 | 10 | 4 |
8 | 8 | 2,3 |
9 | 7 | 2,5 |
10 | 11 | 6,6 |
11 | 6 | 1,7 |
12 | 0,61087 | -1,5761 |
13 | 0,11319 | 0,82867 |
14 | 0,78453 | 0,76767 |
15 | =29,1 | =8 |
16 | 17,1654 | 4,71457 |
17 | =5,39 | = -1,92 |
18 | =5,32 | =1,86 |
В результате расчета получили: a=0,61087;b=-1,5761. В таблице 3.4 значения этих параметров находятся в ячейках А12 и В12. Следовательно, уравнение линейной регрессии имеет вид:
Функция ЛИНЕЙН выдает не только параметры уравнения регрессии, но и регрессионные статистики (критерии качества). Синтаксис функции: ЛИНЕЙН(известные значения у; известные значения х; константа; статистика). На место константы записывается логическая константа ЛОЖЬ, если b=0, и ИСТИНА в противоположном случае. Параметр статистика используется для получения регрессионных статистик, в этом случае следует ввести логическую константу ИСТИНА. Если требуется получить только параметры уравнения регрессии, то параметр статистика должен иметь значение ЛОЖЬ.
В таблице 3.5 показано размещение параметров уравнения регрессии и регрессионных статистик, выдаваемых функцией ЛИНЕЙН.
Как видно из таблицы 3.5, функция ЛИНЕЙН позволяет выполнять и многомерный линейный регрессионный анализ. Две последние строки таблицы введены для удобства анализа результатов расчета. t– статистика коэффициента уравнения регрессии равна отношению этого коэффициента к его стандартной ошибке, т.е. расчетная формула имеет вид: Критические значения статистик определяются по таблицам приложений 2 и 3 работы [10].
Таблица 3.5. Размещение информации, выдаваемой функцией ЛИНЕЙН
Наименование | Обозначение и последовательность расположения | |||||
Коэффициенты уравнения линейной регрессии | … | |||||
Стандартные ошибки коэффициентов уравнения | … | |||||
Коэффициент детерминации и стандартная ошибка для У | … |
|
|
| ||
Критерий Фишера и число степеней свободы | … |
|
|
| ||
Полная и остаточная дисперсии | … |
|
|
| ||
- статистика коэффициентов | … | |||||
Критические значения статистик |
|
|
|
|
В. С помощью инструмента Регрессия пакета анализа
Установить курсор на свободную ячейку, войти в меню Сервис, выбратьАнализ данных и затем инструментРегрессия.
В диалоговом окне инструмента Регрессия необходимо заполнить поля:
входной интервал y– ввести диапазон ячеек, занимаемых элементами массива результативного признака;
входной интервал х – ввести диапазон ячеек, занимаемых элементами массива (массивов) факторного(ых) признака (признаков);
отметить метки в первой строке;
результаты вывести на новый рабочий лист;
щелкнуть в квадратиках графиков остатков и подбора;
щелкнуть на кнопке ОК.
Выходная информация инструмента «Регрессия» для данных примера 3.3 представлена в таблице 3.7. Эта таблица содержит все параметры и оценки качества модели регрессии. Единственное неудобство – названия и обозначения некоторых показателей не совпадают с принятыми в данном курсе. Для установления соответствия в таблице 3.6 приведены названия, принятые в MSExcel, и в скобках даны соответствующие пояснения.
Таблица 3.6. Выходная информация инструмента Регрессия
ВЫВОД ИТОГОВ | |
Регрессионная статистика | |
Множественный(коэффициент множественной корреляции) | 0,885 |
- квадрат (коэффициент множественной детерминации) | 0,784 |
Нормированный - квадрат (откорректированный коэффициент множественной детерминации) | 0,757 |
Стандартная ошибка (стандартное отклонение результата ) | 0,767 |
Наблюдения (объем выборки n) | 10 |
Дисперсионный анализ
| df (число степеней свободы) | SS (сумма квадратов отклонений) | MS (дисперсия) | F (расчетное значение F-критерия) |
Регрессия | 1 | 17,165 | 17,165 | 29,127 |
Остаток | 8 | 4,714 | =0,589 |
|
ИТОГО | 9 | 21,88 |
|
|
| Коэффи циенты (параметры регрессии ) | Стандарт ная ошибка (стандарт ное отклоне ние парамет ров ) | -статистика (рас чет ное значе ние )
| Р- значе ние | Ниж ние 95% (ниж няя граница довери тельно го интерва ла для ) | Верх ние 95% (верх няя граница довери тельно го интерва ла для ) |
Y-пересе чение | -1,5761 | 0,828 | -1,901 | 0,093 | -3,486 | 0,334 |
Признак X1 | 0,61087 | 0,113 | 5,396 | 0,0006 | 0,349 | 0,871 |
Признак XK |
|
|
|
|
|
Инструмент Регрессия можно использовать для получения и оценки уравнений линейной парной и многомерной регрессии. Уравнения нелинейной регрессии с помощью этого инструмента получить нельзя.
Г. Путем построения линии тренда
Построить точечную диаграмму с помощью мастера диаграмм.
Щелкнуть на любой точке диаграммы, войти в меню Диаграмма и выбрать операциюДобавить линию тренда.
В диалоговом окне Линия тренда щелкнуть на рисункеЛинейная, перейти на вкладкуПараметры, щелкнуть в поляхпоказывать уравнение на диаграмме ипоказывать на диаграмме величину достоверности аппроксимации.
Щелкнуть на кнопке ОК.
Таблица 3.7. Выходная информация для примера 3.3
На рис.3.4 изображена линия тренда, характеризующая зависимость затрат на ремонт от возраста оборудования.
Рис.3.4. Зависимость затрат на ремонт от возраста оборудования
Анализ результатов расчета показывает, что уравнения парной линейной регрессии, полученные различными способами, идентичны.
Пример 3.4. Выполнить анализ парной корреляции между стоимостью 1м2 внутренней площади объектов коммерческой недвижимости и величиной физического износа по данным из приложения 2методических указаний к выполнению курсовой работы.
Результативный признак – стоимость 1м2внутренней площади недвижимости в $, факторный признак Х – величина физического износа в %.
Контроль исходной информации выявил , что в выборке имеется два выброса: магазин в центре города со средневзвешенным физическим износом 25,3% и стоимостью 1м2 площади 187$ и кафе в центре с износом 36,4% и стоимостью - 187,31$. Видимо, для этих объектов местоположение и функциональное назначение имеют гораздо большее значение по сравнению с износом.
Статистические характеристики, полученные в среде ЭТ с помощью мастера функций для выборки с учетом двух исключенных объектов, т.е. для выборки объемом 89 объектов:
= 24,95 %; = 97,24 $;
Следовательно, зависимость между признаками обратная; теснота связи – заметная (см. таблицу 4 работы [10]). Относительно невысокое значение коэффициента корреляции объясняется влиянием на значение стоимости 1м2площади рассматриваемой недвижимости, кроме физического износа, других ценообразующих факторных признаков.
Проверим гипотезу о том, что коэффициент корреляции отличен от нуля, т.е. выполняется условие где-критическое значение, устанавливаемое по таблице- распределения Стьюдента; расчетное значение–статистики определяется по формулам:
при объеме выборки
; (3.18)
при объеме выборки
. (3.19)
При уровне значимости = 0,05 и=89= 1,988, аСледовательно, гипотеза о равенстве нулю коэффициента корреляции отвергается.
Коэффициент детерминации , т.е. факторный признак (физический износ) только на 31% определяет изменение результативного признака (стоимости 1м2площади). Это объясняется влиянием на результативный признак других факторных признаков: местоположение, объемно-планировочные характеристики и др.
Пример 3.5.Получить уравнение регрессии стоимости 1м2площади объекта недвижимости на рыночную арендную плату за 1м2. Исходная информация приведена в таблице 3.8. Выполнить анализ качества полученной модели и определить точечный и интервальный прогноз.
Таблица 3.8. Исходная информация
Номер объекта | Стоимость 1м2, $ | Месячная арендная плата за 1м2 без учета коммунальных платежей, $ |
1 | 78 | 2,5 |
2 | 80 | 2,6 |
3 | 90 | 2,8 |
4 | 92 | 2,9 |
5 | 85 | 3,0 |
6 | 88 | 3,0 |
7 | 92 | 3,2 |
8 | 90 | 3,3 |
9 | 93 | 3,3 |
10 | 93 | 3,5 |
11 | 97 | 3,5 |
12 | 99 | 3,6 |
13 | 94 | 3,7 |
14 | 100 | 3,8 |
15 | 105 | 4,0 |
Пусть по расположению точек корреляционного поля установлено, что теоретической линией регрессии будет прямая. Теоретическая линия регрессии показывает изменение средних значений результативного признака по мере изменения значений факторного признака Запишем уравнение парной линейной регрессии в виде
.
Получим уравнение регрессии с помощью инструмента «Регрессия» пакета анализа, выходная информация которого приведена в таблице 3.9.
Из итогов инструмента «Регрессия» выписываем значения:
Регрессионная статистика:
выборочный коэффициент парной корреляции
коэффициент детерминации = 0,836;
стандартное отклонение (корень из остаточной дисперсии)
Таблица 3.9. Выходная информация инструмента «Регрессия»
Дисперсионный анализ:
столбец - число степеней свободы для определения критерия Фишера
столбец - остаточная дисперсия
расчетное значение критерия Фишера = 66,427;
Строки 17 и 18 содержат информацию, которая характеризует параметры уравнения парной линейной регрессии:
коэффициенты уравнения -
расчетные значения – статистик
– значение для коэффициентов равны
нижняя граница доверительного интервала для коэффициентов: 30,7185 и 10,8978;
верхняя граница доверительного интервала: 56,4625 и 18,7588.
По таблицам определяем критические значения статистик при уровне значимости
Выполняем анализ качества полученной модели:
уравнение модели имеет вид -
= 0,9145, следовательно, между арендной платой и стоимостью 1м2внутренней площади объекта недвижимости наблюдается очень сильная корреляционная связь;
= 0,836 – следовательно, 83,6% дисперсии стоимости 1м2внутренней площади объекта недвижимости объясняется арендной платой;
, следовательно, нулевая гипотеза, что связь между признаками отсутствует или не соответствует истинной, отвергается, т.е. полученная модель имеет статистическую значимость;
, нулевую гипотезу о равенстве нулю коэффициентовотвергаем, т.е. коэффициенты уравнения имеют статистическую значимость и их значения не изменяют знак в доверительных интервалах;
т.е. следует отвергнуть нулевую гипотезу о том, что коэффициенты регрессии могут быть равны нулю;
с надежностью 95% значения коэффициентов находятся в доверительных интервалах:
Так как коэффициенты регрессии и само уравнение статистически значимы, то данную модель можно использовать для прогнозирования.
При анализе статистической значимости уравнения регрессии возможны следующие случаи:
Построенная модель на основе ее проверки по - критерию Фишера в целом статистически значимо и все коэффициенты регрессии статистически значимы. Такая модель может быть использована для принятия решений и прогнозирования.
Модель по критерию Фишера статистически значима, но часть коэффициентов уравнения регрессии статистически незначима. В этом случае модель пригодна для принятия некоторых решений, но не для прогнозирования.
Модель по критерию Фишера статистически значима, а все коэффициенты уравнения незначимы. В этом случае модель считается ненадежной и непригодной для использования в практике.
- Министерство образования и науки украины
- Третий модуль Тема 3. Корреляционно-регрессионный анализ данных наблюдений
- Последовательность проведения корреляционно-регрессионного анализа
- Введение в тему
- Последовательность проведения корреляционно-регрессионного анализа
- 3.2. Проверка данных статистического наблюдения на наличие выбросов
- 3.3. Общие сведения из корреляционно-регрессионного анализа
- 3.4. Форма корреляционной связи
- 3.5. Теснота корреляционной связи
- Проверка на тесноту связи
- 3.6. Сила корреляционной связи
- 3.7. Методикаполученияуравнений линейной регрессии в случае малых выборок Последовательность проведения регрессионного анализа
- Технологияопределения в среде эт коэффициентовлинейнойрегрессии в случае малых выборок
- Прогнозирование на основе полученной модели регрессии
- 3.8. Понятие о многомерном корреляционном анализе
- Определение Для расчета используем ту же матрицу третьего порядка. Расчет ведем по формуле:
- Коэффициент множественной корреляции
- 3.9. Создание математических моделей регрессии
- Парный нелинейный регрессионный анализ
- Экономический смысл коэффициентов регрессии
- Многомерный нелинейный регрессионный анализ
- 3.10. Методика получения уравнений парной линейной регрессии при большом объеме выборки
- 3.11. Понятие о мультиколлинеарности
- Тесты для самоконтроля
- Характеристика тестов темы 3:
- Контрольные задания