7.3.1. Постановка задачи
Одной из типовых задач обработки многомерных ЭД является определение количественной зависимости показателей качества объекта от значений его параметров и характеристик внешней среды. Примером такой постановки задачи является установление зависимости между временем обработки запросов к базе данных и интенсивностью входного потока. Время обработки зависит от многих факторов, в том числе от размещения искомой информации на внешних носителях, сложности запроса. Следовательно, время обработки конкретного запроса можно считать случайной величиной. Но вместе с тем, при увеличении интенсивности потока запросов следует ожидать возрастания его среднего значения, т.е. считать, что время обработки и интенсивность потока запросов связаны корреляционной зависимостью.
Постановка задачи регрессионного анализа формулируется следующим образом.
Имеется совокупность результатов наблюдений вида (7.1). В этой совокупности один столбец соответствует показателю, для которого необходимо установить функциональную зависимость с параметрами объекта и среды, представленными остальными столбцами. Будем обозначать показатель через y* и считать, что ему соответствует первый столбец матрицы наблюдений. Остальные т–1 (m > 1) столбцов соответствуют параметрам (факторам) х2, х3, …, хт .
Требуется: установить количественную взаимосвязь между показателем и факторами. В таком случае задача регрессионного анализа понимается как задача выявления такой функциональной зависимости y* = f(x2 , x3 , …, xт), которая наилучшим образом описывает имеющиеся экспериментальные данные.
Допущения:
количество наблюдений достаточно для проявления статистических закономерностей относительно факторов и их взаимосвязей;
обрабатываемые ЭД содержат некоторые ошибки (помехи), обусловленные погрешностями измерений, воздействием неучтенных случайных факторов;
матрица результатов наблюдений является единственной информацией об изучаемом объекте, имеющейся в распоряжении перед началом исследования.
Функция f(x2 , x3 , …, xт), описывающая зависимость показателя от параметров, называется уравнением (функцией) регрессии. Термин "регрессия" (regression (лат.) – отступление, возврат к чему-либо) связан со спецификой одной из конкретных задач, решенных на стадии становления метода. Его ввел английский статистик Ф. Гальтон. Он исследовал влияние роста родителей и более отдаленных предков на рост детей. По его модели рост ребенка определяется наполовину родителями, на четверть – дедом с бабкой, на одну восьмую прадедом и прабабкой и т.д. Другими словами, такая модель характеризует движение назад по генеалогическому дереву. Ф. Гальтон назвал это явление регрессией как противоположное движению вперед – прогрессу. В настоящее время термин "регрессия" применяется в более широком плане – для описания любой статистической связи между случайными величинами.
Решение задачи регрессионного анализа целесообразно разбить на несколько этапов:
предварительная обработка ЭД;
выбор вида уравнений регрессии;
вычисление коэффициентов уравнения регрессии;
проверка адекватности построенной функции результатам наблюдений.
Предварительная обработка включает стандартизацию матрицы ЭД, расчет коэффициентов корреляции, проверку их значимости и исключение из рассмотрения незначимых параметров (эти преобразования были рассмотрены в рамках корреляционного анализа). В результате преобразований будут получены стандартизованная матрица наблюдений U (через y будем обозначать стандартизованную величину y*) и корреляционная матрица r.
Стандартизованной матрице U можно сопоставить одну из следующих геометрических интерпретаций:
в т-мерном пространстве оси соответствуют отдельным параметрам и показателю. Каждая строка матрицы представляет вектор в этом пространстве, а вся матрица – совокупность п векторов в пространстве параметров;
в п-мерном пространстве оси соответствуют результатам отдельных наблюдений. Каждый столбец матрицы – вектор в пространстве наблюдений. Все вектора в этом пространстве имеют одинаковую длину, равную. Тогда угол между двумя векторами характеризует взаимосвязь соответствующих величин. И чем меньше угол, тем теснее связь (тем больше коэффициент корреляции).
В корреляционной матрице особую роль играют элементы левого столбца – они характеризуют наличие или отсутствие линейной зависимости между соответствующим параметром ui (i =2, 3, …, т) и показателем объекта y. Проверка значимости позволяет выявить такие параметры, которые следует исключить из рассмотрения при формировании линейной функциональной зависимости, и тем самым упростить последующую обработку.
- Лекции по дисциплине курса «Теория вероятностей и математическая статистика»
- Часть II
- Введение
- 1. Закон больших чисел
- 1.2. Неравенства чебышева
- 1.3. Сходимость по вероятности
- 1.4.Теоремы чебышева
- 1.4.1.Первая теорема Чебышева.
- 1.4.2. Вторая теорема Чебышева:
- 1.5. Теорема бернулли
- 1.6. Центральная предельная теорема
- 1.7. Предельные теоремы
- 1.7.1. Локальная теорема Муавра-Лапласа.
- 1.7.2. Интегральная теорема Муавра-Лапласа.
- 2. Базовые понятия математической статистики
- 2.1. Эмпирическая функция распределения
- 2.2. Гистограмма
- 2.3. Оценки параметров распределения и их свойства
- 2.4. Оценки моментов и квантилей распределения
- 2.5. Точечная оценка параметров распределения
- 2.5.1. Сущность задачи точечного оценивания параметров
- 2.5.2. Метод максимального правдоподобия
- 2.5.3. Метод моментов
- 2.5.4. Метод квантилей
- 3. Проверка статистических гипотез
- 3.1. Сущность задачи проверки статистических гипотез
- 3.2. Типовые распределения
- 3.2.1. Нормальное распределение
- 3.2.2. Распределение χ2 (хи-квадрат)
- 3.2.3. Распределение Стьюдента
- 3.3.4. Распределение Фишера
- 3.3. Проверка гипотез о законе распределения
- 3.3.1. Критерий хи-квадрат к. Пирсона
- 3.3.2. Критерий а.Н. Колмогорова
- 3.3.3. Критерий р. Мизеса
- 4. Интервальная оценка параметров распределения
- 4.1. Сущность задачи интервального оценивания параметров
- 4.2. Общий метод построения доверительных интервалов
- 4.3. Доверительный интервал для математического ожидания
- 4.4. Доверительный интервал для дисперсии
- 4.5. Доверительный интервал для вероятности
- 5. Аппроксимация закона распределения экспериментальных данных
- 5.1. Задачи аппроксимации
- 5.2. Аппроксимация на основе типовых распределений
- 6. Обработка однотипных выборок
- 6.1. Однотипные выборки эд и задачи их обработки
- 6.2. Объединение выборок
- 6.2.1. Объединение однородных выборок
- 6.2.2. Объединение неоднородных выборок
- 6.3. Однофакторный дисперсионный анализ
- 6.3.1. Задачи дисперсионного анализа
- 6.3.2. Проверка однородности совокупности дисперсий
- 6.3.3. Сравнение факторной и остаточной дисперсий
- 7. Корреляционный и регрессионный анализ
- 7.1. Матрица данных
- 7.2. Корреляционный анализ
- 7.3. Регрессионный анализ
- 7.3.1. Постановка задачи
- 7.3.2. Выбор вида уравнения регрессии
- 7.3.4. Вычисление коэффициентов уравнения регрессии