logo
Метод наименьших квадратов

Прямая и обратная регрессии

Перепишем расчетные формулы в несколько иной форме. Дополнительно к приведенным формулам введем:

и корреляционный момент:

.

Тогда формулы для коэффициентов регрессии можно переписать в следующем виде:

, .

Само уравнение регрессии принимает вид:

.

Если принять за независимую переменную у, а за зависимую х, то можно показать, что уравнение регрессии примет вид:

.

Здесь надо учесть, что .

Обратите внимание, что последнее уравнение не получается из предыдущего путем простого выражения х через у. Если нарисовать графики этих двух регрессий, то мы будем иметь следующее:

Размещено на http://www.allbest.ru/

Покажем, что в общем случае эти две регрессии не совпадают. С этой цель рассчитаем :

Чтобы прямые совпадали, должен равняться нулю, или: . В каком случае это возможно? Для этого учтем, что

, .

Учитывая выражение для корреляционного момента через коэффициент корреляции: , получаем: .

Вывод: прямая и обратная регрессии совпадают только в том случае, если коэффициент корреляции равен 1. В противном случае нельзя поступать так: скажем, нашли регрессию у по х, т.е. зависимость у от х. После этого, если нам надо найти какое-то значение х, просто в полученное уравнение подставляем соответствующее значение у и находим обратное решение. В действительности нужно поступить по-другому. Надо вначале построить обратную регрессию х по у. И уже из этой регрессии находить х при нужном значении у.

Пример

Исследования распределения тяжелых элементов в галактическом диске Wielen et al. 1996.

Содержание тяжелых элементов в звездах часто характеризуется интегральной величиной, которую называют металличностью:

По данным о рассеянных скоплениях:

соответственно, градиент у них получился .

По данным о распределении звезд по возрастам, но теперь в окрестности Солнца, они построили зависимость:

, здесь - возраст звезды в млрд лет. После этого они предложили модель химической эволюции галактического диска:

В качестве примера, иллюстрирующего, как будет меняться со временем по галактическому диску металличность, они на основе своей формулы построили такой рисунок:

И далее сделали удивительный вывод. Они решили, что найденная модель позволяет определять места рождения звезд, т.е.:

Приняв для Солнца его возраст и металличность (по определению, для Солнца она равна нулю), авторы получили, что в момент рождения оно находилось примерно на 1.9 кпк ближе к галактическому центру, нежели его современное расстояние.

Ошибка при этом у них оценивалась примерно в 1 кпк. Так что на уровне стандартного отклонения и даже почти 2 у этот радиальный сдвиг Солнца достоверен. Они же развили теорию диффузии звездных орбит по радиусу галактики. Эта работа в свое время вызвала огромный резонанс. Многие авторы считали, что она решает ряд проблем, как Солнца, так и Галактики. Авторы этой работы - известные специалисты. Их авторитет и большое количество ссылок создали видимость, что здесь все правильно. Но оказалось, что это не так.

Во-первых, эту работу покритиковал известнейший специалист в области исследований химического состава звезд - Тварог.

1. Он обратил внимание на то, что выборка Вилена и др. не является представительной. Еще говорят так: не является репрезентативной.

Посмотрите, где заканчиваются данные в этой работе: они охватывают область кпк и не заходят во внутреннюю область, откуда, по мнению Вилена и др., Солнце продиффундировало к нынешнему положению.

2. Авторы заложили крайне упрощенную модель распределения тяжелых элементов в виде линейной функции с единым в значительной части диска галактики градиентом. Такое представление ниоткуда не следует, и более поздние работы, в частности, наши с И.А. и моим постоянным соавтором на протяжении уже 10 лет из ин-та Астрономии при университете Сан Паулу (Бразилия) Ж.Лепиным показывают, что радиальное распределение тяжелых элементов в галактических дисках вовсе не описывается линейной функцией. Более того, распределение деформируется со временем.

3. И еще одна деталь. Вилен с соавторами упустили, что из прямой регрессии нельзя делать обратные расчеты. Мои расчеты показывают, что если по тем же данным построить регрессионную зависимость от , то получается совершенно другой результат:

Если эту формулу привести к виду, аналогичному Вилену и др., то получим:

Отсюда . С учетом стандартной погрешности в определении расстояний кпк, приведенное выше смещение можно считать недостоверным.

В обсуждаемой работе много других предположений, которые вызывают недоумение, но я не буду на них останавливаться.