Прямая и обратная регрессии
Перепишем расчетные формулы в несколько иной форме. Дополнительно к приведенным формулам введем:
и корреляционный момент:
.
Тогда формулы для коэффициентов регрессии можно переписать в следующем виде:
, .
Само уравнение регрессии принимает вид:
.
Если принять за независимую переменную у, а за зависимую х, то можно показать, что уравнение регрессии примет вид:
.
Здесь надо учесть, что .
Обратите внимание, что последнее уравнение не получается из предыдущего путем простого выражения х через у. Если нарисовать графики этих двух регрессий, то мы будем иметь следующее:
Размещено на http://www.allbest.ru/
Покажем, что в общем случае эти две регрессии не совпадают. С этой цель рассчитаем :
Чтобы прямые совпадали, должен равняться нулю, или: . В каком случае это возможно? Для этого учтем, что
, .
Учитывая выражение для корреляционного момента через коэффициент корреляции: , получаем: .
Вывод: прямая и обратная регрессии совпадают только в том случае, если коэффициент корреляции равен 1. В противном случае нельзя поступать так: скажем, нашли регрессию у по х, т.е. зависимость у от х. После этого, если нам надо найти какое-то значение х, просто в полученное уравнение подставляем соответствующее значение у и находим обратное решение. В действительности нужно поступить по-другому. Надо вначале построить обратную регрессию х по у. И уже из этой регрессии находить х при нужном значении у.
Пример
Исследования распределения тяжелых элементов в галактическом диске Wielen et al. 1996.
Содержание тяжелых элементов в звездах часто характеризуется интегральной величиной, которую называют металличностью:
По данным о рассеянных скоплениях:
соответственно, градиент у них получился .
По данным о распределении звезд по возрастам, но теперь в окрестности Солнца, они построили зависимость:
, здесь - возраст звезды в млрд лет. После этого они предложили модель химической эволюции галактического диска:
В качестве примера, иллюстрирующего, как будет меняться со временем по галактическому диску металличность, они на основе своей формулы построили такой рисунок:
И далее сделали удивительный вывод. Они решили, что найденная модель позволяет определять места рождения звезд, т.е.:
Приняв для Солнца его возраст и металличность (по определению, для Солнца она равна нулю), авторы получили, что в момент рождения оно находилось примерно на 1.9 кпк ближе к галактическому центру, нежели его современное расстояние.
Ошибка при этом у них оценивалась примерно в 1 кпк. Так что на уровне стандартного отклонения и даже почти 2 у этот радиальный сдвиг Солнца достоверен. Они же развили теорию диффузии звездных орбит по радиусу галактики. Эта работа в свое время вызвала огромный резонанс. Многие авторы считали, что она решает ряд проблем, как Солнца, так и Галактики. Авторы этой работы - известные специалисты. Их авторитет и большое количество ссылок создали видимость, что здесь все правильно. Но оказалось, что это не так.
Во-первых, эту работу покритиковал известнейший специалист в области исследований химического состава звезд - Тварог.
1. Он обратил внимание на то, что выборка Вилена и др. не является представительной. Еще говорят так: не является репрезентативной.
Посмотрите, где заканчиваются данные в этой работе: они охватывают область кпк и не заходят во внутреннюю область, откуда, по мнению Вилена и др., Солнце продиффундировало к нынешнему положению.
2. Авторы заложили крайне упрощенную модель распределения тяжелых элементов в виде линейной функции с единым в значительной части диска галактики градиентом. Такое представление ниоткуда не следует, и более поздние работы, в частности, наши с И.А. и моим постоянным соавтором на протяжении уже 10 лет из ин-та Астрономии при университете Сан Паулу (Бразилия) Ж.Лепиным показывают, что радиальное распределение тяжелых элементов в галактических дисках вовсе не описывается линейной функцией. Более того, распределение деформируется со временем.
3. И еще одна деталь. Вилен с соавторами упустили, что из прямой регрессии нельзя делать обратные расчеты. Мои расчеты показывают, что если по тем же данным построить регрессионную зависимость от , то получается совершенно другой результат:
Если эту формулу привести к виду, аналогичному Вилену и др., то получим:
Отсюда . С учетом стандартной погрешности в определении расстояний кпк, приведенное выше смещение можно считать недостоверным.
В обсуждаемой работе много других предположений, которые вызывают недоумение, но я не буду на них останавливаться.