Статистичний аналіз тенденцій захворюваності в Україні

дипломная работа

1.1 Метод найменших квадратів. Властивості оцінок найменших квадратів. Оцінювання у2. Теорія розподілів. Оцінювання при наявності лінійних обмежень

Нехай Y - випадкова величина, яка флуктуює навколо деякого невідомого параметра з, тобто Y = з + е, де е - флюктуація або „помилка". Наприклад, е може бути „природною" флуктуацією, яка властива самому експерименту, або може бути помилкою у вимірюванні значення з.

Припустимо, що з можна подати у вигляді

з = в0 + в1x1 + … + вp-1xp-1,

де х1, х2, ..., xp-1 - відомі постійні величини, а вj (j = 0, 1, .., p - 1) - невідомі параметри, які підлягають оцінюванню. Якщо значення хj, j = 0, 1, .., p - 1 змінюються і при цьому спостерігається n значень Y1, Y2, ...,Yn змінною Y, то

Yi = в0 + в1xi1 + … + вp-1x i,p-1 + еi, i = 1, 2, ..., n, (1.1.1)

де xij i-те значенням для хj. В матричному вигляді (1.1.1) запишеться

або

Y = Xв + е, (1.1.2)

де x10 = x20 = ... = xn0 = 1.

Означення. Матриця X = Х(n p) називається регресійною матрицею. При цьому значення xij зазвичай вибираються так, щоб стовпці цієї матриці були лінійно незалежними, тобто ранг матриці X дорівнював р. Проте в деяких випадках при плануванні експерименту елементи матриці X обираються рівними тільки нулю і одиниці, і її стовпці можуть виявитися лінійно залежними. В цьому випадку матрицю X називають матрицею плану.

Далі хj називатимемо регресором, а Y - відкликом.

Модель (1.1.1) або (1.1.2) лінійна по відношенню до невідомих параметрів вj, тому її називають лінійною моделлю.

Одним з методів знаходження оцінки вектора в є метод найменших квадратів. Цей метод полягає в мінімізації суми по відношенню до вектора в. Точніше, вважаючи и = Xв, мінімізуємо величину ее = ||Y- и||2 по відношенню до и [Х] = Щ, де Щ - образ оператора X, тобто Щ = {у: у = Хх} для деякого х. Якщо змінювати значення вектора и в межах Щ, то ||Y- и||2 (квадрат довжини вектора Y- и) досягає мінімуму при тому значенні и = , для якого (Y - ) Щ (рис.1.1.1). Тому

X(Y - ) = 0,

Або

Х = ХY. (1.1.3)

Вектор визначається однозначно, оскільки він є ортогональною проекцією вектора Y на Щ. Якщо тепер стовпці матриці X лінійно незалежні, то існує

Рис. 1.1.1 Метод найменших квадратів полягає у знаходженні такої точки А, для якої відстань АВ мінімальна

єдиний вектор , для якого = X. Підставлячи в (1.1.3), одержуємо нормальне рівняння

ХХ = ХY. (1.1.4)

Оскільки ми припускаємо, що матриця X має ранг р, то матриця ХХ додатньо визначена і, отже, не вироджена. Тому рівняння (1.1.4) має єдиний розвязок, а саме

= ( ХХ)-1 ХY

Цей розвязок називається оцінкою найменших квадратів вектора в.

Оцінку для в можна одержати й в інший спосіб.

ее = (Y-Хв)(Y-Хв) = YY - 2вХY+ вХХв

(використовуємо той факт, що вХY = (вХY) = YХв). Продиференцюємо ее по в. Прирівнюючи одержану похідну ее/в нулю, приходимо до рівняння

- 2ХY +2ХХв = 0, (1.1.5)

Або

ХХв = ХY.

Звідки

= ( ХХ)-1 ХY

Покажемо, що знайдена стаціонарна точка є мінімумом функції ее. Перепишемо (Y-Хв)(Y-Хв) у вигляді

(Y-Хв)(Y-Хв) = (Y-Х)(Y-Х) + ( - в)ХХ( - в). (1.1.6)

Розпишемо

(Y-Х)(Y-Х) + ( - в)ХХ( - в) = (Y-Х)(Y-Х) +

+ ( - в)(ХХ - ХХв) = YY - YX - XY + XX +

+ XX - XX - XX + XX =

= {XX = XY, оскільки - розвязок нормального рівняння} =

= YY - YX - XY + XY + XY - XX в - вXY + вXXв =

= YY - YXв - вXY + вXX в = (Y - Xв)(Y - Xв)

Ліва частина в (1.1.6) досягає мінімуму при в = .

Далі позначимо = Х. Елементи вектора

e = Y - = Y - Х = (In - Х(ХХ)-1Х)Y = (In - Р)Y (1.1.7)

називаються залишками (ми позначили тут скорочено Х(ХХ)-1Х через Р). Мінімальне значення ее називається залишковою сумою квадратів (RSS)).

RSS = (Y - Х)(Y - Х)= YY - 2Х Y + ХХ =

= YY - Х Y + [ХХ - ХY] =

= YY -ХY (1.1.8)

Або

RSS = YY - ХХ (1.1.9)

Відмітимо, що і е єдині.

Оскільки = Х = Х(ХХ)-1ХY = РY, то Р є матрицею лінійного перетворення, яке є ортогональним проектуванням n-мірного евклідова простору Еn на Щ. Аналогічно In - Р є матрицею ортогонального проектування Еn на - ортогональне доповнення до Щ в Еn. Тому вираз Y = РY + (In - Р)Y є єдиним ортогональним розкладом вектора Y на дві складові, одна з яких лежить в Щ, а інша - в . Деякі основні властивості матриць Р і (In - Р) наведено в теоремі 1.1.1. Спочатку сформулюємо деякі означення.

Означення. Слідом trX матриці Х називають суму її діагональних елементів

trX = 1 + x21 + x32 + … + xnp-1

Означення. Матриця Р називається ідемпотентною, якщо Р2 = Р. Симетрична ідемпотентна матриця називається проекційною. Якщо Р - проекційна матриця, то trР = rankР.

Теорема 1.1.1.

(I) Матриці Р і In - Р симетричні та ідемпотентнi.

(II) rank[In - Р] = tr[In - Р] = n - р.

(III) (In - Р)Х = 0.

Доведення.

(I) Р = (X(XX)-1X) = X((XX)-1)X = X(XX)-1X = P

Отже, матриця Р є симетричною і (In - Р) = In - Р = In - Р. Крім того,

Р2 = X(ХХ)-1ХХ(ХХ) -1X = XIp (ХХ)-1X = Р,

і (In - Р)2 = In - 2Р + P2 = In - Р.

(II) Оскільки матриця In - Р симетрична та ідемпотентна, то вона проекційна і tr(In - Р) = rank(In - Р). Тоді

rank[In - Р] = tr[In - Р] = n - trР,

де

trР = tr[X (ХХ)-1X] = tr[ХХ (ХХ)-1] = trIp = р.

(III) (In - Р)Х = Х - Х(ХХ)-1ХХ = Х - Х = 0.

Теорема доведена.

Теорема 1.1.2.

Нехай Р = X(ХХ)-1X, тоді R(P) = R(X), тобто простір, породжений стовпцями матриці P є простором, породженим стовпцями матриці Х.

Доведення.

R(P) = {z: z = Pб} для деякого б, R(X) = {Y: Y = Xг} для деякого г.

Вибираємо zR(P), тоді z = Pб. Отже,

z = Pб = X(XX)-1Xб = Xв,

отже zR(X).

Вибираємо YR(X), тоді Y = Xг

Y = Xг = X(XX)-1XXг = X(XX)-1XXг = PY,

отже YR(P).

Теорема доведена.

Теорема 1.1.3.

(Y - ) = 0 або

Доведення.

(Y - ) = { = X = X(XX)-1XY = PY} = (PY)(Y - PY) = YP(1 - P)Y = = YP(1 - P)Y = Y(P - P2)Y = Y(P - P)Y = 0.

Теорема доведена.

Якщо припустити, що помилки е такі, що , то

M[] = (XX)-1XM[Y] = (XX)-1XX в = в (1.1.9)

тобто є незміщеною оцінкою вектора в. Якщо, окрім того, припустити, що всi еi, і = 1, …, n - некорельовані і мають однакову дисперсію, тобто

соv[еi, еj] = ,

то D[е] = у2In,

D[Y] = D[Y - Xв] = D[е], отже D[Y] = у2In.

Звідси одержуємо

D[] = D[(ХХ)-1ХY] = сov((ХХ)-1XY, (ХХ)-1XY) =

= (XX)-1Xcov(Y,Y)((XX)-1X) = (XX)-1XDYX(XX)-1 =

= (XX)-12IX(XX)-1 = у2(XX)-1(XX) (XX)-1 = у2(XX)-1 (1.1.10)

Виникає таке питання: чому за оцінку вектора в ми вибираємо саме (оцінку найменших квадратів), а не будь - яку іншу оцінку? Далі покажемо, що в деякому розумному класі оцінок j, є оцінкою параметра вj з найменшою дисперсією. Цю оцінку j можна „виділити" з вектора = (0, 1, ..., p-1) множенням зліва на вектор-рядок c, у якого (j +1)-й елемент рівний одиниці, а всі інші елементи дорівнюють нулю. Таку специфічну властивість оцінки j, можна узагальнити на випадок довільної лінійної комбінації а. Для цього використовуємо наступну теорему.

Теорема 1.1.4.

Нехай - оцінка найменших квадратів вектора = Хв. Тоді в класі всіх лінійних незміщених оцінок лінійної комбінації cи оцінка c є єдиною оцінкою, яка має мінімальну дисперсію. (Будемо говорити, що c є найкращою лінійною незміщеною оцінкою (НЛНО) для cи)

Доведення.

Оцінку найменших квадратів вектора = Хв представимо у вигляді

= X = X(ХХ)-1XY = X(ХХ)-1XY = PY,

при цьому

PX = X(ХХ)-1XX = X(ХХ)-1XX = XI = X .

Перевіримо, що c - лінійна незміщена оцінка для cи. Дійсно,

M[c] = McРY = cP MY = cPи = cPXв = cXв = cи

для всіх иЩ = [Х] і c = cPY = (Pc)Y = (Рс)Y. Розглянемо іншу лінійну незміщену оцінку для cи. Тоді M[dY] = cи з одного боку, а з іншого

M[dY] = dMY = dи,

Тоді

cи = dи (с - d)и = 0 (с- d)и = 0, тобто (c - d) Щ = R(X).

Оскільки R(X) = R(P) в силу теореми 1.1.2, то

(c - d) R(P), (c - d)P = 0 ((c - d)P) = 0 P(c - d) = 0

Pc = Pd

Порахуємо дисперсію оцінки c:

Dc = D[(Рd)Y] = D[(Рd)Y] = DdPY = cov(dPY, dPY) =

= dPcov(Y, Y)(dP) = dPDYPd = dPу2IPd = у22d = у2 dРd,

Тоді

D[dY] - D[c] = D[dY] - D[(Рd) Y] =

= dDYd - у2dPd = у2dd - у2dPd =

= у2(dd - dРd) = у2d(In - Р)d = {In - P = (In - P)2} =

= у2 d(In - Р)(In - Р)d = {In - P = (In - P)} =

= у2 d(In - Р)(In - Р)d = у2 [(In - Р)d][(In - Р)d] ? 0

Рівність нулю досягається тоді й тільки тоді, коли

(In - Р)d = 0

d - Pd = 0

d = Рd = Рс

Тоді D(dY) ? D(c), при цьому cи = dи. Це і означає, що c має мінімальну дисперсію і є єдиною оцінкою з такою властивістю в класі всіх лінійних незміщених оцінок лінійних комбінацій cи.

Теорема доведена.

Теорема доведена в припущенні, що матриця X має ранг p, так що Р = X (ХХ)-1X, і и =Хв випливає, що в = (ХХ)-1Хи.

Нехай с = а(ХХ)-1X, тоді звідси оцінка ав = a(XX)-1X = с є НЛНО з мінімальною дисперсією для ав при кожному а.

Зауваження. Якщо похибки еі незалежні й однаково розподілені е ~ або, в еквівалентній формі, Y ~ , то a має мінімальну дисперсію серед усіх незміщених оцінок, а не тільки в класі лінійних незміщених оцінок.

Зокрема, МНК - оцінка і, і = 0, …, p - 1 є також оцінкою максимальної правдоподібності, і вона ефективна оцінка для ві.

Якщо ж розподіл еi не є нормальним, то МНК - оцінка і відрізняється від оцінки максимальної правдоподібності. В цьому випадку МНК - оцінка і асимптотично ефективна для ві.

Оцінимо параметр у2 = Dеi, але спочатку сформулюємо низку лем.

Лема 1.1.1. Нехай Y = Y(nЧ1) - випадковий вектор, А(nЧn) = A - симетрична матриця. Якщо MY = и, DY = ?, тоді математичне сподівання квадратичної форми YAY дорівнює

M(YAY) = tr(A?) + иAи

.Наслідок

Якщо ? = у2I, то tr(A?) = у2trA.

Лема 1.1.2.

Нехай маємо n незалежних випадкових величин Y1, Y2, …, Yn з середніми и1, и2, …, иn, однаковими дисперсіями м2 та однаковими третіми та четвертими центральними моментами м3 та м4 відповідно (мr = M(Yi - иi)r). Якщо A = = А(nЧn) - симетрична матриця, а a - вектор - стовпець, утворений її діагональними елементами, тоді дисперсія квадратичної форми YAY дорівнює

D(YAY) = (м4 - 3(м2)2)aa + 2(м2)2trA2 + 4(м2)2иA2и + 4м3иAa

Теорема 1.1.4.

Якщо

М[Y] = Xв, де Х = X(nЧp), rangX = p, D[Y] = у2 In,

тоді оцінка

є незміщеною оцінкою для у2.

Доведення.

Похибку е запишемо у вигляді:

е = Y - = Y - Х = { = (XX)-1XY } = Y - X(XX)-1XY =

= (In - X(XX)-1X)Y = (In - Р)Y.

Тоді

(n - p)S2 = (Y - X)(Y - X) = ((In - P)Y)((In - P)Y) = Y(In - P)(In - P)Y = {(In - P) = In - P - симетрична} =Y(In - P)2Y = Y(In - P)Y.

Виразимо Y(In - P)Y з рівності:

(Y - Xв)(In - P)(Y - Xв) = Y(In - P)Y - Y(In - P)Xв - (Xв)(In - P)Y + (Xв)(In - P)Xв;

Y(In - P)Y = (Y - Xв)(In - P)(Y - Xв) + Y(In - P)Xв + (Xв)(In - P)Y - (Xв)(In - P)Xв.

Порахуємо M(n - p)S2

M(n - p)S2 = MY(In - P)Y = {лема 1.1.1} = M(Y - Xв)(In - P)(Y - Xв) +

+ MY(In - P)Xв + M(Xв)(In - P)Y - M(Xв)(In - P)Xв =

= M(Y - Xв)(In - P)(Y - Xв) + (Xв)(In - P)Xв + (Xв)(In - P)Xв -

- (Xв)(In - P)Xв = M(Y - MY)(In - P)(Y - MY) =

= + (Xв)(In - P)Xв =

= + (Xв)(In - P)Xв =

= + (Xв)(In - P)Xв =

= у2(p11 + p22 + … + pnn) + вX(In - P)Xв =

= у2tr(In - P) + вX(In - P)Xв = =

= у2(n - p) + 0 = у2(n - p)

Отже,

M(n - p)S2 = у2(n - p) MS2 = у2.

Теорема доведена.

Виявляється, що S2, подібно до , має певні властивості оптимальності, які наведено в наступній теоремі.

Теорема 1.1.5.

Нехай Y1, Y2, …, Yn - незалежні випадкові величини, які мають однакові дисперсії м2 = 3у2 і однакові треті та четверті моменти м3 і м4. Якщо M[Y] = Xв, де матриця Х = Х(n Ч p), rangX = p, то DY = у2I і (n - p)S2 є єдиною невідємною квадратичною незміщеною оцінкою для (n - p)у2, яка має мінімальну дисперсію при м4 = 3у4 або при рівності всіх діагональних елементів матриці P.

Доведення.

Оскільки у2 > 0, то будемо розглядати тільки невідємні оцінки.

Нехай YАY незміщена квадратична оцінка для (n - р)у2. Порахуємо математичне сподівання та дисперсію оцінки YАY

(n - р)у2 = M[YАY] = у2 trА + вХАХв

для всіх в, тоді trА = n - р і вХАХв = 0 для всіх в. Отже, ХАХ = 0 А- додатньо напіввизначена симетрична матриця з ХАХ = 0 випливає, що АХ = 0.

Позначимо а - вектор, утворений діагональними елементами матриці А і г2 = (м4 - 3у4)/у4, тоді згідно з лемою 1.1.2,

D[YАY] = (м4 - 3(м2)2)aa + 2(м2)2trA2 + 4(м2)2(Xв)A2(Xв) + 4м3(Xв)Aa =

= = (м4 - 3(м2)2)aa + 2(у2)2trA2 + 4(у2)2вXAXв +

+ 4м3в(AX)a = у4 г2 аа + 2у4 trА2 . (1.1.11)

Далі розглянемо оцінку (n - р)S2, яка належить класу незміщених квадратичних оцінок для (n - р)у2 згідно з теоремою 1.1.4

(n - р)S2 = (Y - X)(Y - X) = Y(In - Р)Y = YRY

(де для стислості, введене позначення In - Р = R), trR2 = trR = n - р.

Розглянемо D[YRY]:

D[YRY] = у4 г2 rr + 2у4trR2 = у4 г2 rr + 2у4 (n - р). (1.1.12)

де r - вектор, утворений діагональними елементами матриці R.

Для того, щоб знайти достатні умови для мінімальності дисперсії оцінки YАY, покладемо А = R + D. Оскільки A та R симетричні, то матриця D також симетрична і trА = trR + trD.

Підставляємо: (n - p) = (n - p) + 0 таким чином, trD = 0. Оскільки АХ = 0, то АР = АХ(ХХ)-1X = 0, тоді

A = R + D

AP = RP + DP

AP = P - P2 + DP

0 = P - P + DP

DP = 0

Тоді

DR = D - DP = D - 0 = D

(останнє рівне також D = D = RD, так як D симетрична).

Позначимо a = r + d, r - вектор діагональних елементів матриці R, d- вектор діагональних елементів матриці D.

A2 = (R + D)2 = R2 + DR + RD + D2 = R + 2D + D2

tr A2 = trR + 2trD + trD2 = (n - р) + trD2.

Підставляючи а = r + d і tr A2 в (1.1.11), одержуємо

D[YАY] = у4 г2 aа + 2у4trA2 = у4 г2(r + d)(r + d) + 2у4(n - p + trD2) =

= у4 г2(r + d)(r + d) + 2у4(n - p + trD2) =

= у4 г2(dr + dd + rr + rd) + 2у4(n - p + trD2) =

= у4г2 rr + 2у4(n - p) + 2у4 =

= D[YRY] + 2у4 .

Щоб знайти оцінку з мінімальною дисперсією, потрібно мінімізувати D[YАY] за умов tr D = 0 і DR = D. У загальному випадку виконати таку мінімізацію досить важкою. Проте в двох важливих окремих випадках ця мінімізація виконується не важко. Перший випадок - це ситуація, коли г2 = 0 При цьому

D[YAY] = D[YRY] + 2у2

Остання ж величина досягає мінімуму, коли dij = 0 для всіх i, j, тобто коли D = 0 і А = R. Другий випадок - це випадок рівності всіх діагональних елементів матриці Р. При цьому всі вони рівні р11 = p22 = … = pnn

trR = trI - trP = n - p tr Р = р.

Тому

р11 + p22 + … + pnn rii = p

npii = p pii = p/n

Тоді діагональні елементи матриці R = (I - P) дорівнюють rii = 1 - pii = 1 - p/n = (n - р)/n для кожного і

D[YAY] = D[YRY] + 2у4(=

= =

= D(YRY) + 2у4 =

= D[YRY] + 2у4, (1.1.13)

Далі для будь-якої випадкової величини о виконується нерівність г2 ?-2. Дійсно,

0 ? D(о - Mо)2 = M(о - Mо)4 - (M(о - Mо)2)2 = м4 - (м2)2 =

= м4 - 3(м2)2 + 2(м2)2 = (м2)24 / 2)2 - 3 + 2) =

= = (м2)22 + 2), отже г2 ? -2

отже D[YАY] досягає мінімуму, коли dij = 0 для всіх i, j. Таким чином, в обох випадках дисперсія виявляється мінімальною тоді і тільки тоді, коли А = R. Теорема доведена. Доведена теорема говорить про те, що незміщена квадратична оцінка для у2, з мінімальною дисперсією існує тільки при певних обмеженнях, наведених в теоремі. У припущенні нормальності, тобто при г2 = 0, оцінка S2 є незміщеною оцінкою для у2, яка має мінімальну дисперсією в класі всіх незміщених оцінок, а не тільки в класі квадратичних незміщених оцінок. Раніше ми припускали відносно похибок еi, що M[е] = 0 і D[е] = у2In. Якщо додатково припустити, що похибки еi розподілені нормально, тобто е ~ Nn(0, у2In) (отже Y ~ Nn(Xв, у2In)), то можна одержати низку наступних результатів, повязаних з розподілами.

Теорема 1.1.6. Якщо Y ~ Nn(Xв, у2In), де Х = Х(nЧp), rangX = p, тоді

(I) ~ Np(в, у2(XX)-1);

(II) ( - в)XX( - в)/у2 ~ ;

(III) не залежить від S2;

(IV) RSS/у2 = (n - p)S22 ~ .

Доведення. (I) МНК - оцінка вектора в має вигляд = (ХХ)-1ХY, тоді = СY, де C = (ХХ)-1Х - матриця розміру рЧn, для якої rangС = rang(ХХ)-1Х = rangХ-1(Х)-1X = rangХ-1 = p. Вектор Y ~ Nn(Xв, у2In). Генератриса моментів для вектора дорівнює

M = M.

M(t) = M= M= = M= = =

- генератриса моментів , де cXв = (XX)-1в = в,

2Ic = (XX)-12I((XX)-1X) = у2(XX)-1XX(XX)-1 = у2(XX)-1.

Генератриса функції моментів нормального розподілу о ~ N(a; у2):

M(t) = Me = ,

Генератриса моментів для вектора однозначно визначає щільність розподілу вектора і дорівнює M(t) = Met, , t = (t1, t2, …, tp)

(II) ( - в)ХХ( - в)/у2 = =

= ( - в)(D)-1( - в) = (1 - в1, …, p - вp)(D)-1 =

= (D)-1

~ N(в; у2(XX)-1),

- в ~ N(0; у2(XX)-1),

, тоді . Отже, .

(III) Необхідно довести, не залежить від S2. Порахуємо cov(,Y-X)

cov(, Y - X) = cov((XX)-1XY, Y - X(XX)-1XY) =

= cov((XX)-1XY, Y - PY) = cov((XX)-1XY, (I - P)Y) =

= (XX)-1Xcov(Y, Y)(I - P) = {(I - P) = I - P} =

= (XX)-1XDY(I - P) = {DY = у2} = (XX)-12I(I - P) =

= у2(XX)-1X(I - P) = = 0

Залишилось скористатись наступною теоремою:

Нехай Y ~ N(Xв; у2I), U = AY, V = BY, матриця А1 складена з лінійно незалежних рядків матриці А, U1 = A1Y. Якщо cov(U, V) = 0, то

1) випадковий вектор U1 не залежить від VV;

2) випадкові величини UU та VV незалежні.

Позначимо

U1 = , V = Y - X, U = U1 =

U1 = (XX)-1XY, V = Y - X = (I - P)Y.

Оскільки cov(U1, V) = 0, тоді U1 = не залежить від VV=(Y - X)(Y - X) = = (n - p)S2.

(IV) Розглянемо

Q1 = (Y - Xв)(Y - Xв) = (Y - X + Х( - в))(Y - X + X( - в)) =

= (Y - X)(Y - X) + (Y - X)X ( - в) + ( - в)X(Y - X) +

+ ( - в)XX ( - в) =

= =

= (Y - X)(Y - X) + ( - в)XX ( - в) = Q + Q2. (1.1.15)

Тут ми позначили

(Y - X)(Y - Х) = Q, (- в)ХХ( - в) = Q2.

При цьому відношення

Q12 = = (еi ~ N(0; у2), еi /у ~ N(0; 1)), Q22 ~ .

Отже, Q = Q1 + Q2, Q1 ~ , Q2 ~ (n > p). Тому Q/у2 = Q12 - Q2/у ~ ~.

Теорема доведена.

Нехай лінійна модель регресії має вигляд Y = Xв + е, X = X(n Ч p), rangX = p, е ~ N(0; у2I).

Необхідно оцінити параметр в, при лінійних обмеженнях H: Aв = c,

де А = А(q Чp) - відома матриця, c = c(qЧ1) - відомий вектор. (1.1.16)

Обмеження (1.1.16) можна переписати у вигляді:

H: Aв = c

H: в = ,

де ai - i-тий рядок матриці А

H: ai в = ci , i = 1, 2, …, q.

Використаємо метод множників Лагранжа для розвязання цієї задачі.

В подальшому будемо використовувати такий вираз:

л1(a1в - с1) + л2(a2в - с2) + … + лq(aqв - сq) =

= (л1, л2, …, лq) = л(Aв - c) = (л(Aв - c)) =

= (Aв - c)л = (вA - c)л (1.1.17)

Мінімізуємо суму квадратів залишків ее при лінійних обмеженнях H:

Aв = c.

r = ее + л1(a1в - с1) + … + лq(aqв - сq) = ее + (вA - c)л = (Y - Xв)(Y - Xв) + (вA - c)л = (Y - Xв) (Y - Xв) + (вA - c)л = YY - YXв - вXY + вXXв + (вA - c)л = YY - 2вXY + вXXв + вAл - cл

З (1.1.18) випливає, що

XXв = XY - Aл

= (XX)-1XY - (XX)-1A (1.1.20)

= - (XX)-1A (1.1.21)

Формулу (1.1.21) підставляємо в (1.1.19)

c = A = A- (XX)-1A

c - A= - (XX)-1A

(A(XX)-1A)-1(c - A) = -

Останнє підставляємо в (1.1.21)

= + (XX)-1A(A(XX)-1A)-1(c - A)

мінімізує ее при обмеженнях Aв = c.

Делись добром ;)