logo search
Теоретико-игровые методы принятия решений (Еремеев А

Итерационный метод Брауна-Робинсона

Также универсальным, но менее трудоемким по сравнению с методом линейного программирования в плане затрат вычислительных ресурсов является приближенный метод Брауна-Робинсона. Данный итерационный метод предназначен для решения любой игры G(mn), не требуя никаких ограничений на элементы матрицы игры.

Метод базируется на многократном разыгрывании игры и подсчете верхней и нижней оценок цены игры с занесением результатов в таблицу специального вида (табл. 3.11):

Таблица 3.12

k

i

B1

Bn

j

A1

Am

V

V*

Каждая строка таблицы соответствует однократному розыгрышу игры (партии игры).

Поясним записи в соответствующих позициях:

В [6] доказано, что при k:V* V, ,,

где V– цена игры,Ni иNj число применений соответственно стратегийАi иBj за kпартий,pi иqj – значения вероятностей в оптимальных стратегияхSA = (pi), i = 1, …,m, SB = (qj), j = 1,,n, игроковAиB соответственно.

Проиллюстрируем метод на примере игры G(33), представленной табл. 3.12.

Таблица 3.13

Bj

Ai

B1

B2

B3

A1

7

2

9

A2

2

9

0

A3

9

0

11

Требуется найти решение – пару оптимальных смешанных стратегий (SA, SB),SA = (p1,p2,p3), SB = (q1,q2,q3), и цену игрыV.

Будем искать пару смешанных стратегий SA = (p1,p2,p3), p1+p2+p3= 1, SB = (q1,q2,q3), q1+q2+q3= 1 и цену игрыV.

Построим табл. 3.13 для первых десяти итераций.

Таблица 3.14

k

i

B1

B2

B3

j

A1

A2

A3

V

V

V*

1

3

9

0

11

2

2

9

0

0

9

4,5

2

2

11

9

11

2

4

18

0

4,5

9

6,75

3

2

13

18

11

3

13

18

11

3,67

6

4,84

4

2

15

27

11

4

22

18

22

2,75

5,5

4,13

5

1

22

29

20

3

31

18

33

4,0

6,6

5,3

6

3

31

29

31

2

33

27

33

4,84

5,5

5,17

7

1

38

31

40

2

35

36

33

4,43

5,14

4,79

8

2

40

40

40

2

37

45

33

5,0

5,61

5,30

9

2

42

49

40

3

46

45

44

4,45

5,11

4,78

10

1

49

51

49

1

53

47

53

4,90

5,30

5,1

Поясним процесс заполнения табл. 3.13.

Пусть начинает (k = 1) игрокAи выбирает на первом шаге стратегиюА1. Его выигрыш в зависимости от выбора игрокаBможет равняться 9 (при выборе стратегииB1), 0 (при выбореB2) или 11 (при выбореB3). Поскольку теперь выбор за игрокомB(а он заинтересован в минимизации выигрыша игрокаA), то выделим (жирным шрифтом) минимальный выигрыш 0, соответствующий стратегииB2. Следовательно игрокуBвыгоднее всего ответить стратегиейB2, что, в свою очередь, может привести к выигрышу игрокаAпри его ответе в следующей партии, равному 2 (при выборе стратегииA1), 9 (A2) или 0 (A3). Так как игрокAзаинтересован в максимизации выигрыша, то выделим максимальный выигрыш 9 (дляA2). Соответствующие значенияVV* равны 0; 9 и 4,5.

Во второй партии (k = 2) игрокуA, следовательно, выгодно выбрать стратегию A2, которая позволит ему накопить выигрыш, равный соответственно 11 (дляB1), 9 (дляB2) или 11 (дляB3) и т.д. Заметим, что дляk = 4 в столбцахА1 иА3 получаются одинаковые накопленные выигрыши (22), поэтому игрокA в пятой партии может выбрать как стратегиюА1, так иА3.

К сожалению (что видно и по табл. 3.12), сходимость данного метода довольно слабая, но существуют методы ее ускорения. Критерием останова можно выбрать достаточную стабильность величины V* при увеличении числа итераций.

Для рассматриваемого примера в итоге получим:

и, что соответствует точному решению, полученному, например, методом Лагранжа.

Как уже отмечалось, сравнительно невысокая трудоемкость данного метода часто делает его более предпочтительным по сравнению с методом линейного программирования (например, симплекс-методом) при решении задач линейного программирования (после их сведения к соответствующей теоретико-игровой задачи) большой размерности.