Главная  Нелинейные системы управления 

[0] [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [53] [54] [55] [56] [57] [58] [59] [60] [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] [71] [72] [73] [74] [75] [76] [77] [78] [79] [80] [81] [82] [83] [84] [85] [86] [87] [88] [89] [90] [91] [92] [93] [ 94 ] [95] [96] [97] [98] [99] [100] [101] [102] [103] [104] [105] [106] [107] [108] [109] [110] [111] [112] [113] [114] [115] [116] [117] [118] [119] [120] [121] [122] [123] [124] [125] [126] [127] [128] [129] [130] [131] [132] [133] [134] [135] [136] [137] [138] [139] [140] [141] [142] [143] [144] [145] [146] [147] [148] [149] [150] [151] [152] [153] [154] [155] [156] [157] [158] [159] [160] [161] [162] [163] [164] [165] [166]

Очевидно,

= mm

i= 1 m

Ho второе слагаемое в последнем выражении есть В, поэтому функция Беллмана удовлетворяет функциональному уравнению

Xm-l-iQGm+i

или, так как в данном случае 6 В

не зависит от х+г,

0-\-В,„, (10.61)

причем

B, = min fiixi).

Решая (10.61) с учетом последнего условия, получим Sji

В2.....В„ и х], Хп- Решением исходной задачи будут Вп

и х* = {х\..... xiy.

Как видно, метод динамического программирования сводит задачу минимизации скалярной функции от п переменных к п задачам минимизации скалярных функций от одной переменной. В результате при числовом решении задачи существенно сокращается объем вычислений. Действительно, пусть Cj (i = I.....п) - конечные множества и каждое из них состоит из / точек. Тогда при решении исходной задачи методом перебора без использования метода динамического программирования потребуется рассмотреть l вариантов, а с использованием метода динамического программирования - всего In вариантов.

При использовании уравнения (10.61) вычисление производится в направлении возрастания аргумента, т. е. в прямом «времени», поэтому уравнение (10.61) иногда называют уравнением Беллмана в прямом времени или прямым уравнением Беллмана в отличие от уравнения Беллмана в обратном времени или обратного уравнения Беллмана, при использовании которого вычисление iB производится в направлении убывания времени. Для получения обратного уравнения про-



изведем инвариантное погружение исходной задачи в семейство задач

7""(х<">)= min .

т=п, п - 1,..., 1,

х"" = (х,, а;„.+„.... xS, б"" = G,„xG„.+iX ... XG„. При m = 1 Имеем / (х) = /<>. Введем функцию Беллмана

Sm = min 2 fliXi).

Очевидно,

S„ i= min {/,„ ! (x,„ i)-f min S /г (x,) j

min {fm-iiXm-r) + S„,}. (10.62)

Уравнение (10.62) есть обратное уравнение Беллмана, В рассмотренном простейшем примере вывод уравнения Беллмана основывался на очевидных соотношениях. В более сложном случае при выводе уравнения Беллмана используется принцип оптимальности.

Принцип оптимальности • . .

В общем виде этот принцип можно сформулировать следующим образом: оптимальная стратегия [поведение) обладает тем свойством, что, каковы бы ни были начальное состояние и решения на начальном эгпапе, решения на последующем этапе должны составлять оптимальную стратегию относительно состояния, которое получается в результате принятия решений на начальном этапе.

В задачах оптимального управления оптимальность определяется функционалом (критерием оптимальности) J{u{t), X (t)), состояние- фазовым вектором х {(), стратегия - это управление и (t) на всем интервале Ид, tf], решение - это выбор управления.



Для задачи оптимизации справедлив принцип оптимальности, если она обладает марковским свойством или, как еще говорят, оптимизационный процесс является марковским. По определению, задача оптимального управления обладает марковским свойством, если после выбора управления на интервале Ив, t] влияние процесса управления (ц (f), х (t)) на оставшемся интервале If, tf] на величину функционала J (и (/), X (t)) зависит только от состояниях (/) в конце начального интервала и выбора управления в последующие моменты времени, т. е. на интервале It, tf].

Чтобы сформулировать принцип оптимальности применительно к задачам оптимального управления, рассмотрим задачу

X = f(x,u.O; u(06U,; x{to)=xO;x{tf)£X,;

= golx( ). -J-J /o(x,u,/)d/.

(10.63)

Условимся функцию u (f) на интервале \a, b] обозначать и la, Ы; u la, b] = (u (i), a < / < fc). Если интервал слева или справа является открытым, то соответственно слева или справа будем писать круглую скобку: и la, b) = (u (/), а < < t<b) ни (а, Ы = (и (/). а < Ь < Ь).

Для задачи (10.63) справедлив принцип оптимальности, и он может быть сформулирован следующим образом: для оптимальности допустимой для задачи (10.63) пары (и* (t), X* (t)) необходимо, чтобы при любом t £ Ito, tf] управление u*[t, tf] было оптимальным относительно состояния х* (/), в котором окажется объект в момент f при использовании на начальном отрезке времени /о < < управления и* [to, t]. Этот принцип оптимальности иногда также будем называть прямым принципом оптимальности.

Это утверждение легко доказывается от противного. Допустим, что оно неверно и существует допустимое управление и" [f, tf], переводящее объект из точки х* (f) в точку х" (fj) £ Xf в момент при котором функционал

Л(и It, tf]) == go (X (tf), tf) + ро (X. u, t) dt



[0] [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [53] [54] [55] [56] [57] [58] [59] [60] [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] [71] [72] [73] [74] [75] [76] [77] [78] [79] [80] [81] [82] [83] [84] [85] [86] [87] [88] [89] [90] [91] [92] [93] [ 94 ] [95] [96] [97] [98] [99] [100] [101] [102] [103] [104] [105] [106] [107] [108] [109] [110] [111] [112] [113] [114] [115] [116] [117] [118] [119] [120] [121] [122] [123] [124] [125] [126] [127] [128] [129] [130] [131] [132] [133] [134] [135] [136] [137] [138] [139] [140] [141] [142] [143] [144] [145] [146] [147] [148] [149] [150] [151] [152] [153] [154] [155] [156] [157] [158] [159] [160] [161] [162] [163] [164] [165] [166]

0.0013