Главная  Нелинейные системы управления 

[0] [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [53] [54] [55] [56] [57] [58] [59] [60] [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] [71] [72] [73] [74] [75] [76] [77] [78] [79] [80] [81] [82] [83] [84] [85] [86] [87] [88] [89] [90] [91] [92] [93] [94] [95] [96] [97] [98] [99] [100] [101] [102] [103] [104] [105] [106] [107] [108] [109] [110] [111] [112] [113] [114] [115] [116] [117] [118] [119] [120] [121] [122] [123] [124] [125] [126] [127] [128] [ 129 ] [130] [131] [132] [133] [134] [135] [136] [137] [138] [139] [140] [141] [142] [143] [144] [145] [146] [147] [148] [149] [150] [151] [152] [153] [154] [155] [156] [157] [158] [159] [160] [161] [162] [163] [164] [165] [166]

Уравнение Беллмана имеет вид

5 [X (О, гI =min (х(О Q (i) х (О -Ьи (О R (О и (t) --

U(I)

-f-5[x(i4-l),

14спользуя уравнение объекта (10.258) и опуская для краткости записи аргумент /, получим

S(x, fJ=niin{xQx+uRu + 5(Ax-f-Bu+h, i+ i)}. (10.268)

Решение этого уравнения будем искать в виде

5 (X (О, О = х (i) К (О X {,:) + р- (О x{i) + q (О, (10.269)

где К (О - симметричная матрица; р (/) - вектор-столбец размера п; q (г) - скалярная функция.

В силу граничного условия (10.267) имеем:

K(t/) = F; p(.V)=0; 9(t)=0. (10.270)

Таким образом, получили граничные условия (10.263) и. (10.265).

Подставим (10.269) в (10.268). Тогда получим

х Кх -f р-х + q =min {х Qx + u" Ru Ч- (Ax + Bu ~Hh) X

X К (t + 1) (Ax + Bu -f- h) + P" (t 41) X X(Ax + Bu + h) + 9((+l)}.

Правая часть полученного соотношения как функция от управления является матричным квадратным трехчленом, причем квадратный член имеет вид и [ ВК (i + 1) В + Rl и и является положительно-определенной квадратичной формой, так как, по условию, R > О и, как будет показано дальше, К (О > О, to < i < if. Поэтому указанный трехчлен имеет минимум, который достигается в стационарной точке, и последнее уравнение можно представить в виде следующей эквивалентной системы уравнений:

х Kx-i-px + <7=xyQx-buRu +

-h (Ах + Bu-Mi) К (t-f 1) (Ах + Bu-f h)-f

+ pT{i+\){hx + bxx+h) + q{i + \), (10.271)

2uMBK(t-f l)B+Rl-f

+ 2x7-AK(i + l)B + 2hK(i + l)B + p(t+l)B=-0.



Из последнего уравнения имеем

(x?A + hOK(t4-l)+-В1В-К((+ l)B+R]-i,

откуда, произведя транспонирование, получим соотношение для оптимального управления (10.260). Подставив выражение для управления и используя обозначение (10.261), уравнение (10.271) можно преобразовать к виду

Кх + р? X + <7 =-х" [Q 4- К (i + I) А -

-А К (i 4-1) BL-1 В К (i + 1) А] X -2

h-K(t + l) +

+ у-Р( + ) BL-iBK(t4-l)Ax -

h-K(i+l)+p4i+l)

K(«4-l)h4-p((-f 1)

BL-B X

hK(«-f l)4-

+YPЧt•-l)

Ax + к (i 4 1) h + pMf" + 1) h 4 q {i + 1).

Из последнего уравнения, приравняв отдельно матрицы при квадратичных и линейных относительно х членах, получим соотношения (10.262) и (10.264). Приравняв свободные члены, получим уравнения

9(0 =

h40K(i4 1) +Р(-Ы)

В (О (О В- (О X

4-h(0K((+l)h(0 + 4p<t+l)h(0-fg(i4-l).

K(t4 1)h(0-f-jp(t-fl)

(10.272)

Теперь докажем, что матрица К является неотрицательно-определенной. Как отмечалось, функция р (i) = О при h (i) = 0. Уравнение (10.272) при р (t) = О и h (О = О становится линейным однородным и имеет единственное решение q (О = О, удовлетворяющее граничному условию (10.270), поэтому при h = о функция (10.269) принимает вид

S(x(0, 0 = x(OK(t)x(t)-



в этом случае из соотношения (10.267) следует неотрицательная определенность квадратичной формы S (х (/), i) и соответственно матрицы К (О при любом i £ [ig, if]. Но так как уравнение (10.262), из которого находится матрица К (i). не зависит от h, то сказанное остается справедливым и при произвольной функции h.

Стохастическая оптимальная линейная система при полной информации о состоянии. Пусть объект описывается уравнением

X ((+ 1) + А (О X (О + В (О U (О + h (О + Vo (О (10.273)

и задан критерий оптимальности

/=<0

у = М (х {ify Fx (if) + "2 [х- (/) Q (/) X (/) +

fuM/)R(y)u(/)] . (10.274)

Здесь h (() - известная функция; V, (i) - последовательность некоррелированных случайных величин с нулевым средним и дисперсионной матрицей Qo (i); матрицы F, Q, R и Q,, симметричны, причем F > О, Q > О, R > О, Qo > 0. Шум Vq (1) пе коррелирован с начальным значением х (ig). Требуется найти оптимальное управление с обратной связью, т. е. управление, доставляющее минимум функционалу (10.274) при произвольном начальном состоянии объекта. Принимается, что фазовый вектор х (t) известен без ошибки. Эта задача является стохастическим аналогом детерминированной задачи (10.258)-(10.259) и отличается от нее тем, что объект подвержен случайному воздействию и критерий оптимальности представляет математическое ожидание от функционала, совпадающего с критерием оптимальности в детерминированной задаче. Как и в непрерывном случае, ее решение совпадает с решением детерминированного аналога, т. е. стохастическое оптимальное управление определяется соотношениями (10.260)-(10.265) или в частном случае, когда h =0, соотношениями (10.266), (10.261)-(10.263). Вывод основывается на методе динамического программирования. .



[0] [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [53] [54] [55] [56] [57] [58] [59] [60] [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] [71] [72] [73] [74] [75] [76] [77] [78] [79] [80] [81] [82] [83] [84] [85] [86] [87] [88] [89] [90] [91] [92] [93] [94] [95] [96] [97] [98] [99] [100] [101] [102] [103] [104] [105] [106] [107] [108] [109] [110] [111] [112] [113] [114] [115] [116] [117] [118] [119] [120] [121] [122] [123] [124] [125] [126] [127] [128] [ 129 ] [130] [131] [132] [133] [134] [135] [136] [137] [138] [139] [140] [141] [142] [143] [144] [145] [146] [147] [148] [149] [150] [151] [152] [153] [154] [155] [156] [157] [158] [159] [160] [161] [162] [163] [164] [165] [166]

0.0014