Главная Нелинейные системы управления [0] [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [53] [54] [55] [56] [57] [58] [59] [60] [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] [71] [72] [73] [74] [75] [76] [77] [78] [79] [80] [81] [82] [83] [84] [85] [86] [87] [88] [89] [90] [91] [92] [93] [94] [95] [96] [97] [98] [99] [100] [101] [102] [103] [104] [105] [106] [107] [108] [109] [110] [111] [112] [113] [114] [115] [116] [117] [118] [119] [120] [121] [122] [123] [124] [125] [126] [127] [128] [ 129 ] [130] [131] [132] [133] [134] [135] [136] [137] [138] [139] [140] [141] [142] [143] [144] [145] [146] [147] [148] [149] [150] [151] [152] [153] [154] [155] [156] [157] [158] [159] [160] [161] [162] [163] [164] [165] [166] Уравнение Беллмана имеет вид 5 [X (О, гI =min (х(О Q (i) х (О -Ьи (О R (О и (t) -- U(I) -f-5[x(i4-l), 14спользуя уравнение объекта (10.258) и опуская для краткости записи аргумент /, получим S(x, fJ=niin{xQx+uRu + 5(Ax-f-Bu+h, i+ i)}. (10.268) Решение этого уравнения будем искать в виде 5 (X (О, О = х (i) К (О X {,:) + р- (О x{i) + q (О, (10.269) где К (О - симметричная матрица; р (/) - вектор-столбец размера п; q (г) - скалярная функция. В силу граничного условия (10.267) имеем: K(t/) = F; p(.V)=0; 9(t)=0. (10.270) Таким образом, получили граничные условия (10.263) и. (10.265). Подставим (10.269) в (10.268). Тогда получим х Кх -f р-х + q =min {х Qx + u" Ru Ч- (Ax + Bu ~Hh) X X К (t + 1) (Ax + Bu -f- h) + P" (t 41) X X(Ax + Bu + h) + 9((+l)}. Правая часть полученного соотношения как функция от управления является матричным квадратным трехчленом, причем квадратный член имеет вид и [ ВК (i + 1) В + Rl и и является положительно-определенной квадратичной формой, так как, по условию, R > О и, как будет показано дальше, К (О > О, to < i < if. Поэтому указанный трехчлен имеет минимум, который достигается в стационарной точке, и последнее уравнение можно представить в виде следующей эквивалентной системы уравнений: х Kx-i-px + <7=xyQx-buRu + -h (Ах + Bu-Mi) К (t-f 1) (Ах + Bu-f h)-f + pT{i+\){hx + bxx+h) + q{i + \), (10.271) 2uMBK(t-f l)B+Rl-f + 2x7-AK(i + l)B + 2hK(i + l)B + p(t+l)B=-0. Из последнего уравнения имеем (x?A + hOK(t4-l)+-В1В-К((+ l)B+R]-i, откуда, произведя транспонирование, получим соотношение для оптимального управления (10.260). Подставив выражение для управления и используя обозначение (10.261), уравнение (10.271) можно преобразовать к виду Кх + р? X + <7 =-х" [Q 4- К (i + I) А - -А К (i 4-1) BL-1 В К (i + 1) А] X -2 h-K(t + l) + + у-Р( + ) BL-iBK(t4-l)Ax - h-K(i+l)+p4i+l) K(«4-l)h4-p((-f 1) BL-B X hK(«-f l)4- +YPЧt•-l) Ax + к (i 4 1) h + pMf" + 1) h 4 q {i + 1). Из последнего уравнения, приравняв отдельно матрицы при квадратичных и линейных относительно х членах, получим соотношения (10.262) и (10.264). Приравняв свободные члены, получим уравнения 9(0 = h40K(i4 1) +Р(-Ы) В (О (О В- (О X 4-h(0K((+l)h(0 + 4p<t+l)h(0-fg(i4-l). K(t4 1)h(0-f-jp(t-fl) (10.272) Теперь докажем, что матрица К является неотрицательно-определенной. Как отмечалось, функция р (i) = О при h (i) = 0. Уравнение (10.272) при р (t) = О и h (О = О становится линейным однородным и имеет единственное решение q (О = О, удовлетворяющее граничному условию (10.270), поэтому при h = о функция (10.269) принимает вид S(x(0, 0 = x(OK(t)x(t)- в этом случае из соотношения (10.267) следует неотрицательная определенность квадратичной формы S (х (/), i) и соответственно матрицы К (О при любом i £ [ig, if]. Но так как уравнение (10.262), из которого находится матрица К (i). не зависит от h, то сказанное остается справедливым и при произвольной функции h. Стохастическая оптимальная линейная система при полной информации о состоянии. Пусть объект описывается уравнением X ((+ 1) + А (О X (О + В (О U (О + h (О + Vo (О (10.273) и задан критерий оптимальности /=<0 у = М (х {ify Fx (if) + "2 [х- (/) Q (/) X (/) + fuM/)R(y)u(/)] . (10.274) Здесь h (() - известная функция; V, (i) - последовательность некоррелированных случайных величин с нулевым средним и дисперсионной матрицей Qo (i); матрицы F, Q, R и Q,, симметричны, причем F > О, Q > О, R > О, Qo > 0. Шум Vq (1) пе коррелирован с начальным значением х (ig). Требуется найти оптимальное управление с обратной связью, т. е. управление, доставляющее минимум функционалу (10.274) при произвольном начальном состоянии объекта. Принимается, что фазовый вектор х (t) известен без ошибки. Эта задача является стохастическим аналогом детерминированной задачи (10.258)-(10.259) и отличается от нее тем, что объект подвержен случайному воздействию и критерий оптимальности представляет математическое ожидание от функционала, совпадающего с критерием оптимальности в детерминированной задаче. Как и в непрерывном случае, ее решение совпадает с решением детерминированного аналога, т. е. стохастическое оптимальное управление определяется соотношениями (10.260)-(10.265) или в частном случае, когда h =0, соотношениями (10.266), (10.261)-(10.263). Вывод основывается на методе динамического программирования. . [0] [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [53] [54] [55] [56] [57] [58] [59] [60] [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] [71] [72] [73] [74] [75] [76] [77] [78] [79] [80] [81] [82] [83] [84] [85] [86] [87] [88] [89] [90] [91] [92] [93] [94] [95] [96] [97] [98] [99] [100] [101] [102] [103] [104] [105] [106] [107] [108] [109] [110] [111] [112] [113] [114] [115] [116] [117] [118] [119] [120] [121] [122] [123] [124] [125] [126] [127] [128] [ 129 ] [130] [131] [132] [133] [134] [135] [136] [137] [138] [139] [140] [141] [142] [143] [144] [145] [146] [147] [148] [149] [150] [151] [152] [153] [154] [155] [156] [157] [158] [159] [160] [161] [162] [163] [164] [165] [166] 0.0014 |