Главная  Нелинейные системы управления 

[0] [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [53] [54] [55] [56] [57] [58] [59] [60] [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] [71] [72] [73] [74] [75] [76] [77] [78] [79] [80] [81] [82] [83] [84] [85] [86] [87] [88] [89] [90] [91] [92] [93] [94] [95] [96] [97] [98] [99] [100] [101] [102] [103] [104] [105] [106] [107] [108] [109] [110] [111] [112] [113] [114] [115] [ 116 ] [117] [118] [119] [120] [121] [122] [123] [124] [125] [126] [127] [128] [129] [130] [131] [132] [133] [134] [135] [136] [137] [138] [139] [140] [141] [142] [143] [144] [145] [146] [147] [148] [149] [150] [151] [152] [153] [154] [155] [156] [157] [158] [159] [160] [161] [162] [163] [164] [165] [166]

буется найти управление как функцию от измеренных значений выходной переменной у (т) на интервале < <

Для решения стохастических задач оптимального управления разработаны методы, в том числе стохастический принцип максимума, метод динамического программирования и другие [5, 9, 17, 18, 19]. Ниже будут рассмотрены метод динамического программирования и методы, основанные на сведении стохастических задач оптимального управления к задачам оптимальной оценки состояния и синтеза детерминированной оптимальной системы управления.

Метод динамического программирования Пусть объект описывается уравнением

X =f(x,u, t)-fV„(0. (10.166)

где Vq {f) - белый шум с характеристиками

М Vo(0 = 0; M[Vo(OVj(f)l =Qo(06U-O. (10.167) При условии, что X (to) = х" и U (f) € и,, требуется найти допустимое управление и* (х (t), t), при котором критерий оптимальности

J=-fA{gd4t,). tf]+ J /о(х. i».t)dO (10.168)

принимает минимальное значение.

Таким образом, рассматривается стохастическая задача оптимального управления, в которой случайное воздействие является белым шумом и входит в уравнение объекта аддитивно; ограничение на правый конец траектории отсутствует, фазовый вектор измеряется полностью и без помех, т. е. в калодый момент времени точно известно состояние объекта. В этой задаче X (f) является марковским процессом (так как случайное воздействие является белым шумом) и вся информация, используемая при определении характеристики будущего состояния объекта, содержится в х(/). Поэтому оптимальное управление должно быть функцией только от текущего состояния X (t). Здесь, как всюду в этой главе, управление и [x(t), t] называется допустимым, если функция u{t) = и [х (/), /1 кусочно-непрерывна и принимает значение из множества Uj. Кроме того, предполагается, что уравнение

X = Цх, и(х, t), t]



при каждом фиксированном х (to) = х" имеет единственное решение на интервале Itg. tfl. Функции /о (х, и, t), f (х, и, f) и Qo предполагаются непрерывными.

Для решения сформулированной задачи воспользуемся уравнением

/o{x.i».t)+f(x.u.O+ S Qu

дк 2 dxtdxj

dt (10.169)

где элементы матрицы Qo, при граничном условии

SVitf), tf] = golx(t,), tfl (10.170)

Уравнение (10.169) является функциональным уравнением динамического программирования для стохастической задачи оптимального управления (10.166)-(10.168) и также называется уравнением Беллмана. Скалярная функция S (х, /) есть функция Беллмана. Если множество U (/) открыто и минимум левой части уравнения (10.169) достигается в стационарной точке, то уравнение Беллмана можно представить в виде слег дующей системы уравнений:

/о(Х. U. /) + f(X. U /) + J,,, „ ;

lr{/o(x.u,/)+ §-f(x. u. t)]=0.

(I0.I7I)

Достаточное условие оптимальности [181. Пусть существуют скалярная функция S {х, i). обладающая непрерывными частными производными S}, Sx, SxK, И допустимое управление и* (х. £), удовлетворяющие уравнению Беллмана (10.169) или (10.171) и граничному условию (10.170). Тогда управление и* (х, f) является оптимальным.

Обычно уравнение Беллманй записывают, используя след матрицы. Следом (или шпуром) (п х п)-матрнцы А = обозначают tr А или Sp А) называется сумма элементов ее главной диагонали:

trA=i:Q„.

Как легко проверить непосредственным вычислением,



поэтому уравнение (10.169), очевидно, можно представить в виде

.;L%,{№.".«+f>(«.".)+(«.lr)}=-f-

Вывод уравнения Беллмана. Пусть в момент t фазовый вектор х {f) принимает определенное значение. Обозначим J [х {t), U (•), t\ значение функционала (10.168) при 0 = t, указанном значении х {t) и некотором фиксированном управлении и (•) = (и (т), f < т < fy}:

mt),«(). о=м {Wj), t,)+J /о(х, u, т) d т]/х (О}.

Минимальное значение этого функционала Slx{t). t]= min J[x(0, u(.), П

u(t) s Dt;-

есть, no определению, функция Беллмана. Опуская для краткости записи аргументы функций, представим функцию Беллмана в виде

V *f 111

J fodT+ { fodx-go x(0 .

t t + At J

5[x(0,min M

S [X (0, t] = min M u (T) G Щ

fo{xyt),u{t),t) &t

+ о(Л0+ j hdx+go

kit)

= min

f (X (0.

u (x)eHt •

X (0 . (10.172)

1 /+дг

Используя свойства условного математического ожидания М [М (&/т))/1] = М (/il).



[0] [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [53] [54] [55] [56] [57] [58] [59] [60] [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] [71] [72] [73] [74] [75] [76] [77] [78] [79] [80] [81] [82] [83] [84] [85] [86] [87] [88] [89] [90] [91] [92] [93] [94] [95] [96] [97] [98] [99] [100] [101] [102] [103] [104] [105] [106] [107] [108] [109] [110] [111] [112] [113] [114] [115] [ 116 ] [117] [118] [119] [120] [121] [122] [123] [124] [125] [126] [127] [128] [129] [130] [131] [132] [133] [134] [135] [136] [137] [138] [139] [140] [141] [142] [143] [144] [145] [146] [147] [148] [149] [150] [151] [152] [153] [154] [155] [156] [157] [158] [159] [160] [161] [162] [163] [164] [165] [166]

0.0017