Главная  Нелинейные системы управления 

[0] [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [53] [54] [55] [56] [57] [58] [59] [60] [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] [71] [72] [73] [74] [75] [76] [77] [78] [79] [80] [81] [82] [83] [84] [85] [86] [87] [88] [89] [90] [91] [92] [93] [94] [95] [96] [97] [98] [99] [100] [101] [102] [103] [104] [105] [106] [107] [108] [109] [110] [111] [112] [113] [114] [115] [116] [117] [118] [119] [120] [121] [122] [123] [124] [125] [126] [127] [128] [129] [130] [131] [132] [133] [134] [135] [136] [137] [138] [139] [140] [141] [142] [143] [144] [145] [146] [147] [148] [149] [150] [151] [152] [153] [ 154 ] [155] [156] [157] [158] [159] [160] [161] [162] [163] [164] [165] [166]

Обучение с поощрением. Пусть разделяющая функция имеет вид

?=/(х, с). (П.208)

На этапах обучения сообщается информация о принадлежности ситуаций X к классам Х? и Х:

- 1; если X принадлежит классу XJ;

у

-f 1, если X принадлежит классу X".

Поощрение правильного распознавания или его ошибочность определяются в соответствии с неравенствами -,

у у > о - правильное распознавание; О-неправильное распознавание и функцией штрафа в виде выпуклой функции разности учу

Р{у-Ъ- (11-209)

Учитывая то, что точная разделяющая функция у неизвестна, ее аппроксимируют комбинацией линейно независимых функций cpv (х), V = 1, 2..... Л,

у =/(х, с) = сГф(х) = 2 Cv9v(x). (П.210)

v= 1

тогда функция штрафа F {у - у) принимает вид

Fiy-Fiy-c-Pix)). (11.211)

Подставив ее в выражение среднего риска R из (11.200), получим

(у с"ф(х))Р(х)ах, (11.212)

где Р (х) = PiPi (х) -f Р2Р2 {х) - совместная плотность- распределения .! В соответствии с условиями среднего риска

VcR = J Ve f (i/- с" ф (x)) p (X) dx =

U-F{j-c<f{x))ce{x))p(x)dx (11.213)



определяются итеративные алгоритмы обучения в дискретном виде

с [ttl = с [п - 1] + Г[п] F (у [п] - [п - ]] (р {X [/г])) х

X ф (л: [п]) (11.214)

и в непрерывном виде

dc {t)/dt = T{t) F {у (О - it) Ф lx т ф (х (t)]. (11.215)

Если вместо функции штрафа (11.211) взять выпуклую функцию J (с) в виде среднеквадратической ошибки аппроксимации разделяющей функции с.помощью у = Ф (х), т. е.

(с) = I [/,2 (X) - с»" Ф (x)f dx, (11.216)

мизацию J (с) можно осуществить в соответствии 5ем

уУ(с)= -2lfjs(x)-cTtp(x)]<p{x)dx0 (11.217)

с (f (х) (f(х)dx - fi2{x)(f{x)dx0. (11.218)

Обозначив Я = I ф (л:) ф (х) dx, получим

Нс~~\fi:,ix)(p{x)dx = 0. (11.219)

Учитывая, что f {х, с) = /12 (х) = (соц - Ш12) PiPi (х) -f + («21 - «22) РгР2 (х), получим

Яс - J [((Оц-(Ои) Pi Pi (х) + (СО21--(О22) X

xPPi{x)]4>{x)dx=0, (11.220)

откуда можно получить дискретные алгоритмы:

с [«],= с [tt - 1] - Httl [Яс [tt - 11 - (Шц - W12) Ф (х X

X [«])],

если X - из класса Х;

c[ttl=c[tt -11-r[tt] [Я c(rt -l]-(w2i-«2г)ф(х[п1)1,

(11.221)

если X - из класса Х.



Таким образом, неизвестная разделяющая функция у = == / {х, с) адаптивно восстанавливается в результате обучения

с помощью аппроксимирующей ее функции у = (р (х).

Самообучение. В отличие от обучения с поощрением самообучение происходит только по предъявляемым ситуациям, без дополнительной информации о принадлежности ситуации к определенному классу. Теперь система должна автоматически определить не только принадлежность ситуации к классам, но и количество классов, которое, очевидно, не должно быть равно числу предъявляемых ситуаций, а меньше его.

Информация о количестве классов может быть получена из выражения совместной плотности распределения

р{х) Р,р„{х), (11.222)

к= 1

входящей в формулу среднего риска

/? = 2 \ hix, c)P(x)dx, (11.223)

где F,, (х, с) - функция потерь; с - не известный заранее составной вектор параметров. По числу максимумов м совместной плотности распределения р (х) определяется число классов, поэтому при самообучении задача заключается в восстановлении совместной плотности распределения р (х) путем ее аппроксимации в виде

7(х)=аЧ(). (11-224)

где ф (х) - выбранная вектор-функция с ортонормированиы-ми компонентами; а = (с,, .... gn) - неизвестные коэффициенты.

В результате минимизации функционала

У (с) - \[р{х)-ач>{х)]Ых (11.225)

получаем в дискретном виде алгоритм определения а:

а\п]==а[п~1]--- {aln-\]-<f{xln])}. (11.226)



[0] [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [53] [54] [55] [56] [57] [58] [59] [60] [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] [71] [72] [73] [74] [75] [76] [77] [78] [79] [80] [81] [82] [83] [84] [85] [86] [87] [88] [89] [90] [91] [92] [93] [94] [95] [96] [97] [98] [99] [100] [101] [102] [103] [104] [105] [106] [107] [108] [109] [110] [111] [112] [113] [114] [115] [116] [117] [118] [119] [120] [121] [122] [123] [124] [125] [126] [127] [128] [129] [130] [131] [132] [133] [134] [135] [136] [137] [138] [139] [140] [141] [142] [143] [144] [145] [146] [147] [148] [149] [150] [151] [152] [153] [ 154 ] [155] [156] [157] [158] [159] [160] [161] [162] [163] [164] [165] [166]

0.0014