Механизмы обученияЦель - построить техническую систему, реализующую механизм обучения и самообучения. Система должна реализовать не худшую способность к обучению, чем живое существо. Для этого требуется исследовать, как обучаются живые существа. |
||
Естественные объекты
рис.3.1
Рассмотрим T - образный лабиринт (рисунок 3.1). В него заводится зверюшка. Заранее она не знает, что ожидает в каждой из сторон лабиринта, пища или удар электрического тока (поощрение или наказание). Опыт повторяется многократно. Сначала справа всегда была пища, а слева ток. Зверюшка бежала случайно только первые несколько раз, затем она обучалась и шла к пище. Опыт усложнили: теперь еда и наказание были в обеих частях лабиринта, но выбирались они с определенной постоянной вероятностью. Справа Р = 0.4, слева - 0.9, где Р - вероятность штрафа. Вместо детерминированной среды зверюшка попадала в вероятностную детерминированную среду. В результате опыта зверюшка шла направо - она улавливала как рационально поступать в новых условиях. Затем её поместили вероятностную недетерминированную среду, т.е. в вероятность штрафа стала изменяться во времени. |
||
рис.3.2
Для нерационального поведения характерно то, что выбор направления осуществляется случайно. С равными вероятностями зверюшка может убежать и направо, и налево: M = 0.5*0.9 + 0.5*0.4 = 0.65 Для рационального поведения: M = 0*0.9 + 1*0.4 = 0.4 Способность к обучению можно измерять рациональностью поведения. E = (Pл,Pп), где E -среда, Pл,Pп - вероятности наказания средой при действиях d1,d2 соответственно. В нашем случае d1 - пойти налево, d2 - пойти направо. Среда двухкомпонентная, т.к. возможны только два действия.
|
||
Автомат с линейной тактикой
рис.3.3
Автомат реализует три действия d1,d2, d3. Трехкомпонентная среда. Пусть среда ведет себя следующим образом: E = (0.9, 0.0001, 0.8). Если среда штрафует, то мы всплываем (из глубины лепестка), если поощряет, то уходим в глубь лепестка. Пусть первоначальным состоянием автомата было одно из состоянии в лепестке d1. Т.к. вероятность штрафа здесь довольно велика (0.9), то спустя некоторое время автомат перейдет в состояние, находящееся в d3, и будет оставаться там продолжительное время. То есть автомат ведет себя наилучшим образом в заранее неизвестной среде.
|
||
Доверчивый автомат (автомат Кринского)
рис.3.4
Введен нюанс темперамента. Действует так же, как предыдущий. |
||
Осторожный автомат КрыловаАвтомат с линейной тактикой, но при поощрениях доверяет не сразу, а с вероятностью 0.5 определяет верить или нет поощрению. |
||
|
Можно построить нецелесообразный автомат. Например, "Иван-дурак" - автомат с двумя действиями (плакать и смеяться) и глубиной - 1. |
||
рис.3.5
|
||
Какая глубина лучше?На рисунке 3.6 показан график зависимости целесообразности от глубины с учетом частоты изменения среды. Лучше всего настраивать величину q в зависимости от среды. |
||
рис.3.6
|
||
Коллектив автоматов
рис.3.7
|
||
|
Дано поле ресурсов. В каждой клетке - автомат с линейной тактикой (4,4). Для определенности оставим 10 автоматов. Автомат может реализовывать следующие действия: остаться на месте, пойти вправо, пойти влево, пойти вверх (вниз).
|
||
|
С точки зрения общественной выгоды - лучше первая ситуация, т.к. в среднем "на душу населения" получен более высокий результат. Но с точки зрения индивидуальной выгоды - лучше вторая ситуация. Первая получила название игры Мора, вторая - игры Нэша. Устойчивый коллектив тот, где каждый руководствуется собственной выгодой. |
||
|
Но можно ли сыграть в устойчивую игру Мора? Т.е. получить максимальную общественную выгоду, при этом сохраняя устойчивое состояние. Для этого требуется сыграть в игру с общей кассой: все играют в игру Мора, но затем всё делится поровну. |
||
|
Если автоматы имеют большой q, то им выгоднее играть в игру Мора, т.к. они более инерционные; и наоборот - если q низкий, то в игру Нэша, т.к. они более активные. |
||
рис.3.8
|
||
|
Но все ли среды имеют подобные свойства? Есть среды, которые не подчиняются вышеприведенным выводам. |
||
|
||
|
На рисунке 3.9 - сбор грибов. На рисунке 3.10 - охота на лося. |
|