Оглавление Дополнительное чтение Учебник "Моделирование систем. Искусственный интеллект"

Механизмы обучения

     Цель - построить техническую систему, реализующую механизм обучения и самообучения. Система должна реализовать не худшую способность к обучению, чем живое существо. Для этого требуется исследовать, как обучаются живые существа.


Естественные объекты

рис.3.1

     Рассмотрим T - образный лабиринт (рисунок 3.1). В него заводится зверюшка. Заранее она не знает, что ожидает в каждой из сторон лабиринта, пища или удар электрического тока (поощрение или наказание). Опыт повторяется многократно. Сначала справа всегда была пища, а слева ток. Зверюшка бежала случайно только первые несколько раз, затем она обучалась и шла к пище. Опыт усложнили: теперь еда и наказание были в обеих частях лабиринта, но выбирались они с определенной постоянной вероятностью. Справа Р = 0.4, слева - 0.9, где Р - вероятность штрафа. Вместо детерминированной среды зверюшка попадала в вероятностную детерминированную среду. В результате опыта зверюшка шла направо - она улавливала как рационально поступать в новых условиях. Затем её поместили вероятностную недетерминированную среду, т.е. в вероятность штрафа стала изменяться во времени.
P(t). Зверюшка переучивалась и здесь.

рис.3.2

     Для нерационального поведения характерно то, что выбор направления осуществляется случайно. С равными вероятностями зверюшка может убежать и направо, и налево: M = 0.5*0.9 + 0.5*0.4 = 0.65 Для рационального поведения: M = 0*0.9 + 1*0.4 = 0.4 Способность к обучению можно измерять рациональностью поведения. E = (Pл,Pп), где E -среда, Pл,Pп - вероятности наказания средой при действиях d1,d2 соответственно. В нашем случае d1 - пойти налево, d2 - пойти направо. Среда двухкомпонентная, т.к. возможны только два действия.

Задача: спроектировать техническое устройство, с целесообразным поведением в заранее неизвестной среде.



Автомат с линейной тактикой

рис.3.3

     Автомат реализует три действия d1,d2, d3. Трехкомпонентная среда. Пусть среда ведет себя следующим образом: E = (0.9, 0.0001, 0.8). Если среда штрафует, то мы всплываем (из глубины лепестка), если поощряет, то уходим в глубь лепестка. Пусть первоначальным состоянием автомата было одно из состоянии в лепестке d1. Т.к. вероятность штрафа здесь довольно велика (0.9), то спустя некоторое время автомат перейдет в состояние, находящееся в d3, и будет оставаться там продолжительное время. То есть автомат ведет себя наилучшим образом в заранее неизвестной среде.

Автомат описывается парой чисел. Первое - количество действий автомата, и второе - глубина лепесткa (q). Приведенный автомат описывается как (3,4). q - базовый параметр, аналог инертности. Чем q больше, тем целесообразнее ведет себя автомат. У человека q находится в пределах от 3 до 5. Чем q больше, тем хуже объект приспосабливается к часто меняющейся среде. Для нестационарной среды лучше аппараты с меньшим q, для стационарной с большим q.



Доверчивый автомат (автомат Кринского)

рис.3.4

     Введен нюанс темперамента. Действует так же, как предыдущий.



Осторожный автомат Крылова

     Автомат с линейной тактикой, но при поощрениях доверяет не сразу, а с вероятностью 0.5 определяет верить или нет поощрению.

     Можно построить нецелесообразный автомат. Например, "Иван-дурак" - автомат с двумя действиями (плакать и смеяться) и глубиной - 1.

рис.3.5


Какая глубина лучше?

     На рисунке 3.6 показан график зависимости целесообразности от глубины с учетом частоты изменения среды. Лучше всего настраивать величину q в зависимости от среды.
рис.3.6


Коллектив автоматов

рис.3.7

     Дано поле ресурсов. В каждой клетке - автомат с линейной тактикой (4,4). Для определенности оставим 10 автоматов. Автомат может реализовывать следующие действия: остаться на месте, пойти вправо, пойти влево, пойти вверх (вниз).
1) Если автоматы останутся, как были, то вместе получат 1*100 + 9*40 = 460 единиц. Цена игры:
    460/10 = 46 ед. Но т.к. один получает 100, а другие по 40, то это заставит автоматы перебегать с одного     места в другое. Состояние неустойчивое.
2) Другая, более устойчивая конфигурация, когда два автомата сидят на "хлебной" клетке. Все вместе     получат: 2*50 + 8*40 = 420; цена игры 420/10 = 42 ед;

     С точки зрения общественной выгоды - лучше первая ситуация, т.к. в среднем "на душу населения" получен более высокий результат. Но с точки зрения индивидуальной выгоды - лучше вторая ситуация. Первая получила название игры Мора, вторая - игры Нэша. Устойчивый коллектив тот, где каждый руководствуется собственной выгодой.

     Но можно ли сыграть в устойчивую игру Мора? Т.е. получить максимальную общественную выгоду, при этом сохраняя устойчивое состояние. Для этого требуется сыграть в игру с общей кассой: все играют в игру Мора, но затем всё делится поровну.

     Если автоматы имеют большой q, то им выгоднее играть в игру Мора, т.к. они более инерционные; и наоборот - если q низкий, то в игру Нэша, т.к. они более активные.

рис.3.8

     Но все ли среды имеют подобные свойства? Есть среды, которые не подчиняются вышеприведенным выводам.

рис.3.9
рис.3.10

     На рисунке 3.9 - сбор грибов. На рисунке 3.10 - охота на лося.

Лекция 02 Лекция 04