Вс. Дек 22nd, 2024

Важнейшим свойством нейронных сетей является их способ­ность к обучению, что делает нейросетевые модели незаменимы­ми при решении задач, для которых алгоритмизация является не­возможной проблематичной или слишком трудоемкой.

Обучение нейронной сети заключается в изменении внутренних параметров модели таким образом, чтобы на выходе ИНС генерировался век­тор значений, совпадающий с результатами примеров обучающей выборки. Изменение параметров нейросетевой модели может вы­полняться разными способами в соответствии с различными алгоритмами обучения. Парадигма обучения определяется доступ­ностью необходимой информации. Выделяют три парадигмы:

  • обучение с учителем (контролируемое);
  • обучение без учителя (неконтролируемое);
  • смешанное обучение.

При обучении с учителем все примеры обучающей выборки содержат правильные ответы (выходы), соответствующие исход­ным данным (входам). В процессе контролируемого обучения синаптические веса настраиваются так, чтобы сеть порождала отве­ты, наиболее близкие к правильным.

Обучение без учителя используется, когда не для всех приме­ров обучающей выборки известны правильные ответы. В этом случае предпринимаются попытки определения внутренней структуры поступающих в сеть данных с целью распределить об­разцы по категориям (модели Кохонена).

При смешанном обучении часть весов определяется посредст­вом обучения с учителем, а другая часть получается с помощью алгоритмов самообучения.

Обучение по примерам характеризуется тремя основными свойствами: емкостью, сложностью образцов и вычислительной сложностью. Емкость соответствует количеству образцов, кото­рые может запомнить сеть. Сложность образцов определяет спо­собности нейронной сети к обучению. В частности, при обучение ИНС могут возникать состояния «перетренировки», в кото­рых сеть хорошо функционирует на примерах обучающей выбор­ки, но не справляется с новыми примерами, утрачивая способ­ность обучаться.

Рассмотрим известные правила обучения ИНС.

Правило коррекции по ошибке. Процесс обучения ИНС состо­ит в коррекции исходных значений весовых коэффициентов межнейронных связей, которые обычно задаются случайным об­разом. При вводе входных данных запоминаемого примера (сти­мула) появляется реакция, которая передается от одного слоя нейронов к другому, достигая последнего слоя, где вычисляется результат. Разность между известным значением результата и ре­акцией сети соответствует величине ошибки, которая может использоваться для корректировки весов межнейронных связей. Корректировка заключается в небольшом (обычно менее 1%) увеличении синаптического веса тех связей, которые усиливают правильные реакции, и уменьшении тех, которые способствуют ошибочным. Это простейшее правило контролируемого обуче­ния (дельта-правило) используется в однослойных сетях с одним уровнем настраиваемых связей между множеством входов и мно­жеством выходов. При этом на каждомшаге длянейрона вес i-й связи вычисляется по формуле  где  — известное (правильное) значе­ние выходанейрона;— рассчитанное значение выхода нейрона;— величина сигнала на i-м входе,— коэффициент скорости обучения.

Оптимальные значения весов межнейронных соединений можно определить путем минимизации среднеквадратичной ошибки с использованием детерминированных или псевдослу­чайных алгоритмов поиска экстремума в пространстве весовых коэффициентов.

При этом возникает традиционная проблема оптимизации, связанная с попаданием в локальный минимум.

Правило Хебба. Оно базируется на следующем нейрофизи­ологическом наблюдении: если нейроны по обе стороны синапса активизируются одновременно и регулярно, то сила их синаптической связи возрастает. При этом изменение веса каждой меж­нейронной связи зависит только от активности нейронов, обра­зующих синапс. Это существенно упрощает реализацию алгорит­мов обучения.

Обучение методом соревнования. В отличие от правила Хебба, где множество выходных нейронов может возбуждаться одновре­менно, в данном случае выходные нейроны соревнуются (конкурируют) между собой за активизацию. В процессе сорев­новательного обучения осуществляется модификация весов свя­зей выигравшего нейрона и нейронов, расположенных в его окрестности («победитель забирает все»).

Метод обратного распространения ошибки. Он является обоб­щением процедуры обучения простого перцептрона с использо­ванием дельта-правила на многослойные сети. В данном методе необходимо располагать обучающей выборкой, содержа­щей «правильные ответы», т.е. выборка должна включать множе­ство пар образцов входных и выходных данных, между которыми нужно установить соответствие. Перед началом обучения меж­нейронным связям присваиваются небольшие случайные значе­ния. Каждый шаг обучающей процедуры состоит из двух фаз. Во время первой фазы входные элементы сети устанавливаются в заданное состояние. Входные сигналы распространяются по сети, порождая некоторый выходной вектор. Для работы алгоритма требуется, чтобы характеристика вход-выход нейроподобных элементов была неубывающей и имела ограниченную производ­ную. Обычно для этого используют сигмоидальные функции. Полученный выходной вектор сравнивается с требуемым (пра­вильным). Если они совпадают, то весовые коэффициенты свя­зей не изменяются. В противном случае вычисляется разница между фактическими и требуемыми выходными значениями, ко­торая передается последовательно от выходного слоя к входному. На основе этой информации проводится модификация связей в соответствии с обобщенным дельта-правилом, которое имеет

Модификация весов производится после предъявления каж­дой пары вход-выход. Однако если коэффициентопределяю­щий скорость обучения, мал, то можно показать, что обобщенное дельта-правило достаточно хорошо аппроксимирует минимиза­цию общей ошибки функционирования сети D методом градиентного спуску в пространстве весов. Общая ошибка фуМйфоЙЙ-рования сети определяется по формуле:

Обучение продолжается до тех пор, пока ошибка не умень­шится до заданной величины. Эмпирические результаты свиде­тельствуют о том, что при малых значениях  система находит до­статочно хороший минимум D. Один из основных недостатков алгоритма обратного распространения ошибки заключается в том, что во многих случаях для сходимости может потребоваться многократное (сотни раз) предъявление всей обучающей выбор­ки. Повышения скорости обучения можно добиться, например, используя информацию о второй производной D или путем уве­личения 

Алгоритм обратного распространения ошибки используется также для обучения сетей с обратными связями. При этом ис­пользуется эквивалентность многослойной сети с прямыми свя­зями и синхронной сети с обратными связями на ограниченном интервале времени (слой соответствует такту времени).

В настоящее время предложены алгоритмы обучения, более привлекательные в смысле биологической аналогии. Примером является алгоритм рециркуляции для сетей, в которых скрытые блоки соединены с входными. При обучении веса связей перест­раиваются таким образом, чтобы минимизировать частоту смены активности каждого блока. Таким образом, обученная сеть имеет стабильные состояния и может функционировать в режиме ассо­циативной памяти.