Нейронные сети. Часть 1. Основы искусственных нейронных сетей
Хочу вначале сделать маленький дисклеймер. Предыдущим постом в этом сообществе были рассмотрены основы искусственной нейронной сети. Я данной темой занималась для написания своей магистерской работы и соответственно прочитала в свое время достаточно литературы, поэтому мне бы хотелось немного дополнить и в дальнейшем продолжить вам рассказывать о том, что такое нейронная сеть, какое представление она имеет изнутри, как с ее помощью решают задачи и так далее…
Сразу оговорюсь, что я не гуру в данном вопросе, я его знаю (ну или знала, так как времени прошло уже достаточно) настолько глубоко, насколько мне было это необходимо для написания работающей нейронной сети для распознавания цифр, ее обучения и дальнейшего использования. Предметом исследования была структура нейронной сети для распознавания символов, а конкретно, зависимость между количеством нейронов в скрытом слое и сложностью выборки для входных данных (количеством символов для распознавания).
UPD: данный текст в основном является обобщением из прочитанной литературы. Он не написан мною лично. По крайней мере эта часть.
UPD2: Скорей всего продолжения данной темы не будет, так как хабрапользователь stepan_ovchinnikov, который является смотрителем данного блога, считает, что нет смысла писать здесь то, что можно прочитать из многочисленной литературы, которая есть по нейронным сетям. Так что извините.
Возможно первая часть будет в чем-то похожа на предыдущий пост хабрапользователя Kallisto, но я считаю, что стоит более детально рассмотреть строение искусственного нейрона, у меня есть, что добавить, ну и, плюс ко всему, я хочу написать полноценную и законченную серию постов про нейросети, не опираясь на уже написанное. Надеюсь вам будет полезен данный материал.
Биологический прототип нейрона
Первой попыткой создания и исследования искусственных нейронных сетей считается работа Дж. Маккалока (J. McCulloch) и У. Питтса (W. Pitts) «Логическое исчисление идей, относящихся к нервной деятельности» (1943 г.), в которой были сформулированы основные принципы построения искусственных нейронов и нейронных сетей. И хотя эта работа была лишь первым этапом, многие идеи, описанные в ней, остаются актуальными и на сегодняшний день.
Искусственные нейронные сети индуцированы биологией, потому что они состоят из элементов, функциональные возможности которых аналогичны большинству функций биологического нейрона. Эти элементы можно организовать таким образом, который может соответствовать анатомии мозга, и они демонстрируют большое количество свойств, которые присущие мозгу. Например, они могут учиться на основе опыта, могут обобщать предыдущие прецеденты на новые случаи и выявлять существенные особенности из входных данных, которые содержат избыточную информацию.
Центральная нервная система имеет клеточное строение. Единица — нервная клетка, нейрон. Он состоит из тела и отростков, которые соединяют его с внешним миром (рис. 1.1). Отростки, по которым нейрон получает возбуждение, называются дендритами. Отросток, по которому нейрон передает возбуждение, называется аксоном, причем аксон у каждого нейрона один. Дендриты и аксон имеют довольно сложную ветвистую структуру. Место соединения аксона нейрона — источника возбуждения с дендритом называется синапсом. Основная функция нейрона состоит в передаче возбуждения из дендритов в аксон. Но сигналы, которые поступают из разных дендритов, могут влиять на сигнал в аксоне. Нейрон выдаст сигнал, если суммарное возбуждение превысит некоторое предельное значение, которое в общем случае меняется в некоторых границах. В противном случае на аксон сигнал выдан не будет: нейрон не ответит на возбуждение. У этой основной схемы много осложнений и исключений, однако большинство нейронных сетей моделируют именно эти простые свойства.
(рисунок 1.1) — Модель биологического нейрона
- Принимает участие в обмене веществ и рассеивает энергию. Меняет внутреннее состояние со временем, реагирует на входные сигналы, формирует выходные воздействия и поэтому является активной динамической системой.
- Имеет множество синапсов — контактов для передачи информации
Интенсивность сигнала, который получает нейрон (а следовательно и возможность его активации), сильно зависит от активности синапсов. Каждый синапс имеет длину, и специальные химические вещества передают сигнал вдоль него. Один из самых авторитетных исследователей нейросистем, Дональд Хебб, высказал постулат, что обучение состоит в первую очередь в изменениях «силы» синаптических связей. Например, в классическом опыте Павлова, каждый раз непосредственно перед кормлением собаки звонил колокольчик, и собака быстро научилась связывать звонок колокольчика с пищей. Синаптические связи между участками коры главного мозга, ответственными за слух, и слюнными железами усилились, и при возбуждении коры звуком колокольчика у собаки начиналось слюноотделение.
Таким образом, будучи построенный из очень большого числа совсем простых элементов (каждый из которых берет взвешенную сумму входных сигналов и в случае, если суммарный вход превышает определенный уровень, передает дальше двоичный сигнал), мозг способен решать чрезвычайно сложные задачи.
Искусственный нейрон имитирует в первом приближении свойства биологического нейрона. На вход искусственного нейрона поступает некоторое множество сигналов, каждый с которых является выходом другого нейрона. Каждый вход множится на соответствующий вес, аналогичный синаптической силе, и все произведения суммируются, определяя уровень активации нейрона. На рисунке 1.2 представлена модель, которая реализует эту идею. Хотя сети бывают довольно разные, в основе почти всех их лежит эта конфигурация. Здесь множество входных сигналов, обозначенных x1, x2, . xn, поступают на искусственный нейрон. Эти входные сигналы отвечают сигналам, которые приходят в синапсы биологического нейрона. Каждый сигнал множится на соответствующий вес w1, w2. wn, и поступает на суммирующий блок, обозначенный ∑. Каждый вес отвечает «силе» одной биологической синаптической связи. Суммирующий блок, который соответствует телу биологического элемента, алгебраически объединяет взвешенные входы, создавая выход NET:
(рисунок 1.2) — Искусственный нейрон в первом приближении
Данное описание можно представить следующей формулой
где w0 — биас;
wі — вес i- го нейрона;
xі — выход i- го нейрона;
n — количество нейронов, которые входят в обрабатываемый нейрон
Сигнал w0, который имеет название биас, отображает функцию предельного значения, сдвига. Этот сигнал позволяет сдвинуть начало отсчета функции активации, которая в дальнейшем приводит к увеличению скорости обучения. Этот сигнал добавляется к каждому нейрону, он учится как и все другие весы, а его особенность в том, что он подключается к сигналу +1, а не к выходу предыдущего нейрона.
Полученный сигнал NET как правило обрабатывается функцией активации и дает выходной нейронный сигнал OUT (рис. 1.3)
(рисунок 1.3) — Искусственный нейрон с функцией активации
Если функция активации суживает диапазон изменения величины NET так, что при каждом значении NET значения OUT принадлежат некоторому диапазону — конечному интервалу, то функция F называется функцией, которая суживает. В качестве этой функции часто используются логистическая или «сигмоидальная» функция. Эта функция математически выражается следующим образом:
Основное преимущество такой функции — то, что она имеет простую производную и дифференцируется по всей оси абсцисс. График функции имеет следующий вид (рис. 1.4)
(рисунок 1.4) — Вид сигмоидальной функции активации
Функция усиливает слабые сигналы и предотвращает насыщение от больших сигналов.
Другой функцией, которая также часто используется, является гиперболический тангенс. По форме она похожа на сигмоидальную и часто используется биологами в качестве математической модели активации нервной клетки. Она имеет вид
Как и логистическая функция, гиперболический тангенс имеет S-образный вид, но он является симметричным относительно начала координат, и в точке NET=0 значение выходного сигнала OUT=0 (рис. 1.5). На графике можно увидеть, что эта функция, в отличии от логистической, принимает значение разных знаков, что является очень выгодным свойством для некоторых типов сетей.
(рисунок 1.5) — Вид функции активации — гиперболический тангенс
Рассмотренная модель искусственного нейрона игнорирует много свойств биологического нейрона. Например, она не принимает во внимание задержки во времени, которые влияют на динамику системы. Входные сигналы сразу порождают исходные. Но несмотря на это, искусственные нейронные сети, составленные из рассмотренных нейронов, выявляют свойства, которые присущи биологической системе.
ссылки на литературу:
1. Ф. Уоссермен. Нейрокомпьютерная техника: теория и практика. Перевод на русский язык Ю. А. Зуев, В. А. Точенов, 1992
2. И. В. Заенцев. Нейронные сети: основные модели. Учебное пособие к курсу “Нейронные сети”