Чтение книги Об ИИ без мифов. Путеводитель по истории Искусственного Интеллекта страница 32

Об ИИ без мифов. Путеводитель по истории Искусственного Интеллекта

вернуться

Черняк Леонид

Шрифт:

У этого термина на удивление сложная история, backpropagation был впервые предложен Розенблаттом в 1961 году, а в 1974 году метод backpropagation описал в своей диссертации Пол Вербос (1947), но тогда на его алгоритмы научное сообщество не обратило внимание. В 1990 году Вербос опубликовал обзорную статью «Backpropagation сквозь время: на что оно способно и как оно это делает» (Backpropagation Through Time: What It Does and How to Do It), где отдает должное ряду ученых, в том числе Хинтону и Лекуну, и подчеркивает, что метод backpropagation может быть использован не только в приложении к ANN, но и к другим динамическим системам.

В последнее время странным образом возник интерес к проблеме приоритета. Такое бывает, когда наступает время какой-то идеи и она приходит на ум многим одновременно, дискутировать о приоритете в таких случаях лишено какого-либо смысла. Тем не менее полемику за право считать определенного ученого первооткрывателем backpropagation активно навязывает швейцарец Юрген Шмидхубер. Он работает в альтернативном направлении, которое называется долгой краткосрочной памятью LSTM (Long short-term memory), связываемого рекуррентными нейронными сетями. Шмидхубер отдает приоритет финну Сеппо Линнаймма, но при этом находит предпосылки к этому методу даже у Леонарда Эйлера, Огюстена Коши и еще у полутора десятка математиков, работавших в XX веке. Сильнейший гнев у Шмидхубера вызвало присуждение Honda Prize 2019 Джеффри Хинтону с формулировкой «… за достижения в области AI, включая алгоритм Backpropagation…» И в самом деле, непонятно чем руководствовалось жюри, вручающее награды за достижения в области экологических технологий, но оно допустило очевидный ляп! Что же касается скандала, устроенного Шмидхубером, то, скорее всего, поводом для него стал тот факт, что его обошли при награждении Тьюринговской премией 2018 за достижения в области глубокого обучения. Премия тогда досталась троим – Джефри Хинтону, Джошуа Бенджо и Яну Лекуну, но не ему, что на самом деле не вполне справедливо, учитывая и его достижения. Сложившаяся ситуация вынудила Хинтона прилюдно оправдываться за явную оплошность со стороны жюри Honda Prize, впрочем, что мешало ему заранее ознакомиться с формулой награждения? На фоне этой полемики особенно удивительно выглядит статья «Метод обратного распространения ошибки» в русскоязычной википедии, она явно выдержана в духе одиозных доказательств российского приоритета на любые изобретения, характерных для сталинских времен. Разногласия относительно приоритета естественны, они возникают по той причине, что сама по себе идея обратной связи в обучении очевидна, к ней пришли многие исследователи независимо друг от друга.

Сверточные сети

Очередным шагом в развитии прикладного коннекционизма стало создание иерархической многослойной ANN сверточного типа (Convolutional Neural Network, CNN) в 1980 году. Японский исследователь Кунихика Фукусима (Kunihiko Fukushima) назвал ее неокогнитрон. Он занимался распознаванием рукописных текстов и взял в качестве прототипа идею когнитрона, ранее выдвинутую шведом Торстеном Визелем (Torsten Wiesel, 1924) и канадцем Дэвидом Хьюбелом (David Hubel, 1926–2013). В 1981 году Визель и Хьюбел стали лауреатами Нобелевской премии по физиологии и медицине «за открытия, касающиеся принципов переработки информации в нейронных структурах». Фундаментальные работы Визеля и Хьюбела по нейрофизиологии зрения заложили основы организации и развития нейронных цепей, ответственных за зрительное распознавание объектов. Иногда, например в той же русскоязычной википедии, открытие CNN ошибочно приписывают Яну Лекуну.

В начале 80-х существенный вклад в развитие ANN сделал финский ученый Теуво Кохонен (Teuvo Kohonen, 1934 года). В течение многих лет он руководил Исследовательским центром нейронных сетей Технологического университета в Хельсинки, созданным специально для проведения научных исследований, связанных с его разработками. Этот класс ANN так и назван нейронными сетями Кохонена, он отличается наличием слоя, состоящего из адаптивных линейных сумматоров. «Самоорганизующаяся карта Кохонена», так их еще называют, применяется для решения задач моделирования, прогнозирования, выявления наборов независимых признаков, поиска закономерностей в больших массивах данных. Символично, что Теуво Кохонену была вручена награда имени Фрэнка Розенблатта.

Вторая волна коннекционизма и модель Изинга

К началу восьмидесятых годов, когда появились достаточно мощные компьютеры, открылась возможность для перехода от теории коннекционизма к практике, недоставало методов, позволяющих создавать компьютерными средствами некоторое подобие мозга, моделируя нейронные сети. Движение в этом направлении началось с взаимодополняющих работ двух американцев – физика Уильяма Литтла (William Little) из Стэнфордского университета и нейрофизиолога Джона Хопфилда (John Hopfield, 1933), получившего известность благодаря открытию в 1982 году ассоциативных нейронных сетей (Associative Neural Network, ASNN). Литтл смог найти параллель между мозгом и определенным классом физических систем, значение этого открытия состоит в том, он показал как известные методы моделирования, разработанные для физических систем, могут быть распространены и на нейронные сети. Эти наблюдения описаны в двух статях: в перовой «Существование устойчивых состояний в мозгу» (The existence of persistent states in the brain, 1974) показана теоретическая возможность моделирования деятельности мозга, а во второй «Модели Изинга в приложении к нейронным сетям» (An Ising model of a neural network, 1980), где показано почему именно эта физическая модель может быть адаптирована к моделированию ANN. В 1982 году Хопфилд сделал следующий шаг, доказав изоморфизм выбранной Литтлом модели Изинга и рекуррентных моделей нейронных сетей. С тех пор модель Изинга является фундаментальной основой современных работ в области ANN, хотя для большинства специалистов в этой области сам факт ее существования остается неизвестным.

Возникает естественный вопрос: «Почему модель Изинга, разработанная в 20-х годах прошлого века и используемая для моделирования в физике, химии, биологии и даже социологии, вдруг оказалась так важна еще и для воспроизведения нейронных сетей на компьютере?» Для того, чтобы ответить на этот вопрос надо развести два понятия: одно – собственно модель с тем или иным приближением отражающая свойства реального объекта, а другое – математический шаблон этой модели, который может быть запрограммирован или обучен.

В природе случается, что моделируемым объектам, имеющим совершенно разную природу, могут соответствовать одни и те же математические шаблоны. Приведем простейший пример. При замыкании одного заряженного конденсатора другим равным по емкости незаряженным заряд остается тем же, но напряжение падает вдвое и происходит неизбежная потеря накопленной энергии в виде электромагнитного и светового излучения. Точно также теряется накопленная кинетическая энергия при неупругом соударении движущегося тела с равным по массе неподвижным – в данном случае сохраняется масса, а скорость уменьшается тоже, и половина кинетической энергии уходит на нагрев. В этих двух опытах физика совершенно разная, но происходящее и в том и в другом случае описывается одним и тем же математическим шаблоном, различие лишь в том, что в первом случае на два делится произведение величины заряда и квадрата напряжения, а во втором величины массы и квадрата скорости.

Существует огромное число разнообразных природных процессов, которые описываются одними и теми же дифференциальными, интегральными уравнениями или иными уравнениями, играющими роль шаблона. Лет 70 назад обнаружилось, что шаблоны удобно воспроизвести при помощи операционных усилителей – относительно простых электронных устройств, из которых собирали специальные моделирующие аналоговые вычислительные машины (АВМ). Для имитации могут быть использованы не только электронные устройства, но и пневматические, было даже такое направление, называвшееся пневмоникой, а гидравлические интеграторы позволяли решать дифференциальные уравнения в частных производных.

Об ИИ без мифов. Путеводитель по истории Искусственного Интеллекта

Черняк Леонид

Шрифт:

Полезные ссылки

Контакты

Подпишитесь на рассылку: