Вход/Регистрация
Об ИИ без мифов. Путеводитель по истории Искусственного Интеллекта
вернуться

Черняк Леонид

Шрифт:

Радикальные изменения в работе с текстами начались в конце XV века в Европе после изобретения печати наборным шрифтом, обычно его связывают с именем Иоганна Гутенберга (Johannes Gutenberg, 1400–1468). Печатные оттиски с цельных досок делали намного раньше, что же касается набора из отдельных литер, он был изобретен в Китае за два столетия до Гутенберга. Наборная печать оказался востребована и обрела популярность в Европе под влиянием преобразований Эпохи Возрождения. Набор не только привел к увеличению тиражей книг, но еще и способствовал созданию определенных стандартов на издания, что позволило перейти от плохо упорядоченных монастырских скрипториев к близким к современности университетским библиотекам с их систематическим хранением книг.

Каталоги, как неотъемлемая часть любой библиотеки, были придуманы в еще Ассирии в середине 1 века до н. э., но свой классический вид (ящики с каталожными карточками) они приобрели благодаря изобретению Карла Линнея. Этот ученый создал не только единую систему классификации растительного и животного мира, но и вообще стал основоположником систем классификации, за что получил титул «отца современной таксономии». До Линнея каталоги имели вид тетрадей, а он заменил непрерывные тетради дискретными карточками, которые можно дополнять и переупорядочивать со всеми вытекающими последствиями. Библиотечные каталоги на карточках появились впервые в Австро-Венгрии в 1780 году, для записи данных о книгах использовалась рубашка удобных по формату игральных карт. После Французской революции и в наполеоновские времена карточные каталоги были заметно усовершенствованы. Окончательный стандарт на формат карточки 3х5 дюймов и конструкцию ящика был прият в конце XIX века. С 90-х годов прошлого века бумажные каталоги стали вытесняться компьютерными и в 2015 был напечатан последний тираж каталожных карточек.

С появлением печатных книг возникла массовая грамотность, она стимулировала изучение языка и появление лингвистики. Впрочем, термин лингвистика (linguistics) появился намного позже, только лишь в середине XIX века, до этого лингвистами (linguist) называли студентов, изучающих язык. Предпосылки к созданию новой науки создал Вильгельм фон Гумбольдт, а также Иоганн Гердер и Иоганн Кристоф Аделунг. Отцом современной лингвистики считают швейцарца Фердинанда де Соссюра (Ferdinand de Saussure, 1857–1913), основателя Женевской лингвистической школы, заложившего основы структурной лингвистики. Материалы прочитанных им лекций собрали и издали в виде книги «Курс общей лингвистики» в 1916 году его ученики Шарль Балли и Альбер Сеше. История лингвистики – самостоятельная дисциплина, мы ее затрагивать не будем.

В истории обнаруживаются и более ранние попытки применить формальные методы для работы с текстами, известен, например, Авраам бен Самуэль Абулафия, еврейский мыслитель и каббалист, живший в Испании во второй половине XIII века. Он был современником Раймунда Луллия, есть сведения, что Абулафия и Луллий состояли в переписке. Объектом исследования Абулафии был трактат Сефер Йецира (Книга творения) – один из основополагающих каббалистических текстов. В нем рассматривается то, как бог создал язык и способ его записи 22 буквами еврейского алфавита. Абулафия пошел дальше, он стремился понять можно ли, следуя формальным правилам, манипулировать символами для получения новых истин. Идеологически Абулафия и Луллий близки, первый манипулировал буквами, а второй с помощью своей машины – словами. Абулафия назвал созданное им наукой о комбинации букв, которую можно считать зародышем NLP.

В своем романе «Маятник Фуко» Умберто Эко вернул имя Абулафии в современную массовую европейскую культуру, так им назван персональный компьютер, принадлежащий главному героем Бельбо. Этот компьютер, используемый для работы с текстами, стал наравне с людьми одним из персонажей «Маятника», а выдержки из книги Абулафии Эко использует в качестве эпиграфов к главам.

Как это ни странно, но близкой к кабалистическим представлениям Абулафии о языке оказалась диссертация «О комбинаторном искусстве» (On the Combinatorial Art) Готфрида Лейбница, написанная им в 1666 году в двадцатилетнем возрасте до того, как он стал признанным универсальным гением, проявившим себя в философии, логике, математике, механике, физике и даже юриспруденции, истории и дипломатии. В зрелом возрасте Лейбниц изменил свои взгляды на более здравые, когда в 1690 году диссертацию издали без согласования с ним, он выразил категорический протест.

NLP, данные и информация

Текст – это символьные данные, содержащие информацию, если текст обозрим, то человек без всякой помощи прекрасно справляется с решением задачи преобразования этих данных в полезную для себя информацию. Но в наше время объем текстов, доступных в цифровой форме, таков, что человек с ним справиться не может и возникает потребность в автоматизации этого процесса. Возвращаясь к иерархической модели DIKW, можно сказать, что NLP – это технология преобразования текстовых, она служит инструментом для интеллектуального анализа текстов (text mining, TM), для преобразования неструктурированного текста на естественном языке в нормализованные структурированные данные, которые можно хранить в базах или хранилищах данных и т. д. NLP сочетает методы лингвистики, математики и компьютерной науки и делится на две взаимодополняющие составляющие Natural Language Understanding (NLU) и Natural Language Generation (NLG).

Иногда NLU еще называют Natural Language Interpretation (NLI), подтверждая тот факт, что для перевода английского слова understanding в NLU можно использовать и русское слово интерпретация. Для понимания-интерпретации текстовые данные подвергаются синтаксическому анализу (parsing), делятся на более мелкие и простые части, над которыми могут выполняться какие-то иные операции с целью превращения этих данных в структурированные и извлечения из них полезной информации. NLG решает обратную задачу превращения структурированных данных в читаемый текст на разговорном языке, то есть в неструктурированный и неформатированный текст, такой текст называют plain text.

Три подхода к NLP

Можно выделить три основных подхода к NLP:

– Символьный подход предполагает использование лингвистических правил, записанных человеком.

– Статистический подход основан на распознавании образов в больших объемах текстов с целью «понимания» естественного языка.

– Коннекционистский подход сочетает элементы символьного и статического с использованием нейронных сетей.

NLP на основе символьного подхода

  • Читать дальше
  • 1
  • ...
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57

Ебукер (ebooker) – онлайн-библиотека на русском языке. Книги доступны онлайн, без утомительной регистрации. Огромный выбор и удобный дизайн, позволяющий читать без проблем. Добавляйте сайт в закладки! Все произведения загружаются пользователями: если считаете, что ваши авторские права нарушены – используйте форму обратной связи.

Полезные ссылки

  • Моя полка

Контакты

  • chitat.ebooker@gmail.com

Подпишитесь на рассылку: