Вход/Регистрация
Одна формула и весь мир
вернуться

Седов Евгений Александрович

Шрифт:

Благодаря тому, что вероятности появления различных букв в реальных текстах неодинаковы, их энтропия (беспорядочность) меньше, чем в экспериментальном, искусственном тексте. Реальные тексты отличаются от энтропийного определенным порядком чередования букв.

Чтобы уяснить, как возникает порядок, попытаемся составить текст, в котором соблюдались бы реальные вероятности появления букв. Для этого нам придется вновь поместить карточки с буквами в общую коробку, но теперь понадобится не 32 карточки, а значительно больше, потому что число карточек должно быть пропорционально вероятностям появления букв (например, на две карточки с буквой «Ф», имеющей вероятность рф =0,002, должно приходиться 90 карточек с буквой «О», имеющей вероятность Ро =0,09 и т. д.).

Впрочем, можно не тратить времени на приготовление множества карточек с буквами. Тот же эксперимент можно проделать без карточек, используя обычный печатный текст. Ведь в тексте каждая буква будет встречаться именно с той частотой, которая соответствует ее вероятности.

Если, закрыв глаза, наугад переворачивать страницы и указывать на букву, а затем приписывать ее к ряду ранее таким же образом отобранных букв, то вы получите новый искусственный текст, в котором частота появления букв будет соответствовать вероятности их появления в русском тексте. Действуя таким образом, Р. Л. Добрушин получил фразу, помещенную в нижеприведенной таблице под номером 2.

НОМЕР ФРАЗЫ Фраза УСЛОВИЕ ПОЛУЧЕНИЯ ФРАЗЫ 1 СУХЕРРОБЬДЩ ЯЫХВЩИ-ЮАЙЖТЛФВНЗАГФО-ЕНВШТЦР ПХГБКУЧТЖЮ-РЯПЧЬЙХРЫС Принято условие равной вероятности всех букв алфавита и интервала между словами 2 ЕЫНТ ЦИЯЬА ОЕРВ ОДНГ ЬУЕМЛОЛПКЗБЯ ЕВНТША Учтены вероятности отдельных букв в русском тексте 3 ВЕСЕЛ ВРАТЬСЯ НЕ СУХОМ И НЕПО И КОРКО Учтены вероятности 4-буквенных сочетаний в русском тексте 4 ТЕОРИЯ ИНФОРМАЦИИ ПОЗВОЛЯЕТ ИЗУЧИТЬ ЭТО СВОЙСТВО РЕАЛЬНЫХ... Соблюдены реальные вероятности сочетания всех букв

Мы намеренно расположили фразу № 2 рядом с ранее полученной искусственной фразой № 1, чтобы читатель мог наглядно убедиться, насколько возрос порядок в тексте после того, как мы учли реальные вероятности появления букв.

В чем проявляется порядок? Во-первых, исчезли из текста слова несуразно длинные. Это произошло потому, что мы учли реальную вероятность появления интервала между словами (Ринтервала =0,17).

Во-вторых, в отличие от фразы № 1, где друг за другом следовали 5 или 6 согласных букв (ЖТЛФВНЗ и т. п.), во фразе № 2 гласные и согласные буквы чередуются более или менее равномерно, потому что учтены реальные вероятности появления и тех и других. Благодаря этому слова фразы № 2 стали более или менее «удобочитаемы», в отличие от фразы № 1, где сколько бы вы ни старались, вам не удастся произнести вслух такие сочетания букв, как БЬДЩ или ЖТЛФВНЗ.

Впрочем, и во фразе № 2 порядок не столь велик, чтобы всю эту фразу можно было «озвучить». Ну как, например, произнести стоящий в начале слова ЬУЕМЛОЛЙК-ЗБЯ мягкий знак?

По всей видимости, в нашей упорядоченной фразе № 2 еще не учтены все правила, по которым строятся реальные тексты. Чтобы сделать еще один шаг, приближающий наши искусственные фразы к фразам реальных текстов, давайте несколько усложним эксперимент. Будем учитывать вероятности не только отдельных букв, но л их сочетаний. Для этого снова раскроем наугад какую-нибудь книгу и из случайно выбранного слова выпишем четыре буквы, идущие одна за другой, например ВЕСЕ. Теперь будем скользить глазами по строчкам текста до тех пор, пока не встретим в тексте сочетание ЕСЕ (три последние буквы нашей записи ВЕСЕ). Выпишем ту букву, которая следует за сочетанием ЕСЕ (если, к примеру, встретившееся нам сочетание ЕСЕ принадлежит слову «ПЕРЕСЕЛЕНИЕ», то выпишем следующую за сочетанием ЕСЕ букву Л). Теперь записанное нами сочетание букв превратилось в ВЕСЕЛ. Снова запоминаем три последние буквы СЕЛ и ищем такое же сочетание в реальном тексте. Допустим, что такое сочетание встретилось нам в словах «присел на скамейку». В этом тексте следом за сочетанием СЕЛ следует интервал. Значит и в «конструируемом» нами тексте интервал должен следовать за сочетанием ВЕСЕЛ.

Все описанные манипуляции были проделаны с английскими текстами Шенноном и с русскими текстами Добрушиным. В результате Добрушин получил «странную фразу», помещенную в нашей таблице под № 3.

Подобную фразу может сочинить электронная машина если, подбирая сочетания букв по заданной программе она будет учитывать хранящиеся в ее памяти вероят ности различных 4буквенных сочетаний, встречающихся в текстах различных книг. Эта «машинная речь», хотя и далека от человеческой речи, все же по некоторым формальным признакам очень напоминает обычный, осмысленный текст. По этим признакам можно даже найти во фразе № 3 составное сказуемое (ВЕСЕЛ ВРАТЬСЯ), дополнения (НЕ СУХОМ, НЕПО, КОРКО) и т. п.

Заметим, кстати, что описанная процедура составления фраз очень напоминает один из приемов каббалы. Многие прорицатели, используя случайный набор слогов из священных (или из «черных», то бишь дьявольских) книг, пытались разгадывать и истолковывать таинственный смысл полученных слов и фраз. Считалось, что таким образом они вступают в общение с духом, подсказавшим эти фразы или слова. Мы с вами не станем уподобляться прорицателям и не будем гадать, какой каббалистический смысл вкладывал дух во фразу ВЕСЕЛ ВРАТЬСЯ НЕ СУХОМ И НЕПО И КОРКО. В ней нет, разумеется, никакого тайного смысла, а есть лишь смысл вполне очевидный: ее вероятностная структура приближается к вероятностной структуре обычных осмысленных фраз.

  • Читать дальше
  • 1
  • ...
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • ...

Ебукер (ebooker) – онлайн-библиотека на русском языке. Книги доступны онлайн, без утомительной регистрации. Огромный выбор и удобный дизайн, позволяющий читать без проблем. Добавляйте сайт в закладки! Все произведения загружаются пользователями: если считаете, что ваши авторские права нарушены – используйте форму обратной связи.

Полезные ссылки

  • Моя полка

Контакты

  • chitat.ebooker@gmail.com

Подпишитесь на рассылку: