Вуль Владимир Абрамович
Шрифт:
6. Если у вас установлена программа MTAS (см. разд. 8.3), то с помощью этой программы постройте график частот отдельных слов и выражений, встречающихся в исходном документе. Выпишите те слова и выражения, которые достаточно часто встречаются и отражают, по вашему мнению, тематику документа.
7. Если программы MTAS у вас нет, попробуйте вручную построить такой же график, подобный рассмотренному в п. 6. При построении графика однокоренные слова учитывайте как повторяющиеся значения слова. Выпишите те слова и выражения, которые достаточно часто встречаются и отражают, по вашему мнению, тематику документа.
8. Сравните составленные списки. Обязательно выберите повторяющиеся в различных списках слова и выражения в итоговый список ключевых слов. При отборе обязательно учитывайте тематику исходного документа. Ключевые слова должны соответствовать этой тематике.
9. Из выбранных ключевых слов составьте поисковое выражение и используйте это выражение для поиска близких по тематике документов на 3 основных отечественных поисковых серверах: Rambler, Aport и Yandex. Выпишите название и местоположение первых 20 или 30 из числа документов, найденных на каждом из этих серверов. Из этих документов выберите, в первую очередь, те, которые присутствуют в списках на всех серверах, затем – те, которые найдены любыми двумя из них. Остальные внимательно проверьте на соответствие тематике, включая загрузку документа и просмотр его содержания, и отберите из них несомненно пригодные.
10. Проверьте в каждом из отобранных документов наличие всех тех ключевых слов, по которым производился поиск. Попробуйте ранжировать эти отобранные документы. Самые важные – это те, которые содержат все без исключения ключевые слова, по которым производился поиск. Наименее важные – те, в которых содержится самое малое число ключевых слов, использованных при поиске. Перепишите их в таком порядке, чтобы самые важные были вначале, а наименее важные в конце.
11. Прочтите или хотя бы просмотрите все документы и попробуйте самостоятельно их ранжировать по тому, насколько они соответствуют заданной в исходном документе тематике. Сравните результаты ранжирования в этом и предыдущем пунктах.
12. Попробуйте применить более тонкую стратегию ранжирования документов. Для этого попробуйте присвоить ранг каждому из ключевых слов и выражений. Лучше всего для этой цели использовать программу TextAnalist. В ней можно использовать сеть основных понятий, формируемую программой, т. е. составить смысловой портрет документа. Из него можно извлечь основные понятия и устойчивые словосочетания, которые и составят список ключевых слов и выражений. Каждое из них будет характеризоваться смысловым весом, т. е. количественной характеристикой.
13. Теперь можно ранжировать найденные документы, используя не только тот факт, встречается ли в нем ключевое слово или выражение, но и характеризующую его численную величину. Ранжируйте документы с учетом величины смыслового веса ключевых слов и снова расположите найденные документы в порядке убывания их значимости.
14. Сравните новый результат с результатами, полученными в п. п. 10, 11 и 13. Стратегии, указанные в п. п 10 и 13 легко алгоритмизируются и могут выполняться автоматически. Какая из них дает более качественные результаты, т. е. лучше совпадающие с результатами ручного анализа по п. 11.
Глава 9 Распространение электронных изданий
В отличие от предыдущих глав здесь рассматриваются технологии распространения электронных книг, газет и журналов. Основное внимание уделено сетевым технологиям распространения изданий и представительству в сети Интернет издательств, библиотек и электронных книжных магазинов, т. е. тех, кто в той или иной форме обеспечивает распространение электронных публикаций. Рассматриваются также новейшие средства распространения электронных изданий, связанные с использованием технологий E-book. Его можно называть индивидуальной переносной библиотекой.
9.1. Виртуальный мир книги и его особенности
Понятие "виртуальный" в последние годы все шире используется в массовом обиходе. Источник этого следует, вероятно, искать в популярных фильмах, таких как "Газонокосильщик" или "Секретные материалы", в которых герои с помощью компьютера попадают в иной мир, который и носит название виртуальный – и где они активно действуют, сражаются, иногда изменяя течение событий в реальном мире. Термин стал настолько расхожим, что его используют даже в отечественных политических кругах, скажем, в Государственной Думе.
Мы же ставим перед собой значительно более узкую, конкретную задачу, а именно: описать возможность знакомства с различными электронными книгами в тех случаях, когда у нас нет в руках самих этих книг. На рубеже тысячелетий только в нашей стране возможность находиться в виртуальном мире имели около 2 миллионов человек, у которых домашний компьютер снабжен модемом и оплаченным доступом в Интернет. В глобальной сети представлено в виде собственных серверов или сайтов на серверах большое число реальных издательств и множество книжных магазинов. Кроме того, привычным для нашей страны стали виртуальные книжные магазины и прилавки, которые распространяют книги через сеть, не имея никакого торгового объекта в реальном мире, даже простого киоска или стола на книжном развале. Познакомиться с электронными изданиями можно, обратившись в электронную библиотеку. Такие библиотеки могут быть двух видов: