Вуль Владимир Абрамович
Шрифт:
Успешность или эффективность поиска документа (или их набора в определенной предметной области) зависит не только от качества построения запроса, но и от особенностей организации баз данных на поисковом сервере. От этого зависит и эффективность самого способа построения запроса. Одним из важнейших признаков эффективности поиска данных является степень автоматизации отбора информации в базу данных сервера.
В частности, возможен ручной отбор информации, когда специалисты осуществляют исследование, отбор и каталогизацию информации, которая размещается в библиотеках или базах данных. Такой способ достаточно традиционен, так как много лет применялся работниками реферативных служб библиотек. Получаемая в результате информационная структура носит название предметного или тематического каталога. Это иерархическая структура во многом подобна обычному библиотечному каталогу. Верхний уровень структуры характеризуется самыми общими категориями, а элементы нижнего уровня представляют собой ссылки на отдельные издания, включая их краткое описание. Такой каталог, чаще всего, бывает недостаточно полный, но зато характеризуется высокой осмысленностью и четкой логикой отбора изданий. Создание и поддержка таких каталогов требует значительных усилий и средств. К наиболее известным инструментам этого типа относятся Yahoo, Virtual Library, Galaxy . Именно в таких каталогах, по нашему мнению, целесообразно выполнить предварительный поиск и просмотр литературы, чтобы отобрать заведомо пригодные, нужные и важные работы по поставленной проблеме .
Из-за высокой стоимости и малой скорости каталогизации Web-страниц и сетевых изданий, на большинстве поисковых серверов применяются автоматизированные методы и процессы отбора информации. В частности, при организации ссылочных баз данных на поисковых серверах используется методика, которая ранее применялась для организации полнотекстовых баз данных. В них в результате автоматической обработки документов создается так называемый полнотекстовый индекс , т. е. список всех значащих слов, содержащихся в документе. С каждым словом в таком поисковом индексе связан указатель – индекс ссылок , который характеризует позицию слова внутри документа. Размеры этих вспомогательных структур достаточно велики, поэтому следует стремиться снизить их избыточность, в результате чего обязательно повысится и эффективность выборки информации. Простейший способ повышения эффективности состоит в создании списка неиндексируемых слов – так называемого стоп-листа, в который включаются малозначащие слова: союзы, предлоги, артикли, многие наречия и прилагательные, а также те глаголы и существительные, содержательная роль которых сравнительно мала.
Используется и более тонкая стратегия индексирования, основанная на законах Зипфа [41]. Известный математик Зипф установил, что частота, с которой данное слово встречается в тексте, и количество слов, характеризуемых данной частотой, связаны определенной зависимостью, напоминающей гиперболу. Наиболее значимые слова лежат в средней части графика этой гиперболы. Этот закон справедлив для любого языка, а также характеризует множество других статистических распределений. Закон Зипфа хорошо согласуется с практикой. Действительно, слова с низкой частотой повторения обычно малозначимы, т. е. слабо связаны с тематикой документа, его смысловыми особенностями. С другой стороны, слова с самыми высокими частотами либо входят в упомянутый выше стоп-лист, либо обеспечивают связный, литературный характер повествования, т. е. малоинформативны с точки зрения тематики документа. Таким образом, предварительно проанализировав документ и выбрав для него диапазон рабочих частот, можно автоматически определить некоторое число наиболее значимых или ключевых слов для документа.
Более подробно законы Зипфа и их применение рассмотрены в следующих разделах. Методы использующие законы Зипфа легли в основу автоматических методов построения ссылочных индексов на серверах. В поисковом сервере этого типа обычно используется программа просмотра и индексирования документов, называемая поисковым роботом , а так же информационная база ссылочных данных с определенной поисковой стратегией и интерфейс, призванный обеспечить максимальные удобства пользователю в процессе работы с этой базой данных. Большинство серверов (AltaVista, Lycos, Excite, WebCrawler и др.), в которых используют базы ссылок объемом в десятки миллионов документов, применяют именно автоматические индексы.
При поиске информации на серверах такого типа количество найденных ссылок обычно настолько велико, что пользователь не в состоянии справиться с возникшей ситуацией самостоятельно или же вынужден затратить большое количество времени на загрузку каждого документа, его просмотр и возврат к странице ссылок. Более рациональной представляется организация автоматического извлечения, классификации и локального сохранения всех найденных работ с тем, чтобы в дальнейшем пользователь работал не в сети Интернет, а с локальной базой данных (уже предварительно классифицированных), что позволит сделать его работу более осмысленной и эффективной. Естественно, такой подход уменьшит и суммарные затраты средств, связанные с доступом к сети.
Метаинформация уже используется в HTML-документах, хотя далеко не все поисковые серверы в сети Интернет поддерживают ее использование. Расширяется применение ключевых или значимых слов. В частности, на большинстве международных конференций и симпозиумов используются специальные базы данных для хранения материалов докладов. Любой доклад можно искать, используя атрибуты. Другим средством поиска являются ключевые или значимые слова и выражения. Автор при занесении его доклада в базу данных из общего списка ключевых слов отбирает те, которые наиболее тесно связаны с содержанием его доклада. В результате можно успешно искать нужные материалы и по ключевым словам, включая логические выражения на их основе. Вероятно, следует организовать нечто похожее по отдельным тематическим разделам для информации, циркулирующей в сети Интернет. Это позволило бы резко повысить эффективность поисковых систем [12].
Надо отметить, что автором еще в 1996 г. была разработана модель реляционной базы данных описанного типа. В ней был возможен как обычный атрибутивный поиск (в соответствии со списком полей, в которых хранились значения атрибутов изданий), так и поиск на основе логических выражений, использующих ключевые слова. Причем, для организации поиска по ключевым словам пользователь выбирал нужные слова из их общего списка и объединял их с помощью логических операторов, для чего был предусмотрен специальный пользовательский интерфейс. Краткое описание параметров и методики проектирования этой БД представлено в разд. 7.3.2.
8.2. Законы Зипфа и их применение
Для того чтобы поиск документов в сети был достаточно эффективен, следует правильно выбрать набор термов или базовых слов и выражений. Обычно рекомендуется извлекать такие выражения из тех работ, которые в полной степени удовлетворяют поставленной задаче. Например, вы случайно столкнулись с интересной работой (или несколькими близкими по тематике работами) и хотите извлечь из сети другие публикации данного направления. Для достижения поставленной цели надо выделить из этой работы (или этих работ) набор терминов , в наибольшей степени отражающий ее смысл, т. е. наиболее значимые слова и выражения. Такая задача может быть решена и даже алгоритмизирована на основе законов Зипфа .