Чтение книги Электронные издания страница 75

Электронные издания

вернуться

Вуль Владимир Абрамович

Шрифт:

8.4. Автоматизация пополнения информацией специализированных модулей атрибутивной базы данных

Для успешного планирования издательской деятельности необходимо регулярно следить за текущим уровнем развития науки и техники в тех ее областях, которые соответствуют выпускаемым в свет этим издательством книгам. Следовательно, в базе данных должен быть предусмотрен специальный модуль "Последние издания", где представлены новинки других издательств в определенной области или областях. Перед заключением договора с автором или авторами очень важна информация относительно области научно-практических интересов авторов и их достижениях в этой области. Таким образом, в базе данных следует предусмотреть раздел "Персоналии", где сосредоточена информация о публикациях сотрудничающих с издательством авторов, включая библиографические данные, отзывы, аннотации, списки рубрикаций и, иногда, тексты самих этих изданий.

Наконец, для проведения правильной издательской политики необходимо ориентироваться в том, какие книги уже изданы или намечены к изданию другими издательствами в той тематической области, в которой предполагается выпустить в свет книгу в данном издательстве. Кстати, исчерпывающая информация по данному вопросу помогает заблаговременно определить, не предлагают ли авторы свои произведения одновременно нескольким издательствам, не являются ли новые предложения попыткой переизданий с небольшими изменениями ранее изданных работ и так далее. Таким образом, и с этих позиций очевидна необходимость модуля "Последние издания" различных издательств.

Чтобы принятие решений руководством издательства производилось в условиях полного обеспечения нужной информацией, база данных должна систематически пополняться сведениями в тех двух направлениях, которые были указаны выше. Известно, что в настоящее время основным источником для быстрого получения исчерпывающей информации по самым различным вопросам стала Всемирная сеть Интернет. Именно оттуда следует пытаться с наименьшими затратами, включая рабочее время работников издательства, извлечь нужные данные. Заполнение этой части издательской БД может производиться вручную, силами специально выделенных сотрудников издательства, но гораздо лучше разработать механизмы для автоматического поиска и извлечения нужной информации из сети Интернет и последующего занесения этой информации в БД.

В связи с этим встает ряд проблем, касающихся того, как эффективно организовать поиск и извлечение требуемой информации. Это относится и к оптимизации построения запросов на поиск, и к оценке релевантности извлекаемых из сети документов, и к информационной структуре модулей, в которые заносится извлекаемая из сети Интернет информация. Рассмотрению всех изложенных выше прикладных задач посвящается текущий раздел.

8.4.1. Основы организации современных информационно-поисковых систем

Рассмотрим типовую схему информационно-поисковой системы для сети Интернет, которая представлена на рис. 8.11. Браузер , как уже говорилось ранее, это программа просмотра конкретного информационного ресурса, являющегося объектом поиска информационно-поисковой системы (ИПС). Под интерфейсом пользователя ИПС понимается способ общения пользователя с поисковым аппаратом системы, т. е. с системой формирования запросов и просмотра результатов поиска. Поисковая машина служит для трансляции запроса пользователя, который подготавливается на информационно-поисковом языке (ИПЯ), в формальный запрос системы, а также поиска ссылок на информационные ресурсы сети и выдачи результатов этого поиска пользователю. Индекс ссылок – это основной массив данных информационно-поисковой системы. Он размещается на поисковом сервере и служит для поиска адреса (URL) информационного ресурса. Архитектура индекса должна строиться таким образом, чтобы можно было бы оценить релевантность каждой из найденных ссылок на информационные ресурсы. Запросы пользователя целесообразно сохранять в его личной базе данных. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно хранить запросы, на которые система дает хорошие ответы. Робот-индексировщик – это программа автоматического сканирования сети Интернет и поддержки индекса ссылок на поисковом сервере в актуальном состоянии. Наконец, под Web-сайтами подразумеваются просматриваемые информационные ресурсы глобальной сети.

ИПС гораздо старше систем управления базами данных. Они продолжают успешно развиваться в своей нише, оказывая влияние и на ресурсы глобальных сетей. Эти системы имеют строго определенную структуру документа хранения, которая наиболее полно описана в стандарте для разработчиков распределенных ИПС – Z.3950. К слову, этот стандарт по своим потенциальным возможностям столь обширен, что ни одна из существующих систем не реализует его в полной мере. Сам поиск обычно строится на основе преобразования предложений информационно-поискового языка в запросы информационной системы. Язык может основываться на терминах, словоформах или устойчивых словосочетаниях, всю совокупность которых обычно называют словарем системы.

Рис. 8.11. Типовая схема информационно-поисковой системы для глобальной сети

В современных ИПС чаще используется векторная модель поиска и представления документа. В ней можно выделить несколько основных понятий: словарь, документ, поток и процедуры поиска и коррекции запросов. Под словарем понимают упорядоченное множество терминов, мощность которого обозначают как D. Документ – это двоичный вектор размерности D. Если термин входит в документ, то в соответствующем разряде этого двоичного вектора присутствует 1, в противном же случае – 0. Информационный поток или массив L представляют в виде матрицы размерности N × D, где в качестве строк выступают поисковые образы N документов. При таком рассмотрении можно сформулировать процедуру обращения к информационной системе следующим образом:

L × q = r, (8.3)

где q – вектор запроса; r – отклик системы на запрос. Это традиционное определение процедуры поиска документов в ИПС, которое введено Солтоном [35] в 1977 году. Оно исходно предназначалось для автоматического индексирования документов, но оказалось чрезвычайно полезным и для процедуры поиска. Для описания работы распределенных ИПС обычно применяются информационно-поисковые языки типа "Like This". Данный подход пригоден также для вычисления меры близости "документ – запрос". Чаще всего используют улучшенную меру близости Солтона (серверы WebCrawler и Lycos).

Начало применению запросов типа "Like This" положила система WAIS, о которой уже упоминалось в разд. 3.2. Именно при ее создании впервые было заявлено о переносе центра тяжести на языки информационного поиска, основанные на вычислении меры близости "документ – запрос". Основная причина такого подхода – желание дать возможность пользователям использовать обычный естественный язык при составлении запросов. Система WAIS проводила нормализацию лексики и удаляла из списка терминов запроса общие и стоп-слова. Затем вычислялась мера близости и в соответствии с полученными значениями ранжировался информационный массив. Практически все ИПС сети Интернет устроены по этому принципу.

Другим важным способом улучшения качества поиска в информационнопоисковых системах для глобальной сети стала процедура коррекции запроса по релевантности найденных документов. Пионером здесь также выступила поисковая система WAIS. Пользователю предоставлялась возможность отметить документы, которые являлись релевантными его запросу. После этого запрос пополнялся терминами релевантных документов и вычислялось новое значение выражения (8.3) для поискового образа. В литературе по информационному поиску часто можно встретить термин "профиль", который относят к запросам пользователей. Но информационный профиль или тематический профиль имеется и у информационной системы. Наиболее просто тематический профиль системы материализуется в виде классификации, которая применяется в данной системе или рубрикаторе. В информационных системах Интернета профиль играет еще и роль навигационного средства, позволяющего получить доступ непосредственно к набору документов, попадающих в тот или иной раздел классификации. Естественно, что в моделях, предназначенных для описания работы ИПС, также должно быть введено понятие профиля и выявлена его актуальность для информационного поиска. В матричной форме операцию расширения запроса можно определить в виде:

LT × rk–1 = qk , (8.4)

где LT – это транспонированная матрица L, а rk–1 – отклик системы на предыдущий запрос или результат предшествующей итерации. Выражение (8.4) требует уточнения. В это выражение следует ввести еще одну матрицу – F, призванную учитывать фактор пользователя.

LT × Fk–1 × rk–1 = qk (8.5)

Матрице Fk–1 соответствует система фильтров пользователя, при помощи которых он корректирует свой запрос. Эти фильтры имеют в реальных системах конкретную интерпретацию. В поисковых системах WAIS и Lycos пользователь просто помечает релевантные документы. В этом случае фильтры превращаются в диагональные матрицы, которые в релевантных документах имеют главную диагональ с единицами, а в нерелевантных – с нулями. Но, в общем случае, на диагонали можно размещать и вес или уровень релевантности. В других случаях возможно ранжирование документов с учетом их гипертекстовых связей с другими документами, как релевантными, так и нерелевантными. Процесс коррекции запроса не бывает бесконечным. Обычно он завершается, когда пользователь устает просматривать найденные документы и приходит к выводу, что нашел искомое или получил приемлемый результат. В принципе, даже при прямом просмотре, второй результат является концом процедуры поиска информации. Это означает, что, начиная с некоторого значения, вектор отклика остается неизменным:

(L × LT × F) × rk–1 = rk. (8.6)

Из (8.6) следует, что процесс коррекции запросов по релевантности должен сходиться к собственному вектору матрицы (L × LT × F). Это позволяет информационной системе за 1 или 2 итерации найти оптимальную форму запроса, что достаточно важно для автоматизированных систем, так как позволяет снизить время поиска и соответственно уменьшить нагрузку на сеть.

8.4.2. Законы Зипфа и подготовка тезауруса

Для эффективного использования поисковых серверов необходим список ключевых слов, организованный с учетом семантических отношений между ними, т. е. тезаурус. При составлении тезауруса необходимо предусмотреть обработку синонимов, омонимов и морфологических вариаций ключевых слов.

Электронные издания

Вуль Владимир Абрамович

Шрифт:

Полезные ссылки

Контакты

Подпишитесь на рассылку: