Вход/Регистрация
Прикладное программное обеспечение: системы автоматической обработки текстов
вернуться

Мальковский Михаил Георгиевич

Шрифт:

В рассматриваемом примере при выборе в качестве критерия выдачи полного совпадения ключевых слов документа и запроса клиенту должны быть предоставлены письма персонажей, полностью отвечающих его требованиям. Навряд ли это их удовлетворит, так как явно выбор будет не слишком велик. Этот критерий больше бы подошел для системы, где необходима точность, например, определяющей выбор лекарства при лечении определенной болезни (пусть их будет немного, зато все подходящие), здесь же, наверное, уместен критерий на пересечение.

Дескрипторам могут быть приданы весовые коэффициенты в зависимости от степени их соответствия запросу; при поиске коэффициенты дескрипторов, обнаруженных и в запросе и в документе, суммируются, и документы выдаются в зависимости от значения этой суммы (например, если она превысила некоторое значение). Таким образом, если указать, что наиболее весомыми являются характеристики богатство и могущество, а не доброта и возраст, можно заполучить в женихи Кощея Бессмертного. При использовании весов также может применяться эшелонированная выдача – отобранные документы предъявляются пользователю не в произвольном порядке, а по степени релевантности (по убыванию сумм весов), право окончательного выбора релевантных документов - за пользователем.

Идеальная ИПС должна выдавать документы, содержательно релевантные запросу, и ничего кроме них. Однако на практике это обычно не достигается, наблюдаются молчание ИПС (невыдача некоторого количества релевантных документов) и шум (выдача лишних документов). Массив документов разделяется на выданные и невыданные– по одному критерию, и на релевантные и нерелевантные – по другому.

Таким образом, для каждого запроса получаем 4 группы документов:

Соотношение количества документов в каждой из этих групп определяет эффективность информационного поиска. Для оценки эффективности используют следующие характеристики:

Рв

Полнота выдачи =

tabletable--

х 100%

Рв+Рн

Рв

Точность выдачи =

tabletable--

х 100%

Рв+Нв

Рн

Потери информации =

tabletable--

х 100%

Рв+Рр

Нв

Информационный шум =

tabletable--

х 100 %

Рв+Нв

Рв

Чувствительность =

tabletable--

x 100 %

Рв+Рн

Нн

Специфичность =

tabletable--

x 100%

Нн+Нв

В идеальной ИПС Рн=Нв=0 и поэтому полнота и точность= 100%, а шум = 0 (найдены все документы и ни одного лишнего). В реальных системах коэффициент полноты достигает 70%, а коэффициент точности поиска колеблется в очень широких пределах, иногда снижаясь до 10%. Величины этих коэффициентов зависят от целого ряда факторов: как внутренних свойств собственно поисковой системы (объема и характеристик информационного массива, информационно-поискового языка, критерия выдачи), так и от многих "внешних" условий: степени специфичности информационных запросов, способности пользователя правильно сформулировать свои информационные потребности на естественном языке, правильности построения конкретного запроса, а также от субъективного представления пользователя о том, что такое нужная ему информация. Из-за ошибок и неточностей, возникающих на каждом из этапов работы как пользователя, так и системы, результаты могут сильно отличаться от того, что хотел получить пользователь, обращаясь к ИПС.

Существует понятие устойчивость поиска– характеристика изменения полноты и точности при малых (семантически незначительных) изменениях запроса. Средние значения полноты и точности для конкретной системы обычно вычисляют путем тестирования ее на эталонной базе документов.

В зависимости от требований к количеству и качеству выдаваемой ИПС информации выбираются разные критерии выдачи. Если важно не упустить нужную информацию (патентная экспертиза) - нужно повысить полноту, если надо сократить объем выдаваемой информации (библиотека) - следует улучшить точность.

  • Читать дальше
  • 1
  • ...
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22

Ебукер (ebooker) – онлайн-библиотека на русском языке. Книги доступны онлайн, без утомительной регистрации. Огромный выбор и удобный дизайн, позволяющий читать без проблем. Добавляйте сайт в закладки! Все произведения загружаются пользователями: если считаете, что ваши авторские права нарушены – используйте форму обратной связи.

Полезные ссылки

  • Моя полка

Контакты

  • chitat.ebooker@gmail.com

Подпишитесь на рассылку: