Вуль Владимир Абрамович
Шрифт:
Для реализации указанной функции в редакторе Word используется команда Реферат в меню Сервис . Соответствующее команде диалоговое окно Автореферат показано на рис. 8.4.
Как следует из данных рис. 8.4, реферат можно поместить в начало реферируемого документа или оформить в виде отдельного файла. Можно также регулировать размер реферата, задавая в процентах от основного текста количество предложений в нем. В примере выбрано значение 10%, вследствие чего в реферате содержатся 2 предложения, в то время как в исходном документе их было 21. Наряду с составлением реферата из текста документа извлекается 5 наиболее значимых слов. Для их просмотра следует воспользоваться командой Свойства меню Файл. Соответствующее диалоговое окно показано на рис. 8.5. Окно включает в себя 5 вкладок, из которых для нашей цели важна лишь одна – вкладка Документ, которая открыта на рис. 8.5.
Для того чтобы значимые или ключевые слова были занесены в нужное поле вкладки Документ диалогового окна Свойства , в нижней части предыдущего диалогового окна Автореферат (см. рис. 8.4), должен быть установлен флажок Обновить сведения о документе . В нашем примере в поле Ключевые слова представлено 5 слов, а именно: "в", "издательств", "области", "предусмотрен", "должен". Нетрудно заметить, что из пяти отобранных слов только одно соответствует тематике статьи "Современные издательства", причем одно из отобранных слов это предлог, который вообще не может иметь смысла, когда он берется отдельно от основного слова. Таким образом, качество отбора ключевых слов редактором Word 97 весьма низкое. Кстати, реферирование осуществляется только для работ с названием на английском (а не на русском) языке. Надо сказать, что редакторы Word 2000 и Word 2002 ничем существенным не отличаются от своего предшественника, т. е. опция Автореферат и автоматическое выделение ключевых слов с помощью этой опции работает для русскоязычного текста неудовлетворительно.
8.3.2. Выделение значащих слов в программе NRC Extractor
Выделение значащих или ключевых слов из изданий лучше выполнить с помощью специальных программ-экстракторов. Одна из первых таких программ и носит название Extractor . Она создана в Институте Информационных Технологий Национального исследовательского Совета (NRC) Канады. В настоящее время доступна версия 7.0 этой программы [40].
Extractor в качестве исходных данных использует текстовый документ, генерируя на выходе совокупность ключевых слов. Он обрабатывает тексты на английском, французском, японском, немецком, испанском и корейском языках. К сожалению, к русскому языку он пока не адаптирован. Алгоритм работы программы использует метод обучения на примерах. Алгоритм изначально предназначен для моделирования человеческого подхода к выбору ключевых слов. В большинстве случаев время работы программы с 10-страничным документом не превышает секунды. Пример интерфейса и результатов работы программы Extractor 7.0 с документом на английском языке представлен на рис. 8.6.
На рис. 8.6 представлен набор ключевых слов и выражений (Keyphrases) и основные фрагменты текста (Highlights). Ключевые слова в основных фрагментах текста (предложениях) автоматически выделяются жирным шрифтом, а наименее важные слова автоматически отображаются в серых (а не черных) тонах.
8.3.3. Семантический анализ текстов с помощью программы TextAnalyst
Разработанная фирмой Научно-производственный инновационный центр "МикроСистемы" отечественная программа-экстрактор TextAnalyst 1.5 позволяет на первых же этапах работы с текстами выделить основные термины и определить их вес и связи. Интерфейс и заставка программы представлены на рис. 8.7. Интересно отметить, что на американском рынке технологию TextAnalyst продвигает фирма Megaputer Intelligence Inc.
Демонстрационная версия этой программы доступна бесплатно на сайте фирмы. Применение программы резко сокращает время, необходимое эксперту для погружения в тематику, и дает множество подсказок и наводящих соображений для тонкого и углубленного анализа как всей информации в совокупности, так и отдельных ее фрагментов. Интересно отметить, что на одном из семинаров, где автор в числе прочего докладывал и об использовании данной программы в поисковых стратегиях, одним из слушателей был указан интересный аспект использования таких программ – для анализа текстов с целью определения их авторства.
В настоящее время распространяется более современная версия TextAnalyst 2.01. Эта программа позволяет на первых же этапах работы с множеством текстов ответить на естественные вопросы, возникающие по ходу анализа: какие термины содержатся в тексте и какова частота их повторения. Она резко сокращает время, необходимое для погружения в тематику, и дает множество подсказок и наводящих соображений для тонкого и углубленного анализа как всей информации в совокупности, так и отдельных ее фрагментов. Первые успехи эксперта при работе с анализаторами текстов, как правило, служат основой для постановки более сложных задач анализа и структурирования.TextAnalyst разработан в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов, и предоставляет пользователю следующие основные возможности:
1. Анализа содержания текста с автоматическим формированием семантической сети с гиперссылками – получения смыслового портрета текста в терминах основных понятий и их смысловых связей.
2. Анализа содержания текста с автоматическим формированием тематического древа с гиперссылками – выявления семантической структуры текста в виде иерархии тем и подтем.
3. Смыслового поиска с учетом скрытых смысловых связей слов запроса со словами текста.
4. Автоматического реферирования текста – формирования его смыслового портрета в терминах наиболее информативных фраз.
5. Кластеризации информации, т. е. анализа распределения материала текстов по тематическим классам.
6. Автоматической индексации текста с преобразованием в гипертекст.
7. Ранжирования всех видов информации о семантике текста по "степени значимости" с возможностью варьирования детальности ее исследования.
8. Автоматического/автоматизированного формирования полнотекстовой базы знаний с гипертекстовой структурой и возможностями ассоциативного доступа к информации [12].
Результаты работы программы TextAnalyst 2.01. представлены на рис. 8.8. Анализу была подвергнута статья "Общая концепция издательской базы данных". Как следует из рис. 8.8 интерфейс TextAnalyst построен в виде трех взаимосвязанных окон:
✓ окно 1 – окно значимых элементов текста, располагается в левом верхнем углу экрана;
✓ окно 2 – окно для ссылок к предложениям текста, располагается в правом верхнем углу экрана;
✓ окно 3 – окно анализируемых текстов, располагается в нижней части экрана.
Перейдем к закладке "Семантическая сеть" в окне 1 (третья кнопка слева внизу окна). Теперь в окне 1 представлена (в виде обычного дерева) сеть основных понятий проанализированных текстов.
Прежде всего, изучив предложенный материал, TextAnalyst формирует именно сеть основных (наиболее значимых) понятий, содержащихся в представленном ему тексте. Такая сеть служит смысловым представлением текста и основой для всех видов дальнейшего анализа. Сеть понятий – это множество терминов из текста, т. е. слов и словосочетаний, связанных между собой по смыслу. В сеть включены не все термины текста, а лишь наиболее значимые, несущие основную смысловую нагрузку. Аналогичным образом представлены и смысловые связи между понятиями текстов – отражаются лишь наиболее явно выраженные из них. Поэтому, с одной стороны сеть достаточно полно описывает смысл анализируемого текста, а с другой – позволяет отбросить несущественную информацию и представить содержание в сжатом виде, так называемым смысловым портретом. При этом каждое понятие, повторявшееся в различных местах документа, оказывается представленным в единственном узле сети. В этом узле также собирается разбросанная информация, касающаяся этого понятия – формируется список предложений, в которых оно употреблялось.Различные формы слов, конечно же, приводятся к общей грамматической форме для отображения в один элемент сети. Аналогичным образом собирается информация по смысловым связям каждого понятия – в виде списка всех связанных с ним в тексте понятий, дополненного предложениями, в которых отражаются данные связи. Таким образом, можно сразу увидеть всю информацию по каждому понятию – тематике текста, буквально бросив единственный взгляд на набор его связей в сети. В результате, передвигаясь по смысловым связям от понятия к понятию, можно будет находить и предметно исследовать лишь наиболее важные и интересующие исследователя места документа, не затрудняясь просмотром всей промежуточной информации. Сказанное иллюстрируется данными, представленными на рис. 8.9. Каждый элемент сети, т. е. определенное понятие, характеризуется некоторой численной оценкой – так называемым смысловым весом. Связи между парами понятий, в свою очередь, также характеризуются весами. Эти оценки позволят сравнить относительный вклад различных понятий и их связей в семантику текста, выявить наиболее подробно проработанную в тексте тематику и вторичные темы, задать способ сортировки информации, и наконец, позволят взглянуть на весь текстовый материал по пластам – смысловым срезам различной глубины – от поверхностного знакомства с содержанием до глубокого проникновения в его мельчайшие детали и подробности.
Итак, на рис. 8.9 в окне 1 представлена сеть понятий (активна третья слева кнопка в нижней строке этого окна). Если подвести к значку возле выбранного понятия указатель мыши и выполнить двойной щелчок ее левой кнопкой, то раскроется список всех понятий, связанных с выбранным. Для того чтобы просмотреть всю информацию, относящуюся к данному понятию, следует щелкнуть мышью по первому пункту ( <все> ) раскрытого списка. После этого в окне 2 появятся все предложения текстов, включающие это понятие, причем оно само будет выделено красным цветом. В том случае, когда пользователя интересует не вся информация о выбранном понятии, а лишь та, которая касается его связи с одним из понятий в раскрытом ниже списке окна 1 , следует указать мышью на это связанное с исходным понятие. В результате этого действия, в окне 2 появятся все предложения текстов, включающие выбранную описанным способом пару понятий, также выделенную цветом. Если сделать двойной щелчок мышью по интересующему нас предложению в окне 2 , то в окне 3 появится конкретное место исходного текста. Соответствующие места выделены темным в этих двух окнах на рис. 6.9.
Теперь следует обратить внимание на пары чисел, расположенных вблизи понятий в окне 1 на рис. 8.9. Ближайшее к понятию число (расположенное левее) представляет его смысловой вес. Его значение изменяется от 1 до 100 и показывает, насколько важную роль играет это понятие для смысла всего текста, иначе говоря, ранжирует данное понятие. Максимальное значение, равное 100, говорит о том, что понятие является ключевым и представляет важнейшую тему текста. В нашем случае самым важным является понятие базы данных или аббревиатура БД, вследствие чего ему приписан вес 99. Малый смысловой вес, близкий к единице, показывает, что соответствующая тема лишь вскользь упомянута в тексте и количество информации, относящейся к данному понятию, минимально.
Другое число, находящееся ближе к раскрытому узлу (т. е. левее), представляет вес связи понятия, расположенного в узле или вершине раскрытого списка, и данного понятия. Вес связей также принимает значение от 1 до 100. Большое значение веса связи от одного понятия к другому, близкое к 100, указывает на то, что подавляющая часть информации в тексте, касающаяся первого, касается в тоже время и второго понятия – первая тема почти всегда излагается в контексте второй. Иначе говоря, два этих понятия тесно коррелированны друг с другом. При малых значениях, близких к единичному, узловое или первое понятие слабо связано со вторым, а уровень их взаимной корреляции близок к нулю. Следует отметить, что связь между парой понятий сети характеризуется направлением (т. е. подобна вектору). Связь от первого понятия ко второму не совпадает по величине с обратной связью, т. е. от второго к первому.
Таким образом, сеть понятий действительно представляет идеальное описание текста – информация в ней отражает все присутствующие смысловые связи, т. е. обеспечивает полноту смыслового портрета анализируемого документа. Однако для большинства из нас более привычны направленные графы информационного представления документов, в которых связи ориентированы в направлении от главного к второстепенному. Этому представлению соответствует так называемая тематическая структура рассматриваемого документа. Тематическая структура описывает содержание анализируемых текстов в виде иерархии связанных тем и подтем. Все темы и подтемы выражены в терминах исходного текста и соответствуют узлам сети понятий. Однако, в данном случае, связи между понятиями односторонние и направлены от главного понятия к подчиненным.
Таким образом, тематической структуре соответствует иерархическое представление – от каждой темы раскрываются связи только к ее собственным подтемам, от них – к подтемам следующего уровня и т. д. Тематическая структура имеет вид дерева, в корне которого стоят главные темы, в ветвях – их подтемы. Общий вид тематической структуры отражает смысловую организацию анализируемого документа. Если вся информация в документе подчинена единой теме, структура будет иметь вид дерева с единственным корнем. Если же его содержание отражает несколько тематических направлений, не связанных друг с другом, то дерево распадается на несколько независимых кустов, корни которых представляют главные темы, не связанные друг с другом.Для просмотра тематической структуры следует активизировать в окне 1 закладку "Тематическая структура", нажав вторую кнопку слева в этом окне. На рис. 8.10 тематическая структура представляется в окне 1 в виде дерева понятий – названий тем, некоторые из которых имеют раскрывающиеся списки связей с подтемами. Понятия в корне дерева представляют список главных тем текстов, а связанные с ними элементы в списках последующих уровней – списки подтем. Программа TextAnalyst дает возможность регулировать степень связности тематического дерева. Для этого следует изменять порог по весу связей в сети понятий. Выбирая определенный уровень в качестве порогового значения связей, мы изменяем вид дерева, разбивая его на большее или меньшее количество тематических кустов. В результате появляется возможность взглянуть на структуру текста в различных срезах, на разных уровнях глубины материала. С точки зрения интерфейса, анализ тематической структуры документа аналогичен работе с семантической сетью. Анализ тематической структуры также иллюстрирует тот факт, что в программе осуществляется морфологический анализ слов с группированием однокоренных.