Вуль Владимир Абрамович
Шрифт:
8. В чем состоит содержание второго закона Зипфа и какое его практическое значение? Как установить диапазон значимых слов и на что влияет выбор этого диапазона?
9. В чем состоит смысл третьего закона Зипфа и какова его формулировка? Зачем нужна "инверсная частота термина" и на что она влияет?
10.Что такое программы-экстракторы и для чего они нужны? Какие специализированные программы этой группы вам известны? Может ли в этих целях использоваться одна из распространенных программ, а если может, то как?
11.В чем состоит простой семантический анализ текста? Можно ли автоматизировать процесс определения частоты повторения слов и выражений? 12.Какие средства редактора MS Word можно использовать для анализа текста? Как и в какой последовательности это сделать практически?
13. Какие программы-экстракторы производства зарубежных фирм вы знаете? А программы-экстракторы, произведенные отечественными фирмами и предприятиями?
14.Какие функции может выполнять, по мнению разработчиков, программа для семантического анализа текстов TextAnalyst? Как вы думаете, можно ли создать нечто подобное для работы с компьютерной графикой?
15.Какова последовательность работы с текстом этой программы? Что такое "сеть понятий" и как она формируется?
16.Какая численная характеристика используется для описания элементов сети? Как оценивается связь между парами понятий? Где можно прочесть ее численное значение?
17.Что такое "тематическая структура" исследуемого в программе TextAnalyst документа? Как просмотреть эту структуру?
18.Какие специализированные модули следует пополнять в издательской базе данных для обеспечения правильной информационной политики данного издательства? Каково должно быть содержание этих модулей?
19.Как построить информационно-поисковую систему на основе браузера? Какие основные части в нее следует включить? Можете ли вы изобразить схему информационного взаимодействия между этими частями системы?
20.Какие модели поиска возможны в информационно-поисковых системах? Какие из них чаще используются и почему?
21.Как осуществляется коррекция запроса в зависимости от множества документов, полученных в результате его выполнения?
22.Какую роль играет "информационный профиль" системы? Какие средства для его представления используются?
23.Что такое тезаурус? Какова роль синонимов, омонимов и морфологических вариаций слов при его составлении?
24.Какова процедура при составлении тезауруса на практике? Какие основные моменты в процессе обработки текста? Как выбирается исходный текст или тексты?
25.Что такое семантический срез и как выглядит структура тезауруса, построенного на основе таких срезов?
26.Что такое, в вашем представлении, профайл пользователя? Как можно сформулировать его определение?
27.Как можно автоматизировать процесс создания профайла пользователя? Какое в этом случае, будет участие самого пользователя?
28.Что такое "стемминг" слов и для чего он нужен? Какие алгоритмы используются для реализации "стемминга"?
Самостоятельная (лабораторная) работа
Работа № 8.1. Семантический анализ заданного документа и организация поиска документов, близких по тематике
Порядок выполнения работы
1. Скопируйте в одну из папок (например, c:\el-pubs\lab-81) на жестком магнитном диске вашего ПК папку К главе 8 – документы для анализа, размещенную на гибком магнитном диске, прилагаемом к пособию. В папке находятся 16 различных файлов в формате DOC.
2. Загрузите имеющийся на вашем компьютере редактор Word (любой из версий от Word 97 до Word 2002) и откройте в нем один из документов, например 5.doc. Анализ этого заданного документа, а затем поиск и ранжирование найденных документов на соответствие их тематики тематике исходного документа составит предмет этой работы.
3. Вызовите диалоговое окно Автореферат (см. разд. 8.3.1), установите размер реферата 25% и задействуйте опцию Обновить сведения о документе . Затем командой Файл | Свойства активизируйте диалоговое окно Свойства , выбрав в нем вкладку Документ . Выпишите ключевые слова из соответствующей строки.
4. Попробуйте разделить исходный документ на несколько (2—4) части, оставив за каждой частью прежнее наименование. Далее проанализируйте каждый из вновь полученных документов (частей исходного) таким образом, как это указано в п.3. Выпишите ключевые слова для каждого из них. Затем попробуйте составить общий перечень ключевых слов для всего документа и сравните эти слова с теми, которые были получены в п.3.
5. Если у вас на компьютере установлена программа TextAnalist, то проанализируйте исходный документ с помощью этой программы и выделите 10 наиболее важных ключевых слов и выражений. Выпишите эти слова.