Шрифт:
Многоуровневый классификатор будет иметь огромное число выходов. Так, при десяти уровнях количество классификационных групп приближается к 20 тысячам. Но это лишь теоретически возможные группы. На практике большое число выходов окажутся пустыми, то есть на этих выходах не будет не только групп, но и ни одного слова. А на других выходах классификатора соберутся группы, включающие множество слов. Кстати сказать, интересен и сам этот результат. Ведь если на каком-то выходе образовалась большая группа слов, значит, такая комбинация признаков очень важна для нас, а если выход пустой — это свидетельство несовместимости признаков или ненужности такой их комбинации.
Возникает еще вот какой вопрос: как быть со словами внутри групп, как разобраться в них компьютеру? Не окажутся ли они для него все на одно лицо? Ведь на первый взгляд кажется, что в группах слова перемешаны без какой-либо системы, как бы свалены в какую-то ячейку пространства «навалом». Это впечатление обманчиво. Во-первых, для более дробного деления групп компьютер всегда может подключать новые шкалы-уровни. Во-вторых, если некая группа слов не будет поддаваться такому способу дробления, а компьютеру все же нужно как-то упорядочить слова внутри ее, он всегда может обратиться к исходным данным — к средним оценкам слов по любому из нужных в данный момент признаков.
Например, если в четырехуровневом классификаторе слова корабль, автомобиль, самолет объединились в группу, оказавшись «хорошими, сильными, быстрыми, мужественными», то легко можно сравнить их между собой по какому-либо признаку, ранжируя их средние оценки. Скажем, по признаку «быстрое» они располагаются в зависимости от средних оценок так: самолет (1,8), автомобиль (2,2), корабль (2,4). Отсюда компьютер сделает вывод, что «нечто самое быстрое» среди этих слов — самолет, а «самое медленное» — корабль. По признаку «большое» расположение будет другим: корабль, самолет, автомобиль. Такое сравнение можно провести и по любому другому признаку, включенному в классификатор.
Качественный классификатор справляется и со словами, имеющими двойную оценку, и даже с «размытыми» по всей шкале — такие слова просто попадут одновременно на несколько выходов классификатора.
Например, слово регби по шкале «хорошее — плохое» имеет двойную оценку (и «хорошее» и «плохое»). Для классификатора не нужно вычислять среднюю оценку (все равно она будет фиктивной), вместо этого слову приписывается индекс (например, Д), который будет означать, что слово необходимо направить и на «хороший», и на «плохой» выходы. Попав на «хороший» выход, регби окажется в одной группе со словами игра, футбол, забава, спорт и т. п. На «плохом» выходе у того же слова окажутся другие соседи: грубость, драка, свалка, потасовка и т. п.
Слово женщина тоже имеет двойную оценку. Пройдя классификатор, «хорошая женщина» попадет в одну группу со словами мать, невеста, ласка, забота, любовь, нежность и т. п. Ну а «плохая женщина» будет окружена словами зависть, глупость, карга, выдра и т. п.
«Размытые» слова, такие, как дождь, попадут не на два, а на несколько выходов. «Слабый и хороший» дождь окажется в группе со словами лето, радуга, свежесть; «сильный и плохой» — со словами гроза, буря; «слабый и плохой» будет соседствовать со слякотью, осенью, моросью, гнилью; «сильный и хороший» — с урожаем, добром и т. д.
Как видим, классификатор работает гораздо лучше, чем пространство. Но особое его удобство заключается еще и в том, что он легко может быть объединен с понятийным классификатором, то есть с автоматизированной системой анализа понятийной семантики. Для этого нужно просто пропускать через качественный классификатор те группы слов, которые образовались после работы понятийного.
Опора на два семантических аспекта — на понятийное ядро и качественный ореол — позволяет компьютеру неплохо ориентироваться в семантике текста и вести вполне «человеческую» беседу, хотя на самом первом, «понятийном» этапе компьютеру придется основательно помогать.
Например, вы спрашиваете компьютер:
— Как можно добраться из Ленинграда в Таллин?
В этом вопросе компьютер, увы, ничего не поймет.
Ему тут просто не за что зацепиться. Глагол добираться слишком многозначен, его понятийное ядро размыто, неопределенно. Будем великодушными, снизойдем к непонятливости компьютера и переформулируем вопрос:
— На каком транспорте можно доехать от Ленинграда до Таллина?
Казалось бы, теперь все предельно ясно. Но это нам ясно. А компьютеру все еще не по силам разобраться в понятийной семантике вопроса. Слово транспорт объединяет слишком много самых разных понятийных групп. Скажем, городской транспорт — трамвай, троллейбус, метро — здесь не годится. Грузовой транспорт — тоже. А есть ведь еще транспорт как тип морского судна. Да и с Ленинградом и Таллином тоже все не просто. Компьютеру нужно знать, что это города, а не районы одного города, не разные страны или материки, что оба города расположены на берегах одного моря. И много еще чего нужно. Короче говоря, чтобы понять смысл даже такого простенького вопроса, необходимо сознавать ситуацию, чего компьютер сделать не в состоянии.
Допустим, мы как-то оградили нашего, мягко говоря, несообразительного собеседника от излишних семантических трудностей и задаем ему донельзя «разжеванный» вопрос:
— На каком пассажирском транспорте можно доехать от города Ленинграда до города Таллина?
Компьютер включает «понятийный классификатор», обнаруживает в группе «междугородный пассажирский транспорт» слова поезд, самолет, корабль, автобус, автомобиль и, наконец отвечает:
— Поездом, самолетом, на корабле, автобусе или на автомобиле.