Загуменов Александр Петрович
Шрифт:
Весьма полезной является предоставляемая поисковой системой Яndex подписка на поисковый запрос . Это означает, что вам регулярно будет пересылаться информация об индексировании документов. Так, подписка на запрос, содержащий название вашей компании (торговую марку, наименование продукта, фамилию директора) поможет подобрать опубликованные в Internet материалы, касающиеся деятельности фирмы. Таким образом, вы сможете узнавать, когда появятся обновленные или новые страницы по интересующей вас теме. Достаточно задать в подписке соответствующие запросы, и на ваш адрес начнет поступать нужная информация, как только она появится в Internet и робот Яndex до нее доберется. Оформив подписку на запрос, вы будете получать необходимые сведения по мере поступления новых или изменения уже существующих в базе данных документов. Запрос в подписке осуществляют аналогично запросу к поисковой машине Яndex. В результате на указанный вами электронный адрес время от времени будут приходить уведомления следующего вида:
Subject: Подписка Яndex: inotec
Date: Wed, 4 Oct 2000 07:13:54 +0400 (MSD)
From: subscribe@yandex.ru
To: your@address.ru
Добрый день!
По вашему запросу «inotec» появилась новая информация.
Новые результаты по запросу: inotec
Найдено: серверов – 5 8
Показано серверов: 58
Список найденных документов находится по адресу: http://www.yandex.ru/subscribe/view.pl?doc=6794411097554607
Изменить параметры подписки
Остановить подписку на этот запрос
–
С уважением,
Администрация службы подписки, subscribe@yandex.ru
–
На любой из своих страниц вы можете создать форму для обращения к поисковому сервису Яndex (описание находится по адресу и осуществлять поиск в Internet с нее, но можно ограничиться и своим сайтом. Единственное условие, предъявляемое владельцами ресурса, – сохранение дизайна страницы с результатами поиска.
Яndex давно предлагает пользователям возможность поиска без набора запроса – по слову, выделенному в окне браузера.
Чтобы зарегистрировать свой сайт в базе поисковой системы Яndex, воспользуйтесь ссылками Добавить сайт и Регистрация в каталоге .Поисковая система Rambler
Поисковая машина Rambler – первая в России профессиональная поисковая система. Ее владелец – компания «Рамблер Интернет Холдинг». Роботы Rambler игнорируют зарубежные сайты, сканируя находящиеся в доменах: Российская Федерация (.ru, su), Украина (.ua), Белоруссия (.by), Казахстан (.kz), Киргизия (.kg), Узбекистан (.uz), Грузия (.ge). Определение принадлежности сайта производится по формальному признаку – домену первого уровня в URL.
Rambler объединяет в себе поисковую систему, рейтинг-классификатор, а также ряд бесплатных сервисов и информационных проектов. Все программы реализованы на базе собственных технологических разработок.
Поисковый механизм Rambler, запущенный в эксплуатацию в 1996 году, стал первой из российских поисковых систем, включенной в стандартные возможности обозревателя Internet Explorer компании Microsoft. Весной 1997 года начала работать рейтинговая система Rambler\'s Top100. Спустя три года, 7 марта 2000 года, был зафиксирован миллиардный посетитель страниц, зарегистрированных в рейтинге.
В июле 2000 года открыт ресурс Словари . Новый интерактивный сервис реализован при поддержке российского издательства «Русский язык».
Страница поиска Rambler, показанная на рис. 3.8, позволяет задать поисковую фразу, перейти на страницу расширенного поиска (рис. 3.9) с помощью ссылки Расширенный поиск, а также воспользоваться другими сервисами (Магазины, Недвижимость, Телеканал, Поиск файлов, Словари, Карты и пр.).
Рис. 3.8. Страница поиска Rambler
На странице расширенного поиска можно выбрать, где следует искать информацию – во всем документе или только в той его части, которая может быть конкретизирована, для чего следует настроить переключатель Поиск по тексту на одно из следующих положений:
• всего документа;
• названия (<title>);
• гиперссылок.
Кроме того, с помощью переключателя Искать слова запроса можно уточнить логику: все («и»), хотя бы одно («или») либо точную фразу.
Переключатель Язык документа дает возможность сообщить поисковой системе, на каком языке должен быть написан искомый документ: на любом, русском, английском или украинском.
Сузить область поиска можно, воспользовавшись переключателем Расстояние между словами запроса, указав интервал дат, формат документа (любой, HTML, Microsoft Word), конкретный сайт, а также задав слова, по которым определенные документы исключаются из поиска.
В разделе Вывод результатов размещены три опции, позволяющие отрегулировать отображение результатов поиска: отсортировать по релевантности (либо сайтов, либо страниц) или по дате (в прямом или обратном порядке), настроить число выдаваемых на странице записей (15, 30 или 50) и, наконец, выбрать форму представления результатов связанных запросов: показывать отдельной колонкой или внизу страницы.
На странице результатов поиска, изображенной на рис. 3.10, Rambler показывает число найденных сайтов и уникальных документов.
Уточнить результаты поиска можно, сделав дополнительный запрос при включенных опциях в новостях или в найденном.
Роботы Rambler при сканировании игнорируют поля <META NAME= «Keywords» Это связано со стремлением разработчиков индексировать документ по его реальному содержанию, а не по критериям автора. Не секрет, что владельцы документов злоупотребляют этими полями, добиваясь того, чтобы их документы обязательно находили по ключевым словам, которые зачастую выбраны произвольно.
Текст, невидимый на странице (то есть набранный шрифтом, цвет которого соответствует цвету, заданному тэгом BACKGROUND), роботы Rambler не индексируют, равно как и комментарии в документе. Каждый комментарий увеличивает размер документа, а значит, снижается вероятность того, что он будет просмотрен до конца.
Значимость HTML-тэгов, к которым следует отнести базовые понятия и ключевые слова, следующая (в порядке убывания):
• <TITLE>;
• <H1> … <H6>;
• <ADDRESS>;
• <B>, <STRONG>.
Чем чаще слово встречается в комбинации этих полей, тем вероятнее, что поисковая система Rambler поместит документ ближе к началу списка, в котором отражены результаты поиска. Кроме того, значимость поискового слова тем выше, чем ближе оно к началу документа.
Использование фреймов в документе не способствует успешному поиску. Это не означает, что роботы не умеют сканировать фреймы. Просто отдельный отсканированный фрейм не позволяет получить представление о целом документе. Данное замечание не относится к случаю, когда фреймы в документе используются исключительно для улучшения навигации. Роботы Rambler прекрасно справляются с конструкциями фреймов, однако в текст таких документов рекомендуется включать тэг <NOFRAMES> с последующим описанием документа и ссылками. Разумеется, это увеличит размер страницы, но в то же время продемонстрирует ваше корректное отношение к пользователям текстовых браузеров и поисковым машинам.
Поисковый сервер Rambler автоматически исключает из индекса слова, встретившиеся более чем в 800 000 документов. Такие слова не являются информативными при поиске, и в 99,9 % случаев можно обойтись без них.
Предельная внимательность необходима при указании перекрестных ссылок в документе. Надлежит проверить работоспособность каждой из них, иначе роботы не смогут добраться вглубь дерева документов. Следует также иметь в виду, что с точки зрения протокола HTTP две следующие записи различны:<A href="#"…> <A href="#"…. > (слэш в конце ссылки)
Обычно при запросе по первой ссылке робот получит переадресацию на вторую, а значит, извлечет сам документ только на следующем проходе при обращении к серверу. В итоге замедлится индексация сайта.
Максимальный размер документа для роботов Rambler составляет 200 Кб. Документы большего размера урезаются до указанной величины.
Роботы Rambler обрабатывают ссылки типа <A href="#" >, однако наряду со ссылкой такого вида рекомендуется поместить в текст документа конструкцию <MAP NAME="name">. Это ускорит индексацию документов, указанных в IMAGEMAP, и облегчит доступ к документам для обычных браузеров.
Часто изменяющиеся (динамические) документы рекомендуется исключить из списка индексируемых, так как они быстро теряют актуальность. Выполняется эта процедура с помощью стандартного для HTTP механизма – посредством файла robots.txt в головной директории вашего сайта.
Части документа, не требующие, по вашему мнению, индексации, можно отделять в документе с помощью тэгов <INDEX>…<NOINDEX>.
При написании документов не оставляйте без внимания раскладку клавиатуры. Часто вместо русской буквы р используют латинскую p. Некоторые подобные ошибки индексатор исправляет, но не все. Слова с такими опечатками теряют информативность. Старайтесь не использовать символов переноса (-), поскольку иногда трудно определить, что они означают – перенос слова или его написание через дефис. Помните, что браузер осуществляет представление документа согласно текущим установкам каждого конкретного пользователя.
Отнеситесь серьезно к планированию и размещению вашего сайта, чтобы вам не приходилось направлять письма администраторам с просьбами переиндексировать ваш сайт в связи с изменением его адреса или структуры. Поисковые машины нескоро учитывают коррективы такого рода.
Поисковая система Апорт
Поисковая машина Апорт владелец – компания «Голден Телеком», имеет богатые возможности формирования запроса, в частности способна отслеживать сочетания терминов, если они находятся недалеко друг от друга (на расстоянии нескольких слов или предложений).
Апорт – двуязычная поисковая машина. Будучи наделенной теми же основными характеристиками, что и AltaVista, она содержит намного больше ресурсов современного российского Internet. Апорт входит в число ведущих поисковых систем, сертифицированных Microsoft как локальные поисковые системы для русской версии Microsoft Internet Explorer.
Основные свойства Апорт таковы:
• автоматическая проверка орфографических ошибок запроса;
• информативный вывод результатов поиска по найденным сайтам;
• возможность поиска любых грамматических форм, что особенно важно для русского языка;
• мощный язык расширенных запросов для профессиональных пользователей.
Дополнительные свойства:
• технология поиска с использованием ограничений по URL (адресу) и дате документов;
• осуществление поиска не только по тексту, но и по заголовкам, комментариям, подписям к картинкам и т. д.;
• сохранение параметров поиска и определенного числа предыдущих запросов пользователя;
• объединение копий документа, находящихся на разных серверах.
Апорт является совершенной полнотекстовой поисковой машиной с интегрированным каталогом Internet-ресурсов. Подобная интеграция позволяет систематизировать результаты поиска по рубрикам, представленным в каталоге, и осуществлять поиск отдельно по тематикам, что делает навигацию по ресурсам очень удобной.
Поисковый робот Апорт обходит весь российский Internet в среднем за две недели. Он сам настраивается на скорость обновления сайтов и отдельных страниц и проверяет наиболее часто обновляемые ресурсы.
Документы индексируются следующим образом. При просмотре содержимого сервера для индексирования Апорт обязательно проверяет файл robots.txt. Таким образом, вы можете использовать его, чтобы ограничить «деятельность» системы на своем сервере. При желании установить селективные ограничения только для Апорт следует использовать в качестве имени робота слово Aport.
Будучи полнотекстовой поисковой машиной, Апорт индексирует все слова, которые бы увидел на экране человек, просматривая конкретную страницу вашего сервера. В результате любое слово из текстов ваших документов может служить критерием последующего поиска. Для документов HTML, кроме обычного текста, индексируется также и содержимое ряда полей. К ним относятся заголовок документа (TITLE), ключевые слова (META NAME="keywords"), описания страниц (META NAME="description"), подписи к картинкам (ALT), ссылки (A HREF). Реализована возможность избирательного поиска по этим полям. Кроме того, Апорт индексирует как принадлежащие документу тексты гиперссылок на него с других страниц, находящихся как внутри сайта, так и за его пределами, а также составленные или проверенные редакторами описания сайтов из своего каталога.
Кроме того, Апорт индексирует текстовые файлы (с расширением. txt), на которые найдет ссылки.
Страница, показанная на рис. 3.11, позволяет задать поисковую фразу, выбрать тематический раздел и дополнительно сузить область поиска при помощи переключателя сайты – рефераты – знакомства – mp3 – новости – энциклопедия – работа – товары. Кроме того, возможно применение в строке запросов операторов логики и расстояния между словами, а также поиск по адресам и полям, что значительно расширяет область поиска.