Шрифт:
Еще раз уточним – все поисковые машины сегодня работают на основе этих трех операторов, хотя нюансы их написания в разных поисковых машинах могут быть различны.
Как реализуется поиск
Каждая полноценная поисковая машина располагает собственным штатом роботов, так называемых, пауков – их еще называют краулерами, спайдерами (spiders, crawlers). Это программы, которые перескакивают со страницы на страницу и сканируют находящиеся на них тексты, не вникая в их содержание. После этого они сбрасывают их на серверы своих хозяев и идут к следующим страницам. Паук определяет, куда ему пойти, по гиперссылке. Вот почему, если на страницу не ведет ни одна ссылка, паук на нее тоже не придет. Исключение составляет ситуация, когда владелец страницы вручную сообщит о ней, заполнив специальную форму на сайте поисковой машины.
На сервере поисковой машины текст разбивается на отдельные слова. Каждому из них присваиваются координаты, вычисляется его расположение относительно других слов на странице, и оно заносится в таблицу сервера вместе со ссылкой на тот адрес Интернета, где текст размещался в момент посещения пауком.
Сам по себе сервер поисковой машины представляет собой большую локальную сеть, состоящую из мощных компьютеров с огромным объемом дисковой памяти. Они разделены на подгруппы (так называемые кластеры), между которыми распределяется информация, собранная пауками.
Когда поисковая система получает запрос, она ищет ответ именно в своей таблице, а не в Интернете.
При этом важно понять, как именно паук решает, с какой частотой ему следует посещать ту или иную страницу. Выглядит этот алгоритм приблизительно следующим образом. Поработав со страницей, он возвращается на нее, ну, например, через две недели. Если изменений там не произошло, он планирует следующее посещение через более длительный период – скажем, через месяц. Если и тогда он не увидит изменений, то следующее посещение произойдет еще позже.
Вот почему нередко бывает ситуация, что поисковая машина по запросу результат выдает, а попытка перейти на страницу по ссылке, полученной в ответ на запрос, безрезультатна – ее может уже просто не быть на прежнем месте, но паук на нее давно не заходил, поэтому поисковая система об удалении страницы не знает. Весь комплекс процессов, описанных выше, называется индексацией.
Описание языков запросов различных поисковых машин
Умение искать информацию с помощью поисковых машин очень важно для создания и последующей раскрутки блога.
Благодаря поисковым машинам можно своевременно собирать информацию, появляющуюся в Интернете по теме, которой посвящен блог. Это, в свою очередь, дает возможность своевременно прокомментировать ситуацию и разместить на своем блоге готовый материал, предложив его вниманию читателей. Важно, что язык запросов поисковой машины работает не только при поиске во всем Интернете, но и при поиске по блогам и форумам, что значительно расширяет возможности блоггера. Несмотря на то, что принципы языка современных поисковых машин действительно одинаковы, синтаксис запросов у них различен. Некоторые операторы языка запросов универсальны, но большинство – нет.
Рассмотрим языки запросов трех основных поисковых машин, работающих с русскоязычными текстами, более подробно.
Поиск в Яндексе
Лучшая, на наш взгляд, работа по изучению операторов поисковой машины Яндекс, выполнена специалистом из Санкт-Петербурга Денисом Фурсовым. На его блоге в статье «Хозяйке на заметку. Поиск через Яндекс для специалистов» [19] постоянно публикуются результаты исследований, отслеживаются, оцениваются и обсуждаются изменения в работе операторов поисковой машины Яндекс (рис. 22).
19
Фурсов Д. Хозяйке на заметку. Поиск через Яндекс для специалистов // www.community.livejournal.com/kubok/45852.html
Рис. 22. Внешний вид страницы «Хозяйке на заметку. Поиск через Яндекс для специалистов»
Ниже речь пойдет о том, как с помощью специальных фильтров, основанных на булевой алгебре, создавать запросы, максимально соответствующие потребностям специалиста, который ищет информацию в Интернете. При изучении этого вопроса не следует забывать, что компьютер очень исполнителен, но лишен способности думать, поэтому следует составлять запрос исходя из того, что он будет обработан буквально, а не с учетом того, что же на самом деле имел в виду пользователь, создавая обращение к поисковой машине. Лучше всех эту мысль проиллюстрировал летом 2005 года Алексей Амилющенко, главный аналитик отдела маркетинга Яндекса, на таком примере.
Вот еще одна история с семинаров, но ее приходится рассказывать не очень часто. Иногда случается, что заходит разговор о том, что хорошо бы поисковым системам учитывать не только слова, которые есть в индексируемых документах, но и смысл написанного. В ответ говорю, что знаю фразу, про которую и человек-то не скажет, о чем это. Вот она: «Эти типы стали есть в прокатном цехе». И что тут написано? Я вижу минимум три смысла. Не подглядывайте в ответ сразу (он ниже). Попробуйте сначала самостоятельно… Обычно, когда зал видит это предложение, сначала становится тихо (видно, что думают), потом начинаются смешки (до кого-то дошло). Потом хихикают уже все. Но к делу, что же здесь все-таки написано?
1. Скучный такой вариант: «Эти типы стали (варианты металлопроката) есть (имеются в наличии) в прокатном цехе».
2. Более творческий, с элементами мизантропии: «Эти типы (неприятные автору личности) стали (начали) есть (принимать пищу) в прокатном цехе».
3. Несколько надуманный, конечно, и тем не менее: «Эти типы стали (варианты металлопроката) есть (надлежит принимать в пищу) в прокатном цехе».
Вот видите, даже протеиновые мозги не справляются, а вы хотите, чтобы силиконовые умели [20] .
20
www.company.yandex.ru/blog/index.xml?&msg=100030&month=8