Информационный поиск в сети
2.3.1. Информационный поиск в сети
Вся совокупность сайтов в Интернете является огромным набором неструктурированной информации. Соответственно, чтобы что-то найти в этой огромной массе информации, не связанной едиными нормами и стандартами, необходима помощь специальных сервисов. Такими сервисами являются каталоги и поисковые системы. Но даже найдя большое количество сайтов по определенной теме, пользователь должен иметь возможность как-то решить, с какого из них начать.
Поисковые системы решают этот вопрос, располагая найденные сайты в порядке убывания релевантности, — соответствия содержания сайта запросу пользователя. Результат такого поиска не всегда удовлетворителен, поскольку поисковой системе безразлично, насколько качественно сделан сайт, и насколько полную информацию по выбранной теме он содержит. Но преимуществом поисковой машины является то, что она совершает поиск в огромном массиве информации и обрабатывает такое количество сайтов, которое никогда не сможет собрать ни один каталог, формируемый людьми.
Поисковые системы состоят из трех основных частей: поискового робота, базы индексов и программы поиска по базе индексов.
Поисковый робот — это специальная программа, которая посещает сайты и индексирует их содержимое в соответствии с определенными правилами, заложенными в нее разработчиками (выделяет ключевые слова, добавляет к ним весовые коэффициенты в соответствии с их расположением на странице и т. д., вариантов может быть масса). Проиндексировав страницу, робот движется дальше по гиперссылкам, которые он на этой странице обнаружил. Результаты своей работы поисковый робот помещает в базу данных (базу индексов). Периодически поисковый робот возвращается на уже проиндексированные страницы и индексирует их вновь, обновляя базу индексов.
Для совершения поиска пользователь вносит набор ключевых слов в специальное поле интерфейса поисковой системы и запускает поиск. В этот момент начинает работать третья составляющая — программа поиска. Поиск она совершает уже не по сайтам, а по базе индексов. Результатом поиска является список сайтов и кратких аннотаций к ним (иногда совершенно невразумительных, поскольку составлены они из надерганных роботом с сайта обрывков фраз). Сайты в списке расположены в порядке убывания релевантности.
Одну из лучших поисковых машин предлагает своим пользователям поисковая система Япёех. Ее главная страница показана на Рисунок 2.4.