Принцип работы поисковых систем

Поисковики - основной источник трафика для большинства сайтов на сегодня. Самые крупные - Google.com, Yandex.ru, Mail.ru.
Немного коснемся принципа работы поисковиков. Каждая из них состоит из нескольких частей:
- Паук (Spider) - модуль, который закачивает (кэширует) веб-страницы;
- Паук-краулер (Crawler) - модуль, основная задача которого искать ссылки на страницах и переходить по ним;
- Индексатор (Indexer) - модуль для анализирования скачанных веб-страниц;
- База данных (Database) - база, хранящая все закачанные и обработанные страницы;
- Система выдачи результатов (Search Engine Results) - извлекает результаты поиска из базы данных;
- Сервер(ы), координирующий работу всех модулей и выводящий результаты поиска конечному пользователю.
У крупных поисковых систем, таких как Яндекс или Google целый парк серверов. Все эти модули могут быть объединены в одной программе. Как это происходит в конкретных поисковиках, мы не знаем, т.к. не имеем доступа к ним. Но это и не важно. Главное - эти модули - основа всех поисковых систем. Нам главное - понять суть работы.
Ну а теперь простым русским языком обо всем еще раз на примере. Вы добавляете адрес вашего сайта через форму, например, Яндекса (http://webmaster.yandex.ru) и видите сообщение, смысл которого в том, что ваш сайт поставлен в очередь на индексацию. Что происходит дальше? Через некоторый период времени паук приходит на сайт и индексирует главную страницу. Замечено, что при первом визите робот Яндекса индексирует только главную страницу. Во время следующего посещения, которое произойдет через nn-ое количество часов/дней паук пройдется по страницам, ссылки на которые есть на главной странице. Во время третьего посещения, робот пройдется по всему сайту и ресурс окажется в базе. Проверить, присутствует ли сайт в базе можно, воспользовавшись сервисом http://webmaster.yandex.ru/.