Как работают роботы поисковых систем?
Роботы поисковых систем, которых ещё называют [паукамиk, постоянно ищут новые сайты в сети Интернет. Как же они работают? Как они работаю? Почему это так важно?
Вы, наверное, подумали, что индексирование страниц является важнейшим процессом в Интернете, и поисковые роботы, по сути, управляют всем. Но это от части не так. Индексирование страниц вашего сайта это действительно важно, но роботы не являются такими уж [властелинами Интернетаk. Они представляют собой ранние Интернет - браузеры, содержащие в себе основные функции, пригодные только для индексирования простых страниц. Как и первые Интернет браузеры роботы не могут понимать большинства современных языков программирования и украшательств к сайтам, к примеру фреймы, Flash анимацию и ролики, картинки и Java Script. Они так же не могут вводить данные (например, пароли) на страницах, для доступа на другие страницы сайта. Они дольше индексируют сайты с динамично сгенерированными ссылками на страницы. Так же замедляет их работу использование Java Script.
Как работают поисковые роботы?
Они представляют собой автоматические программы для поиска данных, которые перемещаются по Интернету в поисках информации и ссылок на другие сайты. Когда вы регистрируете свой сайт в поисковых системах (обычно для этого существует кнопка [Добавить URLk или [Submit a URLk) ваш сайт ставится в очередь на посещение поисковым роботом. Для ускорения этого процесса нужно размещать ссылку на свой проект на других сайтах. Тогда робот быстрее перейдёт по этой ссылке. Причём старайтесь размещать ссылку на сайтах сходных по тематике с вашим проектом. Это очень важно для раскрутки.
При переходе на ваш сайт робот в первую очередь проверяет наличие файла [robots.txtk. В этом файле содержится информация о данных, которые закрыты для него. Обычно в нём содержатся ссылки на файлы и страницы, которые роботу для индексации не нужны. Роботы собирают ссылки с каждой страницы и затем переходят по каждой из них. Благодаря этому они могут перемещаться с одних сайтов на другие. Весь Интернет состоит из ссылок. Благодаря им вы можете перемещаться с одних сайтов на другие. Точно также работают и поисковые роботы.
После индексирования информация о вашем сайте будет добавлена в базу данных поисковой системы. Теперь, когда пользователь вводит слова, указанные вами при регистрации, поисковик будет выдавать ему ваш сайт в зависимости от его рейтинга. Сайты с высоким рейтингом размещаются на первых страницах, с более низким дальше. Вы можете посмотреть какие страницы на вашем сайте проиндексированы в системном журнале. Вы так же можете смотреть, какие роботы вас посещают ваш сайт в данный момент; часто у них есть имена, как у пользователей, например [GoogleBotk. Но у некоторых просто нет имен, и они присутствуют на сайте как гости.
Как роботы просматривают страницы на Вашем сайте?
Когда робот приходит к вам на сайт, то он просматривает только видимый текст, содержание некоторых HTML тэгов (заголовок, мета тэги и т.д.) и ссылки. По ключевым словам на странице робот определяет тематику сайта. Существует множество факторов влияющих на определение тематики, у каждой поисковой системы есть собственный алгоритм распознавания тематик, который хранится в базе данных.
Поисковые системы подсчитывают количество переходов на ваш сайт. Чем больше переходов тем выше будет ваш сайт в рейтинге.
Периодически роботы индексируют ваши страницы снова, для поиска обновлений на них. Период повторной индексации так же зависит от вашего рейтинга. Если вы временно приостановили работу сайта или количество подключений к нему превысило свой лимит, то поисковой робот не сможет проиндексировать ваши страницы. Если он долго не будет получать доступа к сайту, то ваш проект будет удалён из базы данных.
Перевод
http://www.goarticles.com/cgi-bin/showa.cgi?C=395789
Source: link
