Плохие новости о гуглботе
Сегодня изучал логи, некоторую приватную информацию и тестировал некоторые инсайдеровские возможности.
Выяснил весьма неприятную вещь.
К примеру, IP 64.233.172.24 принадлежит гуглу, используется для индексации (т.е. это чисто рабочий сервер и на нем работает краулер).
А теперь собстно ахтунг.
В логе за месяц накопилась сотня запросов с этого IP.., при этом используются РАЗНЫЕ юзер агенты (чаще всего маскируется под файрфокс и ИЕ6) и при этом передаются ВСЕ соответствующие этим браузерам хедеры, загружаются ВСЕ включенные файлы (иногда неправильно отрабатывает base href) и отрабатываются ВСЕ редиректы. Т.е. вычислить то, что это гуглбот уже не представляется возможным.
Можно конечно использовать базы ип гугла, но ходят слухи что гугл заключил договор с несколькими ISP о аренде ип адресов. В купе с маскировкой юзерагента это убивает возможность клоакинга на корню.
15 comments for “Плохие новости о гуглботе”
Поизучав СЕРПы на предмет данного ИП, можно сделать вывод что он ТАКЖЕ использовался для GWA (гугл акселератор). Это в принципе обьясняет почему абсолютно все хедеры и другие атрибуты работы настоящего браузера были выдержанны безукоризненно.
Но легче от этого не становится.Исходим из двух получившихся фактов.1.ИП принадлежит серверу который занимается индексацией.2.ИП используется как прокси для запросов от реальных пользователей.И делаем два ВОЗМОЖНЫХ следствия:1.гуглможетвычислятьклоакингсравнивая результаты кеша гуглбота с результатами полученными с прокси.2. гугл может вычислять некачественные страницы анализируя время пребывания и последовательность действий пользователя на странице.Более точные выводы можно былоб сделать если проанализировать достаточно большое кол-во логов с разных доменов.
Так что если у вас есть желание, и вы используете дорвеи с редиректом или клоакингом, проверьте есть ли у вас в логах ип 64.233.172.* и если есть, напишитездеськакидетиндексация наданном домене, и кол-во страниц в индексе.Для выводов нужны как положительные, так и отрицательные данные, так что не стесняйтесь ;)
//bog
//:Aller