Уязвимости новой технологии гугла.
Новогодний подарок от гугла, именуемый “вычисление мусорных документов в информационно поисковых системах основанных на фразах” (перевод мой, вольный... оригинал тут) наделала много шума на всех оптимизаторских форумах.
Отдельные личности, пользуясь моментом, провозглашают смерть дорвеев и маркова в частности, и всей оптимизации в целом. И как бизнесмен, я обязан их поддержать, так как давно известно: чем меньше конкурентов - тем больше прибыль..
Но в честь праздников хочу сделать небольшой подарок и запалить темы.
Итак, как вы возможно уже знаете, гугл кардинально меняет технологии хранения и поиска информации. От индексации по отдельным словам (как это было принято в прошлом веке) гугл постепенно двигается к индексации по фразам. Сразу хочу заметить, что под фразой имеется в виду не целое предложение, а просто достаточно устойчивое словосочетание или даже отдельное слово.
В целом, с точки зрения развития поисковых технологий, это большой шаг вперед который дает огромные возможности. По каким то причинам, разработчики Google решили что наибольшие возможности алгоритм получит в области борьбы со спамом. Наивные...
В целом (еслиб эта заметка писалась в стиле “дорвеи для чайников”) новый алгоритм можно описать так:
- 1. Google индексирует все доступные ему документы.
- 2. По окончании анализа этого океана информации, все фразы, которые встретились более Х раз, помещаются в специальную базу. Так же в этой базе накапливаются иные важные данные, в частности статистика совместного использования разных фраз в одном и том же документе (с помощью чего может оцениваться релевантность разных фраз).
- 3. Используя статистические методы гугл создает базу спам документов.
- 4. В дальнейшем, попавшие в базу УРЛы, понижаются в выдаче или используются для дальнейшего анализа спама.
Собственно самый важный пункт, который волнует каждого из нас - пункт номер три...
Как поисковик способен определить, что документ является спамом?
Дело в том, что нормальные информационные документы обычно охватывают ограниченное число тем, используют довольно скромный словарный запас. В отличии от спамеров, которые обычно используют большое количество тематических (а в отдельных случаях и разнотематических) кейвордов на одной странице.
Возможно некоторые из вас захотят сказать “Чушь, я не испытываю никаких проблем, гугл хавает и все пучком”... И хорошо, ибо вполне возможно что и в дальнейшем все будет продолжаться точно также.
Дело в том что поисковые системы стремяться делать все абсолютно автоматически используя различные статистические методы..., точно так же как и крупные спамеры, у которых достаточно ресурсов чтобы влиять на статистику. Эффект Google bombing - проявляется не только в изменении позиций сайта путем проставления ссылок с нужным текстом, но и в изменении тригеров естественного наращивания ссылок (который спамеры успешно обходят), и в изменении релевантности слов (фентермин и казино - братья навек) и т.д.
Поэтому по настоящему массовое клепание статистически схожих страниц так же может на корню сломать планы гугла..
Ну а для тех кто нифига не понял, обьясняю еще проще. Раньше, одним из наиболее важных критериев ранжирования была плотность ключевых слов (keyword density). PhraseRank (так буржуи обозвали новый алгоритм) - это тематическая плотность фраз. Чем она больше - тем с одной стороны лучше, но с другой стороны тем выше вероятность что вас примут за спамера. Как этим пользоваться - думаю знает даже самый неопытный оптимизатор.
SEO blackhat google patents phraserank
24 comments for “Уязвимости новой технологии гугла.”
//:mavook
Ради интереса... Эту статью добавляли на ньюс2.ру, где ее практически сразу кто-то забанил. Если у вас есть аккаунт, проголосуйте здесь news2.ru/story.php?story_id=18783 Интересно ведь узнать, чему в итоге отдает предпочтение эта система: одной жалобе на сомнительное содержание, или рейтингу от большого количества пользователей. //bogsheller, да наверное так и было.
Но проблема не в том, что новости не было на главной, а в том, что ее не было вообще ни в одной из рубрик (при наличии в тех же рубриках более старых и более новых новостей с меньшим кол-вом голосов). Причем насколько я помню в тематических разделах даже закопанные статьи показываются (но с серой кнопкой).
Сейчас кнопка голосования стала оранжевой и статья попала в соответствующие категории. Так что будем считать что это глюк илинедоработкаалгоритмов.P.S.вывод:никогда не сабмитить новости в ньюс2.ру в период с 23 до 12утра по Москве, так как в это время динамика активности участников наименьшая....
//bog
Ну влияют крупные спамеры на анализ гугла и чего? Количество кейвордов на странице замечательно регулируется, этот тут при чем? Автор, ты сам то понимаешь о чем речь? //max
//maxwastemaster, а что именно непонятно? Эх, говорили мне что нельзя писать статьи в 3 часа ночи.
В принципе старался наоборот как можно более просто и доступно изложить суть.
Без упоминаний матриц, векторов и прочих умных выражений.... Видать не получилось. Ок, max, обьясняю конкретно на примерах при чем тут кейворд денсити (не путать с кол-вом кейвордов). К примеру есть страница состоящая из текста “VIAGRA - Viagra viagra”... плотность слова ваиагра - 100%. Страница идетвбаню...(ещеразна всякий случай - это только пример для демонстрации теории.
Я в курсе, что даже такая страница может прекрасно жить и давать траф :))...
//bogПродолжаем... Чтобы уменьшить плотность оптимизаторы заменяли текст синонимами или схожими кейвордами.
Получали страницу с текстом “Viarga help man with erectial disfunctions.
Fazer is our god. Viagra is better than cialis, so buy viagra online”. Подобный текст во первых собирал большее кол-во трафика, так как включал большое кол-во кейвордов, а во вторых не детектился алгоритмами поисковиков, так как кейворд денсити оставался в пределах нормы. Теперь то, очемяизначальнотолковал.Несмотря на то, что слова в последнем тексте были разные, они все являются кейвордами одной и той же темы.
Т.е. плотность тематических фраз в нем равно 100%. Дор идет в баню.
Но если использовать текст вида I used viagra recently, it was a good expirince for me and my partner. Thanks my father and fizer for this wonderfull night то тематическая плотность текста становиться меньше и он пройдет новые фильтры. Теперь почему я заговорил о крупных спамерах...Порогмаксимальнойплотности покаждойтеме гугл определяет автоматически как арифметическое среднее для всех тематических страниц.
Соответственно если большое кол-во страниц будет по прежнему использовать тексты вида “Viarga help , so buy viagra online”, то порог плотности по тематике виагра будет достаточно высоким и большая часть дорвеев будет по прежнему просачиваться в индекс.
//bog
//max
//:maybahmax, когда человек считает что “плотность” и “количество” это одно и тоже, то обьяснять чем отличается “последовательность” от “сочетаемости” смысла нет. Да и ситуация не та, когда нужно отстаивать свою правоту.
В источнике вся инфа есть.
Найдите человека который разбирается в высшей математике, знает английский, и имеет опыт перевода подобного рода текстов. А строить догадки на основе пересказов людей, которые “где то, чтотонаэтутемучитали” - занятие не самое разумное.
Т.е. теория и догадки - это хорошо, но на практике обычно в патенте дается достаточная информация о том как именно будет работать тот или иной алгоритм.
//bog
//bog
//dDan
//mavook
//karkusha